《老鸟python 系列》视频上线了,全网稀缺资源,涵盖python人工智能教程,爬虫教程,web教程,数据分析教程以及界面库和服务器教程,以及各个方向的主流实用项目,手把手带你从零开始进阶高手之路!点击 链接 查看详情




collections

阅读:227568840    分享到

collections 是 Python 内建的一个容器模块,提供了许多有用的容器类或生成容器类的函数,这些类和函数丰富了我们在项目开发过程中常用的数据结构。

这些数据结构大都是 Python 自带容器(list,tuple,set,dict)的子类,我们按项目需求可以作为 Python 自带容器的替代选择。

namedtuple

我们知道 tuple 可以表示不变集合,比如我们用 tuple 来表示一个平面上的点的坐标。

point = (1, 2)
print(point)

我们在进行项目开发中,程序编写的可读性是很重要的一方面,直接用元组的形式初始化一个变量可读性并不是那么好,我们可以用类来封装一个点的坐标。

class Point(object):
    def __init__(self, px, py):
        if isinstance(px, (int, float)) and isinstance(py, (int, float)):
            self.px = px
            self.py = py
        else:
            raise ValueError("请输入整数或浮点数类型数据")

point = Point(1, 2)
print(point.px)
print(point.py)

我们用类来实现点坐标有点小题大做,Python 语言的高级特性,给我们提供了 namedtuple 函数,它用来创建一个自定义的 tuple 类,该类是一个有序集合。

from collections import namedtuple

Point = namedtuple("Point", ['px', 'py'])

point = Point(1, 2)
print(point.px, point.py)  # 可以通过对象直接访问属性

namedtuple 函数返回的是我们定制的 tuple 的子类,我们可以通过对象加入属性来访问里面的值。

from collections import namedtuple

Point = namedtuple("Point", ['px', 'py'])

point = Point(1, 2)
print(point.px, point.py)        # 可以通过对象直接访问属性
print(isinstance(point, tuple))  # Point 类是 tuple 类的子类

deque

我们使用 list 存储数据时,按索引访问元素很快,如果数据比较大,我们插入和删除元素就会很慢,因为 list 需要重新动态分配内存进行构建整个 list,deque 是为了高效实现插入和删除操作的双向列表,适合用于队列和栈。

deque 除了实现 list 的 append 函数和 pop 函数外,还支持 appendleft 函数和 popleft 函数,这样就可以非常高效地往头部添加或删除元素。

from collections import deque

myq = deque(['p', 'y', 't', 'h', 'o', 'n'])
myq.appendleft('b')
myq.append('d')
print(myq)
myq.pop()
print(myq)
myq.popleft()
print(myq)

defaultdict

我们在使用 dict 时,如果引用的 Key 不存在,就会抛出 KeyError。如果希望 key 不存在时,返回一个默认值,我们可以用 defaultdict。

defaultdict 是 dict 的子类,defaultdict 的构造函数默认参数是 None,如果我们使用默认参数 None,则和 dict 具有一样的用法,比如访问的 key 不存在时,则抛出异常;也可以使用 get 函数,如果引用的 key 不存在时,则返回 None 或给出的默认值。

from collections import defaultdict

def func():
    return "键不存在"

mydftdict = defaultdict()
print(isinstance(mydftdict, dict))  # True,defaultdict 是 dict 的子类
mydftdict['name'] = "老鸟python"
print(mydftdict.get("ruhua"))       # 返回 None
print(mydftdict['ruhua'])           # 抛出异常

我们的 defaultdict 也可以使用接收一个函数作为构造函数的参数,如果引用的 key 不存在时,则返回的是参数函数的调用。

from collections import defaultdict

def func():
    return "键不存在"

mydftdict = defaultdict(func)
mydftdict['name'] = "老鸟python"
print(mydftdict['ruhua'])  # 调用 func 函数

OrderedDict

使用 dict 时,Key 并不是按照我们定义时的顺序存储的,因此在对 dict 做迭代时,我们无法确定 Key 的顺序,如果想要保持 Key 的顺序,我们可以用 OrderedDict。

from collections import OrderedDict

mydict = dict()  # Python 解释器的 dict,等价于 mydict = {}
myorddict = OrderedDict()
mydict['a'] = 1
mydict['b'] = 2
mydict['c'] = 3
myorddict['a'] = 1
myorddict['b'] = 2
myorddict['c'] = 3

for item in mydict:
    print(item)         # a,c,b(注意:该结果只能用 python3.6 之前的版本或者 python2 版本)

for item in myorddict:  # a,b,c
    print(item)

OrderedDict 构造函数的参数可以为空,或者 dict,或者配对的 tuple 和 list 等,这和 Python 内置的 dict 的构造函数接收的参数一样。下面我们分别用各种参数形式创建 Python 解释器的 dict 类对象和 Python 内建模块中的 OrderedDict 类的对象,并打印出 dict 对象 和 OrderedDict 对象中的内存中的数据。

from collections import OrderedDict

mydict = dict()  # Python 自带的 dict,等价于 mydict = {}
print(mydict)
mydict = dict({"a": 1, "b": 2, "c": 3})  # 等价于 mydict = {"a": 1, "b": 2, "c": 3}
print(mydict)
mydict = dict((("a", 1), ("b", 2), ("c", 3)))
print(mydict)
mydict = dict((["a", 1], ["b", 2], ["c", 3]))
print(mydict)
mydict = dict([["a", 1], ["b", 2], ["c", 3]])
print(mydict)
mydict = dict([("a", 1), ("b", 2), ("c", 3)])
print(mydict)

myorddict = OrderedDict()
print(myorddict)
myorddict = OrderedDict({"a": 1, "b": 2, "c": 3})
print(myorddict)
myorddict = OrderedDict((("a", 1), ("b", 2), ("c", 3)))
print(myorddict)
myorddict = OrderedDict((["a", 1], ["b", 2], ["c", 3]))
print(myorddict)
myorddict = OrderedDict([["a", 1], ["b", 2], ["c", 3]])
print(myorddict)
myorddict = OrderedDict([("a", 1), ("b", 2), ("c", 3)])
print(myorddict)

用 dict 初始化 OrderedDict 时,顺序还是按照 dict 的内部结构存储的,因为 Python 在构建 dict 时就已经按哈希算法改变了内存的顺序,我们用的只是构建好后的 dict 对象初始化我们的 OrderedDict 对象。

from collections import OrderedDict

myorddict = OrderedDict()

'''
1.Python 解释器只要碰到 {...} 符号,都会调用 dict(...) 来转换。
2.所以对于 {"a": 1, "b": 2, "c": 3},Python 解释器转换为 dict({"a": 1, "b": 2, "c": 3})。
3.而 dict({"a": 1, "b": 2, "c": 3}) 在内存中已经按哈希改变了存储顺序。
'''
myorddict = OrderedDict({"a": 1, "b": 2, "c": 3})
print(myorddict)

注意,Python3.6 之后版本的 dict 显示方式都是按照构建时候的顺序了,也就是说,用了 3.6 之后的版本,dict 和 OrderedDict 没什么区别了。

Counter

Counter 是一个简单的计数器类,它继承 dict 类,如果我们通过 Counter 对象访问的键不存在时,并不会抛出异常,而是返回 0, 我们可以用它统计可迭代的集合的元素个数。

from collections import Counter

str = "hellopython"
ct = Counter()
print(isinstance(ct, dict))  # True

for item in str:
    ct[item] = ct[item] + 1  # 对于 ct[item],如果 item 不存在,默认为 0

print(ct)

当然我们可以用 Counter 统计 Python 自带的任何集合(str,list,tuple,dict,set)中成员出现的个数,集合中的成员可以是任意类型,下面我们以列表为例。

from collections import Counter

mylist = ["ruhua", 3, "xx", 3, 2, "ruhua"]
ct = Counter()

for item in mylist:
    ct[item] = ct[item] + 1  # 对于 ct[item],如果 item 不存在,默认为 0

print(ct)

本节重要知识点

会用 collections 模块的各种函数和类。

清楚 collections 模块里的各种函数或类返回的数据类型。

作业

某著名公司笔试题:自己写个计数器类,可以统计出一个列表中每个成员出现的次数,要求时间复杂度为 o(n)。


如果以上内容对您有帮助,请老板用微信扫一下赞赏码,赞赏后加微信号 birdpython 领取免费视频。


登录后评论

user_image
WEN
2020年3月28日 14:34 回复

defaultdict的功能是不是和setdefault一样的?我用setdefault多一些


user_image
高高
2019年12月15日 12:38 回复

写得接地气,从应用的角度谈collection库,比直接上来就解释的文章强


user_image
蓝色
2019年7月20日 10:11 回复

python 低版本的collection模块中没有OrderedDict,请问如何升级


user_image
老鸟python
2020年11月29日 13:01

卸了低版本的python,安装个高版本的啊,python3.5以上的都有


user_image
王漂亮
2019年2月11日 01:40 回复

对于有固定字段的数据类,比如文中namedtuple的例子,可以考虑dataclass