collections

阅读：227569938 分享到

collections 是 Python 内建的一个容器模块，提供了许多有用的容器类或生成容器类的函数，这些类和函数丰富了我们在项目开发过程中常用的数据结构。

这些数据结构大都是 Python 自带容器（list，tuple，set，dict）的子类，我们按项目需求可以作为 Python 自带容器的替代选择。

namedtuple

我们知道 tuple 可以表示不变集合，比如我们用 tuple 来表示一个平面上的点的坐标。

point = (1, 2)
print(point)

我们在进行项目开发中，程序编写的可读性是很重要的一方面，直接用元组的形式初始化一个变量可读性并不是那么好，我们可以用类来封装一个点的坐标。

class Point(object):
    def __init__(self, px, py):
        if isinstance(px, (int, float)) and isinstance(py, (int, float)):
            self.px = px
            self.py = py
        else:
            raise ValueError("请输入整数或浮点数类型数据")

point = Point(1, 2)
print(point.px)
print(point.py)

我们用类来实现点坐标有点小题大做，Python 语言的高级特性，给我们提供了 namedtuple 函数，它用来创建一个自定义的 tuple 类，该类是一个有序集合。

from collections import namedtuple

Point = namedtuple("Point", ['px', 'py'])

point = Point(1, 2)
print(point.px, point.py)  # 可以通过对象直接访问属性

namedtuple 函数返回的是我们定制的 tuple 的子类，我们可以通过对象加入属性来访问里面的值。

from collections import namedtuple

Point = namedtuple("Point", ['px', 'py'])

point = Point(1, 2)
print(point.px, point.py)        # 可以通过对象直接访问属性
print(isinstance(point, tuple))  # Point 类是 tuple 类的子类

deque

我们使用 list 存储数据时，按索引访问元素很快，如果数据比较大，我们插入和删除元素就会很慢，因为 list 需要重新动态分配内存进行构建整个 list，deque 是为了高效实现插入和删除操作的双向列表，适合用于队列和栈。

deque 除了实现 list 的 append 函数和 pop 函数外，还支持 appendleft 函数和 popleft 函数，这样就可以非常高效地往头部添加或删除元素。

from collections import deque

myq = deque(['p', 'y', 't', 'h', 'o', 'n'])
myq.appendleft('b')
myq.append('d')
print(myq)
myq.pop()
print(myq)
myq.popleft()
print(myq)

defaultdict

我们在使用 dict 时，如果引用的 Key 不存在，就会抛出 KeyError。如果希望 key 不存在时，返回一个默认值，我们可以用 defaultdict。

defaultdict 是 dict 的子类，defaultdict 的构造函数默认参数是 None，如果我们使用默认参数 None，则和 dict 具有一样的用法，比如访问的 key 不存在时，则抛出异常；也可以使用 get 函数，如果引用的 key 不存在时，则返回 None 或给出的默认值。

from collections import defaultdict

def func():
    return "键不存在"

mydftdict = defaultdict()
print(isinstance(mydftdict, dict))  # True，defaultdict 是 dict 的子类
mydftdict['name'] = "老鸟python"
print(mydftdict.get("ruhua"))       # 返回 None
print(mydftdict['ruhua'])           # 抛出异常

我们的 defaultdict 也可以使用接收一个函数作为构造函数的参数，如果引用的 key 不存在时，则返回的是参数函数的调用。

from collections import defaultdict

def func():
    return "键不存在"

mydftdict = defaultdict(func)
mydftdict['name'] = "老鸟python"
print(mydftdict['ruhua'])  # 调用 func 函数

OrderedDict

使用 dict 时，Key 并不是按照我们定义时的顺序存储的，因此在对 dict 做迭代时，我们无法确定 Key 的顺序，如果想要保持 Key 的顺序，我们可以用 OrderedDict。

from collections import OrderedDict

mydict = dict()  # Python 解释器的 dict，等价于 mydict = {}
myorddict = OrderedDict()
mydict['a'] = 1
mydict['b'] = 2
mydict['c'] = 3
myorddict['a'] = 1
myorddict['b'] = 2
myorddict['c'] = 3

for item in mydict:
    print(item)         # a，c，b（注意：该结果只能用 python3.6 之前的版本或者 python2 版本）

for item in myorddict:  # a，b，c
    print(item)

OrderedDict 构造函数的参数可以为空，或者 dict，或者配对的 tuple 和 list 等，这和 Python 内置的 dict 的构造函数接收的参数一样。下面我们分别用各种参数形式创建 Python 解释器的 dict 类对象和 Python 内建模块中的 OrderedDict 类的对象，并打印出 dict 对象和 OrderedDict 对象中的内存中的数据。

from collections import OrderedDict

mydict = dict()  # Python 自带的 dict，等价于 mydict = {}
print(mydict)
mydict = dict({"a": 1, "b": 2, "c": 3})  # 等价于 mydict = {"a": 1, "b": 2, "c": 3}
print(mydict)
mydict = dict((("a", 1), ("b", 2), ("c", 3)))
print(mydict)
mydict = dict((["a", 1], ["b", 2], ["c", 3]))
print(mydict)
mydict = dict([["a", 1], ["b", 2], ["c", 3]])
print(mydict)
mydict = dict([("a", 1), ("b", 2), ("c", 3)])
print(mydict)

myorddict = OrderedDict()
print(myorddict)
myorddict = OrderedDict({"a": 1, "b": 2, "c": 3})
print(myorddict)
myorddict = OrderedDict((("a", 1), ("b", 2), ("c", 3)))
print(myorddict)
myorddict = OrderedDict((["a", 1], ["b", 2], ["c", 3]))
print(myorddict)
myorddict = OrderedDict([["a", 1], ["b", 2], ["c", 3]])
print(myorddict)
myorddict = OrderedDict([("a", 1), ("b", 2), ("c", 3)])
print(myorddict)

用 dict 初始化 OrderedDict 时，顺序还是按照 dict 的内部结构存储的，因为 Python 在构建 dict 时就已经按哈希算法改变了内存的顺序，我们用的只是构建好后的 dict 对象初始化我们的 OrderedDict 对象。

from collections import OrderedDict

myorddict = OrderedDict()

'''
1.Python 解释器只要碰到 {...} 符号，都会调用 dict(...) 来转换。
2.所以对于 {"a": 1, "b": 2, "c": 3}，Python 解释器转换为 dict({"a": 1, "b": 2, "c": 3})。
3.而 dict({"a": 1, "b": 2, "c": 3}) 在内存中已经按哈希改变了存储顺序。
'''
myorddict = OrderedDict({"a": 1, "b": 2, "c": 3})
print(myorddict)

注意，Python3.6 之后版本的 dict 显示方式都是按照构建时候的顺序了，也就是说，用了 3.6 之后的版本，dict 和 OrderedDict 没什么区别了。

Counter

Counter 是一个简单的计数器类，它继承 dict 类，如果我们通过 Counter 对象访问的键不存在时，并不会抛出异常，而是返回 0，我们可以用它统计可迭代的集合的元素个数。

from collections import Counter

str = "hellopython"
ct = Counter()
print(isinstance(ct, dict))  # True

for item in str:
    ct[item] = ct[item] + 1  # 对于 ct[item]，如果 item 不存在，默认为 0

print(ct)

当然我们可以用 Counter 统计 Python 自带的任何集合（str，list，tuple，dict，set）中成员出现的个数，集合中的成员可以是任意类型，下面我们以列表为例。

from collections import Counter

mylist = ["ruhua", 3, "xx", 3, 2, "ruhua"]
ct = Counter()

for item in mylist:
    ct[item] = ct[item] + 1  # 对于 ct[item]，如果 item 不存在，默认为 0

print(ct)