《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变-阿里云开发者社区

《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

2017-05-02 1988

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

本节书摘来自异步社区《Python Cookbook（第3版）中文版》一书中的第1章，第1.10节，作者[美]David Beazley , Brian K.Jones，陈舸译，更多章节内容可以访问云栖社区“异步社区”公众号查看。

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

我们想去除序列中出现的重复元素，但仍然保持剩下的元素顺序不变。

1.10.2　解决方案

如果序列中的值是可哈希（hashable）的，那么这个问题可以通过使用集合和生成器轻松解决。示例如下[1]：

def dedupe(items):
    seen = set()
    for item in items:
        if item not in seen:
            yield item
            seen.add(item)

这里是如何使用这个函数的例子：

>>> a = [1, 5, 2, 1, 9, 1, 5, 10]
>>> list(dedupe(a))
[1, 5, 2, 9, 10]
>>>

只有当序列中的元素是可哈希的时候才能这么做。如果想在不可哈希的对象（比如列表）序列中去除重复项，需要对上述代码稍作修改：

def dedupe(items, key=None):
    seen = set()
    for item in items:
        val = item if key is None else key(item)
        if val not in seen:
            yield item
            seen.add(val)

这里参数key的作用是指定一个函数用来将序列中的元素转换为可哈希的类型，这么做的目的是为了检测重复项。它可以像这样工作：

>>> a = [ {'x':1, 'y':2}, {'x':1, 'y':3}, {'x':1, 'y':2}, {'x':2, 'y':4}]
>>> list(dedupe(a, key=lambda d: (d['x'],d['y'])))
[{'x': 1, 'y': 2}, {'x': 1, 'y': 3}, {'x': 2, 'y': 4}]
>>> list(dedupe(a, key=lambda d: d['x']))
[{'x': 1, 'y': 2}, {'x': 2, 'y': 4}]
>>>

如果希望在一个较复杂的数据结构中，只根据对象的某个字段或属性来去除重复项，那么后一种解决方案同样能完美工作。

1.10.3　讨论

如果想要做的只是去除重复项，那么通常足够简单的办法就是构建一个集合。例如：

>>> a
[1, 5, 2, 1, 9, 1, 5, 10]
>>> set(a)
{1, 2, 10, 5, 9}
>>>

但是这种方法不能保证元素间的顺序不变[2]，因此得到的结果会被打乱。前面展示的解决方案可避免出现这个问题。

本节中对生成器的使用反映出一个事实，那就是我们可能会希望这个函数尽可能的通用——不必绑定在只能对列表进行处理。比如，如果想读一个文件，去除其中重复的文本行，可以只需这样处理：

with open(somefile,'r') as f:
    for line in dedupe(f):
        ...

《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

1.10.2　解决方案

1.10.3　讨论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Python Cookbook（第3版）中文版》——1.10 从序列中移除重复项且保持元素间顺序不变

1.10 从序列中移除重复项且保持元素间顺序不变

1.10.1 问题

1.10.2 解决方案

1.10.3 讨论

热门文章

最新文章

相关课程

相关电子书

相关实验场景

《Python Cookbook（第3版）中文版》——1.10　从序列中移除重复项且保持元素间顺序不变

1.10　从序列中移除重复项且保持元素间顺序不变

1.10.1　问题

1.10.2　解决方案

1.10.3　讨论