切片集合的 Python 方式是什么?

2023-11-26

我有一些数据列表,例如:

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]

我想获得具有固定长度的唯一值(我不关心我会得到哪个)并且我也希望它成为set.

我知道我能做到set from some_data然后做到list,裁剪然后制作set again.

set(list(set(some_data))[:5])  # doesn't look so friendly

我明白我没有__getitem__中的方法set这不可能使整个切片成为可能,但是否有机会让它看起来更好呢?

我完全明白set是无序的。所以哪些元素在final中并不重要set.

可能的选项是使用:

  • 有序集

  • using dict with None values:

     set(dict(map(lambda x: (x, None), some_data)).keys()[:2])  # not that great
    

集合是可迭代的。如果你really不关心从你的集合中选择了哪些项目,你可以使用itertools.islice获取一个迭代器,该迭代器将产生指定数量的项目(以迭代顺序中最先出现的项目为准)。将迭代器传递给set构造函数,您无需使用任何额外的列表即可获得子集:

import itertools

some_data = [1, 2, 4, 1, 6, 23, 3, 56, 6, 2, 3, 5, 6, 32, 2, 12, 5, 3, 2]
big_set = set(some_data)
small_set = set(itertools.islice(big_set, 5))

虽然这是您所要求的,但我不确定您是否应该真正使用它。集合可能会以非常确定的顺序进行迭代,因此如果您的数据通常包含许多相似的值,那么每次执行此操作时,您最终可能会选择一个非常相似的子集。当数据由整数组成(如示例中所示)时,这尤其糟糕,整数会散列到自身。在迭代集合时,连续的整数会经常按顺序出现。通过上面的代码,只需32出故障了big_set(使用Python 3.5),所以small_set is {32, 1, 2, 3, 4}。如果你添加了0对于你的数据,你几乎总是会得到{0, 1, 2, 3, 4}即使数据集变得巨大,因为这些值总是会填满集合哈希表中的前五个槽。

为了避免这种确定性采样,您可以使用random.sample 正如 jprocckbelly 所建议的.

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

切片集合的 Python 方式是什么? 的相关文章

随机推荐