生成非连续组合

2024-05-05

我正在尝试创建一个生成器（支持执行 next 的迭代器，可能在 python 中使用yield），它给出来自 {1,2,...n} （n 和 r 是参数）的 r 元素的所有组合，这样在选出的r个元素，没有两个是连续的。

例如，对于 r = 2 且 n= 4

生成的组合是{1,3}, {1,4}, {2, 4}.

我可以生成所有组合（作为迭代器）并过滤那些不满足条件的组合，但我们将做不必要的工作。

是否有一些生成算法使得next是 O(1)（如果不可能，则为 O(r) 或 O(n)）。

返回集合的顺序并不相关（并且希望允许 O(1) 算法）。

注意：我已将其标记为 python，但与语言无关的算法也会有所帮助。

Update:

我找到了一种将其映射到生成纯组合的方法！网络搜索显示 O(1) 的组合是可能的（尽管看起来很复杂）。

这是映射。

假设我们有一个组合x_1, x_2, ... , x_r with x_1 + 1 < x_2, x_2 + 1 < x_3, ...

我们映射到y_1, y_2, ..., y_r如下

y_1 = x_1

y_2 = x_2 - 1

y_3 = x_3 - 2

...

y_r = x_r - (r-1)

这样我们就有了y_1 < y_2 < y_3 ...没有非连续约束！

这基本上相当于从 n-r+1 中选择 r 个元素。因此，我需要做的就是运行 (n-r+1 选择 r) 的生成。

就我们的目的而言，在生成事物后使用映射就足够了。

选择svkcr的答案的理由

所有很好的答案，但我选择了 svkcr 的答案。

以下是一些原因

它实际上是无状态的（或更准确地说是“马尔可夫”）。下一个排列可以从前一个排列生成。它在某种程度上几乎是最优的：空间和时间为 O(r)。
这是可以预见的。我们确切地知道组合生成的顺序（字典顺序）。

这两个属性使得并行生成变得容易（在可预测的点和委托处分割），并引入容错功能（如果 CPU/机器出现故障，可以从最后生成的组合中挑选）！

抱歉，前面没有提到并行化，因为我在写问题时并没有想到它，只是后来才得到这个想法。

这个很有趣！这个怎么样：

def nonconsecutive_combinations(r, n):
  # first combination, startng at 1, step-size 2
  combination = range(1, r*2, 2)
  # as long as all items are less than or equal to n
  while combination[r-1] <= n:
    yield tuple(combination)
    p = r-1 # pointer to the element we will increment
    a = 1   # number that will be added to the last element
    # find the rightmost element we can increment without
    # making the last element bigger than n
    while p > 0 and combination[p] + a > n:
      p -= 1
      a += 2
    # increment the item and
    # fill the tail of the list with increments of two
    combination[p:] = range(combination[p]+1, combination[p] + 2*(r-p), 2)

Each next()调用应该有一个 O(r) .. 我在思考如何将其转换为自然数时得到了这个想法，但花了相当长的时间才得到正确的细节。

> list(nonconsecutive_combinations(2, 4))
[(1, 3), (1, 4), (2, 4)]
> list(nonconsecutive_combinations(3, 6))
[(1, 3, 5), (1, 3, 6), (1, 4, 6), (2, 4, 6)]

让我尝试解释一下这是如何工作的。

元组的条件c with r作为结果集一部分的元素：

元组中的任何元素至少与前一个元素加 2 一样大。（c[x] >= c[x-1] + 2)
所有元素都小于或等于n。因为 1. 说这一点就足够了最后一个元素小于或等于n. (c[r-1] <= n)

最小的元组may成为结果集的一部分是(1, 3, 5, ..., 2*r-1)。当我说一个元组比另一个元组“小”时，我假设的是字典顺序。

正如 Blckknght 所指出的，即使是最小的可能元组也可能太大而无法满足条件 2。

上面的函数包含两个 while 循环：

外循环遍历结果并假设它们按字典顺序出现并满足条件一。一旦有问题的元组违反了条件二，我们就知道我们已经用尽了结果集并且完成了：
```
combination = range(1, r*2, 2)
while combination[r-1] <= n:
```
第一行根据条件一用第一个可能的结果初始化结果元组。第二行直接转化为条件二。
内循环查找满足条件一的下一个可能的元组。
```
yield tuple(combination)
```
自从while条件（2）为真，并且我们确保结果满足条件一，我们可以产生当前的结果元组。

接下来，为了找到按字典顺序排列的下一个元组，我们将向最后一个元素添加“1”。
```
# we don't actually do this:
combination[r-1] += 1
```
然而，这可能会过早地破坏条件 2。所以，if该操作会破坏条件 2，我们增加前面的元素并相应地调整最后一个元素。这有点像计算以 10 为基数的整数：“如果最后一位数字大于 9，则递增前一位数字并使最后一位数字为 0”。但我们不是添加零，而是填充元组以使条件 1 为真。
```
# if above does not work
combination[r-2] += 1
combination[r-1]  = combination[r-2] + 2
```
问题是，第二行可能会再次违反条件二。所以我们实际做的是，我们跟踪最后一个元素，这就是对a。我们还使用p变量来引用我们正在查看的当前元素的索引。
```
p = r-1
a = 1
while p > 0 and combination[p] + a > n:
  p -= 1
  a += 2
```
我们从右到左（p = r-1，p -= 1）迭代结果元组的项目。最初，我们想要向最后一项添加 1 (a = 1)，但是当单步执行元组时，我们实际上想要将最后一项替换为前一项的值加上2*x, where x是两个项目之间的距离。 (a += 2, 组合[p] + a)

最后，我们找到了要增加的项，并用从增加的项开始的序列填充元组的其余部分，步长为 2：
```
combination[p:] = range(combination[p]+1, combination[p] + 2*(r-p), 2)
```
就是这样。当我第一次想到它时，它看起来很简单，但是整个函数中的所有算术都为差一错误提供了一个很好的地方，并且描述它比应该的更难。当我添加内部循环时我应该知道我遇到了麻烦:)

论性能..

不幸的是，充满算术的 while 循环并不是用 Python 编写的最有效的东西。其他解决方案接受这一现实，并使用列表理解或过滤将繁重的工作推入 Python 运行时。这在我看来是正确的做法.

另一方面，我非常确定，如果这是 C，我的解决方案会比大多数解决方案执行得更好。内部 while 循环是 O(log r) ，它会就地改变结果，并且相同的 O(log r ）。它不消耗额外的堆栈帧，并且除了结果和两个变量之外不消耗任何内存。但显然这不是 C，所以这些都不重要。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)