从加权集中按权重顺序生成长度 L 的前 N 个组合

2024-01-01

我有一组带有权重的字母，这给出了它们出现在字符串中的概率：

a - 0.7
b - 0.1
c - 0.3
...
z - 0.01

因此，这个词aaaa有一个概率0.7*0.7*0.7*0.7 = 0.24。这个单词aaac会有概率0.7*0.7*0.7*0.3 = 0.10。同一单词的所有排列都有相同的概率，因此我们只需要担心组合。

我想生成第一个独特的N长度的字符串L按概率顺序（例如，这里有 4 个字母，长度为 4，应该是aaaa, aaac, aacc, aaab, accc, aabc, cccc, etc).

假设生成所有组合及其概率并按权重排序的强力方法在这里是不可能的。该算法（如果存在）必须能够适用于任何集合大小和任何长度的字符串（例如，具有加权概率的所有 256 个字节、1024 长度的字符串，生成第一个万亿。）

下面是一些使用堆的枚举代码。实现原理与user3386109在评论中提出的略有不同。

按概率递减对符号进行排序。 S 个符号的长度为 L 的组合与长度为 S + L − 1 和 L − 1 个零的二进制字符串之间存在建设性的一一对应关系（用 L − 1 分隔符以一元形式计数每个符号）。我们可以一次一点地枚举后者的可能性。

让我们不必枚举每个组合的部分是，对于每个二进制前缀，可以通过重复仍然可用的最可能的字母来找到最可能的单词。通过将前缀存储在堆中，我们可以只打开出现在前 N 中的前缀。

请注意，这使用的内存与枚举组合的数量成正比。这可能仍然太多，在这种情况下，您可能需要迭代加深深度优先搜索之类的东西。

symbol_probability_dict = {"a": 0.7, "b": 0.1, "c": 0.3, "z": 0.01}
L = 4

import heapq
import math

loss_symbol_pairs = [(-math.log(p), c) for (c, p) in symbol_probability_dict.items()]
loss_symbol_pairs.sort()

heap = [(0, 0, "")]
while heap:
    min_loss, i, s = heapq.heappop(heap)
    if len(s) < L:
        heapq.heappush(heap, (min_loss, i, s + loss_symbol_pairs[i][1]))
        if i + 1 < len(loss_symbol_pairs):
            heapq.heappush(
                heap,
                (
                    min_loss
                    + (L - len(s))
                    * (loss_symbol_pairs[i + 1][0] - loss_symbol_pairs[i][0]),
                    i + 1,
                    s,
                ),
            )
    else:
        print(s)

Output:

aaaa
aaac
aacc
aaab
accc
aacb
cccc
accb
aabb
aaaz
cccb
acbb
aacz
ccbb
abbb
accz
aabz
cbbb
cccz
acbz
bbbb
ccbz
abbz
aazz
cbbz
aczz
bbbz
cczz
abzz
cbzz
bbzz
azzz
czzz
bzzz
zzzz

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从加权集中按权重顺序生成长度 L 的前 N 个组合的相关文章

良好的线性代数包[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在为一个项目实现一些谱图算法其中很大一部分是查找大型稀疏矩阵以及乘法矩阵的特征值和特征向量我的问
Haskell：先进先出队列算法的复杂性

这是我对 FIFO 队列的尝试 type Queue a a gt a empty Queue a empty id remove Int gt Queue a gt a Queue a remove n queue take n queu
数独生成器算法[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我制作了一个生成数独的算法但效率非常低每个谜题都需要几分钟才能生成所以现在我正在尝试以最佳方式重新编写它但我遇到了一些问题需
GO中的优先级队列

谁能向我解释一下我想在GO中实现一个优先级队列接口实现来自link https golang org pkg container heap example priorityQueue 但优先级最低我的代码 pq make Priori
如何在Python中手动对数字列表进行排序？

规格 Ubuntu 13 04 Python 3 3 1 背景 Python的初学者遇到了这个手动排序问题我被要求做的事情让用户输入 3 个数值并将它们存储在 3 个不同的变量中不使用列表或排序算法手动将这 3 个数字从小到大
飞船推进AI：控制飞船在x=0、v=0时着陆的力

我必须编写 AI 代码来控制游戏中宇宙飞船的许多推进喷气机为简单起见令空间为一维宇宙飞船是一个点只有 1 架喷气机规则与问题 Let x v and a是飞船的位置速度加速度 Let F是施加在船上的喷射力我知道质量m宇宙飞
动态前缀和

是否有任何数据结构能够返回数组的前缀和 1 更新元素以及向数组插入删除元素所有这些都在 O log n 内 1 前缀和是从第一个元素到给定索引的所有元素的总和例如给定非负整数数组8 1 10 7前三个元素的前缀和是19 8 1 1
如何随机打乱地图中的值？

我有一个 std map 其中键和值均为整数现在我想随机打乱地图因此键随机指向不同的值我尝试了 random shuffle 但它无法编译请注意我并没有尝试洗牌键这对于地图来说没有意义我正在尝试随机化这些值我可以将这些值推入
列表列表中出现的频率

我有一个列表列表其中每个列表都已排序我想调查的是某个元素在特定位置出现了多少次例如 pnc 曾两次出现在第二位一次出现在第三位我的数据结构如下 dput degree l list c schwab 0 pnc 0 0344827
时间复杂度：连续对一个数字的数字进行求和，直到结果为一位数

给我一个数字 N 不断对数字求和直到结果为一位数例如 35252 gt 17 gt 8 我写了以下代码 int digitSum int n int sum 0 int digit while n digit n 10 n n 10 s
如何按日期升序对对象进行排序？

如果我有一个对象列表 var objectList LIST OF OBJECT each object列表中包含三个属性 name date gender 如何按对列表中的对象进行排序date 属性升序 the date 属性包含字符串
如何计算某物是否位于某人的视野中

我有一个对象它在 2D 空间中具有位置和速度两者都由向量表示对象的视野每侧均为 135 度它看起来与移动的方向相同速度矢量我有一些对象其在 2D 空间中的位置由向量表示在图中蓝色背景上的对象是可见的红色背景上的对象对主体
快速算法可以快速找到一组范围中某个数字所属的范围？

场景我有几个数字范围这些范围不重叠由于它们不重叠逻辑结果是任何时候任何数字都不能属于多个范围每个范围都是连续的单个范围内没有空洞因此范围 8 到 16 将真正包含 8 到 16 之间的所有数字但两个范围之间可能存在空洞例如
创建序列的幂集

我正在尝试创建一个程序作为创建序列字符串或数字的可能组合的基础这是某种加密解密程序我正在使用 Visual Studio 2013 和 C 我想做的是从序列中生成幂集但我有点困惑并且无法继续进行这是代码 public stat
找出区间内绝对差值最小的两个元素

我给定了一个数组和一个 L R 类型的查询列表这意味着找到任何两个数组元素之间的最小绝对差使得它们的索引在 L 和 R 之间其中数组的起始索引是 1 而不是 0 例如采用包含元素 2 1 8 5 11 的数组 a 则查询 1 3 将
将这个 if-then 逻辑转换为布尔表达式？

我在使这段代码更简洁最好是单个布尔表达式方面有点绞尽脑汁这是我的代码 if d Unemployed if type Unemployed tmp Unemployed true else tmp Unemployed false
创建简单和弦进行的算法

我正在制作一个程序根据 C 大调音阶的随机基本和弦进行生成随机简单的旋律从这个音阶生成 4 个三和弦的和弦进行的好方法是什么从音阶中生成 4 个完全随机的三元组从 7 个现有的三元组中通常听起来不太好我需要一种方法来生成听起来不
如何使用 Julia 查找矩阵中的连通分量

假设我有以下矩阵此处用 Julia 语言定义 mat 1 1 0 0 0 1 1 0 0 0 0 0 0 0 1 0 0 0 1 1 将一组值为 1 的相邻元素视为一个分量如何识别该矩阵有 2 个分量以及每个分量由哪些顶点组成对于矩
使用区间树的最大区间重叠[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何为基于服务的数据库设置自动增量

我在这里开始构建我的第一个本地数据库基于服务的数据库使用文本框将行写入基于服务的数据库 https stackoverflow com questions 39152801 write line to service based dat

随机推荐

在 AWS 上使用 Apache-Spark 加载数据

我正在 Amazon Web Service AWS EC2 上使用 Apache Spark 来加载和处理数据我创建了一个主节点和两个从节点在主节点上我有一个目录data包含所有要处理的csv格式的数据文件现在在我们提交驱动程序
Android Eclipse 问题无法创建 BuildConfig 类

我在 Eclipse 中清理 Android 项目时收到无法创建 BuildConfig 类错误我最近为移动开发人员安装了 Eclipse Juno 当我尝试导入现有的 Android 应用程序时 Eclipse 开始出现这种错误如
使用 consteval 代替 constexpr 函数有哪些优点？

我知道需求的差异我最感兴趣的是它带来的代码质量带来的好处我能想到的几件事读者只需阅读函数签名即可知道该函数是在编译时评估的编译器可能会发出更少的代码因为constevalfns 在运行时从不使用这是推测我没有这方面的真实数据
数据库中什么是半连接？

我在尝试理解半连接的概念以及它与传统连接的不同之处时遇到了麻烦我已经尝试过一些文章但对解释不满意有人可以帮助我理解它吗简单的例子让我们使用左外连接选择成绩的学生 SELECT DISTINCT s id FROM students
如何使用回调函数在 TypeScript 中保留词法范围

我有一个 TypeScript 类其中有一个我打算用作回调的函数 removeRow this MyClass void this is now the window object I must use this to get the c
Windows Python (<=3.10.2) 无法运行 `python -m venv .venv`

此问题已解决并向 Python org 提交了错误报告看看我的下面自我回答 https stackoverflow com a 71041562 4516027寻求解决方法直到在未来版本的 Python 中修复为止我的一台电脑被这个
LIBGDX 创建主菜单

所以我想为我的游戏创建一个主菜单但我不知道下一步该做什么我已经完成了所有的艺术工作并且全部分层并打包在 pack 中 public class MainMenu implements Screen CrazyZombies game
使用比较器的意外输出

我有以下程序 import java util public class Test public static void main String args Integer array 3 1 4 1 5 9 Arrays sort arra
MYSQLi真实转义函数显示换行符和回车符

我有一个文本区域当我尝试通过 MYSQLi 真实转义函数和 nl2br 进行转义和清理时简单的输出给了我奇怪的结果我的PHP代码 the odd输出是 i love this r n r nand this is gonna be f
Angularfire2，startAfter() 不适用于分页

根据 firebase 文档这是如何做到的 var first db collection cities orderBy population limit 25 return first get then function documen
改进分配器算法实现的建议

我有一个 Visual Studio 2008 C 应用程序其中使用标准容器的自定义分配器以便它们的内存来自内存映射文件而不是堆该分配器用于 4 种不同的用例 104字节固定大小结构std vector lt SomeType MyA
python多处理中父进程全局变量如何复制到子进程

乌班图20 04 我对python中不同子进程访问全局变量的理解是这样的全局变量假设b 可用于写时复制能力的每个子进程如果子进程修改了该变量则复制b首先创建该副本然后修改该副本此更改对父进程不可见稍后我将就这部分提出问题我
不明确的规则定义了“T...”的类型

以下测试之一不起作用为什么 public class SortedInterfacesTest private static final Logger log LoggerFactory getLogger SortedInterface
在AWS EC2 Linux实例上安装Chrome时出错：未找到scaling_cur_freq和scaling_max_freq

我正在尝试在 AWS EC2 实例上安装 Chrome 与 Chromedriver selenium 一起使用但出现了以前从未见过的错误我能够一致地重现但在谷歌上找不到任何关于该怎么做的信息重现步骤启动新的 EC2 实例 Ama
棘手的选择语句

我有一个包含类别的表每个类别都有一个 ID 一个名称和一个 ParentID 问题是有3个级别父类别子类别和子类别我可以用一个简单的方法提取父类别SELECT and a WHERE ParentID IS NULL条款如下 SEL
在 json 中找不到 json.net 必需的属性

我正在使用 Json net 我得到了一个类如下 public class RecordAlias JsonProperty PropertyName eId Required Required Always public string E
将 C++11 数组与 Cython 连接

我习惯于构建 C 程序并在 Cython 中获取它但在这里我试图获取 C 11array这绝对行不通这是我的 pxd cdef extern from
如何使用 autograd 查找最小/最大点

假设我们有一个简单的函数 y sin x 2 如何使用 autograd 查找一阶导数值为 0 的所有 X s 下面的代码可以找到一阶导数为零的点然而根据随机初始化它只能找到一个点如果您想找到所有点您可以尝试在某些所需的网格上迭代
如何绕过或使 PHP json_decode 不改变我的非常大的整数值？

所以我在 WAMP 环境中使用 php 5 2 6 我正在尝试使用 json decode 函数将 json 字符串放入数组中 JSON 来自其他地方的 REST API 因此我无法控制 JSON 字符串的格式这是我尝试使用的 json
从加权集中按权重顺序生成长度 L 的前 N 个组合

我有一组带有权重的字母这给出了它们出现在字符串中的概率 a 0 7 b 0 1 c 0 3 z 0 01 因此这个词aaaa有一个概率0 7 0 7 0 7 0 7 0 24 这个单词aaac会有概率0 7 0 7 0 7 0 3 0

从加权集中按权重顺序生成长度 L 的前 N ​​个组合

从加权集中按权重顺序生成长度 L 的前 N ​​个组合 的相关文章

随机推荐

热门标签

从加权集中按权重顺序生成长度 L 的前 N 个组合

从加权集中按权重顺序生成长度 L 的前 N 个组合的相关文章