优化多词编辑距离的速度

2024-02-21

我有一个元胞数组字典，其中包含很多单词（约 15000 个）。

我想计算函数strdist（计算 Levenshtein 距离）所有单词对。我尝试了两种方法，但它们都很慢。什么是更有效的解决方案？

这是我的代码（dict_keys 是我长度为 m 的元胞数组）：

matrix = sparse(m,m);
for i = 1:m-1;
    matrix(i,:) = cellfun( @(u) strdist(dict_keys{i},u), dict_keys );
end

matrix = sparse(m,m);
for i = 1:m-1;
  for j = i+1:m
     matrix(i,j) = strdist(dict_keys{i},dict_keys{j});
  end   
end

函数“strdist”不是内置的 matlab 函数，所以我猜你是从文件交换 http://de.mathworks.com/matlabcentral/fileexchange/17585-calculation-of-distance-between-strings/content/strdist.m。这也是为什么你的两种方法在时间上大致相等，cellfun内部只是扩展成一个循环。

If strdist是对称的，即 strdist(a,b)==strdist(b,a) 但是您可以节省一半的计算量。好像是这样，所以只计算所有情况j<i在第二个循环中（您正在执行的操作）。

否则，您可以在 C 中将 strdist 实现为 mex 函数，并且可能会看到一些显着的速度改进。 Levenshtein 距离的 C 实现可以在以下位置找到：Rosettacode.org http://rosettacode.org/wiki/Levenshtein_distance#C.

或者深入研究算法如何计算两个字符串的距离的细节，看看是否可以将其矢量化并减少二次运行时间。然而这可能并不容易。

最后，如果您拥有并行计算工具箱许可和多核 CPU，您可以轻松并行化您的代码，因为strdist调用之间完全独立。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

优化多词编辑距离的速度的相关文章

访问特征矩阵的行向量时复制或引用

我正在使用的代码Eigen http eigen tuxfamily org index php title Main Page矩阵库我注意到在整个代码中有如下访问器 RowVector3f V size t vertex index
单元格的 Fieldnames 函数的等效项

正如标题所说只是想知道是否有一个函数可以用作字段名 http www mathworks co uk help matlab ref fieldnames html 但适用于单元格所以如果我有类似的东西 a imread redsqua
将嵌套循环计算转换为 Numpy 以加速

我的Python程序的一部分包含以下代码段其中一个新的网格是根据旧网格中找到的数据计算的网格是二维浮点数列表该代码使用了三个 for 循环 for t in xrange 0 t step for h in xrange 1 hei
为什么 Orchard 在执行内容项查询时如此慢？

假设我想查询所有 Orchard 用户 ID 并且还想包括那些已被删除也称为软删除的用户该数据库包含大约 1000 个用户 Option A 大约需要 2 分钟 Orchard ContentManagement IContentMa
非模态 questdlg.m 提示

我的代码绘制了一个图然后提示用户是否想使用不同的参数绘制另一个图问题是当 questdlg m 打开时用户无法查看绘图的详细信息这是代码 while strcmp Cont Yes 1 Some code modifying da
从 imread 返回的 ndims

我正在从文件夹中选取图像尺寸为128 128 为此我使用以下代码行 FileName PathName uigetfile jpg Select the Cover Image file fullfile PathName FileNa
用 C 更快地读取文件

嗯我想知道是否有一种比使用 fscanf 更快地读取文件的方法例如假设我有这个文本 4 55 k 52 o 24 l 523 i 首先我想读取第一个数字它给出了接下来的行数令这个数称为N N 之后我想读取 N 行其中有一个整数
如何获取MATLAB句柄对象的ID？

当我尝试使用时出现问题MATLAB 句柄对象 http www mathworks com help techdoc ref handle html作为关键值MATLAB 容器 Map http www mathworks com help
动态 SQL 和 where case 哪个更好？

我需要创建一个带有 12 个参数的存储过程并使用这些参数的不同组合来过滤查询所有 12 个参数都不是强制性的就好像我传递 3 5 或 12 个参数取决于用户输入的搜索输入一样我可以通过两种方式创建即使用动态 SQL 查询或使用 C
PostgreSQL：在所有表字段的长度上创建索引

我有一张桌子叫profile 我想按照填写最多的内容对它们进行排序每列都是 JSONB 列或 TEXT 列我不需要很大程度的确定性所以通常我会按如下方式订购 SELECT FROM profile ORDER BY LENGTH CO
如何在 C++ 中对静态缓冲区执行字符串格式化？

我正在处理一段对性能要求非常高的代码我需要执行一些格式化的字符串操作但我试图避免内存分配甚至是内部库的内存分配在过去我会做类似以下的事情假设是 C 11 constexpr int BUFFER SIZE 200 char bu
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
是否存在比 SVN 更快的集中版本控制？

我已经使用 SVN 很长时间了现在我们正在尝试使用 Git 我在这里谈论的不是中心化去中心化的争论我唯一关心的是速度后一个工具要快得多但有时我需要使用一种集中式方法这种方法比分散式方法更简单更简单学习曲线非常快这节省了大
jQuery .getJSON 与 .post 哪一个更快？

Using getJSON or post 我正在尝试通过仅用于 AJAX 请求的页面发送一些参数并获取 JSON 或 html 片段中的一些结果我想知道哪个更快假设 HTML 文件只是纯布尔文本 true 或 false 正如其他人
字符串与 StringBuilder

我理解之间的区别String and StringBuilder StringBuilder是可变的但是两者之间有很大的性能差异吗我正在开发的程序有很多大小写驱动的字符串附加 500 正在使用StringBuilder更好的选择是的
子查询与连接

我重构了从另一家公司继承的应用程序的一个缓慢部分以使用内部联接而不是子查询例如 WHERE id IN SELECT id FROM 重构后的查询运行速度提高了约 100 倍 50 秒到 0 3 我预计会有改进但谁能解释为什么它如此剧
Emacs 行编号性能

我试过了linum and nlinum 两者对于超过 100k 行的文件的性能都很糟糕 for x in 1 100000 do echo x done gt 100k txt emacs q 100k txt M x load libr
Java 9：AES-GCM 性能

我进行了一个简单的测试来测量AES GCM https en wikipedia org wiki Galois Counter Mode表现在Java 9 通过在循环中加密字节缓冲区结果有些令人困惑本机硬件加速似乎有效但并非总是
时间复杂度和运行时间有什么区别？

时间复杂度和运行时间有什么区别它们是一样的吗运行时间是指程序运行所需的时间时间复杂度是对输入大小趋于无穷大时运行时间渐进行为的描述您可以说运行时间是 O n 2 或其他什么因为这是描述复杂性类和大 O 表示法的惯用方式事实上
优化 CSS 交付 - Google 的建议

谷歌建议在 head 中使用非常重要的 CSS 内联并在内部使用其他 CSS

随机推荐

具有多个查找字段的 Rest 调用以进行反向查找

在Django Rest框架中有没有办法拥有多个查找字段我知道这听起来不太好REST友好的我有一个Company模型我想首先通过国家地区列出它们然后通过 slug 字段列出它们例如 companies
Restore_best_weights 问题 keras 提前停止

我正在将 Keras 的 EarlyStopping 用于我的深度学习项目文档here https keras io callbacks earlystopping提到了一个非常有用的恢复最佳体重的想法但不知何故我还无法使用它我使用的
使用 lambda 表达式来避免使用“魔术字符串”来指定属性

我正在编写一项服务来获取特定类型的对象集合输出其原始类型字符串类型和日期时间类型 https stackoverflow com questions 3161959 in c is there a way retrieve only bu
C++ 使用 .o 链接和使用 .a 文件链接之间存在差异：行为不同，为什么？

我期望与 o 文件链接和与从 o 文件存档的 a 文件链接应该没有区别但事实并非如此我有2个源文件每个都声明1个类 1个静态对象 1个函数以及一个调用其中一个函数的main cpp cat First cpp include
改变rgba颜色的色调

我使用 RGBA 颜色在 matplotlib 中将一堆数据绘制为对数刻度上的散点图以防万一介质相关我希望能够做的是一旦绘制了所有内容我想挑选出各个散点并将其色调更改为某种 RGB 颜色的色调但保留旧的 alpha 值我目前的做
将分类数据从 CSV 加载到 Scikit-Learn 以进行机器学习

我正在学习 Scikit Learn 对推文进行一些分类我有一个 csv 其中一列包含推文下一列包含 0 11 的班级我经历了本教程来自 Scikit Learn 网站 http scikit learn org stable tut
日期范围越小SQL查询时间越长？

我有一个简单的 select 语句它从 SQL Server 2000 这么旧的表中选择数据该表大约有 10 2000 万行如下所示 startDate 2014 01 25 yyyy mm dd endDate 2014 02 2
如何按值对多维数组进行排序？ [复制]

这个问题在这里已经有答案了我有一个如下数组我想按键 attack 的值对该数组进行排序数组的第一个键 15 13 18 是数据库中某些特定项目的 ID 因此我不希望在数组排序时更改这些键任何帮助将不胜感激这是数组 data arr
MongoException：名称索引：代码已存在且具有不同选项

我有一个mongodb收藏term具有以下结构 id 00002c34 a4ca 42ee b242 e9bab8e3a01f terminologyClass USER code X67 terminology some term rel
用 Haskell 解释 Parigot 的 lambda-mu 演算

我们可以用 Haskell 来解释 lambda 演算 data Expr Var String Lam String Expr App Expr Expr data Value a V a F Value a gt Value a int
Powershell 中所有进程的 CPU 和内存使用百分比

有没有一种方法可以查看所有正在运行的进程的 CPU 和内存利用率百分比PowerShell 我已经尝试过以下方法 Get Process Process 0 CPU Usage 1 Memory Usage 2 f ProcessName
Vue 路由器页面刷新时出现 404

我正在使用具有历史模式的 Vue 路由器在按钮上单击当前页面我将其路由到下一页在第二页上当我重新加载时我收到 404 有没有办法在 Vue 中处理这个问题并将其重定向到主页 export default new Router mo
如何在 Alexa Skill 中使用 Java 获取亚马逊用户电子邮件

我是 Alexa 技能开发的新手我正在尝试开发一项 Alexa 通过我的电子邮件回复的技能我正在开发 Java 技能并且我刚刚能够通过以下方式获取用户会话 ID getSession getUser getUserId Getting
如何记录 Azure 服务总线访问？

有没有办法记录对 Azure 服务总线的访问我们正在寻找一种方法来记录谁在服务总线中创建删除主题订阅命名空间无论是从 Azure 门户还是从外部源如 API 或 Service Bus Explorer We have Azur
“错误：没有 Overlay 提供程序！”

In my Angular 2 0 0 rc 7 Angular Material 2 0 0 alpha 8 1应用程序构建Angular CLI 1 0 0 beta 11 webpack 9 1 升级后出现以下错误rc 5 alpha
AWS 相当于 Firebase 实时数据库的是什么？

我目前正在开发一个新的游戏项目该项目将由 React Native 前端和基于 Lambda 的后端组成该应用程序需要一些实时功能例如活动用户记录地理围栏等我正在研究 Firebase 的实时数据库它看起来像是一个非常优雅的实时
Vim：使用 \_ 跨多行匹配字符串时。在正则表达式中，:yank 命令仅适用于第一行

我想提取一些跨越多行的文本的多次出现并且可以与单个 Vim 正则表达式匹配使用元字符不幸的是尽管 Vim 中匹配的行被正确突出显示当我在匹配的正则表达式后添加任何 Vim 命令例如删除或拉取时该命令仅适用于每场比赛的第一行
在这种情况下我应该如何舍入浮点数？

由于同一浮点数可以有多种表示形式我的代码中遇到了问题例如这些数字被认为是相同的 0 0299999400 0 0300000000 我不太关心大精度我需要计算CRC这些数字的数量它们应该是相同的所以我的方法是使用以下代码 pri
在超级项目中自动提交 git 子模块哈希

当你在git子模块中提交时你需要到超级项目中进行第二次提交这是子模块的新哈希这非常烦人很容易忘记如果您不这样做可能会导致各种问题我想做的是提交我的子模块中的更改在超级项目中自动提交哈希将子模块和超级项目推送到其远程源 g
优化多词编辑距离的速度

我有一个元胞数组字典其中包含很多单词约 15000 个我想计算函数strdist 计算 Levenshtein 距离所有单词对我尝试了两种方法但它们都很慢什么是更有效的解决方案这是我的代码 dict keys 是我长度为 m

优化多词编辑距离的速度

优化多词编辑距离的速度 的相关文章

随机推荐

热门标签

优化多词编辑距离的速度的相关文章