如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复]

2023-12-24

可能的重复：
如何纠正 Damerau-Levenshtein 实施中的错误？ https://stackoverflow.com/questions/3431933/how-to-correct-bugs-in-this-damerau-levenshtein-implementation

我有以下内容Cython http://docs.cython.org/index.html代码（改编自bpbio http://code.google.com/p/bpbio/source/browse/trunk/seqfind/seqfind.pyx项目）达默劳-编辑距离计算：

#---------------------------------------------------------------------------
cdef extern from "stdlib.h":
  ctypedef unsigned int size_t
  size_t strlen(char *s)
  void *malloc(size_t size)
  void *calloc(size_t n, size_t size)
  void free(void *ptr)
  int strcmp(char *a, char *b)
  char * strcpy(char *a, char *b)

#---------------------------------------------------------------------------
cdef extern from "Python.h":
  object PyTuple_GET_ITEM(object, int)
  void Py_INCREF(object)

#---------------------------------------------------------------------------
cdef inline size_t imin(int a, int b, int c):
  if a < b:
    if c < a:
      return c
    return a
  if c < b:
    return c
  return b

#---------------------------------------------------------------------------
cpdef int editdistance( char *a, char *b ):
  """Given two byte strings ``a`` and ``b``, return their absolute Damerau-
  Levenshtein distance. Each deletion, insertion, substitution, and
  transposition is counted as one difference, so the edit distance between
  ``abc`` and ``ab``, ``abcx``, ``abx``, ``acb``, respectively, is ``1``."""

  #.........................................................................
  if strcmp( a, b ) == 0: return 0
  #.........................................................................
  cdef int    alen    = strlen( a )
  cdef int    blen    = strlen( b )
  cdef int    R
  cdef char   *ctmp
  cdef size_t i
  cdef size_t j
  cdef size_t achr
  cdef size_t bchr
  #.........................................................................
  if alen > blen:
    ctmp = a;
    a = b;
    b = ctmp;
    alen, blen = blen, alen
  #.........................................................................
  cdef char   *m1     = <char *>calloc(   blen + 2,    sizeof( char ) )
  cdef char   *m2     = <char *>calloc(   blen + 2,    sizeof( char ) )
  cdef char   *m3     = <char *>malloc( ( blen + 2 ) * sizeof( char ) )
  #.........................................................................
  for i from 0 <= i <= blen:
    m2[ i ] = i
  #.........................................................................
  for i from 1 <= i <= alen:
    m1[ 0 ] =    i + 1
    achr    = a[ i - 1 ]
    for j from 1 <= j <= blen:
      bchr = b[ j- 1 ]
      if achr == bchr:
        m1[ j ] = m2[ j - 1 ]
      else:
        m1[ j ] = 1 + imin( m1[ j - 1 ], m2[ j - 1 ], m2[ j ] )
      if i != 1 and j != 1 and achr == b[ j - 2 ] and bchr == a[ i - 2 ]:
        m1[ j ] = m3[ j - 1 ]
    #.......................................................................
    m1, m2 = m2, m1
    strcpy( m3, m2 )
  #.........................................................................
  R = <int>m2[ blen ]
  #.........................................................................
  # cleanup:
  free( m3 )
  free( m1 )
  free( m2 )
  #.........................................................................
  return R

该代码运行良好且快速（在我的 PC 上每秒进行 300,000...400,000 次比较）。

挑战在于使该代码也能与 unicode 字符串一起使用。我正在运行 Python 3.1 并从数据库中检索文本，然后将其与查询文本相匹配。

将这些字符串编码为bytes在将它们传递给 Cython 函数进行比较之前不是一个好主意，因为性能会受到相当大的影响（经过测试），并且对于包含 7 位 US ASCII 之外的字符的任何文本，结果可能是错误的。

（非常简洁）Cython 手册确实提到了 unicode 字符串，但对当前的问题几乎没有帮助。

在我看来，unicode 字符串可以被认为是一个整数数组，每个整数代表一个代码点，上面的代码基本上是在数组上运行的char已经是了，所以我猜我应该(1)扩展它来处理 C 整数数组；(2)添加代码以将 python unicode 字符串转换为 C 数组；(3)利润！。

( Note: 这种方法有两个潜在的问题：一个是处理 unicode 代理字符，但我想我知道如何处理这些字符。另一个问题是 unicode 代码点并没有真正 1:1 映射到“字符”的概念。我很清楚这一点，但我认为这超出了这个问题的范围。请假设一个 unicode 代码点是一个比较单位。）

所以我寻求建议如何

编写一个快速 Cython 函数，该函数接受 python unicode 字符串并返回 Cython 的 C 数组unsigned ints（4字节）；
修改显示的代码来处理这些数组并执行正确的内存分配/释放（这对我来说是相当陌生的东西）。

Edit: 约翰·梅钦 https://stackoverflow.com/users/84270/john-machin指出了奇怪的类型转换char *m1等可能是为了速度和/或内存优化而完成的；这些变量仍然被视为数字数组。我意识到该代码没有采取任何措施来防止长字符串可能发生的溢出；当一个数组元素超过 127 或 255（取决于所使用的 C 编译器）时，可能会出现错误结果。对于来自生物信息学项目的代码有点令人惊讶。

也就是说，我只对少于一百个字符左右的基本相同的字符串的精确结果感兴趣。出于我的目的，低于 60% 相同性的结果可以安全地报告为“完全不同”（通过返回较长文本的长度），所以我想最好保留char *m1强制转换到位，但添加一些代码来检查溢出和早期中止，以防出现严重的差异。

Use ord()将字符转换为其整数代码点。它适用于来自任一unicode or str字符串类型：

codepoints = [ord(c) for c in text]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复] 的相关文章

如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
sy.sympify(str(表达式)) 不等于表达式

据我了解 str将 SymPy 表达式转换为字符串并sympify将字符串转换为 SymPy 表达式因此我希望以下内容成立对于合理的表达 gt gt gt sy sympify str expr expr True 我尝试过这个确实
计算熊猫数据帧几个月的总和

我有一个 pandas 数据框如下所示 ID Year R1 R1 f KAR1 20201001 1 5 KAR1 20201101 2 6 KAR1 20201201 3 7 KAR1 20210101 4 8 KAR1 202102
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
如何将脚本作为 pytest 测试运行

假设我有一个用简单脚本表示的测试assert 陈述请参阅背景了解原因例如 import foo assert foo 3 4 我如何以一种好的方式将该脚本包含在我的 pytest 测试套件中我尝试了两种有效但不太好的方法一种方法是将
Python 中 time.sleep 和多线程的问题

我对 python 中的 time sleep 函数有疑问我正在运行一个脚本需要等待另一个程序生成 txt 文件虽然这是一台非常旧的机器所以当我休眠 python 脚本时我遇到了其他程序不生成文件的问题除了使用 time sl
如何在 Python 中根据日期列绘制分类变量

我有这样的数据 Date Fruit 2017 01 01 Orange 2017 01 01 Apple 2017 01 08 Orange 2017 01 09 Orange 2017 01 09 Apple 我想在一个图中按日期绘制橙
Python sys.modules 包含尚未导入的模块

我试图了解加载的模块与导入的模块之间的区别如果有的话我正在使用 Python 2 7 3 并且只是从命令行运行 Python 如果我执行 import sys sys modules 我得到一个列表其中包括os 例如文档说sys m
获取 int() 参数必须是字符串或数字，而不是“Column”- Apache Spark

如果我使用以下代码我会收到此异常 int argument must be a string or a number not Column df df withColumn FY F when df ID substr 5 2 isin
无法在我的程序中使用 matplotlib 函数

我正在 Windows 10 中运行 Anaconda 安装 conda 版本 4 3 8 这是我尝试在 python 命令行中运行的代码 import matplotlib pyplot as plt x 1 2 3 4 y 5 6 7
django 中的身份验证方法返回 None

你好我在 django 中做了一个简单的注册和登录页面当想要登录时登录视图中的身份验证方法不返回任何内容我的身份验证应用程序模型 py from django db import models from django contri
错误：尝试使用 scrappy 登录时出现 raise ValueError("No element found in %s" % response)

问题描述我想从我大学的bbs上抓取一些信息这是地址 http bbs byr cn http bbs byr cn下面是我的蜘蛛的代码 from lxml import etree import scrapy try from scra
我可以在 if 语句中使用“as”机制吗

是否可以使用as in if类似的声明with我们使用的例如 with open tmp foo r as ofile do something with ofile 这是我的代码 def my list rtrn lst True if
更新 matplotlib 中颜色条的范围

我想更新一个contourf在函数内绘制效果很好然而数据的范围发生了变化因此我还必须更新颜色条这就是我未能做到的地方请参阅以下最小工作示例 import matplotlib pyplot as plt import numpy
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
使用 Numpy 进行多维批量图像卷积

在图像处理和分类网络中一个常见的任务是输入图像与一些固定滤波器的卷积或互相关例如在卷积神经网络 CNN 中这是一种极其常见的操作我已将通用版本任务减少为 Given 一批 N 个图像 N H W D 和一组 K 个滤镜 K H W
如何在supervisord中设置组？

因此我正在设置 Supervisord 并尝试控制多个进程并且一切正常现在我想设置一个组以便我可以启动停止不同的进程集而不是全部或全无这是我的配置文件的片段 group tapjoy programs tapjoy game1
python 日志记录替代方案 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案蟒蛇记录模块 http docs python org library logging html使用起来
OSError: [WinError 193] %1 不是有效的 Win32 应用程序，同时使用 CTypes 在 python 中读取自定义 DLL

我正在尝试编写用 python 封装 C 库的代码我计划使用 CTypes 来完成此操作并使用 Visual Studio 来编译我的 DLL 我从一个简单的函数开始在 Visual Studio 内的标头中添加了以下内容然后将其构

随机推荐

在 Visual Studio 2015 Community RTM 中为 ASP.NET 5 项目启用 SSL

Most tutorials suggest that you can enable SSL for the website by going to properties of the project and then ticking th
ObjectAnimator 像素化 TextView

我在 Samsung GT N5110 android 版本 4 1 2 中放大 TextViews 和 Checkboxes 时遇到问题放大 TextView 后出现下图里面有 textview 我想放大它我确实尝试在开发人员选项中启
Haskell Prelude.read：无法解析字符串

来自哈斯克尔的例子http learnyouahaskell com types and typeclasses http learnyouahaskell com types and typeclasses ghci gt read 5
如何获取Azure ResourceManagementClient对象的标签

我正在尝试使用 ResourceManagementClient 类获取资源组的标签列表 Microsoft Azure Management Resources 2 14 1 预览版添加自包管理器控制台 ResourceManageme
如何在 MongoDB shell 中将 NumberLong 转换为 Date？

我将 unix 时间戳存储为 MongoDB 的NumberLongtype 毫秒如何在 Mongo shell 中转换为人类可读的日期字符串供我自己将来参考并结合其他答案 db mycollection aggregate matc
如何横向显示 AutoCompleteTextView 建议

AutoCompleteTextView 在纵向模式的下拉列表中显示建议我想在对话框或横向模式的下拉列表中显示建议这里 EditText 和键盘全屏显示我应该在适配器中使用哪种布局才能在横向模式下将提示显示为对话框我目前正在使用an
如何从 Web 应用程序中找出 ASP.NET 中的会话大小？

如何从 Web 应用程序中找出 ASP NET 中的会话大小如果您尝试在运行时而不是在调试跟踪中获取会话的大小您可能需要尝试如下操作 long totalSessionBytes 0 BinaryFormatter b new Bina
在 matplotlib 中设置图例中标签部分的样式

是否可以有part特定风格的传说文本比方说 bold or italic 写在之间强制 matplotlib 解释它 import matplotlib pyplot as plt plt plot range 10 range 10
如何仅循环批处理脚本一定的次数？

如何仅循环批处理脚本一定次数 x10 或其他如果代码是 echo off loop1 Start taskmgr exe Goto loop loop2
HttpRuntime.Cache.Add 中的值为 Null

我想为其中的一些键存储 nullHttpRuntime Cache因为我不想再次进入数据库发现没有该密钥的条目所以第一次它会进入数据库并填充缓存目的是使用缓存数据来服务以下调用而不是执行数据库调用这是我正在使用的代码 Info i
在javascript中访问ruby数组

我想在 javascript 中访问 Ruby 数组请告诉我这样做的方法我的数组保存了 sql 查询的结果 contacts Contact order contacts position ASC 我正在尝试这样做 for var i
导入 F2Py 模块时如何“捕获”段错误？

一些背景其相关性可能会波动我目前拥有一些 F2Py 库 F2Py 从一些 Fortran 代码编译的 Python 模块出于所有意图和目的您可以将这些模块视为第三方我目前无法访问 Fortran 源代码并且我不负责编译过程这
如何将 shell 变量导出到所有会话？

我想知道有没有办法将我的 shell 变量导出到系统中的所有会话不仅仅是当前会话我不想在 bashrc 文件中设置它因为 shell 变量是动态变量它会不时更改您可以通过在调试中设置陷阱来设置会话以继续重新读取磁盘上的文件 bas
如何在 ASP.NET 项目中设置无限会话超时？

我正在开发一个 ASP NET 项目如何增加会话超时无限超时或者我应该在 IIS 上执行此操作如果可以的话请解释一下您可以设置session timeout in web config如下所示该值显示分钟因此您可以根据需要设置
CSS 中报告部分样式列表编号？

现在我了解了正常 CSS 列表样式罗马拉丁等当然在过去的几年里它们在不允许诸如以下内容方面有些不灵活 a or a only a 现在我相信你可以通过 before 和 after 伪元素得到像上面这样的效果那是对的吗如果可以
如何填充seaborn分布图中曲线下的面积

我有两个变量 x 1 883830 7 692308 8 791209 9 262166 y 5 337520 4 866562 2 825746 6 122449 我想使用 matplotlib 包装的 seaborn 来拟合高斯分布似
如何打破多个 foreach 循环？ [复制]

这个问题在这里已经有答案了我有四个 foreach 循环它们遍历集合并根据条件执行某些操作这是我现在正在编写的代码 boolean breakFlag false String valueFromObj2 null String va
iOS 自动布局：两个并排的宽度相等的按钮

我目前在自动布局方面遇到困难我正在使用界面生成器并尝试并排放置两个宽度相等的按钮如下图所示从下面的预览图像中我的 titleImage 已被正确约束并正确显示但按钮却不然我尝试将按钮 1 与 titleImage 的前缘对齐
在控制台应用程序中使用 Razor 的最佳方式是什么

我知道以前也有人问过类似的问题但唯一的答案是六年前的而且人们提到的项目似乎没有得到维护我想在控制台应用程序或类库中使用 Razor 来渲染 HTML 我还想在 cshtml 文件中使用智能感知目前我可以通过执行以下操作来临时操纵此
如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复]

这个问题在这里已经有答案了可能的重复如何纠正 Damerau Levenshtein 实施中的错误 https stackoverflow com questions 3431933 how to correct bugs in thi

如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复]

如何将python/cython unicode字符串转换为长整数数组，以进行levenshtein编辑距离[重复] 的相关文章

随机推荐

热门标签