在 spacy 的帮助下合并几乎相似的行

2023-12-31

如果某些行几乎相似，我想合并它们。
可以使用 spaCy 检查相似性。

df:

string                     
yellow color       
yellow color looks like 
yellow color bright
red color okay
red color blood

output:

string
yellow color looks like bright
red color okay blood

解决方案：
暴力方法是 - 对于字符串中的每个项目，检查与其他 n-1 个项目的相似性，如果大于某个阈值，则合并。
还有其他办法吗？
因为我与很多人接触不多，所以不知道他们是如何做到的
我想到的一个想法是——我们可以传递一些函数来合并吗？如果为真则合并，否则不合并。

欢迎任何其他流行的方法。

如果您通过常见单词的出现来衡量相似性，那么您甚至不需要 Spacy：只需使用字数统计对文本进行矢量化并馈送到任何聚类算法即可。AgglomerativeClustering就是其中之一——对于大型数据集来说，它的时间效率不是很高，但它是高度可控的。您需要为数据集调整的唯一参数是distance_threshold：越小，簇就越多。

对文本进行聚类后，您可以连接每个聚类中的所有唯一单词（或者做一些更聪明的事情，具体取决于您要解决的最终问题）。整个代码可能如下所示：

texts = '''yellow color       
yellow color looks like 
yellow color bright
red color okay
red color blood'''.split('\n')

from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import Normalizer, FunctionTransformer
from sklearn.cluster import AgglomerativeClustering
from sklearn.pipeline import make_pipeline
model = make_pipeline(
    CountVectorizer(), 
    Normalizer(), 
    FunctionTransformer(lambda x: x.todense(), accept_sparse=True),
    AgglomerativeClustering(distance_threshold=1.0, n_clusters=None),
)
clusters = model.fit_predict(texts)
print(clusters)  # [0 0 0 1 1]

from collections import defaultdict
cluster2words = defaultdict(list)
for text, cluster in zip(texts, clusters):
    for word in text.split():
        if word not in cluster2words[cluster]:
            cluster2words[cluster].append(word)
result = [' '.join(wordlist) for wordlist in cluster2words.values()]
print(result)  # ['yellow color looks like bright', 'red color okay blood']

仅当常用词不够并且您想要捕获语义相似性时，您才需要 Spacy 或任何其他具有预训练模型的框架。整个管道只会改变一点点。

# !python -m spacy download en_core_web_lg
import spacy
import numpy as np
nlp = spacy.load("en_core_web_lg")

model = make_pipeline(
    FunctionTransformer(lambda x: np.stack([nlp(t).vector for t in x])),
    Normalizer(), 
    AgglomerativeClustering(distance_threshold=0.5, n_clusters=None),
)
clusters = model.fit_predict(texts)
print(clusters)  # [2 0 2 0 1]

您会看到这里的聚类显然是不正确的，因此 Spacy 词向量似乎不适合这个特定问题。

如果您想使用预训练模型来捕获文本之间的语义相似性，我建议您使用Laser反而。它明确基于句子嵌入，并且是高度多语言的：

# !pip install laserembeddings
# !python -m laserembeddings download-models
from laserembeddings import Laser
laser = Laser()

model = make_pipeline(
    FunctionTransformer(lambda x: laser.embed_sentences(x, lang='en')),
    Normalizer(), 
    AgglomerativeClustering(distance_threshold=0.8, n_clusters=None),
)
clusters = model.fit_predict(texts)
print(clusters)  # [1 1 1 0 0]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 spacy 的帮助下合并几乎相似的行的相关文章

如何对预测值进行反向移动平均（在 pandas 中，rolling().mean）操作？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我有一个像这样的 df import numpy as np import pandas as pd import matplotlib
为什么any (True for ... if cond) 比any (cond for ...) 快得多？

检查列表是否包含奇数的两种类似方法 any x 2 for x in a any True for x in a if x 2 计时结果与a 0 10000000 每次尝试五次次数以秒为单位 0 60 0 60 0 60 0 61 0 6
numpy：与索引数组有效求和

假设我有 2 个矩阵 M 和 N 都有 gt 1 列我还有一个索引矩阵 I 有 2 列 1 列代表 M 一列代表 N N 的索引是唯一的但 M 的索引可能出现多次我想要执行的操作是 for i j in w M i N j 除了 fo
如何更改 Python 函数的表示形式？

gt gt gt def hehe return spam gt gt gt repr hehe
使用 scikit-learn 在朴素贝叶斯分类器中混合类别数据和连续数据

我正在使用 Python 中的 scikit learn 开发分类算法来预测某些客户的性别除此之外我想使用朴素贝叶斯分类器但我的问题是我混合了分类数据例如在线注册接受电子邮件通知等和连续数据例如年龄长度会员资格等
当类的任何属性被修改时，类如何运行某些函数？

是否有一些通用方法可以让类在以下情况下运行函数 any它的属性被修改了吗我想知道是否可以运行某些子进程来监视类的更改但也许有一种方法可以继承class并修改一些on change函数是 Python 类的一部分有点像默认的 repr
Python：当为变量分配新内容时，“旧”内存是否被释放？

如果为变量分配了任何新内容为旧内容分配的内存是否会正确释放例如在以下脚本中在为 a 分配一些新内容后变量 a 作为零数组的内存是否会被释放 import numpy a numpy zeros 1000 a a 1 我想象
如何实现带有 ([start ,] stop [ step]) 签名的 python 方法，即左侧的默认关键字参数

由于在 python 3 X 中 build idrange 函数返回的不再是一个列表而是一个可迭代的一些旧代码在我使用时失败range 方便地生成我需要的列表所以我尝试实现我自己的lrange像这样的函数 def lrange st
无法解析 ReferenceProperty -- App Engine

我遇到了一个错误无法找出其根本原因错误如下 ReferenceProperty 无法解析 u StatusLog STATUSLOGSID 此错误仅有时发生大约一天一次或两次生成此错误的脚本成功的次数多于失败的次数该错误最奇怪的事
在 Windows 上安装 PyGIMP

在网上我可以找到有关使用 python 编写 gimp 脚本的各种示例 http www jamesh id au software pygimp http www jamesh id au software pygimp http ww
令人困惑的问题>> FileNotFoundError：[Errno 2]没有这样的文件或目录：

这个问题让我很困惑也许问题出在代码上希望你看一下 with open training images labels path r as file lines file readlines 他说该文件不存在 FileNotFoundErr
Pandas 使用 NaN 进行数据透视或重塑数据框

我有这个数据框我需要根据以下数据进行旋转或重塑frame col df frame 0 0 1 1 2 2 3 0 4 1 5 2 pvol 0 nan 1 nan 2 nan 3 23 1 4 24 3 5 25 6 vvol 0 10
python中终止进程的跨平台方法

当我尝试使用 subprocess Popen terminate 或 Kill 命令终止 Windows 中的进程时出现访问被拒绝错误如果文件不再存在我真的需要一种跨平台的方式来终止进程是的我知道这不是做我正在做的事情的最优雅的
iter(fp.readline, '') 中的行而不是 fp 中的行：

我读了内置函数iter的例子在内置函数 Python 3 7 0 文档 https docs python org 3 library functions html iter with open mydata txt as fp for l
NLTK 无法找到 stanford-postagger.jar！设置CLASSPATH环境变量

我正在开发一个项目需要我使用 nltk 和 python 来标记令牌所以我想用这个但遇到了一些问题我浏览了很多其他已经提出的问题和其他论坛但我仍然无法解决这个问题问题是当我尝试执行以下命令时 from nltk tag impo
GitHub 恢复或重置？ [复制]

这个问题在这里已经有答案了正如您在图片中看到的我正在功能 forum kolo 3 中工作我决定完成该功能并将其合并到开发中但没有将更改推送到远程开发因此它只是本地更改然后我意识到这是一个坏主意现在我想删除这个合并就像它从未
函数调用中的星号[重复]

这个问题在这里已经有答案了我正在使用 itertools chain 以这种方式展平列表列表 uniqueCrossTabs list itertools chain uniqueCrossTabs 这与说有什么不同 uniqueCr
无法从 celery 信号连接到 celery 任务？

我正在尝试连接task2 from task success signal from celery signals import task success from celery import Celery app Celery app t
确定 pyInstaller 生成的 Python EXE 中的应用程序路径

我有一个驻留在单个 py 文件中的应用程序我已经能够让 pyInstaller 将其成功捆绑到 Windows 的 EXE 中问题是应用程序需要一个 cfg 文件该文件始终直接位于应用程序旁边的同一目录中通常我使用以下代码构建路
使用 python pyad 访问对象 [] 时出现问题

我在尝试使用 pyad 访问活动目录用户属性时遇到问题这是我的代码 user pyad aduser ADUser from cn tuser print user get attribute lastLogonTimestamp 这些是

随机推荐

更改包装的原始数据类型的值

var test new Boolean 0 test prop OK 你能改变的值吗test to true but test prop应该还是好的换句话说 test应该是同一个对象内置对象包装器使用Boolean Number
Java中如何声明全局静态类？

在 C 中我可以创建这样的类 static class clsDBUtils public static SQLiteCommand cmd public static SQLiteConnection conn public stati
如何使用 C++ 在控制台窗口中显示图像？

我需要使用 C Windows 10 在控制台窗口中显示图像 bmp 不是按字符显示因为我已经知道如何显示而是以普通图像的方式逐像素显示图像不是通过启动另一个应用程序来在另一个窗口中显示图像而是在黑色控制台窗口中显示图像我在互联网
使用“gmm”（GMM 估计）时出现“系统计算奇异”错误

尝试使用 R 中的 GMM 包来估计线性模型的参数 a f LEV1 a Macro b Firm c Sector d qtr e fqtr f tax Macro Firm 和 Sector 是具有 n 行的矩阵 qtr fqtr 和t
在 iPhone X 上无法将界面方向旋转为纵向

我们有一个应用程序它使用连接到音频插孔或 iPhone7 或更高版本中的闪电端口的配件它需要在某些方向运行具体取决于 iOS 设备目前除 iPhoneX 模拟器外任何 iPhone 在模拟器或实际设备中设置设备方向都没有问题
RxJava：可观察和默认线程

我有以下代码 Observable create new ObservableOnSubscribe
测试元组是否具有所有不同的元素

我正在寻找一种方法来测试一个元组是否具有所有不同的元素也就是说它是一个集合最终得到了这个快速而肮脏的解决方案 def distinct tup n 0 for t in tup for k in tup print t k n if
如何在 Angular 2 中监听点击并按住的声音？

在这个链接中 https stackoverflow com questions 25180332 how can i listen for a click and hold in angularjs 你可以在 AngularJS 中找到一
在 bash 中如何检查文本文件是否以制表符作为分隔符？

所以我有一个文本文件它可能有一个制表符作为其字段分隔符分隔符或者可能有一个空格作为字段分隔符我想检查该文本文件是否已制成表格否则我将对该文件执行其他操作我正在使用 bash 脚本所以我对任何纯 bash sed awk gre
使用 webkitDirectory 和 Java Servlet 上传文件夹/子目录中的文件

我正在尝试使用 webkitdirectory 和 java 后端来实现文件上传功能步骤1 使用 webkitdirectory 设计 HTML 表单
新服务器的 SQL Server tempdb 优化技巧？

我正在计划全新安装SQL Server 2005在我必须订购的新机器上我知道临时数据库调优对整体来说非常重要表现SQL Server 实例的我读到最佳实践是创建与 CPU 或核心一样多的 tempdb 文件那是对的吗还有其他推荐
请求发布时出现 Python 错误：'连接中止，超时（'写入操作超时'）

我正在使用 requests post 发送一些数据现在我已经设置了超时值requests post类似的东西60 其他类似的问题与特定的应用程序相关所以我想将其作为通用的 python 错误来问这是我得到的错误 failed to
如何从回调函数中中断Word2vec训练？

我正在使用 gensim word2vec 训练 Skipgram 模型我想在达到基于不同数据集的特定准确性测试的参数中传递的时期数之前退出训练以避免模型过度拟合 gensim 有没有办法从回调函数中断 word2vec 的训练如果事
无符号算术和整数溢出

我试图理解算术溢出假设我有以下内容 unsigned long long x unsigned int y z x y z y z 可能导致整数溢出将其中一个操作数转换为 unsigned long long 是否可以缓解此问题 64
使用 jquery 在 div 内添加、调整大小、位置、颜色更改文本

我期待创建一种非常简单的方法允许用户在文本中书写调整大小位置或更改文本的颜色 div 我对 jQuery 了解一点 My HTML div class canvas div class u test class Testing div
Clojure - 将列表转换为 Java 数组

除了首先将 Clojure 列表转换为向量并使用之外是否有任何惯用的方法将 Clojure 列表转换为 Java 数组进入数组意思是除了 into array vec my list 因为我不想要额外的开销你的问题似乎是基于一个错误
基于索引列创建新列

我有一个包含 n 个观察值的数据集和一个包含观察值索引的列例如 col1 col2 col3 ID 12 0 4 1 6 5 3 1 5 21 42 2 并想根据我的索引创建一个新列例如 col1 col2 col3 ID col ne
如何从 Android 的 xml 字符串资源中检索 2D 数组？

假设我在 android 资源中存储了一个二维数组如下所示如何将它们放入像 Arraylist 这样的 java 集合中
Google App Engine 上的 Spring security openid

有人知道如何让 Spring security openid 在 Google App Engine 上工作吗我试过了但是有一个java security AccessControlException access denied err
在 spacy 的帮助下合并几乎相似的行

如果某些行几乎相似我想合并它们可以使用 spaCy 检查相似性 df string yellow color yellow color looks like yellow color bright red color okay red

在 spacy 的帮助下合并几乎相似的行

在 spacy 的帮助下合并几乎相似的行 的相关文章

随机推荐

热门标签

在 spacy 的帮助下合并几乎相似的行的相关文章