如何进行句子之间的比较并计算相似度？

2023-12-06

如何将第一句、第二句、第一句与第三句等进行比较，并使用shell script or bash

我有一个包含重复单词的句子，例如文件中的输入数据my_text.txt并且应该忽略每个句子中的重复单词、填充词和非字母字符。

外壳脚本
Linux shell 脚本
shell 或 bash 很有趣

我使用这个 shell 脚本来查找相似性

  words=$(
  < my_text.txt tr 'A-Z' 'a-z' |
  grep -Eon '\b[a-z]*\b' |
  grep -Fwvf <(printf %s\\n is a to be by the and for) |
  sort -u | cut -d: -f2 | sort
  )
  union=$(uniq <<< "$words" | wc -l)
  intersection=$(uniq -d <<< "$words" | wc -l)
  echo "similarity is $(bc -l <<< "$intersection/$union")"

上面的脚本一次计算所有句子的相似度，但我想找到所有相似度对（例如 1:2、1:3、1:4、...、2:3、2:4、...、3:4 , ...)

我想找到像这2个例子一样的相似性：

对于第一句和第二句：
两个句子的交集：Shell + Script
两个句子的并集“size”：3
相似度 : 0.66666666

--

对于第一句和第三句 :
两个句子的交集：Shell
两个句子的并集“size”：4
相似度 : 0.25

有人可以帮忙吗？

对我的答案稍作调整你之前的问题，仍然使用 GNU awk 进行 FPAT 和数组的数组：

$ cat tst.awk
BEGIN {
    split("is a to be by the and for",tmp)
    for (i in tmp) {
        stopwords[tmp[i]]
    }
    FPAT="[[:alnum:]_]+"
}
{
    for (i=1; i<=NF; i++) {
        word = tolower($i)
        if ( !(word in stopwords) ) {
            words[NR>1?2:1][word]
        }
    }
}
NR > 1 {
    numCommon = 0
    for (word in words[1]) {
        if (word in words[2]) {
            numCommon++
        }
    }
    totWords = length(words[1]) + length(words[2]) - numCommon
    print (totWords ? numCommon / totWords : 0)
    delete words[2]
}

$ awk -f tst.awk file
0.666667
0.166667

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Linux

bash

shell

unix

commandline

如何进行句子之间的比较并计算相似度？的相关文章

如果输入被重定向则执行操作

我想知道如果我的输入被重定向我应该如何在 C 程序中执行操作例如假设我有已编译的程序 prog 并且我将输入 input txt 重定向到它我这样做 prog lt input txt 我如何在代码中检测到这一点一般来说您无法判
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Java时区混乱

我正在运行 Tomcat 应用程序并且需要显示一些时间值不幸的是时间快到了还有一个小时的休息时间我调查了一下发现我的默认时区被设置为 sun util calendar ZoneInfo id GMT 08 00 offset
如何在 bash_profile 文件中添加导出语句？

我正在尝试了解是否必须添加导出语句来在 bash profile 文件中设置变量我该怎么做呢例如如果我必须添加 export AX name 那么我应该将其简单地写在文件末尾还是我还需要编写其他内容简单写一下export AS na
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
命令中的 Bash 变量扩展[重复]

这个问题在这里已经有答案了 DATE 1 week ago date date DATE 不起作用我怎样才能让它发挥作用我可以做 DATE CMD date date DATE eval DATE CMD 但我不想将整个命令存储在变量中
Mac psql/readline - 库未加载

我正在 Mac Sierra 10 12 3 上工作并且尝试通过以下方式访问 PostgreSQL 数据库psql命令但它引发了错误 dyld Library not loaded usr local opt readline lib
Linux >2.6.33：可以使用 sendfile() 来实现更快的“猫”吗？

必须将大量大文件连接成一个更大的单个文件我们目前使用 cat file1 file2 output file but are wondering whether it could be done faster than with that
当在 python linux 中执行命令 os.system() 时，在 python 中给出响应 yes/no

考虑一个像这样的命令 yum install boto 当我在终端中执行时要继续会询问我是否我可以像这样用 python 回应它吗 os system yum install boto Next Yes 将通过相同的 python
无法从 bash 脚本使用 nvm

我正在尝试编写一个 shell 脚本来自动设置我的开发环境安装 python nvm node mongo 等我正在使用 nvm 来安装 Node js 它告诉您关闭并重新打开终端以开始使用 nmv 命令我尝试获取 bashrc 和
Linux 中有没有一种轻量级的方法来获取当前进程数？

我希望我的基于 C C 的程序显示一个数字指示器指示本地系统上当前有多少个进程将经常查询正在运行的进程数值例如每秒一次以更新我的显示有没有一种轻量级的方法来获取该数字显然我可以调用 ps ax wc l 但我不想强迫计算机生
UNIX时间记录时区吗？

我想问一下UNIX时间 UNIX时间是否记录时区我将托管从美国芝加哥移至 JST 问题是我的整个 MySQL 数据库都有 UNIX 时间芝加哥美国时区的记录我有一个 PHP 代码来显示之前的时间例如 3 天前昨天等当我搬到新
通过 Node.js 运行 bash 脚本 - 非法选项 -o pipelinefail

我正在尝试使用 Node js 执行 bash 脚本child process exec 然而它在文件的第二行爆炸 usr bin env bash set eo pipefail TRACE set x echo we are here
用于 e NetworkManager VPN 连接的 dbus 信号处理程序

我需要开发一些在建立 VPN 连接时执行的 python 代码 VPN 由 NetworkManager 控制我试图弄清楚如何为此使用 NM DBUS 事件使用 dbus monitor system 我能够识别连接信号 signal
在 MacOS 上构建需要 net461 的 dotnet SDK 项目的最简单方法

我有一个 dotnet SDK sln and a build proj with
使用 wget 从 Google Scholar 搜索结果下载所有 pdf 文件

我想写一个简单的网络蜘蛛或者只是使用wget从谷歌学术下载 pdf 结果这实际上是获取研究论文的一种非常巧妙的方式我已阅读 stackoverflow 上的以下页面使用wget爬取网站并限制爬取链接总数 https stackover
虚拟内存澄清——大连续内存的分配

我有一个应用程序我必须在 Windows 上分配使用运算符 new 相当大的内存空间数百 MB 该应用程序是 32 位我们现在不使用 64 位即使在 64 位系统上也是如此我启用了 LARGEADDRESSAWARE 链接器选项
如何在 Ubuntu/Linux 发行版中安装 Tesseract-OCR 3.03？

我和一个朋友有兴趣为 CV 项目训练 tesseract OCR 引擎我们尝试使用一些包装器例如 PyTesser 和 pyocr 但结果目前不如我们需要的那么准确因此我们希望尝试训练超立方体以更好地实现我们的目的即识别食品标签上
使用 Python 将阿拉伯语或任何从右到左书写系统的字符串打印到 Linux 终端

非常简单的例子是 city print city 我期望输出是但实际上输出是相反的字符串字母看起来有点不同因为它们有开始中间和结束形式我无法将其粘贴到此处因为复制粘贴会再次更正字符串的顺序如何在 Linux 终端上正确打印阿拉
从命令行运行 PHP 脚本

如何使用用于解析 Web 脚本的 PHP 解释器从命令行运行 PHP 脚本我有一个phpinfo php从网络访问的文件显示German已安装但是如果我运行phpinfo php从命令行使用 php phpinfo php and g

随机推荐

逐渐移动图片框，而不是立即移动

我有一个 PictureBox 我想在单击按钮后在 y 轴上向上移动问题是单击按钮后 PictureBox 就出现在那里我希望它移动到新位置而不是瞬移我该怎么办 public partial class Form1 Form Po
PHP中的XSS过滤功能

有谁知道有一个很好的功能可以过滤表单中的通用输入吗 Zend Filter input 似乎需要先了解输入的内容我担心使用 HTML Purifier 之类的东西会对性能产生很大的影响怎么样 function sacarXss val
Django：UnboundLocalError：赋值前引用的局部变量“公司”

我试图通过在其中传递两个主键来在详细视图中创建一个 url 字段这是我在 urls py 中所做的 url r company P
在运行时指定通用集合类型参数[重复]

这个问题在这里已经有答案了 I have class Car class Other List
PyQt-QtableView 标头。如何添加右上角的小按钮来隐藏/显示带有选中/未选中复选框的列？

对于 PyQt4 我使用具有 10 多个列的 QtableView 用户必须可以选择显示隐藏列这通常是通过在表标题的右上角添加一个小按钮来完成的该按钮显示一个菜单其中包含选中未选中的复选框允许隐藏显示列这是一个例子Sqlit
批处理脚本编程--如何允许用户从文件夹中的文件列表中按编号选择文件？

我有一个文件夹里面有N个文件我试图弄清楚如何执行以下操作显示文件列表文件旁边带有数字以供选择 01 FileA pdf 02 FileB pdf 03 FileC pdf 然后让用户通过输入相应的数字来选择他想要使用的文件我不知
C# 中从 DllImport 函数检索引用的指针

我在我的 C 项目中引用了一个 DLL 如下所示 DllImport FeeCalculation dll CallingConvention CallingConvention StdCall CharSet CharSet Ansi p
db derby 启动网络服务器

我在启动德比服务器时遇到问题我的德比版本 db derby 10 11 1 1 我按照这个教程进行操作 http db apache org derby papers DerbyTut ns intro html 但输入 startNet
如何通过 build.gradle 使 Android 库可用？

我制作了一个 Android 库我想上传它以便通过 build gradle 供所有 Android 开发人员使用我已经关注了这些步骤 and 这些步骤但这是我第一次这样做无法实现我很感激你们中一些已经做到的人的建议或指示但我
如何仅使用 jQuery（不使用其他插件）创建 jQuery 弹出窗口

我需要知道我们是否可以只使用 jQuery 来实现 jQuery 弹出而不使用其他插件如 Fancybox Lightbox 等你可以这样做 var mywin window open my popup location 0 sta
返回后代的单例实例

我有几个单例类所以我尝试使用方法 GetInstance params 和派生类创建一个父 BaseClass 它们应该实现此方法并返回它们自己的实例所以我不必强制转换它们它们是单例方法应该是静态的但不允许覆盖静态方法编码的最佳
根据参数使函数异步

我有一个发出 HTTP 请求然后返回响应的函数我希望这个函数能够根据参数以阻塞或非阻塞模式运行这在 Python 中可能吗我想象的伪代码会是这样的 def maybe async asynchronous if asynchronou
Django：STATIC_URL 将应用程序名称添加到 url

我已经配置了静态设置如下所示 STATIC ROOT os path join SITE ROOT static STATIC URL static STATICFILES DIRS js os path join STATIC ROOT
使用 sklearn 在嵌套交叉验证中使用 GroupKFold

我的代码基于sklearn网站上的示例 https scikit learn org stable auto examples model selection plot nested cross validation iris html 我
回顾一下：geom_path：每组仅包含一个观察结果。群体审美需要调整吗？

Using 这个数据框我尝试使用以下代码创建一个简单的线图 crypto data lt crypto data gt gather Cryptocurrencies USD Exchange Date ggplot data crypt
Xcode 导出本地化抛出错误“参数列表太长”

我有一个关于 Xcode 本地化过程的非常奇怪的错误要分享我将尽力在合法的情况下分享尽可能多的细节我正在尝试从 Xcode 导出 XLIFF 文件以通过编辑器 gt 导出本地化发送给我们的翻译人员但是这会立即引发错误并显示以下消
在 C/C++ 中将 int 转换为 bool

我知道在 C 和 C 中当将 bool 转换为 int 时 int true 1 and int false 0 我想知道是否可以反向投射在下面的代码中在使用 Visual Studio 2013 和 Keil Vision 5 编译
如何将坐标转换为geoPoint格式？

我得到以下格式的纬度和经度坐标
pip install & UnicodeDecodeError: 'utf-8' 编解码器无法解码位置 9 中的字节 0xe0: 无效的连续字节

尝试安装 pip install python binance Result Exception Traceback most recent call last File c users appdata local programs pyt
如何进行句子之间的比较并计算相似度？

如何将第一句第二句第一句与第三句等进行比较并使用shell script or bash 我有一个包含重复单词的句子例如文件中的输入数据my text txt并且应该忽略每个句子中的重复单词填充词和非字母字符外壳脚本Linux

如何进行句子之间的比较并计算相似度？

--

如何进行句子之间的比较并计算相似度？ 的相关文章

随机推荐

热门标签

如何进行句子之间的比较并计算相似度？的相关文章