自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

2023-05-16

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

所用数据集：ChnSentiCorp_htl_all.csv
语料库即存放稀疏向量的列表。
要注意的是，搜索文本text与被检索的文档共用一个特征词词典。

NLP计算文本相似度的方法，可以参考博文：https://blog.csdn.net/weixin_34101784/article/details/94639717

代码主要使用gensim库完成了分词、TF-IDF模型训练、文本相似度计算。
过程如下：

分词、建立特征词典、建立语料库、用TF-IDF模型处理语料库、计算搜索文本与被检索文本的相似度。
示例代码：

import csv
import jieba
from gensim import corpora, models, similarities

count = 0
wordListTop10 = []
with open('ChnSentiCorp_htl_all.csv', 'r', encoding='utf-8') as f:
    lines = csv.reader(f)  # lines的类型是<class '_csv.reader'>   指向csv文件的第一行

    next(lines)  # 指向csv文件的第二行  这个函数的参数是迭代器（iterator）和一个default
    # next(iterator, default)
    # default是迭代器已经到了最末端，再调用next()函数的输出值。不填这个参数的话，到了最末端还用next()的话会报错。

    for line in lines:
        # 只选取前10句话
        if count == 10:
            break

        segList = list(jieba.cut(line[1]))  # 分词      jieba.cut(line[1])对每一行列表的第二个元素进行分词，类型是generator
        wordListTop10.append(segList)  # 把前10句话的所有分词放进一个列表中，该列表为一个列表嵌套10个列表
        count += 1
#         print('/'.join(segList))       # '/'.join(segList)将segList即每句话的分词列表 转换成字符串，用’/‘将每个元素连接起来


"""
制作词袋模型（bag_of_word  (bow)）
"""
# 制作字典
dictionary = corpora.Dictionary(wordListTop10)
# 可以通过token2id得到特征数字
# print(dictionary.token2id)

"""
制作数字向量类型的语料库（doc2bow）
"""
# ----> 将字符串转换成数字向量类型的词袋模型(稀疏向量)
# 源文件不做处理是一个字符串类型的语料库
corpus = [dictionary.doc2bow(doc) for doc in wordListTop10]


def semblance(text, corpus):
    # 对测试文本分词
    dic_text_list = list(jieba.cut(text))

    # 制作测试文本的词袋
    doc_text_vec = dictionary.doc2bow(dic_text_list)

    # 获取语料库每个文档中每个词的tfidf值，即用tfidf模型训练语料库
    tfidf = models.TfidfModel(corpus)

    # 对稀疏向量建立索引
    index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
    sim = index[tfidf[doc_text_vec]]  # 相当于sim = index.get_similarities(tfidf[doc_text_vec])
    print(sim)
    print(len(sim))
    # 按照相似度来排序
    sim_sorted = sorted(enumerate(sim, 1), key=lambda x: -x[1])  # enumerate(x, 1) 代表从1开始设立索引
    # 相当于sorted(enumerate(sim), key=lambda x: x[1], reverse=True
    print(sim_sorted)


#     for e,s in enumerate(sim,1):
#         print('text 与 doc%d 相似度为：%.6f' % (e, s))

if __name__ == '__main__':
    text = '这个商务大床房，感觉还不错'
semblance(text, corpus)

运行结果：

[0.         0.46778572 0.11295232 0.01399767 0.         0.05849655
 0.01257649 0.01730035 0.03707163 0.09614414]
10
[(2, 0.46778572), (3, 0.11295232), (10, 0.09614414), (6, 0.058496553), (9, 0.037071627), (8, 0.017300347), (4, 0.013997675), (7, 0.012576494), (1, 0.0), (5, 0.0)]

可以看到，text与数据集中第二条语句相似度最高。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

IDF

自然语言处理

模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章

C++ - 如何使用 C++ 读取 Unicode 字符（例如印地语脚本），或者是否有通过其他编程语言更好的方法？

我有一个像这样的印地语脚本文件 3 我必须编写一个程序为每个句子中的每个单词添加一个位置因此特定单词位置的每一行的编号应以括号中的 1 开头输出应该是这样的 3 1 2 3 4 5 6 7 8 9 上面这句话的意思是 3 India
运行时错误：CUDA 错误：设备端断言已触发 - 训练 LayoutLMV3 时

我正在训练最新版本的layoutLMv3模型但在开始训练时trainer train 出现以下错误请帮我解决它我使用的是 v100 4 GPU RuntimeError Traceback most recent call last
Attention机制中的“源隐藏状态”指的是什么？

注意力权重计算如下我想知道什么h s指在tensorflow代码中编码器RNN返回一个元组 encoder outputs encoder state tf nn dynamic rnn 正如我所想 h s应该是encoder sta
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
NLTK 中的 FreqDist 未对输出进行排序

我是 Python 新手我正在尝试自学语言处理 python 中的 NLTK 有一个名为 FreqDist 的函数可以给出文本中单词的频率但由于某种原因它无法正常工作这是教程让我写的 fdist1 FreqDist text1 vo
日期自然语言解析器（.NET）？

我希望能够让用户使用自然语言例如下周五每个工作日输入日期包括重复日期很像以下的例子http todoist com Help timeInsert http todoist com Help timeInsert I found
AttributeError：使用 CRF 时“Tensor”对象没有属性“_keras_history”

我知道关于这个问题有很多问题我已经阅读了其中的一些问题但没有一个对我有用 I am trying to build a model with the following architecture 代码如下 token inputs In
日语/字符的编程技巧[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我有一个想法可以编写一些网络应用程序来帮助我也许还有其他人更好地学习日语因为我正在学习日语我的问题是该网站主要是英文的所以
在哪里可以找到英语短语列表？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我的任务是搜索文本中陈词滥调和常见短语的用法这些短语与您在财富之轮的短语谜题中可能看到的短语类似这
如何将地名词典或词典表示为 crf++ 中的特征？

如何使用地名词典或词典作为功能CRF https taku910 github io crfpp 详细说明假设我想对人名进行 NER 并且我有一个包含常见人名的地名词典或字典我想使用这个地名词典作为 crf 的输入我该怎么做我正在
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
在非单一维度 1 处，张量 a (2) 的大小必须与张量 b (39) 的大小匹配

这是我第一次从事文本分类工作我正在使用 CamemBert 进行二进制文本分类使用 fast bert 库该库主要受到 fastai 的启发当我运行下面的代码时 from fast bert data cls import Bert
使用 nltk 进行分块

如何从给定模式的句子中获取所有块示例 NP
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
Blenderbot 微调

我一直在尝试微调 HuggingFace 的对话模型 Blendebot 我已经尝试过官方拥抱脸网站上给出的传统方法该方法要求我们使用 trainer train 方法来完成此操作我使用 compile 方法尝试了它我尝试过使用 Py
从文本文件中提取与输入单词最相似的前 N 个单词

我有一个文本文件其中包含我使用 BeautifulSoup 提取的网页内容我需要根据给定的单词从文本文件中找到 N 个相似的单词流程如下从中提取文本的网站 https en wikipedia org wiki Football h
python中的语音识别持续时间设置问题

我有一个 Wav 格式的音频文件我想转录我的代码是 import speech recognition as sr harvard sr AudioFile speech file wav with harvard as source
SpaCy 模型“en_core_web_sm”的词汇量大小

我尝试在 SpaCy 小模型中查看词汇量 model name en core web sm nlpp spacy load model name len list nlpp vocab strings 只给了我 1185 个单词我也在同
缩短文本并仅保留重要句子

德国网站 nandoo net 提供了缩短新闻文章的可能性如果使用滑块更改百分比值文本会发生变化并且某些句子会被遗漏您可以在这里看到它的实际效果 http www nandoo net read article 299925 http

随机推荐

OpenHD---低成本开源高清数字图传

转载注明出处文章目录一前言二 OpenHD简单介绍三图传材料准备1 树莓派2 摄像头排线 SD卡读卡器4 网卡四硬件连接五镜像刷写六通电测试七系统参数设置八连接飞控九关于二次开发十最后一前言这篇文章是对树莓
PS2手柄通讯协议解析---附资料和源码

文章目录一 PS2介绍二 PS2通讯协议介绍 xff08 1 xff09 PS2端口介绍 xff08 2 xff09 PS2通讯过程三基于STM32的PS2通信源码四文档与源码下载链接一 PS2介绍今天就带大家来认识一下PS2的
Stm32延时与计时方法（HAL库）

文章目录一延时的3种方法1 循环延时2 定时器中断延时与非中断延时三定时器中断式计时与延时二定时器非中断式延时四代码例程五同系列博客一延时的3种方法首先 xff0c 先了解一下什么延时顾名思义 xff0c 延时即是延长
CAN通信知识梳理及在Stm32上的应用（HAL库）

文章目录一 CAN通信简介二硬件连接三 CAN总线上的电平信号四 CAN帧的种类 xff08 1 xff09 遥控帧 xff08 2 xff09 数据帧五 CAN的仲裁方法六 CAN在Stm32上的应用 xff08 1 xff09 C
C语言标准库函数大全（ctype、time 、stdio、stdlib、math、string）

文章目录 C语言函数库一 lt ctype h gt 二 lt math h gt 三 lt stdio h gt 四 lt stdlib h gt 五 lt time h gt 六 lt string h gt 文档资料 C语言函数库
作品分享:基于STM32的温度报警器含源码、原理图、PCB文件、作品报告

文章目录一前言二材料准备三硬件部分四软件部分1 底层封装库2 中间层3 应用层五外壳设计六资料链接一前言该作品是我在华工电工开放实习的作品 xff0c 本作品由七部分组成中央为Stm32F405RG芯片 xff0c
基于时延法的麦克风阵列声源定位分析

文章目录一关于麦克风阵列二关于声源定位三基于广义互相关 GCC 计算时延四基于时延差的声源定位法1 近场模型2 远场模型五三维空间阵列的声源定位系统实现1 推导过程六六元圆形麦克风阵列声源定位七相关链接一关于麦克风阵
STM32实现PWM输出与PWM输入捕获（HAL库）

文章目录一前言二 STM32 定时器2 1 基本定时器2 1 1 功能与框图2 1 2 CubeMX配置 2 2 通用定时器2 2 1 功能与框图2 2 2 CubeMX配置 2 3 高级定时器2 3 1 功能与框图2 3 2 Cube
宇树A1电池拆解分享

文章目录一关于A1电池二拆解过程2 1 结构设计2 2 电路方案2 3 电芯设计三相关链接一关于A1电池今天的主角是宇树的A1电池该电池主要用在宇树的A1机器狗上 xff0c A1主打的是运动性能 xff0c 最大持续奔跑
大疆Mini1充电管家拆解分享

文章目录一关于充电管家二拆解过程一关于充电管家御Mini充电管家外观简洁优雅 xff0c 最多可容纳三块电池进行充电 xff0c 在一块电池充满电后会自动进行下一块电池的充电 xff0c 支持电池的电量显示除此之外 xff0c
磁盘高级管理工具VDO (redhat8版本以上或者centos8以上)

1 vdo简述 Virtual Data Optimizer 通过数据去重压缩的方式来优化存储空间 VDO层放置在现有块存储设备上 xff0c 例如Raid设备本地磁盘设备 LVM 或文件系统放置在VDO层之上 xff0c 也可以将V
bootloader学习笔记---第一篇以stm32为例

目录一 bootloader的任务二 bootloader开发的基础知识段的概念重定位的概念散列文件的概念异常向量 xff08 待补充 xff09 三最简单的bootloader程序四使用汇编跳转五备注一 bootl
场景文本识别模型综述

一数据集的分析一训练数据集大多数自然场景文字识别算法使用合成数据进行训练两个常用的合成数据集是 MJSynth MJ 和 SynthText ST xff0c 分别包含890万和550万张训练样本图1 不同比例的训练数据集 xf
数据挖掘实验一使用matplotlib进行绘图

曲线图 span class token keyword import span numpy span class token keyword as span np span class token keyword import span
爬虫之爬取百度贴吧

爬虫之爬取百度贴吧直接示例代码 xff1a import requests from lxml import html etree 61 html etree from lxml import etree class Tieba obje
正则表达式匹配开头和结尾（^、$、[^指定字符]）

1 匹配开头和结尾代码功能匹配字符串开头匹配字符串结尾示例1 xff1a 需求 xff1a 匹配以数字开头的数据 import re 匹配以数字开头的数据 match obj 61 re match 34 d 34 34 1hell
人工智能主要分支

人工智能主要分支 1 主要分支介绍通讯感知与行动是现代人工智能的三个关键能力 xff0c 在这里我们将根据这些能力应用对这三个技术领域进行介绍 xff1a 计算机视觉 CV 人脸识别自然语言处理 NLP 语音识别语义识别在 NL
re.sub()用法详解

源代码参数及其意义 xff1a def sub pattern repl string count 61 0 flags 61 0 34 34 34 Return the string obtained by replacing the
BERT模型的详细介绍

1 BERT 的基本原理是什么 xff1f BERT 来自 Google 的论文Pre training of Deep Bidirectional Transformers for Language Understanding xff0c
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理 NLP 之使用TF IDF模型计算文本相似度所用数据集 xff1a ChnSentiCorp htl all csv 语料库即存放稀疏向量的列表要注意的是 xff0c 搜索文本text与被检索的文档共用一个特征词词典 NL

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度 的相关文章

随机推荐

热门标签

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章