自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

2023-05-16

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

所用数据集：ChnSentiCorp_htl_all.csv
语料库即存放稀疏向量的列表。
要注意的是，搜索文本text与被检索的文档共用一个特征词词典。

NLP计算文本相似度的方法，可以参考博文：https://blog.csdn.net/weixin_34101784/article/details/94639717

代码主要使用gensim库完成了分词、TF-IDF模型训练、文本相似度计算。
过程如下：

分词、建立特征词典、建立语料库、用TF-IDF模型处理语料库、计算搜索文本与被检索文本的相似度。
示例代码：

import csv
import jieba
from gensim import corpora, models, similarities

count = 0
wordListTop10 = []
with open('ChnSentiCorp_htl_all.csv', 'r', encoding='utf-8') as f:
    lines = csv.reader(f)  # lines的类型是<class '_csv.reader'>   指向csv文件的第一行

    next(lines)  # 指向csv文件的第二行  这个函数的参数是迭代器（iterator）和一个default
    # next(iterator, default)
    # default是迭代器已经到了最末端，再调用next()函数的输出值。不填这个参数的话，到了最末端还用next()的话会报错。

    for line in lines:
        # 只选取前10句话
        if count == 10:
            break

        segList = list(jieba.cut(line[1]))  # 分词      jieba.cut(line[1])对每一行列表的第二个元素进行分词，类型是generator
        wordListTop10.append(segList)  # 把前10句话的所有分词放进一个列表中，该列表为一个列表嵌套10个列表
        count += 1
#         print('/'.join(segList))       # '/'.join(segList)将segList即每句话的分词列表 转换成字符串，用’/‘将每个元素连接起来


"""
制作词袋模型（bag_of_word  (bow)）
"""
# 制作字典
dictionary = corpora.Dictionary(wordListTop10)
# 可以通过token2id得到特征数字
# print(dictionary.token2id)

"""
制作数字向量类型的语料库（doc2bow）
"""
# ----> 将字符串转换成数字向量类型的词袋模型(稀疏向量)
# 源文件不做处理是一个字符串类型的语料库
corpus = [dictionary.doc2bow(doc) for doc in wordListTop10]


def semblance(text, corpus):
    # 对测试文本分词
    dic_text_list = list(jieba.cut(text))

    # 制作测试文本的词袋
    doc_text_vec = dictionary.doc2bow(dic_text_list)

    # 获取语料库每个文档中每个词的tfidf值，即用tfidf模型训练语料库
    tfidf = models.TfidfModel(corpus)

    # 对稀疏向量建立索引
    index = similarities.SparseMatrixSimilarity(tfidf[corpus], num_features=len(dictionary.keys()))
    sim = index[tfidf[doc_text_vec]]  # 相当于sim = index.get_similarities(tfidf[doc_text_vec])
    print(sim)
    print(len(sim))
    # 按照相似度来排序
    sim_sorted = sorted(enumerate(sim, 1), key=lambda x: -x[1])  # enumerate(x, 1) 代表从1开始设立索引
    # 相当于sorted(enumerate(sim), key=lambda x: x[1], reverse=True
    print(sim_sorted)


#     for e,s in enumerate(sim,1):
#         print('text 与 doc%d 相似度为：%.6f' % (e, s))

if __name__ == '__main__':
    text = '这个商务大床房，感觉还不错'
semblance(text, corpus)

运行结果：

[0.         0.46778572 0.11295232 0.01399767 0.         0.05849655
 0.01257649 0.01730035 0.03707163 0.09614414]
10
[(2, 0.46778572), (3, 0.11295232), (10, 0.09614414), (6, 0.058496553), (9, 0.037071627), (8, 0.017300347), (4, 0.013997675), (7, 0.012576494), (1, 0.0), (5, 0.0)]

可以看到，text与数据集中第二条语句相似度最高。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLP

IDF

自然语言处理

模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章

NLP 中的否定处理

我目前正在开发一个项目我想从文本中提取情感由于我使用的是conceptnet5 一种语义网络因此我不能简单地在包含否定词的句子中添加单词前缀因为这些单词根本不会出现在conceptnet5 的API 中这是一个例子这部电影不太好
添加对 CountVectorizer (sklearn) 的词干支持

我正在尝试使用 sklearn 将词干添加到 NLP 中的管道中 from nltk stem snowball import FrenchStemmer stop stopwords words french stemmer French
如何在keras中使用Bert作为长文本分类中的段落编码器来实现网络？

我正在做一个长文本分类任务文档中有超过 10000 个单词我计划使用 Bert 作为段落编码器然后将段落的嵌入逐步输入 BiLSTM 网络如下输入 batch size max paragraph len max tokens pe
创建向量空间

我有一个问题我有很多文档每一行都是由某种模式构建的当然我有这一系列的图案我想创建一些向量空间然后通过某种规则来向量这个模式我还不知道这个规则是什么即使这个模式像我的向量空间的质心然后向量当前文档的每一行再次按照此规则
使用 NLTK python 对使用示例数据或 Web 服务的句子进行情感分析？

我正在着手一个用于情感分析的 NLP 项目我已经成功安装了Python的NLTK 看起来是一个很棒的软件但是我无法理解如何使用它来完成我的任务这是我的任务我从一长条数据开始假设来自他们的网络服务的数百条关于英国大选主题的推文我
Python 3 和 NLTK 与 WordNet 2.1 - 这可能吗？

我将 Python 3 和 NLTK 3 0 0 与 WordNet 3 0 结合使用我想用该数据 semval2007 https github com alvations pywsd tree master pywsd data se
word2vec中单词的向量代表什么？

word2vec https code google com p word2vec 是 Google 的开源工具它为每个单词提供一个浮点值向量它们到底代表什么还有一篇论文关于段落向量 http cs stanford edu quoc
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
如何有效计算文档流中文档之间的相似度

我收集文本文档在 Node js 中其中一个文档i表示为单词列表考虑到新文档以文档流的形式出现计算这些文档之间相似性的有效方法是什么我目前对每个文档中单词的归一化频率使用余弦相似度我不使用 TF IDF 词频逆文档频率因为我
SpaCy 的相似度是如何计算的？

初学者 NLP 问题在这里 similarity 方法如何运作哇 spaCy 太棒了它的tfidf模型可以更容易预处理但w2v只有一行代码 token vector 惊人的 In his spaCy 上的 10 行教程 https g
target_vocab_size 在方法 tfds.features.text.SubwordTextEncoder.build_from_corpus 中到底意味着什么？

根据这个链接 https www tensorflow org datasets api docs python tfds features text SubwordTextEncoder build from corpus target
否定句子的算法

我想知道是否有人熟悉算法句子否定的任何尝试例如给定一个句子这本书很好请提供任意数量的意思相反的替代句子例如这本书不好甚至这本书不好显然以高精度实现这一点可能超出了当前 NLP 的范围但我确信在这个主题上已经有了一些工作
如何训练斯坦福 NLP 情感分析工具

地狱大家我正在使用斯坦福核心 NLP 包我的目标是对推文直播进行情感分析按原样使用情感分析工具对文本态度的分析非常差许多积极因素被标记为中性许多消极因素被评为积极我已经在文本文件中获取了超过一百万条推文但我不知道如何实际获
实时跟踪每分钟/小时/天的前 100 个 Twitter 单词

我最近遇到这样一个面试问题 Given a continuous twitter feed design an algorithm to return the 100 most frequent words used at this min
NLTK 中的无监督 HMM 训练

我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
如何对德语文本进行词形还原？

我有一篇德语文本我想对其应用词形还原如果不可能进行词形还原那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
使用正则表达式标记化进行 NLP 词干提取和词形还原

定义一个函数名为performStemAndLemma 它需要一个参数第一个参数 textcontent 是一个字符串编辑器中给出了函数定义代码存根执行以下指定任务 1 对给出的所有单词进行分词textcontent 该单词应包含字
openNLP 与 Solr 集成时出现异常

我正在尝试将 openNLP 与 Solr 6 1 0 集成我配置了架构和 solrconfig 文件详细信息请参见 wiki 链接 https wiki apache org solr OpenNLP https wiki apach
阻止斯坦福核心 NLP 服务器输出它收到的文本

我正在运行一个斯坦福核心自然语言处理 http stanfordnlp github io CoreNLP server java mx4g cp edu stanford nlp pipeline StanfordCoreNLPServe
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec

随机推荐

NRF24L01+实现一对一数据双向传输

NRF24L01 43 实现一对一数据双向传输目录说明带负载数据ACK的双向通信配置NRF24L01 43 的收发程序收发双方数据的处理测试代码和结果目录说明最近在diy四轴飞行器的时候 xff0c 需要实现四轴和遥控器之间的双向通
RT-Thread开启串口.中断和DMA接收（手把手教学）

1 串口介绍串口是指数据一位一位地顺序传送 xff0c 其特点是通讯线路简单 xff0c 只要一对传输线就可以实现双向通信 xff08 可以直接利用电话线作为传输线 xff09 xff0c 从而大大降低了成本 xff0c 特别适用于远距离
stm32使用MPU6050读取温度值验证I2C

通过MPU6050测温来进行I2C的验证学习关于MPU6050寄存器相关可以参考https blog csdn net he yuan article details 76559569 I2C时序很多 xff0c 我是直接以原子I2C的程
String的长度限制

String的长度是有限制的 String存储 String其实是使用的一个char类型的数组来存储字符串中的字符的看看字符串返回长度的方法返回值类型是int类型其长度最大限制为2 31 1 xff0c 那么说明了数组的长度是0 2
通过isapi协议抓拍图片

PC端通过isapi协议抓拍摄像头图片说明 xff1a 1 isapi协议类似于http协议 2 通过isapi协议抓拍图片要经过这几个步骤 2 1 先创建socket xff0c 再连接服务器 xff08 也就是摄像机 xff09 co
yolo|使输出的结果txt含目标的四个坐标信息及类别置信度

最近参加的智能船舶挑战赛对结果的格式要求 xff1a 包含目标边界框从左上角开始的顺时针标注点坐标 xff0c 目标类别以及目标类别分数 xff0c 并用空格分开如下图所示 xff1a 故对yolov5的detect py进行修改 xff
平台开发——安装海康摄像头（2402系列球机）并实现对其RTSP的推流

本次购入了一台海康2402系列球机 xff08 DS 2DC2402IW D3 W xff09 xff0c 对设备进行了激活设置及简要操作 xff0c 在服务器上对其进行了推流购买摄像头本次购买了海康威视DS 2DC2402IW D3
TIPS：Ubuntu 系统python版本切换

1 查看 xff08 1 xff09 查看系统中存在的python版本 xff1a ls usr bin python xff08 2 xff09 查看系统默认版本 xff1a python version 2 修改 xff08 1 xff
报错：CommandNotFoundError: Your shell has not been properly configured to use ‘conda activate‘.

新安装anaconda xff0c 输入 conda activate 报错终端输入 xff1a source activate source deactivate conda activate
Windows下C++调用Http接口

1 WininetHttp h span class token macro property span class token directive keyword pragma span once span span class toke
ubuntu系统 PyImport_ImportModule 返回 NULL

原因 xff1a 1 python文件出错 2 python文件路径出错在PyImport ImportModule命令前添加语句 PyRun SimpleString 34 import sys 34 PyRun SimpleStrin
ModuleNotFoundError:No module named

经典报错 xff1a ModuleNotFoundError No module named XXX 但通过conda list 可以发现相关第三方包在程序中添加路径 import sys sys path append 39 三方包路径
Iterator迭代器

1 迭代器的概述迭代器是一种通用的遍历集合取出集合中元素的方式迭代器由来集合有很多种每种集合的数据结构是不同的数组链表哈希表集合取出元素的方式也不同我们不可能为每种集合都定义一种取出元素的方式浪费所以我们就可以使用
strcat函数将两个字符串拼接在一起

span class token macro property span class token directive keyword include span span class token string 34 pch h 34 span
4、C语言结构体使用---链表

结构体 1 掌握结构体的概念和用法 2 掌握结构体数组和结构体指针 3 掌握包含结构体的结构体 4 掌握结构体搭建链表方法 5 掌握结构体及链表在产品应用场景结构体的概念比如说学生的信息 xff0c 包含了学生名称学号性别年龄等信
爬虫之爬取百度贴吧

爬虫之爬取百度贴吧直接示例代码 xff1a import requests from lxml import html etree 61 html etree from lxml import etree class Tieba obje
正则表达式匹配开头和结尾（^、$、[^指定字符]）

1 匹配开头和结尾代码功能匹配字符串开头匹配字符串结尾示例1 xff1a 需求 xff1a 匹配以数字开头的数据 import re 匹配以数字开头的数据 match obj 61 re match 34 d 34 34 1hell
re.sub()用法详解

源代码参数及其意义 xff1a def sub pattern repl string count 61 0 flags 61 0 34 34 34 Return the string obtained by replacing the
BERT模型的详细介绍

1 BERT 的基本原理是什么 xff1f BERT 来自 Google 的论文Pre training of Deep Bidirectional Transformers for Language Understanding xff0c
自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理 NLP 之使用TF IDF模型计算文本相似度所用数据集 xff1a ChnSentiCorp htl all csv 语料库即存放稀疏向量的列表要注意的是 xff0c 搜索文本text与被检索的文档共用一个特征词词典 NL

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度 的相关文章

随机推荐

热门标签

自然语言处理(NLP)之使用TF-IDF模型计算文本相似度的相关文章