python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding

2023-11-18

TF-IDF的计算公式如下：
在这里插入图片描述

代码案例

from sklearn.feature_extraction.text import TfidfVectorizer
import jieba

sentences_list: list = [
    '优惠的政策和政府对产业发展的重视也吸引了更多医美企业来成都寻觅机遇。2018年成都医美机构的数量一度飙升至407家，较之前一年激增131家。',
    '中国医学科学院整形外科医院也选择于2018年将首家京外分院——成都八大处医疗美容医院落地蓉城。不断增长的营收数据没有让人失望.',
    '成都八大处医疗美容医院院长唐勇告诉记者，在因新冠肺炎疫情停业近40天的情况下，该院2020年的营收相比2019年仍实现了约30%的增长。'
    '实际上，随着“颜值经济”不断走热，医美逐渐成为部分当代中国人的“刚需”，其中恢复期短、风险较低的轻医美最受欢迎。',
    '出于对安全性、可靠性等因素的考虑，大量消费者自然而然地流动到医美资源集聚的城市“求美”，“医美旅游”悄然兴起。',
    '成都头部医美机构之一、四川华美紫馨医学美容医院2020年整体营收约6亿元。该院总经理薛红介绍，医院每年治疗人数中约20%都是专程前来的外地消费者。',
    '“尤其最近几年，这部分消费者数量增长很快，来自甘肃、青海、云南、贵州等各个省份的都有。”',
] # 这是训练用的文本

sent_words = [list(jieba.cut(p_sen)) for p_sen in sentences_list]
document = [" ".join(p_sen) for p_sen in sent_words]
tfidf_model = TfidfVectorizer(stop_words=['2020', '2018', '2019'])
tfidf_model.fit(document)
sparse_result = tfidf_model.transform(document)
print("所有的单词：", tfidf_model.vocabulary_)
# 这里显示所有的词，也可使用tfidf_model.get_feature_names()，区别是get_feature_names会按照index排序，而vocabulary_不会
print("第一个句子：", document[0])
print("第一个句子的tfidf embedding：", tfidf_model.transform([document[0]]).toarray()) # 训练文本中的第一个句子对应的句向量

上面的代码是一个案例，训练出来的tfidf_model会保留一个词表，一个idf的值。当使用tfidf_model.transform()时，计算步骤为：

统计每个在tfidf_model的词库中出现过的词，统计词频
每个词频乘以对应位置的idf值，即得到tf-idf的结果
对向量归一化后输出

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

自然语言处理

sklearn

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding 的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
如何使用 conda 在一行中安装多个包？

我需要使用 conda 安装以下多个软件包我不确定 conda forge 是什么有些使用 conda forge 有些不使用它是否可以将它们安装成一行而不需要一一安装谢谢 conda install c conda forge d
正则表达式，选择最接近的匹配

假设以下单词序列 BLA text text text text text text BLA text text text text LOOK text text text BLA text text BLA 我想做的是将 BLA 中的文本
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
如何使用 i18n 切换器将“LANGUAGE_CODE”保存到数据库，以便在 Django 中的不同浏览器中语言不会更改？

有什么办法可以改变它的值LANGUAGE CODE单击按钮发送请求时 settings py 中的变量会动态变化吗我希望用户设置自己的默认语言他们的帐户现在用户可以使用下拉列表选择他们的首选语言并且网站会得到完美的翻译并且
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
Python 3在for循环中更改字典键的值不起作用

我的 python 3 代码没有按预期工作 def addFunc x y print x y def subABC x y z print x y z def doublePower base exp print 2 base exp d
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
在 scipy 中创建新的发行版

我试图根据我拥有的一些数据创建一个分布然后从该分布中随机抽取这是我所拥有的 from scipy import stats import numpy def getDistribution data kernel stats gauss
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
使用 SERVER_NAME 时出现 Flask 404

在我的 Flask 配置中我将 SERVER NAME 设置为 app example com 之类的域我这样做是因为我需要使用url for with external网址如果未设置 SERVER NAME Flask 会认为服务器
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

爬虫实战（二）：Selenium 模拟登录并爬取信息

前叙系列文章爬虫实战一爬取微博用户信息爬虫实战二 Selenium 模拟登录并爬取信息爬虫实战三微博用户信息分析该系列文章介绍了什么 1 爬虫分析和处理方法 2 Python中的数据库操作方法 3 Selenium浏览器
java 实现mysql 数据源迁移_Java敏捷数据库迁移框架——Flyway

看看自己的项目的那些SQL文件或者干脆连个建表语句都没有的同学是否会有想法把他们管理起来呢向大家推荐一款非常轻量级的敏捷数据库迁移框架 Flyway 想知道她有什么魅力吗 Flyway为大家提供了如下的实现方式 Java API 命令行
OPT-IML:Scaling Language Model Instruction MetaLearning through the Lens of Generalization 论文阅读笔记

OPT IML Scaling Language Model Instruction MetaLearning through the Lens of Generalization 从泛化的角度使用指令元学习扩展语言模型开源模型目前在h
基于SSM的客户管理系统设计与实现

末尾获取源码开发语言 Java Java开发工具 JDK1 8 后端框架 SSM 前端采用JSP技术开发数据库 MySQL5 7和Navicat管理工具结合服务器 Tomcat8 5 开发软件 IDEA Eclipse 是否Mave
写一个加法程序，输入整数a,b，输出他们的和。

include
el-table操作列的按钮超过三个时，动态计算，将多余的按钮放入更多el-dropdown-menu中

一下是封装好的操作列组件 OperateBtn
numpy.mgrid()函数虚数参数问题

想要了解详细的numpy mgrid 函数请看这一篇 np ogrid np mgrid 和meshgrid 函数的关系这里我们来记录一下关于在numpy mgrid 函数输入参数中输入虚数的问题我们来看两个例子例子一 class D
将升序单链表/数组转换为平衡二叉树BST

给定一个单链表其中的元素按升序排序请将它转化成平衡二叉搜索树 BST 递归 o nlogn 解题思路 1 找到链表的中点mid 2 记录mid前缀断开链表 3 将mid放入到树中 4 递归head 左链表 mid next 右链表 i
bilibili视频下载神器[无广告]

一前言最近群里有小伙伴问我bilibili视频如何下载当然目前下载的方法网上有很多但是习惯使然我一般只介绍我信得过的软件以及广告很少的软件也就是追求最简洁的页面以及最强大的功能因此这里就给大家带来一个我最喜欢的B站视频下载神器
在小数定点机中，为什么只有补码可以表示-1.0呢

这个问题可以拓展在8位整数机器中为什么只有补码可以表示 128呢这里先看小数定点机 8位小数定点机中的数据表示 S XXXXXXX S是正负符号位后面的7个X是数值位如下都以8位二进制的小数定点机为例展开原码实例1 二进制的0
拦截窗体消息—使用NativeWindow

NativeWindow提供窗口句柄和窗口过程的低级封装下面是拦截ContextMenu的显示和消失的例子 public class NativeContextMenu NativeWindow private const int WM
linux环境开发

在服务器中通过代码读取数据集data 并将数据集data加载到cpu的内存中再通过data cuda 命令将数据集从cpu 传到gpu运行 gpu上开始训练模型训练的结果如权重参数等也是存放在gpu中再通过 cpu 命令将模型输
Raspberry Pi 上 ROS 服务器/客户端通过GPIO 驱动硬件

ROS 服务现在想象一下你在你的电脑后面你想从这个服务中获取天气你在你身边被认为是客户端在线天气服务是服务器您将能够通过带有 URL 的 HTTP 请求访问服务器将 HTTP URL 视为 ROS 服务首先您的计算机将
2023年江苏省赛事网络空间安全理论题库

单选题 1 访问控制是指确定以及实施访问权限的过程 A 用户权限 B 可给予哪些主体访问权利 C 可被用户访问的资源 D 系统是否遭受入侵答案 A 2 数据安全从总体上可以分成5个层次是信息安全中研究的关键点 A 密码技术 B 安全协
MySQL慢查询

看到这个名称我惊呆了 SQL不是希望快速查询取得结果吗怎么什么时候会有这个概念问了一个哥们哥们认为是漫查询同时多查询于是Google得出了如下结果慢查询其实对应的是MySQL慢查询日志系统用来记录执行比较慢的SQL 怎么去判断
python从入门到时间_史上最详细python学习路线-从入门到精通，只需5个月时间

针对Python的初学者从无到有的Python语言如何入门主要包括了 Python的简介如何下载Python 如何安装Python 如何使用终端 Shell IDE等各种开发环境进行Python开发 Python中的语法和基本知识概
在一台电脑上出现提交文件名是中文的时候就报错HTTP Status 400 – Bad RequestRequired MultipartFile parameter 'excelFile&#

在一台电脑上出现提交文件名是中文的时候就报错HTTP Status 400 Bad RequestRequired MultipartFile parameter excelFile
如何在普通PC上安装macOS苹果操作系统

目录官网如何下载和安装 macOS 如何在普通PC上安装macOS苹果操作系统 Mac PC 有什么不同说明 1 下载可以直接从网页上采用通常的方式进行下载不需要使用使用 App Store 但使用使用 App Store下
python安装模块方法_Python模块安装方法

一方法1 单文件模块直接把文件拷贝到 python dir Lib 二方法2 多文件模块带setup py 下载模块包进行解压进入模块文件夹执行 python setup py install 三方法3 easy insta
python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding

TF IDF的计算公式如下代码案例 from sklearn feature extraction text import TfidfVectorizer import jieba sentences list list 优惠的政策和政府

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding

代码案例

python根据TF-IDF使用sklearn(TfidfVectorizer)计算句子的embedding 的相关文章

随机推荐

热门标签