为什么 TF-IDF 的值与 IDF_ 不同？

2023-12-11

为什么向量化语料的值与通过向量化得到的值不一样idf_属性？不应该idf_属性只是以与语料库矢量化中出现的相同方式返回逆文档频率（IDF）？

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = ["This is very strange",
          "This is very nice"]
vectorizer = TfidfVectorizer()
corpus = vectorizer.fit_transform(corpus)

print(corpus)

语料库矢量化：

  (0, 2)    0.6300993445179441
  (0, 4)    0.44832087319911734
  (0, 0)    0.44832087319911734
  (0, 3)    0.44832087319911734
  (1, 1)    0.6300993445179441
  (1, 4)    0.44832087319911734
  (1, 0)    0.44832087319911734
  (1, 3)    0.44832087319911734

词汇和idf_ values:

print(dict(zip(vectorizer.vocabulary_, vectorizer.idf_)))

Output:

{'this': 1.0, 
 'is': 1.4054651081081644, 
 'very': 1.4054651081081644, 
 'strange': 1.0, 
 'nice': 1.0}

词汇索引：

print(vectorizer.vocabulary_)

Output:

{'this': 3, 
 'is': 0, 
 'very': 4, 
 'strange': 2, 
 'nice': 1}

为什么这个词的IDF值是this is 0.44在语料库中和1.0当获得时idf_?

这是因为l2标准化，默认情况下应用TfidfVectorizer()。如果您设置norm参数为None，您将得到与以下相同的值idf_.


>>> vectorizer = TfidfVectorizer(norm=None)

#output

  (0, 2)    1.4054651081081644
  (0, 4)    1.0
  (0, 0)    1.0
  (0, 3)    1.0
  (1, 1)    1.4054651081081644
  (1, 4)    1.0
  (1, 0)    1.0
  (1, 3)    1.0

另外，您计算特征对应的 idf 值的方法是错误的，因为dict不保留订单。

您可以使用以下方法：

 >>>> print(dict(zip(vectorizer.get_feature_names(), vectorizer.idf_)))
      
     {'is': 1.0,
      'nice': 1.4054651081081644, 
      'strange': 1.4054651081081644, 
      'this': 1.0, 
      'very': 1.0}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

tfidf

tfidfvectorizer

为什么 TF-IDF 的值与 IDF_ 不同？的相关文章

如何使用python从文件夹中的pdf中提取文本并将其保存在数据框中？

我有很多文件夹每个文件夹都有几个 pdf 文件也有其他文件类型如 xlsx 或 doc 我的目标是提取每个文件夹的pdf文本并创建一个数据框其中每条记录都是文件夹名称每列以字符串形式表示该文件夹中每个pdf文件的文本内容我设法
ptb_word_lm中batch_size的含义（tensorflow的LSTM模型）

我是张量流的新手我现在对它的含义有点困惑batch size 众所周知其含义是batch size是每批次的样本数但是根据中的代码ptb word lm 似乎不是读者 py data len tf size raw data the
使用 matplotlib 在图像数据之上对线网格进行像素精确定位

我试图在 python 库 matplotlib 显示的图像网格顶部精确地覆盖 1 像素宽线的网格不幸的是我似乎无法对结果进行足够精细的控制以实现线网格与数据网格的正确对齐如下面的代码所示结果似乎总是很接近但并不完全正确我尝试
Python：用中值替换异常值

我有一个 python 数据框其中有一些异常值如果这些值不存在的话我想用数据的中值替换它们 id Age 10236 766105 11993 288 9337 205 38189 88 35555 82 39443 75 10762
Python（openpyxl）：将数据从一个excel文件转移到另一个（模板文件）并用另一个名称保存，同时保留模板

我有一个templateexcel 文件名为template xlsx其中有许多张我想从单独的地方复制数据 csv文件到第一页template xlsx 命名为data 并将新文件另存为result xlsx同时保留原来的模板文件我想粘
BeautifulSoup 不适用于某些网站

我有这个脚本 import urrlib2 from bs4 import BeautifulSoup url http www shoptop ru page urllib2 urlopen url read soup Beautiful
Plotly - 不同颜色的表面

我正在尝试在 Plotly for Python 中绘制多个曲面每个曲面具有不同的颜色具体来说表面显示了在相空间中不同点采取行动的预测奖励函数由于我在每个点都有多个可能的操作因此每个点都是不同的表面我想对每个表面进行独特的着色
PySerial 和多个 Python 安装出现问题

我的 Windows 7 计算机上有 Python 2 4 4 和 3 1 3 我想使用 PySerial 听说是内置的所以我尝试了一下import serial在两个版本中两者都造成了Import Error 然后我从以下位置下载了w
检查对象是否是字符串列表的列表？

是什么elegant检查对象是否是字符串列表列表的方法没有嵌套循环也许这里必须是构造结构化迭代的常规方法 UPD 像这样的东西 l a b c d 1 3 e 2 f def recurse iterable levels result
如何消除 matplotlib 轴的相对偏移

当我尝试对具有足够大数字的范围进行绘图时我得到一个所有刻度都有相对偏移的轴例如 plot 1000 1001 1002 1 2 3 我在横坐标轴上得到这些刻度 0 0 0 5 1 0 1 5 2 0 1e3 问题是如何删除 1e3并得到
ctypes.ArgumentError：不知道如何转换参数

我在C库中定义了一个函数如下所示 int Test char str1 int id1 char str2 float val float ls 我想在Python中使用它所以我编写了以下Python代码 str1 a str2 b i
如何将文本文件中的十六进制行转换为数组（Python）？

我有一个文本文件每行包含一个十六进制明文我的文件如下所示 7a8e5dc390781eab8df2c090bf4bebca dbac0fba55d3d4fc177161bfe24dc7fb 82e5a7a021197f6fbe94a86
如何在 PySide/PyQt 中制作一个位于屏幕中央的小部件？

这段代码有效但我想知道是否有更简单的方法 def center self qr self frameGeometry cp gui QDesktopWidget availableGeometry center qr moveCenter
python 中的优化标准化

在优化过程中对输入参数进行归一化使它们处于同一数量级通常会很有帮助这样收敛效果会更好例如如果我们想要最小化 f x 而合理的近似值是 x0 1e3 1e 4 则将 x0 0 和 x0 1 归一化到大约相同的数量级可能会有所帮助
如何使用 Python 3 在 OpenCV 3 上正确加载 cv2.KeyPoint 和描述符？

有一天我不得不恢复一个使用 OpenCV 3 和 Python 2 7 的旧项目在此代码中要加载 cv2 KeyPoint 我执行以下操作 import numpy as np import cPickle import cv2 ke
是否有比 .apply() 更慢或更受控制的替代方案？

所以这似乎是一个奇怪的问题但我有一只熊猫DataFrame其中包含地址我想对其进行地理编码以便获得纬度和经度我有可以使用的代码 apply 感谢这个非常有帮助的线程使用 geopy pandas 的新列坐标 https stack
通过 Tweepy 在 Twitter 上更新状态时的回溯

我一直在尝试使用 Twitter 在 Twitter 上发布我的 Rpi 读数tweepy 但首先我想检查一下是否tweepy本来可以正常工作但事实并非如此我正确安装了软件包但是当我尝试运行简单的代码来发布某些内容时出现错误是的
从另一个列表的元素创建一个新列表，引用后者的元素

我想从前一个元素创建一个新列表但不复制它们这就是发生的事情 In 23 list range 10 In 24 list2 list 0 4 In 25 list Out 25 0 1 2 3 4 5 6 7 8 9 In 26 lis
带有 graphviz_layout 的水平树

在Python中使用networkx 我可以用以下方法绘制垂直树 g nx balanced tree 2 4 pos nx graphviz layout g prog dot nx draw g pos labels b all no
Mac 上的 PythonXY？

如何在 Mac OS X Lion 上安装 Python 我开始了它应该能够通过 macports 但无论如何我找不到 mac ports 网站上所述的端口 pythonXY 我对 MAC 和 pythonXY 都不太了解但在 pyth

随机推荐

浮点数的精度

Python 中的浮点数的精度是多少它总是双精度还是特定于实现或平台例如 CPython 和 PyPy 有何不同 From Python文档浮点数通常使用以下方式实现C 中的双倍有关的信息精确和内部代表程序所在机器的浮点数运行可
捕获已达到 set_time_limit() - PHP [重复]

这个问题在这里已经有答案了可能的重复如何捕获致命错误 PHP 超出最大执行时间 30 秒我用过set time limit 60 之前很多次但是当超过这个值时是否还有捕获目前它只是以同样的旧错误进行轰炸我想捕获它失败然后用我
如何为特定部分固定配方蛋的版本

我在构建中添加了一个部分来安装 python ldap 如下所述 http bluedynamics com articles jens python ldap as egg with buildout 然而我的构建失败了 While In
Service Fabric 中的应用程序洞察？

我需要在我正在开发的 Azure Service Fabric 应用程序中添加性能日志记录我尝试遵循以下指南该指南看起来非常简单明了 https github com Microsoft azure content blob maste
查询嵌套表

我正在尝试查询NESTED TABLE using PL SQL 几个消息来源告诉我这是可能的但我不断收到错误消息 ORA 21700 对象不存在或已标记为删除我不明白为什么它不让我这样做我已经确定dados变量中有内容我输出它 c
Java比较字符串与正则表达式 - while循环

我希望用户输入一个字符串如果该字符串与我的正则表达式不匹配那么我希望输出一条消息并且用户再次输入一个值问题是即使字符串与正则表达式匹配它也会将其视为不匹配我的正则表达式这应该等于 Name Name A Z a zA Z s
单击复选框数据动态保存到数据库

当我选中复选框时我需要一些 js ajax jquery 脚本将数据动态保存到数据库此时的复选框或加载到记录旁边并根据是否选中来更改数据库中的变量但是在我选择一个将其保存到数据库后我必须重新加载页面我可以做其他所有事情但了解如
如何在 React JSX 中使用“< >”

如何在 React 中使用作为文本我想将它用于我的投资组合你需要使用HTML 实体 HTML 中的保留字符必须替换为字符实体 Result Description Entity Name Entity Number lt less t
Kivy：如何将复选框设置为在启动时选中

如何将 id 设置为蓝色的复选框的状态设置为在启动时检查我使用 python 3 6 和 Kivy 1 9 2 dev0 我以为线条blue ObjectProperty True in py and value root blue in
jQuery 滑块范围：将范围应用为表行的过滤器

在我的实习中我必须为表格创建一个过滤器该过滤器必须仅显示您给定的值之间的行我使用 jQuery UIrange slider我有一个普通的 HTML 表格我无法让它工作我尝试了很多不同的事情这是我的代码 function sli
在饼图中显示附加值

我有这个饼图数据的示例 import javafx application Application import javafx collections FXCollections import javafx collections Obse
表单视觉隐藏字段和所需验证使用

我有一个带有隐藏字段的 HTML5 Bootstrap 表单 style display none 我通过 jQuery 显示隐藏 show hide 对于字段验证我使用属性required 我希望所有隐藏字段均按要求显示但当其中一些
PHP将抄送插入邮件功能[重复]

这个问题在这里已经有答案了可能的重复 PHP 邮件抄送字段我正在使用以下 php 发送电子邮件我需要将抄送添加到我的电子邮件中当我尝试插入标头时 html 消息显示原始 html 处理抄送的最佳方式是什么 Thanks heade
TS(2352) 声明具有动态属性的对象和一个具有特定类型的属性

我需要创建一个对象该对象将包含一个名为 state 的属性该属性将具有通用类型所有其他属性将是具有覆盖上下文的函数我不确定这是否可能因此我决定写在这里我有一个代码 declare interface ContextModule
MySQL 连接运算符

我不知道 MySQL 的连接运算符我已经尝试过这段代码用于串联 SELECT vend name vend country FROM Vendors ORDER BY vend name 但这没有用我应该使用哪个运算符来连接字符串是
golang json 和接口切片

我在迭代包含接口切片的接口切片时遇到问题此问题是在尝试使用返回 JSON 数据的 API 调用时出现的返回的数据相当多并且结构根据请求的不同而有很大差异 API 文档中也没有 JSON 响应的结构因此我尝试实现一些处理任意 JSON
如何后台加载sapui5资源

在我们的应用程序中我们加载了许多 SAPUI5 库 index html 有以下代码来加载 SAPUI5 资源在我们的 web xml 中我们已经提到https sapui5 hana on
dotnet 不支持多重继承。但多接口支持吗？ [复制]

这个问题在这里已经有答案了可能的重复 C 中的多重继承 dotnet 不支持多重继承但多种接口支持为什么会存在这种行为有具体原因吗您可以使用接口模拟多重继承如果允许类的多重继承则会导致钻石问题由于不支持多重继承的原因我建议
IF 条件 - 连接多列

我需要统计一个术语出现的次数不幸的是这些术语组织得不好因此一个术语可能会出现在多个列中所以我不能只使用 If A1 HEALTH 1 0 因为HEALTH出现在多个列 A B C 等中我尝试过嵌套 IF A1 HEALTH 1 I
为什么 TF-IDF 的值与 IDF_ 不同？

为什么向量化语料的值与通过向量化得到的值不一样idf 属性不应该idf 属性只是以与语料库矢量化中出现的相同方式返回逆文档频率 IDF from sklearn feature extraction text import TfidfVe

为什么 TF-IDF 的值与 IDF_ 不同？

为什么 TF-IDF 的值与 IDF_ 不同？ 的相关文章

随机推荐

热门标签

为什么 TF-IDF 的值与 IDF_ 不同？的相关文章