不同长度的tf-idf文档

2024-03-25

我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息（例如，文档长度从 500 字到 2500 字不等）

我发现的唯一标准化讨论是将术语频率除以文档的长度，因此导致文档的长度没有任何意义。

不过，这种方法对于标准化 tf.如果有的话，它会导致每个文档的 tf 等级有很大的偏差（除非所有文档都是从几乎相同的字典构建的，但使用 tf-idf 时情况并非如此）

例如，让我们看 2 个文档 - 一个由 100 个唯一单词组成，另一个由 1000 个唯一单词组成。 doc1 中每个单词的 tf 为 0.01，而 doc2 中每个单词的 tf 为 0.001

这会导致在将单词与 doc1 匹配时，tf-idf 等级自动大于 doc2

有人对更合适的标准化公式有任何建议吗？

谢谢

edit我还看到了一种方法，指出我们应该将每个文档的术语频率除以该文档的最大术语频率这也不能解决我的问题

我在想的是，计算所有文档的最大术语频率，然后通过将每个术语频率除以最大术语来标准化所有术语

很想知道你的想法

您分析的目标是什么？

如果您的最终目标是比较文档之间的相似性（等等），您不应该在 tfidf 计算阶段担心文档长度。这就是原因。

The tfidf表示公共向量空间中的文档。如果您随后计算余弦相似度在这些向量之间，余弦相似度补偿了不同文档长度的影响。原因是余弦相似度评估向量的方向而不是它们的大小。我可以用 python 向你展示这一点：考虑以下（愚蠢的）文档

document1 = "apple apple banana"
document2 = "apple apple apple apple banana banana"

documents = (
    document1,
    document2)

这些文档的长度不同，但内容相同。更准确地说，两个文档中术语的相对分布相同，但绝对术语频率不同。

现在，我们使用tfidf在公共向量空间中表示这些文档：

from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vectorizer = TfidfVectorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

我们使用余弦相似度通过仅查看这些矢量化文档的方向（或方位）来评估这些矢量化文档的相似性，而不关心它们的大小（即它们的长度）。我正在评估文档一和文档二之间的余弦相似度：

from sklearn.metrics.pairwise import cosine_similarity
cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

结果是1。请记住，当两个向量具有完全相同的方向时，两个向量之间的余弦相似度等于 1；当两个向量正交时，其余弦相似度等于 0；当两个向量具有相反方向时，其余弦相似度等于 -1。

在这种情况下，您可以看到余弦相似度不受文档长度的影响，并且捕获了原始文档中术语的相对分布是相同的事实！如果您想将此信息表示为文档之间的“距离”，那么您可以简单地执行以下操作：

1 - cosine_similarity(tfidf_matrix[0], tfidf_matrix[1])

当文档相似（无论长度如何）时，该值将趋于 0；当文档不相似时，该值将趋于 1。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Normalization

tfidf

textblob

不同长度的tf-idf文档的相关文章

阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
有没有一种方法可以将python对象直接存储在mongoDB中而不需要序列化它们

我在某处读到过您可以使用 BSON 将 python 对象更具体地说是字典作为二进制文件存储在 MongoDB 中但是现在我找不到任何与此相关的文档有人知道具体如何做到这一点吗没有办法在不序列化的情况下将对象存储在文件数据库
将 transaction.commit_manually() 升级到 Django > 1.6

我继承了为 Django 1 4 编写的应用程序的一些代码我们需要更新代码库以使用 Django 1 7 并最终更新到 1 8 作为下一个长期支持版本在一些地方它使用旧风格 transaction commit manually and
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
在 python 3 中使用子进程

我使用 subprocess 模块在 python 3 中运行 shell 命令这是我的代码 import subprocess filename somename py in practical i m using a real fil
字符串中的注释和注释中的字符串

我正在尝试使用 Python 和 Regex 计算 C 代码中包含的注释中的字符数但没有成功我可以先删除字符串以删除字符串中的注释但这也会删除注释中的字符串结果会很糟糕是否有机会通过使用正则表达式来询问不匹配注释中的字符串反之亦
Python中列表中两个连续元素的平均值

我有一个偶数个浮点数的列表 2 34 3 45 4 56 1 23 2 34 7 89 我的任务是计算 1 和 2 个元素 3 和 4 5 和 6 等元素的平均值在 Python 中执行此操作的快捷方法是什么 data 2 34 3 45
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
将 numpy 代码点数组与字符串相互转换

我有一个很长的 unicode 字符串 alphabet range 0x0FFF mystr join chr random choice alphabet for in range 100 mystr re sub W mystr 我想
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何在 Django 中使用基于类的视图创建注册视图？

当我开始使用 Django 时我几乎使用 FBV 基于函数的视图来处理所有事情包括注册新用户但当我更深入地研究项目时我意识到基于类的视图通常更适合大型项目因为它们更干净且可维护但这并不是说 FBV 不是无论如何我将整个项目
Pandas 堆积条形图中元素的排序

我正在尝试绘制有关某个地区 5 个地区的家庭在特定行业赚取的收入比例的信息我使用 groupby 按地区对数据框中的信息进行排序 df df orig groupby District Portion of income value co
为什么我应该使用 WSGI？

使用 mod python 一段时间了我读了越来越多关于 WSGI 有多好的文章但没有真正理解为什么那么我为什么要切换到它呢有什么好处这很难吗学习曲线值得吗为了用 Python 开发复杂的 Web 应用程序您可能会使用更全面
Django - 提交具有同一字段多个输入的表单

预警我对 Django 以及一般的 Web 开发非常陌生我使用 Django 托管一个基于 Web 的 UI 该 UI 将从简短的调查中获取用户输入通过我用 Python 开发的一些分析来提供输入然后在 UI 中呈现这些分析的可视
sqlite3从打印数据中删除括号

我创建了一个脚本用于查找数据库第一行中的最后一个值 import sqlite3 global SerialNum conn sqlite3 connect MyFirstDB db conn text factory str c con
带有 RotatingFileHandler 的 Python 3 记录器超出 maxBytes 限制

我使用以下代码来限制日志文件的大小最小示例 import logging from logging handlers import RotatingFileHandler Set up logfile and message loggin
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
从列表python的单个列表中删除子列表

我已经经历过从列表列表中删除子列表 https stackoverflow com questions 47209786 removing sublists from a list of lists 但当我为我的数据集扩展它时它不适用于我
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

selenium 中的 ChromeDriver 和 WebDriver 有什么区别？

如果我们创建 ChromeDriver driver new ChromeDriver 将执行 chrome 驱动程序方法如果我们创建 WebDriver driver new ChromeDriver again ChromeDrive
同时添加附件时出现 412（前提条件失败）

我正在使用 Microsoft Graph 我尝试添加两个附件 POST me messages messageId attachment odata type microsoft graph fileAttachment name 1 t
将含有逗号的数字字符串转换为 int

我有这样的价值 String x 10 000 我想将其转换为int 我可以通过删除逗号来转换它如下所示 String y x replace int value1 Integer parseInt y 但我不想像上面那样做还有其他建议
是否可以使用网络交付的 XUL 应用程序中的本地资源？

有没有办法在浏览器沙箱之外执行通过可信网站交付的 XUL 程序我的 XUL 程序在本地 XULRunner 和带有 add 参数的 firefox 中执行得很好现在我想将其放在我的安全 Intranet 上并允许用户单击启动它的
如何在Windows中直接从vim编辑器编译cpp文件？

我最近在 Windows 操作系统中安装了一个 vim 编辑器我只知道传统的过程即在编辑器中创建源文件并从命令行运行它但我不太明白如何直接从vim编辑器编译CPP程序当我运行命令时 g 你好 cpp o 你好从 vim 命令行
Pod 的所有环境变量列表

我在 OpenShift v3 一体式上有一个使用 Wildfly Builder 映像的 Web 应用程序另外我创建了一个名为 xyz 的服务以指向外部主机 IP 像这样的东西 kind Service apiVersion v1
如何将 td 元素居中对齐[重复]

这个问题在这里已经有答案了我创建了一个简单的表格想要将 td 元素居中对齐但 css 中的align center 似乎不起作用 cTable td align center table border 1 class cTable t
如何从 zendframework 2 中的控制器插件中获取控制器？

我正在 zf2 中编写一个控制器插件我使用以下方法从插件内获取控制器但它返回 null controller this gt getController 有什么建议吗请注意这个答案基于我使用 ZF1 的经验并快速浏览了 ZF2 代
为什么数组的&（地址）在go中打印“&”

这是执行代码 package main func main var ax 2 int ax 0 22 ax 1 99 bx ax cx ax fmt Println ax fmt Println bx fmt Println cx fmt
如何将 JSDoc 注释添加到使用 typescript AST api 生成的 typescript 中？

如何使用 Typescript 的 AST api 和打印机创建带有文档注释的函数 foo function function foo 以下代码生成该函数 function foo import ts from typescript con
在调用回调之前，如何等待异步创建的对象完全可用？

我正在尝试创建一个可以创建新标记的函数我需要能够在回调中处理新标记的一些属性问题是marker立即创建并可用于调用回调但某些属性尚不可用如果我在尝试访问属性之前等待两秒钟它就可以正常工作这使我相信该对象在创建后仍在异步生成自身
如何编译并运行单个class文件cs文件？

抱歉如果这是微不足道的我是 Visual Studio 的新手我有一个项目其中包含多个类文件 cs 文件如何单独运行每个文件每当我进行调试时它只选择一个 cs 文件谢谢编辑来自使用 netbeans 的 java 背景
这个HQL有什么问题吗？ “节点没有数据类型”

session createQuery Select attribute from GoodsSection tgs join gs ascendants ags join ags attributes attribute where at
如何编写一个快速函数来计算数字的总除数？

我必须找到给定数字 N 的除数总数其中可以大到 10 14 我尝试计算最多 10 7 的素数然后使用素数因子的指数找到除数但是事实证明它太慢了因为使用筛子找到素数需要 0 03 秒如果可能的话如何更快地计算除数总数而不计算素数
TS2307：找不到模块“./App.vue”或其相应的类型声明

我想使用 typescript Vue 3 开发 google chrome 扩展在谷歌浏览器扩展弹出索引中打字稿代码index ts好像 import createApp from vue import App from App vu
有没有办法在初始化后使用谓词修改获取的结果？

我正在尝试为现有 CoreData 应用程序简单的日志记录应用程序构建搜索视图我将所有数据存储在 CoreData 中并使用 FetchRequest State private var searchPredicate NSPred
使用子/父 NSManagedObjectContext 时出现奇怪的行为

我正在开发一个应用程序我需要在后台线程上计算事物多秒操作并写入事物与服务器同步数据因此我使用两个 NSManagedObjectContext MOC 一个子对象和一个父对象并且它们必须始终保持同步为了确保它们同步我总是编
Laravel 预加载 - 仅加载特定列

我正在尝试在 Laravel 中加载模型但只返回某些列我不希望呈现整个急切加载的表 public function car return this gt hasOne Car id gt get emailid name 我收到以下错误
为什么 OldCreateOrder 属性不断返回 true？

我声明 Unit BaseGuardian TBaseGuardianService class TService public end implementation R dfm 和 dfm 的代码 object BaseGuardianS
不同长度的tf-idf文档

我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息例如文档长度从 500 字到 2500 字不等我发现的唯一标准化讨论是将术语频率除以文档的长度因此导致文档的长度没有任何意义不过这种方法对于标准化 tf 如果有

不同长度的tf-idf文档

不同长度的tf-idf文档 的相关文章

随机推荐

热门标签

不同长度的tf-idf文档的相关文章