如何使用 tf-idf 选择停用词？（非英语语料库）

2024-04-30

我已经成功评估了tf-idf 函数 http://en.wikipedia.org/wiki/Tf-idf对于给定的语料库。如何找到每个文档的停用词和最佳词？据我所知，给定单词和文档的 tf-idf 较低意味着它不是选择该文档的好单词。

停用词是那些在文档中非常常见的词，因此失去了代表性。观察这一情况的最佳方法是测量某个术语出现的文档数量，并过滤出现在其中超过 50% 的文档数量，或者前 500 个或您必须调整的某种类型的阈值。

文档中最好的（更具代表性的）术语是那些具有较高 tf-idf 的术语，因为这些术语在文档中很常见，而在集合中很少见。

快速说明一下，正如 @Kevin 指出的那样，集合中非常常见的术语（即停用词）无论如何都会产生非常低的 tf-idf。但是，它们会改变一些计算，如果您假设它们是纯噪声（根据任务的不同，这可能不正确），那么这将是错误的。此外，如果包含它们，您的算法会稍微慢一些。

编辑：正如 @FelipeHammel 所说，您可以直接使用 IDF （记住反转顺序）作为与 df （成反比）成比例的度量。这对于排名目的来说是完全等价的，因此选择前“k”个术语。然而，不可能使用它来基于比率进行选择（例如，出现在超过 50% 的文档中的单词），尽管简单的阈值处理可以解决这个问题（即选择 idf 低于特定值的术语）。一般来说，使用固定数量的术语。

我希望这有帮助。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 tf-idf 选择停用词？（非英语语料库）的相关文章

加权词嵌入是什么意思？

In the paper http www aclweb org anthology S17 2100我正在努力实施它说在这项工作中使用三种类型的文本对推文进行建模表示第一个是词袋模型权重为 tf idf 词频逆文档频率部分
TfidfVectorizer 如何计算测试数据的分数

在 scikit learn 中TfidfVectorizer允许我们拟合训练数据然后使用相同的向量化器来转换我们的测试数据对训练数据进行转换的输出是一个矩阵表示给定文档的每个单词的 tf idf 分数然而拟合向量化器如何计算新输
全文搜索：正在搜索干扰词

我有一个带有全文搜索索引的 SQL Server 2008 数据库我已在非索引字列表中定义了非索引字 al 然而当我搜索任何带有关键字 al 的短语时 al 一词仍然会出现在排名中这可能与我正在分解搜索词并重建它们有关然后我在多个领
在 Python 中删除停用词的更快方法

我正在尝试从文本字符串中删除停用词 from nltk corpus import stopwords text hello bye the the hi text join word for word in text split if w
是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中？

有没有办法训练现有的 Apache OpenNLP POS Tagger 模型我需要向模型添加一些特定于我的应用程序的专有名词当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model
大文本语料库破坏 tm_map

在过去的几天里我一直在为这个问题伤透脑筋我搜索了所有 SO 档案并尝试了建议的解决方案但似乎无法让它发挥作用我在 2000 06 1995 99 等文件夹中有一组 txt 文档并且想要运行一些基本的文本挖掘操作例如创建文档术语矩
如何从 NLTK 导入和使用停用词列表？

我已经导入了stopwords from nltk corpus 但我得到STOPWORDS is not defined错误下面是我的代码 import nltk from nltk corpus import stopwords Cr
大量在线对话文本的情感分析

标题说明了一切我有一个 SQL 数据库其中充满了在线对话文本我已经用 Python 完成了这个项目的大部分内容所以我想使用 Python 的 NLTK 库来完成此操作除非有一个strong不这样做的理由数据的组织方式为Threa
R - 缓慢地工作 lapply 对有序因子进行排序

根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333
如何使用 Quanteda 和 kwic 进行模糊模式匹配？

我有医生写的文本我希望能够突出显示上下文中的特定单词我在文本中搜索的单词之前 5 个单词和之后 5 个单词假设我想搜索自杀这个词然后我将使用 quanteda 包中的 kwic 函数 kwic 数据集模式自杀窗口 5 到目
如何抓取给定时间段内的所有 subreddit 帖子

我有一个功能可以抓取 2014 年 11 月 1 日到 2015 年 10 月 31 日期间比特币 subreddit 中的所有帖子然而我只能提取大约 990 个帖子这些帖子只能追溯到 10 月 25 日我不明白发生了什么我在参考
Python：计算 Pandas 中两列之间的 tf-idf 余弦相似度时出现 MemoryError

我正在尝试计算 Pandas 数据框中两列之间的 tf idf 向量余弦相似度一列包含搜索查询另一列包含产品标题余弦相似度值旨在成为搜索引擎排名机器学习算法的特征我在 iPython 笔记本中执行此操作不幸的是遇到了 Memo
如何为 tf-idf 矢量器创建 scikit 管道？

我正在经历这个官方sklearntutorial https scikit learn org stable auto examples model selection grid search text feature extraction
InnoDB 可以使用停用词文件吗？

通过对 MyISAM 的全文搜索我知道我可以使用以下内容在 my cnf 中指定一个停用词文件 ft stopword file etc stopword txt InnoDB 的全文搜索也可以做到同样的事情吗如果可能的话我想做类似以
从头开始构建一个快速的私人文章语义MySQL搜索引擎

我正在开展一个项目其中涉及全文 and semantic搜索网站内的文章如果无法合并用户可以选择任一选项这些文章是订阅式的只有登录后才能搜索因此外部搜索引擎或其 API 无法访问它们我读过有关狮身人面像的文章 http www
tm.package：findAssocs 与 Cosine

我是新来的我的问题是数学问题而不是编程性质我想就我的方法是否有意义获得第二意见我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹尽管它在通过该包提供的数据例如纽约时报和美国国会上表现得相当不错
使用 TfidfVectorizer scikit-learn 的自定义词汇表时出现问题

我尝试在 scikit learn 中使用自定义词汇来执行一些聚类任务但得到了非常奇怪的结果当不使用自定义词汇表时程序运行正常我对集群创建感到满意不过我已经确定了一组我想用作自定义词汇表的单词大约 24 000 个这些单词存
不同长度的tf-idf文档

我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息例如文档长度从 500 字到 2500 字不等我发现的唯一标准化讨论是将术语频率除以文档的长度因此导致文档的长度没有任何意义不过这种方法对于标准化 tf 如果有
如何保留 Spark HashingTF() 函数输入的键或索引？

基于 1 4 的 Spark 文档 https spark apache org docs 1 4 0 mllib feature extraction html https spark apache org docs 1 4 0 mlli
OpenNLP 训练中的“截止”和“迭代”是什么意思？

是什么意思cut off and iteration用于 OpenNLP 培训或者自然语言处理我只需要对这些术语进行外行解释据我认为迭代是算法重复的次数截止是一个值如果文本的值高于某个特定类别的截止值它将映射到该类别我对吗

随机推荐

从Python中的一行中删除标签

我有一个具有以下架构的文本 word1 word2 br word3 word4 br 我想删除最后一部分并将我的结果存储在另一个文件中我已尝试以下操作仍然没有将结果保存在其他文件中 def main fileR open test
如何解决webview内容重叠的问题[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 嗨当背景设置为透明时如何解决we
变量范围的 Java 文档 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案任何人都可以指导我查看 java 文档以了解变量的范围我想查看 java 8 中的类变量和成员变量的
如何使用 numpy 数组加速分形生成？

这是我为使用牛顿方法制作分形而编写的一个小脚本 import numpy as np import matplotlib pyplot as plt f np poly1d 1 0 0 1 x 3 1 fp np polyder f def
我可以在 Open Graph 中使用相对路径吗？ [复制]

这个问题在这里已经有答案了我正在尝试设置相对路径og image元数据如下在共享调试器时我收到以下警告推断属性 og image 属性应该明确提供即使可以从其他标签推断出值有没有办法在Open Graph中使用相对路径不 o
JPA：@JoinColumn 和 @PrimaryKeyJoinColumn 之间的区别？

两者之间的确切区别是什么 JoinColumn and PrimaryKeyJoinColumn You use JoinColumn对于属于外键一部分的列典型的列可能如下所示例如在具有附加属性的连接表中 ManyToOne Join
Django 模板文件夹

我正在尝试 Django 并弄清楚如何设置urls py 以及 URL 如何工作我已经配置了urls py在项目的根目录中定向到我的博客和管理员但现在我想向我的主页添加一个页面所以在localhost 8000 所以我将以下代码添加
如何在 Windows Phone 7 中创建自定义文本框？

是否可以通过创建自定义文本框来处理 sip 我想创建一个自定义文本框 gt 创建获得焦点事件 gt 在我的自定义文本框的焦点上而不是 SIP 上我的自定义键盘应该打开要求如何创建自定义文本框打开自定义键盘而不是 SIP 获取文本字段
Python 终端菜单？终端着色？终端进度显示？

我有一个广泛使用 Python 2 风格的项目我想知道是否有终端菜单库或类似的东西我希望通过使用箭头键突出显示选项一些颜色等简化一些选项为我的脚本注入一些风味和活力我隐约记得有一种方法可以制作 bash shell 终端菜单但
Java初学者网络开发工具包/环境

我的任务是使用 java 和 mysql 开发一个交互式网站使用 servlet 检索和处理数据使用小程序对客户端数据进行特殊处理并处理客户端对不同数据视图的请求您会推荐什么作为使用 java 进行 Web 开发的合适的通用工具包
DynamoDBMappingException：HASH 键没有映射

编写 DynamoDB Java 应用程序时如果表及其数据模型配置不正确则在写入表或从表中检索时您可能会收到无 HASH 键映射错误完整的异常类似于 com amazonaws services dynamodbv2 datam
Django (JSONField) 和 tastypie

我通过使用 JSONField 在 mysql 中创建了一个 TextField django 类型的表这就是我的模型的样子 from django db import models from json field import JSON
我什么时候应该在 ASP.NET MVC 中使用部分视图？ [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我已经完成了示例 asp net m
在 Tridion 2011 SP1 中实现存储扩展时，未定义名为 No bean

我正在尝试使用下面的示例来实现存储扩展 http www sdltridionworld com articles sdltridion2011 tutorials extending content delivery storage sd
错误 C2601：“main”：本地函数定义非法 - MS VS 2013 编译器

我正在用 C 编写一个小程序当我尝试使用 MS VS 2013 编译器编译它时出现错误 C2601 main 本地函数定义非法这是什么意思我的代码是 include
在新选项卡或窗口中打开链接[重复]

这个问题在这里已经有答案了是否可以开一个a href链接在新选项卡而不是同一选项卡中 a href http your url here html Link a 您应该添加target blank and rel noopener nor
加速Cuda程序

要更改哪一部分来加速此代码代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
在 C 中实现逻辑右移

我正在致力于仅使用按位运算符在 C 中创建逻辑右移函数这是我所拥有的 int logical right shift int x int n int size sizeof int size of int arithmetic shift
为什么嵌套 Java 类不能从 Scala 导入？

我应该如何使用嵌套 Java 类来模拟斯卡拉莫克特别是当所说的嵌套 Java 类来自第三方库时鉴于以下来源 src main java Outer java Outer class that offers a Nested class
如何使用 tf-idf 选择停用词？（非英语语料库）

我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库如何找到每个文档的停用词和最佳词据我所知给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词停用词是

如何使用 tf-idf 选择停用词？ （非英语语料库）

如何使用 tf-idf 选择停用词？ （非英语语料库） 的相关文章

随机推荐

热门标签

如何使用 tf-idf 选择停用词？（非英语语料库）

如何使用 tf-idf 选择停用词？（非英语语料库）的相关文章