如何使用 tf-idf 选择停用词? (非英语语料库)

2024-04-30

我已经成功评估了tf-idf 函数 http://en.wikipedia.org/wiki/Tf-idf对于给定的语料库。如何找到每个文档的停用词和最佳词?据我所知,给定单词和文档的 tf-idf 较低意味着它不是选择该文档的好单词。


停用词是那些在文档中非常常见的词,因此失去了代表性。观察这一情况的最佳方法是测量某个术语出现的文档数量,并过滤出现在其中超过 50% 的文档数量,或者前 500 个或您必须调整的某种类型的阈值。

文档中最好的(更具代表性的)术语是那些具有较高 tf-idf 的术语,因为这些术语在文档中很常见,而在集合中很少见。

快速说明一下,正如 @Kevin 指出的那样,集合中非常常见的术语(即停用词)无论如何都会产生非常低的 tf-idf。但是,它们会改变一些计算,如果您假设它们是纯噪声(根据任务的不同,这可能不正确),那么这将是错误的。此外,如果包含它们,您的算法会稍微慢一些。

编辑: 正如 @FelipeHammel 所说,您可以直接使用 IDF (记住反转顺序)作为与 df (成反比)成比例的度量。这对于排名目的来说是完全等价的,因此选择前“k”个术语。然而,不可能使用它来基于比率进行选择(例如,出现在超过 50% 的文档中的单词),尽管简单的阈值处理可以解决这个问题(即选择 idf 低于特定值的术语) 。一般来说,使用固定数量的术语。

我希望这有帮助。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 tf-idf 选择停用词? (非英语语料库) 的相关文章

  • 加权词嵌入是什么意思?

    In the paper http www aclweb org anthology S17 2100我正在努力实施 它说 在这项工作中 使用三种类型的文本对推文进行建模 表示 第一个是词袋模型 权重为 tf idf 词频 逆文档频率 部分
  • TfidfVectorizer 如何计算测试数据的分数

    在 scikit learn 中TfidfVectorizer允许我们拟合训练数据 然后使用相同的向量化器来转换我们的测试数据 对训练数据进行转换的输出是一个矩阵 表示给定文档的每个单词的 tf idf 分数 然而 拟合向量化器如何计算新输
  • 全文搜索:正在搜索干扰词

    我有一个带有全文搜索索引的 SQL Server 2008 数据库 我已在非索引字列表中定义了非索引字 al 然而 当我搜索任何带有关键字 al 的短语时 al 一词仍然会出现在排名中 这可能与我正在分解搜索词并重建它们有关 然后我在多个领
  • 在 Python 中删除停用词的更快方法

    我正在尝试从文本字符串中删除停用词 from nltk corpus import stopwords text hello bye the the hi text join word for word in text split if w
  • 是否可以将单词附加到现有的 OpenNLP POS 语料库/模型中?

    有没有办法训练现有的 Apache OpenNLP POS Tagger 模型 我需要向模型添加一些特定于我的应用程序的专有名词 当我尝试使用以下命令时 opennlp POSTaggerTrainer type maxent model
  • 大文本语料库破坏 tm_map

    在过去的几天里 我一直在为这个问题伤透脑筋 我搜索了所有 SO 档案并尝试了建议的解决方案 但似乎无法让它发挥作用 我在 2000 06 1995 99 等文件夹中有一组 txt 文档 并且想要运行一些基本的文本挖掘操作 例如创建文档术语矩
  • 如何从 NLTK 导入和使用停用词列表?

    我已经导入了stopwords from nltk corpus 但我得到STOPWORDS is not defined错误 下面是我的代码 import nltk from nltk corpus import stopwords Cr
  • 大量在线对话文本的情感分析

    标题说明了一切 我有一个 SQL 数据库 其中充满了在线对话文本 我已经用 Python 完成了这个项目的大部分内容 所以我想使用 Python 的 NLTK 库来完成此操作 除非有一个strong不这样做的理由 数据的组织方式为Threa
  • R - 缓慢地工作 lapply 对有序因子进行排序

    根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333
  • 如何使用 Quanteda 和 kwic 进行模糊模式匹配?

    我有医生写的文本 我希望能够突出显示上下文中的特定单词 我在文本中搜索的单词之前 5 个单词和之后 5 个单词 假设我想搜索 自杀 这个词 然后我将使用 quanteda 包中的 kwic 函数 kwic 数据集 模式 自杀 窗口 5 到目
  • 如何抓取给定时间段内的所有 subreddit 帖子

    我有一个功能可以抓取 2014 年 11 月 1 日到 2015 年 10 月 31 日期间比特币 subreddit 中的所有帖子 然而 我只能提取大约 990 个帖子 这些帖子只能追溯到 10 月 25 日 我不明白发生了什么 我在参考
  • Python:计算 Pandas 中两列之间的 tf-idf 余弦相似度时出现 MemoryError

    我正在尝试计算 Pandas 数据框中两列之间的 tf idf 向量余弦相似度 一列包含搜索查询 另一列包含产品标题 余弦相似度值旨在成为搜索引擎 排名机器学习算法的 特征 我在 iPython 笔记本中执行此操作 不幸的是遇到了 Memo
  • 如何为 tf-idf 矢量器创建 scikit 管道?

    我正在经历这个官方sklearntutorial https scikit learn org stable auto examples model selection grid search text feature extraction
  • InnoDB 可以使用停用词文件吗?

    通过对 MyISAM 的全文搜索 我知道我可以使用以下内容在 my cnf 中指定一个停用词文件 ft stopword file etc stopword txt InnoDB 的全文搜索也可以做到同样的事情吗 如果可能的话 我想做类似以
  • 从头开始构建一个快速的私人文章语义MySQL搜索引擎

    我正在开展一个项目 其中涉及全文 and semantic搜索网站内的文章 如果无法合并 用户可以选择任一选项 这些文章是订阅式的 只有登录后才能搜索 因此外部搜索引擎或其 API 无法访问它们 我读过有关狮身人面像的文章 http www
  • tm.package:findAssocs 与 Cosine

    我是新来的 我的问题是数学问题而不是编程性质 我想就我的方法是否有意义获得第二意见 我试图使用该函数在我的语料库中找到单词之间的关联findAssocs 来自tm包裹 尽管它在通过该包提供的数据 例如 纽约时报 和美国国会 上表现得相当不错
  • 使用 TfidfVectorizer scikit-learn 的自定义词汇表时出现问题

    我尝试在 scikit learn 中使用自定义词汇来执行一些聚类任务 但得到了非常奇怪的结果 当不使用自定义词汇表时 程序运行正常 我对集群创建感到满意 不过 我已经确定了一组我想用作自定义词汇表的单词 大约 24 000 个 这些单词存
  • 不同长度的tf-idf文档

    我在网上搜索了有关在文档长度差异很大的情况下标准化 tf 等级的信息 例如 文档长度从 500 字到 2500 字不等 我发现的唯一标准化讨论是将术语频率除以文档的长度 因此导致文档的长度没有任何意义 不过 这种方法对于标准化 tf 如果有
  • 如何保留 Spark HashingTF() 函数输入的键或索引?

    基于 1 4 的 Spark 文档 https spark apache org docs 1 4 0 mllib feature extraction html https spark apache org docs 1 4 0 mlli
  • OpenNLP 训练中的“截止”和“迭代”是什么意思?

    是什么意思cut off and iteration用于 OpenNLP 培训 或者自然语言处理 我只需要对这些术语进行外行解释 据我认为 迭代是算法重复的次数 截止是一个值 如果文本的值高于某个特定类别的截止值 它将映射到该类别 我对吗

随机推荐

  • 从Python中的一行中删除标签

    我有一个具有以下架构的文本 word1 word2 br word3 word4 br 我想删除最后一部分 并将我的结果存储在另一个文件中 我已尝试以下操作 仍然没有将结果保存在其他文件中 def main fileR open test
  • 如何解决webview内容重叠的问题[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 嗨 当背景设置为透明时 如何解决we
  • 变量范围的 Java 文档 [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 任何人都可以指导我查看 java 文档以了解变量的范围 我想查看 java 8 中的类变量和成员变量的
  • 如何使用 numpy 数组加速分形生成?

    这是我为使用牛顿方法制作分形而编写的一个小脚本 import numpy as np import matplotlib pyplot as plt f np poly1d 1 0 0 1 x 3 1 fp np polyder f def
  • 我可以在 Open Graph 中使用相对路径吗? [复制]

    这个问题在这里已经有答案了 我正在尝试设置相对路径og image元数据如下 在共享调试器时 我收到以下警告 推断属性 og image 属性应该明确 提供 即使可以从其他标签推断出值 有没有办法在Open Graph中使用相对路径 不 o
  • JPA:@JoinColumn 和 @PrimaryKeyJoinColumn 之间的区别?

    两者之间的确切区别是什么 JoinColumn and PrimaryKeyJoinColumn You use JoinColumn对于属于外键一部分的列 典型的列可能如下所示 例如 在具有附加属性的连接表中 ManyToOne Join
  • Django 模板文件夹

    我正在尝试 Django 并弄清楚如何设置urls py 以及 URL 如何工作 我已经配置了urls py在项目的根目录中 定向到我的博客和管理员 但现在我想向我的主页添加一个页面 所以在localhost 8000 所以我将以下代码添加
  • 如何在 Windows Phone 7 中创建自定义文本框?

    是否可以通过创建自定义文本框来处理 sip 我想创建一个自定义文本框 gt 创建获得焦点事件 gt 在我的自定义文本框的焦点上而不是 SIP 上 我的自定义键盘应该打开 要求 如何创建自定义文本框 打开自定义键盘而不是 SIP 获取文本字段
  • Python 终端菜单?终端着色?终端进度显示?

    我有一个广泛使用 Python 2 风格 的项目 我想知道是否有终端菜单库或类似的东西 我希望通过使用箭头键突出显示选项 一些颜色等简化一些选项 为我的脚本注入一些风味和活力 我隐约记得有一种方法可以制作 bash shell 终端菜单 但
  • Java初学者网络开发工具包/环境

    我的任务是使用 java 和 mysql 开发一个交互式网站 使用 servlet 检索和处理数据 使用小程序对客户端数据进行特殊处理 并处理客户端对不同数据视图的请求 您会推荐什么作为使用 java 进行 Web 开发的合适的通用工具包
  • DynamoDBMappingException:HASH 键没有映射

    编写 DynamoDB Java 应用程序时 如果表及其数据模型配置不正确 则在写入表或从表中检索时 您可能会收到 无 HASH 键映射 错误 完整的异常类似于 com amazonaws services dynamodbv2 datam
  • Django (JSONField) 和 tastypie

    我通过使用 JSONField 在 mysql 中创建了一个 TextField django 类型的表 这就是我的模型的样子 from django db import models from json field import JSON
  • 我什么时候应该在 ASP.NET MVC 中使用部分视图? [关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 我已经完成了示例 asp net m
  • 在 Tridion 2011 SP1 中实现存储扩展时,未定义名为 No bean

    我正在尝试使用下面的示例来实现存储扩展 http www sdltridionworld com articles sdltridion2011 tutorials extending content delivery storage sd
  • 错误 C2601:“main”:本地函数定义非法 - MS VS 2013 编译器

    我正在用 C 编写一个小程序 当我尝试使用 MS VS 2013 编译器编译它时 出现错误 C2601 main 本地函数定义非法 这是什么意思 我的代码是 include
  • 在新选项卡或窗口中打开链接[重复]

    这个问题在这里已经有答案了 是否可以开一个a href链接在新选项卡而不是同一选项卡中 a href http your url here html Link a 您应该添加target blank and rel noopener nor
  • 加速Cuda程序

    要更改哪一部分来加速此代码 代码到底在做什么 global void mat Matrix a Matrix b int tempData new int 2 tempData 0 threadIdx x tempData 1 blockI
  • 在 C 中实现逻辑右移

    我正在致力于仅使用按位运算符在 C 中创建逻辑右移函数 这是我所拥有的 int logical right shift int x int n int size sizeof int size of int arithmetic shift
  • 为什么嵌套 Java 类不能从 Scala 导入?

    我应该如何使用嵌套 Java 类来模拟斯卡拉莫克 特别是当所说的嵌套 Java 类来自第三方库时 鉴于以下来源 src main java Outer java Outer class that offers a Nested class
  • 如何使用 tf-idf 选择停用词? (非英语语料库)

    我已经成功评估了tf idf 函数 http en wikipedia org wiki Tf idf对于给定的语料库 如何找到每个文档的停用词和最佳词 据我所知 给定单词和文档的 tf idf 较低意味着它不是选择该文档的好单词 停用词是