字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

2023-11-28

至少可以考虑 3 种类型的 n-gram 来表示文本文档:

  • 字节级 n 元语法
  • 字符级 n 元语法
  • 词级 n 元语法

我不清楚应该使用哪一个来完成给定的任务(聚类、分类等)。我在某处读到,当文本包含拼写错误时,字符级 n-gram 优于单词级 n-gram,因此“Maryloves dogs”仍然类似于“Mary lpves dogs”。

选择“正确”的表示形式还需要考虑其他标准吗?


Evaluate。选择表示的标准是任何有效的方法.

事实上,字符级别(!=字节,除非您只关心英语)可能是最常见的表示形式,因为它对拼写差异具有鲁棒性(如果您查看历史记录,则不一定是错误;拼写变化)。因此,出于拼写纠正的目的,这很有效。

另一方面,Google 图书 n-gram观众在他们的图书语料库中使用单词级 n-gram。因为他们不想分析拼写,而是分析术语随时间的使用情况;例如“儿童保育”,单个词并不像它们的组合那么有趣。这在机器翻译中被证明非常有用,通常被称为“冰箱磁铁模型”。

如果您不处理国际语言,字节也可能有意义。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

字节 vs 字符 vs 单词 - n-gram 的粒度是什么? 的相关文章

  • HMM 如何用于手写识别?

    这个问题与传统的手写识别有点不同 我有一个包含数千个以下内容的数据集 对于一个绘制的角色 我有几个连续的 x y 按下笔的坐标 所以 这是一个顺序 时间 问题 我希望能够根据这些数据对手写字符进行分类 并且希望实现 HMM 来实现学习目的
  • R:tuneRF 函数的行为不明确(randomForest 包)

    我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor
  • word2vec中单词的向量代表什么?

    word2vec https code google com p word2vec 是 Google 的开源工具 它为每个单词提供一个浮点值向量 它们到底代表什么 还有一篇论文关于段落向量 http cs stanford edu quoc
  • 在Python或Sklearn中用整数值对具有字符串值的列变量进行编码

    如何用整数值对数据表中字符串类型的列值进行编码 例如 我有两个特征变量 颜色 可能的字符串值 R G 和 B 和技能 可能的字符串值 C Java SQL 和 Python 给定数据表有两列 Color gt R G B B G R B G
  • 如何调整 NLTK 句子标记器

    我正在使用 NLTK 来分析一些经典文本 但我在按句子标记文本时遇到了麻烦 例如 这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
  • Spacy 中的自定义句子分割

    I want spaCy使用我提供的句子分割边界而不是它自己的处理 例如 get sentences Bob meets Alice SentBoundary They play together gt Bob meets Alice Th
  • 从文本文件中提取与输入单词最相似的前 N ​​个单词

    我有一个文本文件 其中包含我使用 BeautifulSoup 提取的网页内容 我需要根据给定的单词从文本文件中找到 N 个相似的单词 流程如下 从中提取文本的网站 https en wikipedia org wiki Football h
  • 如何训练斯坦福 NLP 情感分析工具

    地狱大家 我正在使用斯坦福核心 NLP 包 我的目标是对推文直播进行情感分析 按原样使用情感分析工具对文本 态度 的分析非常差 许多积极因素被标记为中性 许多消极因素被评为积极 我已经在文本文件中获取了超过一百万条推文 但我不知道如何实际获
  • 如何确保用户只提交英文文本

    我正在构建一个涉及自然语言处理的项目 由于nlp模块目前只处理英文文本 所以我必须确保用户提交的内容 不长 只有几个单词 是英文的 是否有既定的方法来实现这一目标 首选 Python 或 Javascript 方式 如果内容足够长我会推荐一
  • Node2vec 的工作原理

    我一直在读关于node2vec https cs stanford edu jure pubs node2vec kdd16 pdf嵌入算法 我有点困惑它是如何工作的 作为参考 node2vec 由 p 和 q 参数化 并通过模拟来自节点的
  • NLTK 中的无监督 HMM 训练

    我只是想进行非常简单的无监督 HMM 训练nltk http www nltk org 考虑 import nltk trainer nltk tag hmm HiddenMarkovModelTrainer from nltk corpu
  • 快速NLTK解析成语法树

    我正在尝试将数百个句子解析为语法树 我需要快速完成 问题是如果我使用 NLTK 那么我需要定义一个语法 而我不知道我只知道它会是英语 我尝试使用this https github com emilmont pyStatParser统计解析器
  • AttributeError:类型对象“Word2Vec”没有属性“load_word2vec_format”

    我正在尝试实现 word2vec 模型并收到属性错误 AttributeError 类型对象 Word2Vec 没有属性 load word2vec format 下面是代码 wv Word2Vec load word2vec format
  • SpaCy 中的自定义句子边界检测

    我正在尝试在 spaCy 中编写一个自定义句子分段器 它将整个文档作为单个句子返回 我编写了一个自定义管道组件 它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
  • 如何在Python中使用多处理来加速循环执行

    我有两个清单 列表 A 包含 500 个单词 列表 B 包含 10000 个单词 我正在尝试为列表 A 找到与 B 相关的相似单词 我正在使用 Spacy 的相似函数 我面临的问题是计算需要很长时间 我是多处理使用的新手 因此请求帮助 如何
  • 缩短文本并仅保留重要句子

    德国网站 nandoo net 提供了缩短新闻文章的可能性 如果使用滑块更改百分比值 文本会发生变化并且某些句子会被遗漏 您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
  • 有人可以用非常简单的图形方式给出余弦相似度的例子吗? [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 维基百科上的余弦相似度文章 http en wikipedia org wiki Cosine similarity 你能在这里显示向量吗
  • 如何将标记化中的多单词名称保留在一起?

    我想使用 TF IDF 特征对文档进行分类 一种方法是 from sklearn feature extraction text import TfidfVectorizer import string import re import n
  • PHP 和 NLP:嵌套括号(解析器输出)到数组?

    想要将带有嵌套括号的文本转换为嵌套数组 以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文 我喜欢一大床
  • 管道:多个流消费者

    我编写了一个程序来计算语料库中 NGram 的频率 我已经有一个函数 它消耗一串令牌并生成一个订单的 NGram ngram Monad m gt Int gt Conduit t m t trigrams ngram 3 countFre

随机推荐

  • 如何在 Git 历史记录中 grep(搜索)已提交的代码

    我过去删除过一个文件或文件中的某些代码 我可以搜索内容 而不仅仅是提交消息 吗 一个非常糟糕的解决方案是 grep 日志 git log p grep
  • 将子 iframe 中的事件附加到父窗口中的处理程序

    我无法直接访问此 iframe 的源代码 因此如果可能的话 我想这样做 我有一个由 JS 生成的 iframe 里面有一个提交按钮和一个取消按钮 提交按钮工作正常 但我希望取消按钮关闭包含 iframe 的此模式 我还希望提交按钮发送 th
  • 如何在 ASP.NET 5 Identity 中设置PasswordHasherCompatibilityMode.IdentityV3?

    目前看来默认设置为PasswordHasherCompatibilityMode IdentityV2这是 ASP NET 5 中的 HMAC SHA1 我尝试创建一个实例PasswordHasherOptions添加到服务 DI 但无法使
  • 用户控制验证组问题

    我在页面上有两个用户控件实例 两者都有字段和一个提交按钮 我已经在字段和验证器上设置了验证组 但由于某种原因 在验证两个用户控件的验证器时会触发 这个方法也有效 Dim valGroup String format 0 validation
  • GCC默认main返回值不为零

    我有一些没有从 main 显式返回的 C 程序 如下所示 int main int argc char argv blah blah 如果我使用 GCC 4 6 3 和以下选项编译它们 gcc file c Wall Wextra 程序不会
  • ImmutableList.builder() 错误?

    我刚刚开始学习番石榴 我注意到一些奇怪的事情ImmutableList builder 这不能编译 List
  • 根据变量快速调整窗口大小

    我有一个NSViewController和一个变量num 我想根据该变量动态更改窗口的大小 有什么办法可以快速做到这一点吗 假设您的窗口有一个名为 window 的 IBOutlet 并且您的动态号码名为 myDynamicNumber f
  • Scala 2.10 中的 Iterator.size 错误?

    这是正常的吗 scala gt val x Iterator List String str lol Iterator List String non empty iterator scala gt x size res1 Int 1 sc
  • 在 iFrame 中显示的 PDF 上绘制坐标

    首先 我很感激我的要求相当 雄心勃勃 但非常感谢任何帮助 因为我不确定继续进行的最佳方式 在我的网站 使用 PHP MySQL 构建 上 用户上传 PDF 后 我想在页面上内嵌显示 PDF 我假设在 iFrame 中 然后我需要他们能够在
  • 处理 jQuery.getScript 中的错误

    jQuery 的获取脚本函数似乎不支持错误回调函数 我不能在这里使用全局 ajax 错误处理代码 本地错误函数将是理想的选择 回调获取 data textStatus 的文档似乎不正确 回调两者都没有获取 关于如何检测 getScript
  • Flask 上下文堆栈的用途是什么?

    我已经使用请求 应用程序上下文一段时间了 但没有完全理解它是如何工作的或者为什么它是这样设计的 当涉及到请求或应用程序上下文时 堆栈 的目的是什么 这两个堆栈是独立的 还是同一个堆栈的一部分 请求上下文是压入堆栈 还是堆栈本身 我可以在彼此
  • 像在android市场中一样滑动标签栏[关闭]

    Closed 这个问题需要多问focused 目前不接受答案 有谁知道如何像android市场中那样实现该栏 类别 特色 最高付费 我也在新版本的SuperUser中看到了它 所以我知道它可以完成 谢谢你的回复 感谢塞尔文的回复 按照建议查
  • 以最佳方式将矩形装配在一起

    我想知道是否有人知道任何适合将 N 个未知大小的矩形组装成可能的最小包含矩形的算法 我所说的最佳是指减少生成的包含矩形中剩余的空白量 我想用它从一系列图像生成 css 精灵 非常感谢 Ian 我认为你所描述的是 二维装箱 问题的一个变体 唯
  • 隐式转换:const 引用与非 const 引用与非引用

    考虑这段代码 struct A struct B B const A void f B cout lt lt f lt
  • 如何使用 Rails 和 minitest 模拟 OmniAuth 哈希?

    我正在使用 Rails 5 和 minitest 我想模拟登录到我的会话控制器 它依赖于omniauth 我使用Google和FB进行登录 我的控制器测试中有这个 test controllers rates controller test
  • 为什么这个明显的无限递归不会给出编译器警告? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 许多个月前 我不得不修复一
  • .NET Windows 窗体设计时规则

    我有一个对象启动一个线程 打开一个文件 并等待来自其他类的输入 当它接收输入时 会将其写入磁盘 基本上 它是一个线程安全的数据记录类 这是奇怪的部分 当我在使用该对象的设计器 Visual Studio 2008 中打开表单时 就会创建文件
  • MongoDB 多维数组投影

    我刚刚开始学习 MongoDB 找不到解决我的问题的方法 得到那个文件 gt db test insert name Anika arr 11 22 33 44 请注意 arr 字段 它是一个多维数组 现在我正在寻找一个仅返回 arr 0
  • 非 PIE 二进制文件 - 可执行文件“项目名称”不是位置无关的可执行文件。

    我将二进制文件上传到 iTunes Connect 它经过验证并接受发布到 App Store 我收到一封来自 Apple 的电子邮件 称我的应用程序是无效的二进制文件 亲爱的开发者 我们发现您最近的交货存在一个或多个问题 项目名 要处理您
  • 字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

    至少可以考虑 3 种类型的 n gram 来表示文本文档 字节级 n 元语法 字符级 n 元语法 词级 n 元语法 我不清楚应该使用哪一个来完成给定的任务 聚类 分类等 我在某处读到 当文本包含拼写错误时 字符级 n gram 优于单词级