理解 sklearn CountVectorizer 中的“ngram_range”参数

2023-12-30

我对如何在 Python 的 scikit-learn 库中使用 ngrams 有点困惑，具体来说，如何ngram_range参数在 CountVectorizer 中工作。

运行这段代码：

from sklearn.feature_extraction.text import CountVectorizer
vocabulary = ['hi ', 'bye', 'run away']
cv = CountVectorizer(vocabulary=vocabulary, ngram_range=(1, 2))
print cv.vocabulary_

给我：

{'hi ': 0, 'bye': 1, 'run away': 2}

我的印象是（显然是错误的）我会得到一元词和二元词，如下所示：

{'hi ': 0, 'bye': 1, 'run away': 2, 'run': 3, 'away': 4}

我正在处理这里的文档：http://scikit-learn.org/stable/modules/feature_extraction.html http://scikit-learn.org/stable/modules/feature_extraction.html

显然我对如何使用 ngram 的理解存在严重错误。也许这个论证没有效果，或者我对实际的二元组是什么有一些概念上的问题！我很困惑。如果有人能给我一些建议，我将不胜感激。

UPDATE:
我已经意识到我的做法是愚蠢的。我的印象是ngram_range会影响词汇，而不是语料库。

设置vocabulary明确意味着没有从数据中学习词汇。如果你不设置它，你会得到：

>>> v = CountVectorizer(ngram_range=(1, 2))
>>> pprint(v.fit(["an apple a day keeps the doctor away"]).vocabulary_)
{u'an': 0,
 u'an apple': 1,
 u'apple': 2,
 u'apple day': 3,
 u'away': 4,
 u'day': 5,
 u'day keeps': 6,
 u'doctor': 7,
 u'doctor away': 8,
 u'keeps': 9,
 u'keeps the': 10,
 u'the': 11,
 u'the doctor': 12}

明确的词汇表限制了将从文本中提取的术语；词汇没有改变：

>>> v = CountVectorizer(ngram_range=(1, 2), vocabulary={"keeps", "keeps the"})
>>> v.fit_transform(["an apple a day keeps the doctor away"]).toarray()
array([[1, 1]])  # unigram and bigram found

（请注意，停用词过滤是在 n 元语法提取之前应用的，因此"apple day".)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

NGram

featureselection

理解 sklearn CountVectorizer 中的“ngram_range”参数的相关文章

pydev 断点不起作用

我正在使用 python 2 7 2 sqlalchemy 0 7 unittest eclipse 3 7 2 和 pydev 2 4 开发一个项目我在 python 文件单元测试文件中设置断点但它们被完全忽略之前在某些时候
如何使用python登录页面，该页面需要服务器在第一次请求时响应会话ID？

我正在编写一个脚本来登录某个网页我使用 request 和 request session 模块来实现此目的在使用登录参数的第一个请求时服务器响应一个会话 ID 如何设置该会话 ID 以进一步登录到同一页面 url some url
Pytorch - 推断线性层 in_features

我正在构建一个玩具模型来获取一些图像并进行分类我的模型看起来像 conv2d gt pool gt conv2d gt linear gt linear 我的问题是当我们创建模型时我们必须计算第一个线性层的大小in features基
当语料库有100亿个独特的DNA序列时，如何使用BK树实现快速模糊搜索引擎？

我正在尝试使用BK tree https news ycombinator com item id 14022424python 中的数据结构用于存储约 100 亿个条目的语料库 1e10 以实现快速模糊搜索引擎一旦我添加超过 1000
TCP打孔问题

我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过我无法连接任何东西这是代码 usr bin pytho
python中嵌套字典值的总和

我有一本这样的字典 data 11L a 2 b 1 a 2 b 3 22L a 3 b 2 a 2 b 5 a 4 b 2 a 1 b 5 a 1 b 0 33L a 1 b 2 a 3 b 5 a 5 b 2 a 1 b 3 a 1 b
如果每个区域内至少有 5 个连续行，如何在每个标题区域的末尾使用 Title[Name]2 发布新行？

我想在每个 Title 区域的末尾使用 Title Name 2 发布新行的最简单方法是通过一个计算连续行数的变量其中至少有 5 个连续行包含 1 1 1 1在每个标题区域内我不确定我对计数变量做错了什么也许确实必须在每个 Tit
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
self.__dict__.update(**kwargs) 的风格是好是坏？

在 Python 中假设我有一些类 Circle 它继承自 Shape Shape 需要 x 和 y 坐标此外 Circle 需要半径我希望能够通过执行类似的操作来初始化 Circle c Circle x 1 y 5 r 3 Cir
是否可以在 Jupyter 笔记本中显示控制台？

我希望能够使用 Jupyter 笔记本中的控制台在环境中进行摆弄添加额外的单元格意味着我总是必须滚动到最底部或在我想要类似控制台文本字段的任何地方创建新单元格是否可以有一个永久的控制台窗口例如在窗口底部 Thanks 您可以启动连
在 python 中使用 subprocess.call 时如何将 stdout 重定向到文件？

我正在从另一个 python 脚本 A 调用一个 python 脚本 B 使用 subprocess call 如何将 B 的标准输出重定向到指定的文件我正在使用 python 2 6 1 传递一个文件作为stdout参数为subproc
使用 matplotlib 设置或固定二元分布值

I ve animated a bivariate gaussian distribution using matplotlib 我已经计算过这个distribution通过调整COV matrix来考虑特定的变量我可以提供有关此过程的更
保存游戏最高分？

我使用 pygame 在 python 中制作了一个非常简单的游戏分数取决于玩家达到的级别我将级别作为变量称为score 我想在游戏开始或结束时显示顶级我会更乐意显示多个分数但我见过的所有其他线程都太复杂我无法理解所以请保持简单
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
如何在 matplotlib 中第一个 x 轴的底部添加第二个 x 轴？

我指的是已经提出的问题here https stackoverflow com questions 10514315 how to add a second x axis in matplotlib 在此示例中用户通过将第二个轴添加到与标
执行许多插入重复键更新错误：未使用所有参数

所以我一直在尝试使用 python 2 7 15 使用 mysql connector 执行此查询但由于某种原因它似乎不起作用并且总是返回错误并非所有参数都被使用表更新有一个主键即 ID 这是我尝试运行此 SQL 的查询 sql
Python 对列表中的值求和（如果它存在于另一个列表中）

我有一个列表和一组 a list 1 2 2 1 1 1 b list 1 2 我正在寻找对应 b list 中的项目并将它们从 a list 中的值相加以便输出为 1 3 2 1 我尝试过的 sum 0 for i in a list
在 Python 中伪造一个对象是否是类的实例

假设我有一堂课FakePerson它模仿基类的所有属性和功能RealPerson 不扩展它在Python 3中是否可以伪造isinstance 为了认识到FakePerson as a RealPerson只通过修改对象FakePers
如何继承并重写 django 模型类来创建 listOfStringsField？

我想为 django 模型创建一个新类型的字段它基本上是一个 ListOfStrings 因此在您的模型代码中您将具有以下内容模型 py from django db import models class ListOfString
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min

随机推荐

如何使用 NHibernate 模式生成更新数据库表模式？

我试图弄清楚如何使用 NHibernate 配置和映射来更新表模式而不是删除并重新创建它们目前我正在使用NHibernate Tool hbm2ddl SchemaExportobj 使用 FluentNHibernate 生成 mys
相当于给定 wget 命令的 Python

我正在尝试创建一个与 wget 命令执行相同操作的 Python 函数 wget c read timeout 5 tries 0 URL c 如果下载中断则从上次中断的地方继续 read timeout 5 如果超过 5 秒没有新数据传
如何在React js文本区域内渲染漂亮的json数据？

我是 React js 新手我在渲染文本区域内漂亮的 json 数据时遇到问题我不知道哪一部分是错误的我希望我的 Prettyjson 像这样在 textarea 内渲染 email email protected cdn cgi l
首先使用代码禁用整数主键上的标识（自动递增）

我在 ASP NET MVC 3 应用程序中使用代码优先方法并在模型中使用所有整数主键 public int Id get set 默认情况下配置为自动递增的身份如何禁用此功能并启用手动输入主键整数的方法实际情况是Id整数具有特殊的含
如何摆脱这个 Do-While 循环？

我有这个基本的 Arduino 代码我想要退出此 Do While 循环的 2 个选项我简化了原始代码以突出真正的问题 Do While无法识别 OR 退出循环的条件在此代码中我从两个等于 0 的整数变量开始一旦它们进入 Do W
Git 推送结果致命：协议错误：错误的行长度字符：这

我正在尝试让 GitLab 在我的服务器上运行运行 CentOS 6 5 我跟着gitlab 菜谱 https github com gitlabhq gitlab recipes blob master install centos R
如何创建一个包含纬度和经度的数组，并使用for循环来标记android中谷歌地图上的位置

我刚刚开始在 android 中编码经过很长一段时间我让我的谷歌地图可以工作并且能够在上面放置标记接下来我想做的是创建一个 latlng 数组并使用 for 循环在谷歌地图上放置一个标记我不知道该怎么做有人可以帮助我吗到目前为
更改 Windows 中的默认 MySQL 用户

如果我运行mysql or mysqldump从命令提示符运行程序我在 Windows 中得到这个 ERROR 1045 28000 Access denied for user ODBC localhost using password
内联三元运算符不起作用

由于某种原因我的三元运算符分配不适用于数组的第二部分有人看到我做错了什么吗它应该只是查看永久链接字段是否有值如果没有则插入link url进入数组 function getSiteMap this gt db gt select s
Firefox 中的文本描边和阴影 CSS3

我想知道是否有一种方法可以在文本中添加描边和阴影我可以让它在 Chrome 和 Safari 中工作因为 webkit 支持文本描边和文本阴影我可以在 Firefox 中显示笔划但那是使用文本阴影并使用偏移量那么有人知道解决这个问
将日期和时间数字转换为 time_t 并指定时区

我有以下整数 int y mon d h min s 他们的价值观是 2012 06 27 12 47 53分别如果我在应用程序中的其他地方选择了 UTC 我想表示 2012 06 27 12 47 53 UTC 的日期时间或者如果我在
如何通过 SAX XML Schema Validator 的验证消息进行内部化？

我使用此代码根据 XSD 验证 XML SchemaFactory factory SchemaFactory newInstance http www w3 org 2001 XMLSchema Schema schema factory
Excel 复制到 Word VBA

我正在使用宏记录器处理一些代码在单词中它总是以选择开头本文说我应该能够将文档分配给一个变量然后将其插入到 Selection 之前但是在我输入文档变量后选择方法不会出现在 VBE 中第一次使用 Selection 对象 Se
如何在 VB.NET 中使用多种字体样式组合？

如果我想设置我的字体我可以使用 new Font Times New Roman 12 Drawing FontStyle Bold 我可以使用斜体常规或下划线代替粗体但我想同时使用粗体和斜体我怎样才能做到这一点 The FontS
wx 0.90.0.1 无法在 Haskell Platform 2012.2.0.0 (WinXP) 上安装

我尝试使用 cabal install wx 在 Haskell Platform 2012 2 0 0 上安装 WX 0 90 0 1 但得到以下结果 Configuring wxc 0 90 0 4 setup exe wx confi
AspectJ：验证错误

我正在尝试面向方面的编程我已经安装了AspectJ 插件 http eclipse org aspectj index php在 Eclipse 中并遵循本中提到的所有步骤tutorial http sites google com si
无效的二进制或无效的 Swift 支持

将应用程序发送到应用程序商店以供批准后我在 iTunes Connect 中收到消息无效的二进制文件然后我在 Apple 发来的电子邮件中收到以下消息无效的 Swift 支持该捆绑包包含无效的 Swift 实现该应用程序可能是使
Chart.js x 轴线性比例：奇怪的行为

我正在尝试在 Chart js 图表中的 x 轴上使用线性刻度我添加了一些代码因为 stackoverflow 使其在添加 jsfiddle url 时必须这样做但我不明白这一点 var options scales xAxes ty
相当于其他编译器中 MSVC 的 _countof 吗？

是否有任何内置的等价物 countof http msdn microsoft com en us library ms175773 v VS 100 aspx由其他编译器提供特别是 GCC 和 Clang 有没有非宏观形式使用C 11
理解 sklearn CountVectorizer 中的“ngram_range”参数

我对如何在 Python 的 scikit learn 库中使用 ngrams 有点困惑具体来说如何ngram range参数在 CountVectorizer 中工作运行这段代码 from sklearn feature extra

理解 sklearn CountVectorizer 中的“ngram_range”参数

理解 sklearn CountVectorizer 中的“ngram_range”参数 的相关文章

随机推荐

热门标签

理解 sklearn CountVectorizer 中的“ngram_range”参数的相关文章