tf-idf 向量化器在 char_wb 的特征词中有空格？

2024-01-17

I use

singleTFIDF = TfidfVectorizer(
    analyzer='char_wb', 
    ngram_range=(4,6),
    stop_words=my_stop_words, 
    max_features=50
).fit([text])

并想知道为什么我的特征中有空格，例如“chaft”

我怎样才能避免这种情况？我需要自己对其进行标记化和预处理吗？

Use analyzer='word'.

当我们使用analyzer='char_wb'，矢量化器填充空白因为它不会对单词进行标记；它针对字符进行标记。

根据文档 https://scikit-learn.org/stable/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html为了analyzer争论：

analyzer{‘word’, ‘char’, ‘char_wb’} or callable, default=’word’

该特征是否应由单词或字符 n-gram 组成。选项“char_wb”创建字符 n 元语法仅从文本在单词边界内; n 元语法在单词的边缘用空格填充.

看下面的例子：

from sklearn.feature_extraction.text import TfidfVectorizer
corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?',
]
vectorizer = TfidfVectorizer(
  analyzer='char_wb', 
  ngram_range= (4,6))
X = vectorizer.fit_transform(corpus)
print([(len(w),w) for w in vectorizer.get_feature_names()])

[(4, '和'), (5, '和'), (4, '文档'), (5, '文档'), (6, '文档'), (4, '杉'), (5, '杉'), (6, '第一'), (4, '是'), (4, '一'), (5, '一.'), (6, '一.'), (4, '秒'), (5, '秒'), (6, '秒'), (4, '该'), (5, '该'), (4, '这'), (5, '第三'), (6, '第三'), (5, '这个'), (6, '这个'), (4, '和'), (4, '条件'), (5, '条件'), (4, 'cume'), (5, 'cumen'), (6, 'cument'), (4, 'docu'), (5, 'docum'), (6, '文档'), (4, '经济'), (5, '第二'), (6, '第二'), (4, 'ent '), (4, 'ent.'), (5, 'ent.'), (4, 'ent?'), (5, 'ent?'), (4, '第一'), (5, '第一'), (6, '第一'), (4, '第三'), (5, '第三'), (4, '他的'), (4, 'ird'), (4, '第一'), (5, '第一'), (4, 'ment'), (5, 'ment'), (5, 'ment。'），（6，'ment。'），（5，'ment？'），（6，'ment？'），（4，'ne。'），（4， 'nt。 '), (4, 'nt? '), (4, '奥库姆'), (5, '奥库姆'), (6, '奥库门'), (4, '第一个'), (4, '一'), (5, '一'), (4, '第一'), (4, '第二'), (5, '第二'), (6, '第二'), (4, '第三'), (4, '第三'), (5, '第三'), (6, '第三'), (4, '这个'), (5, '这个'), (4, 'umen'), (5, 'ument'), (6, 'ument'), (6, 'ument.'), (6, 'ument?')]

Notice:

输出/特征include ' this'（在开头填充了原文中没有的额外空格；句子以'This')
输出/特征include 'ment. '（在末尾添加了原文中没有的额外空格；句子以'document.')
输出/特征do not包括'is the'，因为该 n 元语法跨越了单词边界，但是'char_wb'分析器仅创建 n 元语法“在单词边界内"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

tfidfvectorizer

tf-idf 向量化器在 char_wb 的特征词中有空格？的相关文章

我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
Python逻辑运算符优先级[重复]

这个问题在这里已经有答案了哪个运算符优先4 gt 5 or 3 lt 4 and 9 gt 8 这会被评估为真还是假我知道该声明3 gt 4 or 2 lt 3 and 9 gt 10 显然应该评估为 false 但我不太确定 pyth
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
具有定制损失函数的随机森林

我是机器学习领域的初学者对于一个项目我必须在随机森林分类中使用自定义损失函数到目前为止我一直使用 scikit 通过 scikit 实现这一点的建议会更有帮助损失函数分类树中的基尼杂质和熵在 scikit 的 tree pyx
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
将 2D NumPy 数组按元素相乘并求和

我想知道是否有一种更快的方法专用 NumPy 函数来执行 2D NumPy 数组的元素乘法然后对所有元素求和我目前使用np sum np multiply A B 其中 A B 是相同维度的 NumPy 数组m x n 您可以使用np
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 PyTorch 分布式 NCCL 连接失败

我正在尝试使用 torch distributed 将 PyTorch 张量从一台机器发送到另一台机器 dist init process group 函数正常工作但是 dist broadcast 函数中出现连接失败这是我在节点 0
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
无法在前端使用 JavaScript Fetch API 将文件上传到 FastAPI 后端

我正在尝试弄清楚如何将图像发送到我的 API 并验证生成的token那是在header的请求到目前为止这就是我所处的位置 app post endreProfilbilde async def endreProfilbilde requ
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
字典和数组作为类变量与实例变量

这是赚取积分的简单方法请解释以下内容 class C a b 0 c def init self self x def d self k v self x k v self a k v self b v self c append v d
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

C++ 从字符串中间提取数字

我有一个vector含有strings遵循以下格式text number number Eg Example 45 3 我只想要第一个数字 45在示例中并且我无法使用当前代码执行其他操作 std vector
在不同的函数中分配的空闲内存？

我正在尝试学习 C 目前正在尝试编写基本的堆栈数据结构但我似乎无法掌握基本的知识malloc free right 这是我一直在使用的代码我只是在这里发布一小部分来说明特定问题而不是全部代码但错误消息是通过运行此示例代码生成的val
PGAdmin III 无法连接 AWS RDS

我正在尝试从 PgAdmin 3 连接 AWS RDS PostgreSql 我点击了以下链接http docs aws amazon com AmazonRDS latest UserGuide USER ConnectToPostgre
创建包含多个 AAR/JAR 的 AAR

我看到了一些问题 Android Studio 将 2 个 aar 合二为一 https stackoverflow com questions 30084314 android studio combine 2 aar into one和
Google 地图标记为链接

我在我的网站上使用 Google 地图但我想知道如何使用Markers作为链接我的意思是当我单击标记打开特定链接时先感谢您这实际上很容易做到只需将事件处理程序附加到您的标记然后通过设置启动链接window location hr
在 Hibernate JPA 实体中用另一个列表替换一个列表是否合法？

假设一个 Hibernate 4 2 JPA 2 0 实体class EntityA 它包含一个 ManyToOne field List
连接多个字典以创建新列表，其值作为原始字典的值列表

我使用的是 Python 2 7 并且在这里查看了几个解决方案如果您知道要合并多少个字典这些解决方案就有效但我可以有 2 到 5 个之间的任何内容我有一个循环它生成一个具有相同键但不同值的字典我想将新值添加到以前的值中 Such
过滤输入 URL 的最佳方法是什么？

我有一个接受来自 PHP 用户的 URL 的表单我应该允许或禁止哪些字符目前我使用 input preg replace a zA Z0 9 string 输入子字符串输入 0 255 因此它被修剪为 255 个字符并且只能包含
抑制地址清理程序的 gtest 的统一测试

我正在我的单元测试上运行地址清理程序 Cmake 看起来像这样 cmake G Unix Makefiles DCMAKE CXX COMPILER clang 9 DCMAKE C COMPILER clang 9 DCMAKE C FL
是否有 RedGate 的“穷人”替代品来编写整个数据库模式的脚本？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我现在的情况是我想为数据库生成一个脚本我可以在另一台服务器上运行该脚本并获得与原始数据库相同的数
Eclipse 类路径条目仅用于测试

在 Maven 中你可以有编译时依赖关系和test依赖关系这是我喜欢的一个功能 M2Eclipse 插件也使这个功能在 Eclipse 中可用这非常棒所以如果我添加jmock jar作为测试依赖项添加到我的项目中它将显示在 JUn
有什么办法可以使用路径查找图像吗？ MediaStore.Images.Thumbnails (Android)

我在用着MediaStore Images Thumbnails以显示用户拥有的图像但我无法通过其路径获取图像有什么办法可以使用路径查找图像吗 String proj MediaStore Images Thumbnails ID Me
无论如何要在flutter中使用sharedPreferences启用“记住我”功能？

目前如果用户成功登录一次我已启用保持登录功能但是我仍然想制作一个记住我复选框来保存用户的成功登录信息谁能帮我解决这个问题吗需要一个复选框使用户能够在用户成功登录后存储电子邮件和密码代码如下所示 signIn Str
在 Android 设备上运行 github 上的 React Native 项目

背景我跟着this https facebook github io react native docs tutorial html教程并在我的设备上成功运行了这个现在我正在尝试运行 github 上的其他 React Native 项
Bigquery 使用具有空字段的数据流进行流式插入

我们使用预定义的 Dataflow 作业模板将 Bigquery 流式插入与 Dataflow 结合使用当我将其与可为空和重复的字段一起使用时我遇到了一些特殊情况例如使用模式 name STRING NULLABLE 尝试进行插入操
WSDL测试

有人做过 wsdl 测试吗即模式验证语义验证 WSDL 回归测试互操作性有人知道如何实施上述内容吗 I use SoapUI http www soapui org 用于我所有的 SOAP REST 测试它可以完成您想要的所有操
在 AWS CodePipeline 中对多个构建进行手动审批

我们设置了一个 CodePipeline 来执行构建部署到 QA ECS 环境然后执行手动批准步骤以部署到 Prod 但令人困惑的是当有多个构建相继运行时多个构建按顺序部署到 QA 但批准按钮似乎一次批准一个并且当您单击它时不
缺少“运行方式”Android 应用程序

SDK 和 ADT 已安装并正常工作但是当我运行一些 android 代码时运行方式面板为空我需要转到运行配置单击 Android 应用程序制作副本将我的项目名称放在副本上并运行它然后在模拟器上就可以正常运行了如何在运行方
Java 工作空间和文件路径

我有一个可能很容易解决的问题我的项目中有一个文件夹想使用相对路径获取它 new File folder 这给了我FileNotFoundException 如果我尝试这样 new File d workspace project fol
tf-idf 向量化器在 char_wb 的特征词中有空格？

I use singleTFIDF TfidfVectorizer analyzer char wb ngram range 4 6 stop words my stop words max features 50 fit text 并想知

tf-idf 向量化器在 char_wb 的特征词中有空格？

tf-idf 向量化器在 char_wb 的特征词中有空格？ 的相关文章

随机推荐

热门标签

tf-idf 向量化器在 char_wb 的特征词中有空格？的相关文章