我应该如何使用 scikit learn 对以下列表进行矢量化？

2024-04-08

我想用 scikit 进行矢量化学习一个有列表的列表。我转到有训练文本的路径，我阅读了它们，然后我得到如下内容：

corpus = [["this is spam, 'SPAM'"],["this is ham, 'HAM'"],["this is nothing, 'NOTHING'"]]

from sklearn.feature_extraction.text import CountVectorizer
vect = CountVectorizer(analyzer='word')
vect_representation= vect.fit_transform(corpus)
print vect_representation.toarray()

我得到以下信息：

return lambda x: strip_accents(x.lower())
AttributeError: 'list' object has no attribute 'lower'

另外，问题是每个文档末尾的标签，我应该如何处理它们才能进行正确的分类？

对于未来的每个人来说，这解决了我的问题：

corpus = [["this is spam, 'SPAM'"],["this is ham, 'HAM'"],["this is nothing, 'NOTHING'"]]

from sklearn.feature_extraction.text import CountVectorizer
bag_of_words = CountVectorizer(tokenizer=lambda doc: doc, lowercase=False).fit_transform(splited_labels_from_corpus)

这是当我使用时的输出.toarray()功能：

[[0 0 1]
 [1 0 0]
 [0 1 0]]

多谢你们

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

NLP

scikitlearn

我应该如何使用 scikit learn 对以下列表进行矢量化？的相关文章

以清晰的方式在 1 个轴上显示 3 个直方图 - matplotlib

我生成了 3 组数据它们以 numpy 数组的形式组织我有兴趣将这三组数据的概率分布绘制为标准化直方图所有三个分布看起来几乎相同因此将所有三个分布绘制在同一轴上以便于比较似乎是明智的默认情况下 matplotlib 直方图绘制为条
利用 Python f 字符串和 Yaml 文件？

如果我有一个 yaml 文件其中包含一个带有括号符号的字符串与 python f 字符串配合使用那么如何在此处利用 f 字符串插值以这个简单的 yaml 文件为例 tmp yaml k1 val1 k2 val2 as well
在时间序列线图上绘制点

我有这个数据框我想绘制它的线图正如我所绘制的 Graph is 生成的代码是 fig ax plt subplots figsize 15 5 date time pd to datetime df Date df df set ind
scrapy中cookies的正确使用形式是什么

我是个新手我正在一个使用cookies的网络中使用scrapy 这对我来说是一个问题因为我可以在没有cookies的网络上获取数据但在有cookies的网络上获取数据对我来说很困难我有这个代码结构 class mySpider Ba
如何让 Numpy 将每一行/张量视为一个值

许多功能例如in1d https docs scipy org doc numpy 1 13 0 reference generated numpy in1d html and setdiff1d https docs scipy org
Celery未注册任务KeyError

我通过在终端中执行以下命令来启动工作程序 celery A cel test worker loglevel INFO concurrency 10 n worker1 h 然后我收到一条长循环错误消息指出 celery 已收到未注册的任
输入到列表并找到同一输入python的最长条纹

我正在编写一个程序其中用户将值输入到列表中直到想要结束为止该程序将告诉用户他们输入的最长连续数字例如如果用户输入 7 7 7 6 6 4 end 则会得到输出您的最长连胜次数为 3 因为 7 已连续输入 3 次到目前为止我有
我可以使用 Python 访问 ImageMagick API 吗？

我需要使用图像魔术师 http www imagemagick org script index php因为 PIL 没有我正在寻找的可用图像功能量但是我想使用Python python 绑定 PythonMagick 自 2009 年
调用 close() 后大文件没有立即刷新到磁盘？

我正在使用 python 脚本创建大文件超过1GB 实际上有 8 个在创建它们之后我必须创建将使用这些文件的进程该脚本如下所示 This is more complex function but it basically does
Python 中定义了黄金比例吗？

有没有办法得到黄金比例phi 在标准Python模块中我知道e and pi in the math模块但我可能错过了phi某处定义 scipy constants http docs scipy org doc scipy refer
Scipy - 求矩阵列空间的基数

我正在尝试编写一个简单的单纯形算法其第一步是找到一个基本的可行解决方案选择 A 的线性独立列的一组 B 将 x 中与不在 B 中的列相对应的所有分量设置为零求解 m 个所得方程以确定 x 的分量这些是基本变量我知道解决方案将涉及使
使用 spaCy 添加多个 EntityRuler（ValueError：'entity_ruler' 已存在于管道中）

下列link https stackoverflow com questions 57477852 spacy matcher with entities spanning more than a single token展示如何在实体跨越
致命Python错误：init_import_size：无法在Anaconda Prompt中导入站点模块

当我启动 Anaconda Prompt 时收到以下错误消息致命 Python 错误 init import size 无法导入站点模块 Python运行时状态已初始化回溯最近一次调用最后一次文件 C Users blue App
使用 Opencv 屏蔽水平线和垂直线

我正在尝试删除该图像中的水平线和垂直线以便拥有更清晰的文本区域我正在使用下面的代码它遵循这个guide https docs opencv org 3 2 0 d1 dee tutorial moprh lines detection
python pandas 将两行或多行文本合并为一行

我有包含文本数据的数据框如下所示 name address number 1 Bob bob No 56 2 gmail com 3 Carly email protected cdn cgi l email protection No
如何在不重复代码的情况下定义 randint 元组？

我经常使用 randint 元组来表示颜色值等 a b c randint 0 255 randint 0 255 randint 0 255 当我认为必须有更好的方法时有吗使用numpy 1 import numpy as np tu
Pythonlibs3 CMake 和 macOS

更新2 将以下两行添加到我的 CMake 文件中时成功找到了 python 3 及其库这只在终端中工作的原因是因为 CLion 使用其捆绑版本的 CMake 3 6 3 而我的终端使用的更新版本 3 7 2 正确找到了 python F
Python 子进程在发出 HTTP 请求时无提示崩溃

我在组合多处理请求或 urllib2 和 nltk 时遇到问题这是一个非常简单的代码 gt gt gt from multiprocessing import Process gt gt gt import requests gt g
使用 Python for Linux 模拟按键事件

我正在编写一个脚本来自动运行特定模型当模型失败时它会等待用户输入 Enter 键我可以检测到模型何时失败但我无法使用 python 在 Linux 上来模拟按键事件 Windows 有 SendKeys 库来执行此操作但我想知道
Pylance 无法在 VSCode Jupyter 笔记本中工作

皮兰斯工作于 py files 但不适用于 Jupyter ipynb笔记本我尝试保存 ipynb 同样的问题如何在我的笔记本中启用 Pylance 警告 Jupyter 扩展似乎不支持 Pylance 我提交这个问题就是为了解决这个缺

随机推荐

1 个节点存在 pod 在 kubernetes 集群中无法容忍的污点

今天我的 kubernetes 集群 v1 15 2 给我这个错误 1 node s had taints that the pod didn t tolerate并且 Pod 无法启动它告诉我一个节点有污点我检查节点状态并且工作正常
使用浏览器缓存进行增量更新

客户端 AngularJS 应用程序从服务器获取相当大的列表列表可能有数百或数千个元素这可能意味着未压缩的几兆字节并且一些用户管理员获得更多数据我不打算让客户端获得部分结果因为排序和过滤不应该打扰服务器压缩效果很好大约为
无法在 openpyxl 中保存 Excel 电子表格 - Python

当我在 openpyxl 中时我无法保存正在处理的活动文件 wb obj load workbook filename C Users timde PycharmProjects starshipit test xlsx read onl
nginx 和 apache2 上的 WordPress 重定向太多

我刚刚在 ubuntu 14 04 LTS 上安装了 wordpress Nginx 充当 apache2 的反向代理 wp admin 工作正常但我无法打开主页 Nginx 服务器代码 server listen 80 root var
INNER JOIN ON 与 WHERE 子句

为简单起见假设所有相关字段都是NOT NULL 你可以做 SELECT table1 this table2 that table2 somethingelse FROM table1 table2 WHERE table1 foreig
如何重用所有场景的标题部分？

我想重复使用header全部部分view controller scene header 部分表示绿色视图和标签 AMAR LIFE Here is my may 1st view controller scene 这是我的第一个视图控制器
R闪亮的分层下拉列表

我们需要在 R闪亮中创建一个分层下拉列表该列表至少有 3 个级别您能帮我确定正确的库吗请参考下面的图片供您参考目前我们正在使用下面的代码但是我们在下拉列表中得到了不正确的列 ui R library shiny library s
是否可以在设备函数中调用cufft库调用？

我在主机代码中使用 cuFFT 库调用它们工作正常但我想从内核调用 cuFFT 库早期版本的 CUDA 没有这种支持但是有了动态并行性这可能吗如果有任何关于如何实现这一目标的示例那就太好了尽管在 Kepler cc 3 5
模拟forwardRef组件玩笑mockImplementation与打字稿

当组件包装在forwardRef 中时您打算如何处理测试文件中的模拟组件 mockImplementation 不在方法上而是在属性渲染上 import React from react import Component from Co
类成员初始化的首选方式？

class A public int x 100 声明A a不会初始化对象通过字段中的垃圾值可以看出x 以下将触发初始化 A a or auto a A or auto a A 应该优先选择三者中的哪一个吗接下来让我们让它成为另一个类
WinApi - GetLastError 与 Marshal.GetLastWin32Error

我测试了很多但我发现这两个没有缺点但请参阅已接受的答案 I read here http blogs msdn com b adam nathan archive 2003 04 25 56643 aspx that calling G
在 Excel VBA 中更改系列的线条透明度而不影响标记透明度

我正在用 VBA for excel 编写一个宏其中我想更改连接系列中标记的线条的透明度但保持系列中标记的透明度不变说明该图表是散点图我希望系列的标记是不透明零透明度系列中的线条是 75 透明我通过使用调整了线条的透明度my
未找到时区异常[重复]

这个问题在这里已经有答案了我想将印度 DateTime 对象转换为东部 DateTime 对象意味着我想更改特定 DateTime 对象的时区为此我编写了以下代码 string easternZoneId Eastern Standa
为什么 1 + 0 + 0 + 0 + 3 == 244？

将值 01200000131 传递给此方法 private static int sumOddVals string barcode int cumulativeVal 0 for int i 0 i lt barcode Length i
定义以数字开头的函数名称（在 Python 3 中）？

我尝试创建以下函数 def 3utr do something 但是我收到一个语法错误将 3 替换为三即可解决问题我的问题是为什么会出现语法错误呢 Python 3 有没有办法让函数名以数字开头这是一个语法错误因为语言规范不
在 Android 上使用透明绘画进行绘图

当我使用Paint with Color TRANSPARENT在 Android 中的普通 2D 画布上我没有得到任何结果我的目的是删除画布上的一些内容我的意思是我想要处理的内容不会消失这是我的代码Paint mPointFill
数据库的事务日志已满。要了解日志中的空间无法重用的原因，请参阅 sys.databases 中的 log_reuse_wait_desc 列

当我尝试在单个删除查询中删除 355447 条记录时出现以下错误数据库的事务日志已满要了解日志中的空间无法重用的原因请参阅 sys databases 中的 log reuse wait desc 列我尝试了解决方案但仍然删除
在 Chrome 扩展程序中插入图像

我想知道如何在 Chrome 扩展程序中插入图像 img src logo png 我将该 html 标签正确插入到网站中但自然无法加载该 logo png 图像关于如何修改manifest json有什么想法吗该问题有两个可能的原因
Maven 在运行 testng 测试用例时抛出错误

我有 steup Eclipse Maven TestNG 我打算运行 Selenium 测试用例这是我的 POM 文件
我应该如何使用 scikit learn 对以下列表进行矢量化？

我想用 scikit 进行矢量化学习一个有列表的列表我转到有训练文本的路径我阅读了它们然后我得到如下内容 corpus this is spam SPAM this is ham HAM this is nothing NOTHING

我应该如何使用 scikit learn 对以下列表进行矢量化？

我应该如何使用 scikit learn 对以下列表进行矢量化？ 的相关文章

随机推荐

热门标签

我应该如何使用 scikit learn 对以下列表进行矢量化？的相关文章