使用 scikit-learn 训练多维数据

2024-04-07

这是一个非常基本的概念：我对训练有多个依赖性。我的数据都是文本，并且有三个单独的字段。我能找到的每个示例都具有如下设置的文本数据：

data = ['text1','text2',...]

我的看起来像：

data = [['text1','text2','text3'],[...],...]

但是当我尝试适应数据时，我得到以下回溯：

ValueError                                Traceback (most recent call last)
<ipython-input-25-e3356a0f62f8> in <module>()
----> 1 classifier.fit(X,y)

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.pyc in fit(self, X, y, sample_weight)
    140                              "by not using the ``sparse`` parameter")
    141 
--> 142         X = atleast2d_or_csr(X, dtype=np.float64, order='C')
    143 
    144         if self.impl in ['c_svc', 'nu_svc']:

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in atleast2d_or_csr(X, dtype, order, copy)
    114     """
    115     return _atleast2d_or_sparse(X, dtype, order, copy, sparse.csr_matrix,
--> 116                                 "tocsr")
    117 
    118 

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in _atleast2d_or_sparse(X, dtype, order, copy, sparse_class, convmethod)
     94         _assert_all_finite(X.data)
     95     else:
---> 96         X = array2d(X, dtype=dtype, order=order, copy=copy)
     97         _assert_all_finite(X)
     98     return X

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in array2d(X, dtype, order, copy)
     78         raise TypeError('A sparse matrix was passed, but dense data '
     79                         'is required. Use X.toarray() to convert to dense.')
---> 80     X_2d = np.asarray(np.atleast_2d(X), dtype=dtype, order=order)
     81     _assert_all_finite(X_2d)
     82     if X is X_2d and copy:

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order)
    318 
    319     """
--> 320     return array(a, dtype, copy=False, order=order)
    321 
    322 def asanyarray(a, dtype=None, order=None):

ValueError: setting an array element with a sequence.

我有什么具体的方法可以解决这个问题吗？谢谢你！

NOTES:

我使用的所有文本数据都是由HashingVectorizer

clf.fit(X,y) where X是包含 3 个矢量化文本的列表的列表，并且y是元素所属各个类别的列表X属于

X 必须是二维数组（如果需要，也可以是列表的列表）。此列表列表中的每个列表都必须是数值列表。所有这些列表必须具有相同的长度。像这样：[[1,2,3,5],[3,4,5,6],[6,7,8,9],...]。如果对于每个对象有多个要矢量化的文本条目，则需要将生成的矢量化文本合并到一个列表中。例如，如果在您的上下文中有意义，则将它们连接起来。因此最终每个对象都必须由一个列表表示，其中所有条目都是数字。所有对象必须由相等长度的列表表示，其中所有列表中的相应元素表示相同的特征（例如，文本中相同标记的频率）。让我知道我说的是否有道理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

scikitlearn

使用 scikit-learn 训练多维数据的相关文章

Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
使用特定的类/函数预加载 Jupyter Notebook

我想预加载一个笔记本其中包含我在另一个文件中定义的特定类函数更具体地说我想用 python 来做到这一点比如加载一个配置文件包含所有相关的类函数目前我正在使用 python 生成笔记本并在服务器上自动启动它们因为不同的
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
使用 kivy textinput 的 'input_type' 属性的问题

您好我在使用 kivy 的文本输入小部件的 input type 属性时遇到问题问题是我制作了两个自定义文本输入其中一个称为 StrText 其中设置了 input type text 然后是第二个文本输入名为 NumText 其
Python zmq SUB 套接字未接收 MQL5 Zmq PUB 套接字

我正在尝试在 MQL5 中设置一个 PUB 套接字并在 Python 中设置一个 SUB 套接字来接收消息我在 MQL5 中有这个 include
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
立体太阳图 matplotlib 极坐标图 python

我正在尝试创建一个与以下类似的简单的立体太阳路径图 http wiki naturalfrequent com wiki Sun Path Diagram http wiki naturalfrequency com wiki Sun Pa
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
Python 2：SMTPServerDisconnected：连接意外关闭

我在用 Python 发送电子邮件时遇到一个小问题 me my email address you recipient s email address me email protected cdn cgi l email protectio
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
从 NumPy ndarray 中选择行

我只想从 a 中选择某些行NumPy http en wikipedia org wiki NumPy基于第二列中的值的数组例如此测试数组的第二列包含从 1 到 10 的整数 gt gt gt test numpy array nump
import matplotlib.pyplot 给出 AttributeError: 'NoneType' 对象没有属性 'is_interactive'

我尝试在 Pycharm 控制台中导入 matplotlib pyplt import matplotlib pyplot as plt 然后作为回报我得到 Traceback most recent call last File D Pr
使用特定颜色和抖动在箱形图上绘制数据点

我有一个plotly graph objects Box图我显示了箱形图中的所有点我需要根据数据的属性为标记着色如下所示我还想抖动这些点下面未显示 Using Box我可以绘制点并抖动它们但我不认为我可以给它们着色 fig a
Pandas 将多行列数据帧转换为单行多列数据帧

我的数据框如下 code df Car measurements Before After amb temp 30 268212 26 627491 engine temp 41 812730 39 254255 engine eff 15
如何在 pygtk 中创建新信号

我创建了一个 python 对象但我想在它上面发送信号我让它继承自 gobject GObject 但似乎没有任何方法可以在我的对象上创建新信号您还可以在类定义中定义信号 class MyGObjectClass gobject GO
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我

随机推荐

使用 lapply 对数据框列表应用函数并将输出保存到具有不同名称的文件

我有一个数据框列表并为列表中的每个元素例如每个数据框指定了名称 e g df1 lt data frame x c 1 5 y c 11 15 df2 lt data frame x c 1 5 y c 11 15 mylist lt
如何编写给定代码的列表理解？

我对 python 相当陌生 l for i in range x 1 for j in range y 1 for k in range z 1 if i k j n l append i j k 我尝试过 l i for i in ra
我可以在 Django 中为每个用户创建子域吗

我希望用户创建自己的帐户并且用户应该拥有自己的帐户例如 user foo com 并不同指向不同的模板文件夹在 Django 中可以吗我对 Django 很陌生安德烈提供的答案并不完全正确您确实需要一个通配符域名大多数体面的提
PHP/MySQLi 中的多个 SQL 对象

一段时间以来我一直在 php 中使用多个 SQL 连接来避免您现在无法运行此命令命令不同步错误我似乎无法弄清楚何时只能使用一个连接以及何时需要多个连接以下代码是我如何从彼此相关的不同表中检索内容的方法 The sqls 是连接到
Laravel、Faker - 增加生成的日期时间

我在 Seeder 中使用 Faker 包来生成训练活动的假数据每个活动都有starts at and ends at字段我想填充ends at场与DateTime那是在生成的之后starts at 最好相差 1 到 8 小时或者甚至
从 Expo 应用程序调用本地托管服务器

我正在创建一个反应本机应用程序我创建的组件之一包含一个属性该属性通过来自 http 请求的数据填充现在我通过笔记本电脑托管服务器但我正在使用 Expo 应用程序在手机上测试该应用程序由于这是两个独立的设备 http 本地主机 3
Unicode 和非 Unicode 之间的 SSIS 数据转换错误

当我运行 ssis 包时我收到此错误无法在 unicode 和非 unicode 字符串数据类型之间转换我的源是 Oracle 当我检查输出列数据类型时它们都是 Unicode 字符串 DT WSTR 我的目标是 SQL输入列的数据
为 iOS 项目编译 libtiff 以包含 64 位架构

我有一个 iOS 应用程序更新到最新的 SDK8 3 并且我正在使用最新版本的 Xcode 我的应用程序使用 libtiff 将图像 PNG 格式转换为 TIFF 格式我遇到的问题是我需要向 App Store 提交新的修订版并且需要
在同一光标中访问订购的图像和视频

我正在使用android content CursorLoader类创建两个Cursor对象访问存储在我的应用程序设备的用户上的媒体我想为用户提供存储图像和视频的网格视图以保留 Android Gallery 应用程序的顺序目前我正在
使用执行 SQL 任务的参数映射

我正在尝试创建一个临时表并将数据插入到 foreach 循环容器内的执行 SQL 任务内的临时表中这是sql任务 IF OBJECT ID TEMPDB DBO TEMP IS NOT NULL DROP TABLE TEMP GO CR
将“for”循环的输出写入 PYTHON 中的 excel

我有以下代码 my list US IT ES NL for i in my list A sum products by country world level i df pd DataFrame value A Descending d
UDP sendto 上的 ECONNREFUSED 错误

我在使用正在写入的应用程序时遇到一些无法解释的行为使用 sendto 向多个端口发送 UDP 数据所有端口均使用套接字 PF INET SOCK DGRAM 0 为了一组客户端读取进程的利益这些 sendto 偶尔会不可预测地触发经济
使用 R 中的 Quantmod 提取日内分钟柱数据

我希望这是一个相当简单的答案当我看到解决方案有多么简单时我会感到尴尬但我在使用每分钟提取盘中股票数据时遇到了很多麻烦getSymbols Quantmod 包下的函数我尝试使用提取数据getSymbols F 并最终得到以下输出 g
echo shell 转义参数 [重复]

这个问题在这里已经有答案了是否有一个命令不仅会回显其参数而且还会在需要时转义它们例如如果参数包含空格或特殊字符我需要在一些 shell 魔法中使用它而不是在一个脚本中执行命令而是回显该命令此输出通过管道传输到一个 pytho
添加自动增量额外列以查看 SQL Server 中的表中不存在的列[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想在获取数据时创建一个额外的列并且该列应该增加值例如 id marks myextcolumn 1 89 1 2 99 2 4
如何使用 VLC 以 http 方式将视频流式传输到其他计算机 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我想使用以下方式将视频从我的计算机流式传输到另一台计算机http in vlc 我已从此处阅读了如何进行视频流传输的步骤https wik
将多个部署“连接”到 Kubernetes 中的一项服务

我有几个不同的部署 Deployment A export port 3333 Deployment B export port 4444我想使用单个服务具有 LoadBalancer 类型来导出它们 Service Main expo
应用程序建模器，识别按钮在 Blueprism 间谍活动中未显示

我正在 blueprism object studio 中创建计算器 VBO 在应用程序建模器中我给出了 calc exe 路径并能够启动计算器但我没有获得识别选项来监视任何元素在 Element 中单击启动按钮后识别会出现
Java小程序无法在JRE7下运行，控制台中没有显示错误

在Windows 7 64位下自从升级到JRE 7 32位后在IE9 32位或Chrome下我无法运行小程序例如this one http profs etsmtl ca mmcguffin learn java 01 drawin
使用 scikit-learn 训练多维数据

这是一个非常基本的概念我对训练有多个依赖性我的数据都是文本并且有三个单独的字段我能找到的每个示例都具有如下设置的文本数据 data text1 text2 我的看起来像 data text1 text2 text3 但是当我尝试适应

使用 scikit-learn 训练多维数据

使用 scikit-learn 训练多维数据 的相关文章

随机推荐

热门标签

使用 scikit-learn 训练多维数据的相关文章