使用 scikit-learn 训练多维数据

2024-04-07

这是一个非常基本的概念:我对训练有多个依赖性。我的数据都是文本,并且有三个单独的字段。我能找到的每个示例都具有如下设置的文本数据:

data = ['text1','text2',...]

我的看起来像:

data = [['text1','text2','text3'],[...],...]

但是当我尝试适应数据时,我得到以下回溯:

ValueError                                Traceback (most recent call last)
<ipython-input-25-e3356a0f62f8> in <module>()
----> 1 classifier.fit(X,y)

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/svm/base.pyc in fit(self, X, y, sample_weight)
    140                              "by not using the ``sparse`` parameter")
    141 
--> 142         X = atleast2d_or_csr(X, dtype=np.float64, order='C')
    143 
    144         if self.impl in ['c_svc', 'nu_svc']:

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in atleast2d_or_csr(X, dtype, order, copy)
    114     """
    115     return _atleast2d_or_sparse(X, dtype, order, copy, sparse.csr_matrix,
--> 116                                 "tocsr")
    117 
    118 

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in _atleast2d_or_sparse(X, dtype, order, copy, sparse_class, convmethod)
     94         _assert_all_finite(X.data)
     95     else:
---> 96         X = array2d(X, dtype=dtype, order=order, copy=copy)
     97         _assert_all_finite(X)
     98     return X

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/sklearn/utils/validation.pyc in array2d(X, dtype, order, copy)
     78         raise TypeError('A sparse matrix was passed, but dense data '
     79                         'is required. Use X.toarray() to convert to dense.')
---> 80     X_2d = np.asarray(np.atleast_2d(X), dtype=dtype, order=order)
     81     _assert_all_finite(X_2d)
     82     if X is X_2d and copy:

/opt/local/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/site-packages/numpy/core/numeric.pyc in asarray(a, dtype, order)
    318 
    319     """
--> 320     return array(a, dtype, copy=False, order=order)
    321 
    322 def asanyarray(a, dtype=None, order=None):

ValueError: setting an array element with a sequence.

我有什么具体的方法可以解决这个问题吗?谢谢你!

NOTES:

我使用的所有文本数据都是由HashingVectorizer

clf.fit(X,y) where X是包含 3 个矢量化文本的列表的列表,并且y是元素所属各个类别的列表X属于


X 必须是二维数组(如果需要,也可以是列表的列表)。此列表列表中的每个列表都必须是数值列表。所有这些列表必须具有相同的长度。像这样:[[1,2,3,5],[3,4,5,6],[6,7,8,9],...]。如果对于每个对象有多个要矢量化的文本条目,则需要将生成的矢量化文本合并到一个列表中。例如,如果在您的上下文中有意义,则将它们连接起来。因此最终每个对象都必须由一个列表表示,其中所有条目都是数字。所有对象必须由相等长度的列表表示,其中所有列表中的相应元素表示相同的特征(例如,文本中相同标记的频率)。让我知道我说的是否有道理。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 scikit-learn 训练多维数据 的相关文章

随机推荐

  • 使用 lapply 对数据框列表应用函数并将输出保存到具有不同名称的文件

    我有一个数据框列表 并为列表中的每个元素 例如每个数据框 指定了名称 e g df1 lt data frame x c 1 5 y c 11 15 df2 lt data frame x c 1 5 y c 11 15 mylist lt
  • 如何编写给定代码的列表理解?

    我对 python 相当陌生 l for i in range x 1 for j in range y 1 for k in range z 1 if i k j n l append i j k 我尝试过 l i for i in ra
  • 我可以在 Django 中为每个用户创建子域吗

    我希望用户创建自己的帐户 并且用户应该拥有自己的帐户 例如 user foo com 并不同指向不同的模板文件夹 在 Django 中可以吗 我对 Django 很陌生 安德烈提供的答案并不完全正确 您确实需要一个通配符域名 大多数体面的提
  • PHP/MySQLi 中的多个 SQL 对象

    一段时间以来 我一直在 php 中使用多个 SQL 连接来避免 您现在无法运行此命令 命令不同步 错误 我似乎无法弄清楚何时只能使用一个连接以及何时需要多个连接 以下代码是我如何从彼此相关的不同表中检索内容的方法 The sqls 是连接到
  • Laravel、Faker - 增加生成的日期时间

    我在 Seeder 中使用 Faker 包来生成训练活动的假数据 每个活动都有starts at and ends at字段 我想填充ends at场与DateTime那是在生成的之后starts at 最好相差 1 到 8 小时 或者甚至
  • 从 Expo 应用程序调用本地托管服务器

    我正在创建一个反应本机应用程序 我创建的组件之一包含一个属性 该属性通过来自 http 请求的数据填充 现在 我通过笔记本电脑托管服务器 但我正在使用 Expo 应用程序在手机上测试该应用程序 由于这是两个独立的设备 http 本地主机 3
  • Unicode 和非 Unicode 之间的 SSIS 数据转换错误

    当我运行 ssis 包时 我收到此错误 无法在 unicode 和非 unicode 字符串数据类型之间转换 我的源是 Oracle 当我检查输出列数据类型时 它们都是 Unicode 字符串 DT WSTR 我的目标是 SQL输入列的数据
  • 为 iOS 项目编译 libtiff 以包含 64 位架构

    我有一个 iOS 应用程序更新到最新的 SDK8 3 并且我正在使用最新版本的 Xcode 我的应用程序使用 libtiff 将图像 PNG 格式 转换为 TIFF 格式 我遇到的问题是我需要向 App Store 提交新的修订版 并且需要
  • 在同一光标中访问订购的图像和视频

    我正在使用android content CursorLoader类创建两个Cursor对象访问存储在我的应用程序设备的用户上的媒体 我想为用户提供存储图像和视频的网格视图 以保留 Android Gallery 应用程序的顺序 目前我正在
  • 使用执行 SQL 任务的参数映射

    我正在尝试创建一个临时表并将数据插入到 foreach 循环容器内的执行 SQL 任务内的临时表中 这是sql任务 IF OBJECT ID TEMPDB DBO TEMP IS NOT NULL DROP TABLE TEMP GO CR
  • 将“for”循环的输出写入 PYTHON 中的 excel

    我有以下代码 my list US IT ES NL for i in my list A sum products by country world level i df pd DataFrame value A Descending d
  • UDP sendto 上的 ECONNREFUSED 错误

    我在使用正在写入的应用程序时遇到一些无法解释的行为 使用 sendto 向多个端口发送 UDP 数据 所有端口均使用套接字 PF INET SOCK DGRAM 0 为了一组客户端读取进程的利益 这些 sendto 偶尔会不可预测地触发经济
  • 使用 R 中的 Quantmod 提取日内分钟柱数据

    我希望这是一个相当简单的答案 当我看到解决方案有多么简单时 我会感到尴尬 但我在使用每分钟提取盘中股票数据时遇到了很多麻烦getSymbols Quantmod 包下的函数 我尝试使用提取数据getSymbols F 并最终得到以下输出 g
  • echo shell 转义参数 [重复]

    这个问题在这里已经有答案了 是否有一个命令不仅会回显其参数 而且还会在需要时转义它们 例如 如果参数包含空格或特殊字符 我需要在一些 shell 魔法中使用它 而不是在一个脚本中执行命令 而是回显该命令 此输出通过管道传输到一个 pytho
  • 添加自动增量额外列以查看 SQL Server 中的表中不存在的列[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我想在获取数据时创建一个额外的列 并且该列应该增加值 例如 id marks myextcolumn 1 89 1 2 99 2 4
  • 如何使用 VLC 以 ​​http 方式将视频流式传输到其他计算机 [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 我想使用以下方式将视频从我的计算机流式传输到另一台计算机http in vlc 我已从此处阅读了如何进行视频流传输的步骤https wik
  • 将多个部署“连接”到 Kubernetes 中的一项服务

    我有几个不同的部署 Deployment A export port 3333 Deployment B export port 4444我想使用单个服务 具有 LoadBalancer 类型 来导出它们 Service Main expo
  • 应用程序建模器,识别按钮在 Blueprism 间谍活动中未显示

    我正在 blueprism object studio 中创建计算器 VBO 在应用程序建模器中 我给出了 calc exe 路径并能够启动计算器 但我没有获得识别选项来监视任何元素 在 Element 中 单击 启动 按钮后 识别 会出现
  • Java小程序无法在JRE7下运行,控制台中没有显示错误

    在Windows 7 64位下 自从升级到JRE 7 32位后 在IE9 32位或Chrome下 我无法运行小程序 例如this one http profs etsmtl ca mmcguffin learn java 01 drawin
  • 使用 scikit-learn 训练多维数据

    这是一个非常基本的概念 我对训练有多个依赖性 我的数据都是文本 并且有三个单独的字段 我能找到的每个示例都具有如下设置的文本数据 data text1 text2 我的看起来像 data text1 text2 text3 但是当我尝试适应