Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此

2024-02-13

我正在尝试连接两个 numpy 数组。在一个文本列上运行 TF-IDF 后，我得到了一组列/特征。在另一个中，我有一个列/特征，它是一个整数。因此，我读取一列训练和测试数据，对此运行 TF-IDF，然后我想添加另一个整数列，因为我认为这将帮助我的分类器更准确地了解它应该如何表现。

不幸的是，当我尝试运行时，我收到标题中的错误hstack将这一列添加到我的其他 numpy 数组中。

这是我的代码：

  #reading in test/train data for TF-IDF
  traindata = list(np.array(p.read_csv('FinalCSVFin.csv', delimiter=";"))[:,2])
  testdata = list(np.array(p.read_csv('FinalTestCSVFin.csv', delimiter=";"))[:,2])

  #reading in labels for training
  y = np.array(p.read_csv('FinalCSVFin.csv', delimiter=";"))[:,-2]

  #reading in single integer column to join
  AlexaTrainData = p.read_csv('FinalCSVFin.csv', delimiter=";")[["alexarank"]]
  AlexaTestData = p.read_csv('FinalTestCSVFin.csv', delimiter=";")[["alexarank"]]
  AllAlexaAndGoogleInfo = AlexaTestData.append(AlexaTrainData)

  tfv = TfidfVectorizer(min_df=3,  max_features=None, strip_accents='unicode',  
        analyzer='word',token_pattern=r'\w{1,}',ngram_range=(1, 2), use_idf=1,smooth_idf=1,sublinear_tf=1) #tf-idf object
  rd = lm.LogisticRegression(penalty='l2', dual=True, tol=0.0001, 
                             C=1, fit_intercept=True, intercept_scaling=1.0, 
                             class_weight=None, random_state=None) #Classifier
  X_all = traindata + testdata #adding test and train data to put into tf-idf
  lentrain = len(traindata) #find length of train data
  tfv.fit(X_all) #fit tf-idf on all our text
  X_all = tfv.transform(X_all) #transform it
  X = X_all[:lentrain] #reduce to size of training set
  AllAlexaAndGoogleInfo = AllAlexaAndGoogleInfo[:lentrain] #reduce to size of training set
  X_test = X_all[lentrain:] #reduce to size of training set

  #printing debug info, output below : 
  print "X.shape => " + str(X.shape)
  print "AllAlexaAndGoogleInfo.shape => " + str(AllAlexaAndGoogleInfo.shape)
  print "X_all.shape => " + str(X_all.shape)

  #line we get error on
  X = np.hstack((X, AllAlexaAndGoogleInfo))

以下是输出和错误消息：

X.shape => (7395, 238377)
AllAlexaAndGoogleInfo.shape => (7395, 1)
X_all.shape => (10566, 238377)



---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-12-2b310887b5e4> in <module>()
     31 print "X_all.shape => " + str(X_all.shape)
     32 #X = np.column_stack((X, AllAlexaAndGoogleInfo))
---> 33 X = np.hstack((X, AllAlexaAndGoogleInfo))
     34 sc = preprocessing.StandardScaler().fit(X)
     35 X = sc.transform(X)

C:\Users\Simon\Anaconda\lib\site-packages\numpy\core\shape_base.pyc in hstack(tup)
    271     # As a special case, dimension 0 of 1-dimensional arrays is "horizontal"
    272     if arrs[0].ndim == 1:
--> 273         return _nx.concatenate(arrs, 0)
    274     else:
    275         return _nx.concatenate(arrs, 1)

ValueError: all the input arrays must have same number of dimensions

是什么导致了我这里的问题？我怎样才能解决这个问题？据我所知，我应该能够加入这些专栏？我误解了什么？

谢谢。

Edit :

使用下面答案中的方法会出现以下错误：

---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
<ipython-input-16-640ef6dd335d> in <module>()
---> 36 X = np.column_stack((X, AllAlexaAndGoogleInfo))
     37 sc = preprocessing.StandardScaler().fit(X)
     38 X = sc.transform(X)

C:\Users\Simon\Anaconda\lib\site-packages\numpy\lib\shape_base.pyc in column_stack(tup)
    294             arr = array(arr,copy=False,subok=True,ndmin=2).T
    295         arrays.append(arr)
--> 296     return _nx.concatenate(arrays,1)
    297 
    298 def dstack(tup):

ValueError: all the input array dimensions except for the concatenation axis must match exactly

有趣的是，我尝试打印dtypeX 的效果很好：

X.dtype => float64

但是，尝试打印 dtypeAllAlexaAndGoogleInfo像这样：

print "AllAlexaAndGoogleInfo.dtype => " + str(AllAlexaAndGoogleInfo.dtype)

产生：

'DataFrame' object has no attribute 'dtype'

As X是一个稀疏数组，而不是numpy.hstack, use scipy.sparse.hstack加入数组。在我看来，这里的错误消息有点误导。

这个最小的例子说明了这种情况：

import numpy as np
from scipy import sparse

X = sparse.rand(10, 10000)
xt = np.random.random((10, 1))
print 'X shape:', X.shape
print 'xt shape:', xt.shape
print 'Stacked shape:', np.hstack((X,xt)).shape
#print 'Stacked shape:', sparse.hstack((X,xt)).shape #This works

基于以下输出

X shape: (10, 10000)
xt shape: (10, 1)

人们可能会期望hstack下面的行将起作用，但事实是它会抛出此错误：

ValueError: all the input arrays must have same number of dimensions

So, use scipy.sparse.hstack当你有一个稀疏数组要堆叠时。

事实上，我已经在您的其他问题中作为评论回答了这个问题，并且您提到会弹出另一条错误消息：

TypeError: no supported conversion for types: (dtype('float64'), dtype('O'))

首先，AllAlexaAndGoogleInfo没有dtype因为它是一个DataFrame。要获取它的底层 numpy 数组，只需使用AllAlexaAndGoogleInfo.values。检查其dtype。根据错误消息，它有一个dtype of object，这意味着它可能包含非数字元素，例如字符串。

这是重现这种情况的最小示例：

X = sparse.rand(100, 10000)
xt = np.random.random((100, 1))
xt = xt.astype('object') # Comment this to fix the error
print 'X:', X.shape, X.dtype
print 'xt:', xt.shape, xt.dtype
print 'Stacked shape:', sparse.hstack((X,xt)).shape

错误信息：

TypeError: no supported conversion for types: (dtype('float64'), dtype('O'))

因此，检查是否有任何非数字值AllAlexaAndGoogleInfo并在堆叠之前修复它们。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此的相关文章

对使用“new”创建的数组上“map”的行为感到困惑[重复]

这个问题在这里已经有答案了我对结果感到困惑mapping 使用创建的数组new function returnsFourteen return 14 var a new Array 4 gt undefined x 4 in Chrome
如何过滤 Pandas GroupBy 对象并获取 GroupBy 对象？

当对 Pandas groupby 操作的结果执行过滤时它返回一个数据帧但假设我想执行进一步的分组计算我必须再次调用 groupby 这似乎有点绕有更惯用的方法吗 EDIT 为了说明我在说什么我们无耻地从 Pandas 文档中窃取
使用python从gst管道抓取帧到opencv

我在用着OpenCV http opencv org 和GStreamer0 10 我使用此管道通过自定义套接字通过 UDP 接收 MPEG ts 数据包sockfd由 python 提供并显示它xvimagesink 而且效果很好以下命
在 C 语言中，为什么数组的地址等于它的值？

在下面的代码中指针值和指针地址与预期不同但数组值和地址则不然怎么会这样 Output my array 0022FF00 my array 0022FF00 pointer to array 0022FF00 pointer to a
如何从另一个数组值中过滤数组值并返回新数组？ [复制]

这个问题在这里已经有答案了我有两个数组 all languages and taken languages 第一个包含所有语言例如 200 种或其他语言第二个包含之前选择的语言从 0 到 200 种我需要删除所有已采用的语言 ta
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
两个不同长度的数据帧的列之间的余弦相似度？

我在 df1 中有文本列在 df2 中有文本列 df2 的长度将与 df1 的长度不同我想计算 df1 text 中每个条目与 df2 text 中每个条目的余弦相似度并为每场比赛给出分数输入样本 df1 mahesh suresh
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
如何指示 urwid 列表框的项目数多于当前显示的项目数？

有没有办法向用户显示 urwid 列表框在显示部分上方下方有其他项目我正在考虑类似滚动条的东西它可以显示条目的数量或者列表框顶部底部的单独栏如果这个行为无法实现有哪些方法可以实现这个通知在我的研究过程中我发现这个问题 ht
数组上的 Bash 子字符串扩展

我有一组带有给定后缀的文件例如我有一组带有后缀的pdf文件 pdf 我想使用子字符串扩展来获取不带后缀的文件名对于单个文件我可以使用 file test pdf echo file 0 4 要对所有文件执行此操作我现在尝试 file
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
PHP 中根据相似值对数组进行分组

我有一个具有以下结构的数组
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
pandas 中数据帧中的随机/洗牌行

我目前正在尝试找到一种方法来按行随机化数据框中的项目我在 pandas 中按列洗牌排列找到了这个线程在 pandas 中对 DataFrame 进行改组排列 https stackoverflow com questions 157
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
python从二进制文件中读取16字节长的双精度值

我找到了蟒蛇struct unpack 读取其他程序生成的二进制数据非常方便问题如何阅读16 字节长双精度数出二进制文件以下 C 代码将 1 01 写入二进制文件三次分别使用 4 字节浮点型 8 字节双精度型和 16 字节长双精度型

随机推荐

我们应该为 adam 优化器做学习率衰减吗

我正在使用 Adam 优化器训练图像定位网络有人建议我使用指数衰减我不想尝试这个因为 Adam 优化器本身会降低学习率但那家伙坚持说他以前就这么做过那么我应该这样做吗你的建议背后有什么理论依据吗这取决于 ADAM 使用单独的学
MSSQL 错误“底层提供程序打开失败”

我当时用的是 mdf用于连接到database and entityClient 现在我想更改连接字符串这样就不会出现 mdf file 是下面的connectionString正确的
html 中输入的 maxlength 属性在 HTC One M7 上不起作用

我有一个简单的输入字段它有一个 maxlength 2 属性代码如下所示
我想在使用 opengl 运行任何游戏时捕获屏幕 [重复]

这个问题在这里已经有答案了可能的重复为什么 glReadPixels 在 iOS 6 0 中的这段代码中失败 https stackoverflow com questions 12528365 why is glreadpixels
如何使 UITableViewCell 附件公开指示器在黑色背景中可见？

cell accessoryType UITableViewCellAccessoryDisclosureIndicator 在这个方法中 UITableViewCell tableView UITableView tableView ce
Behat Mink Webdriver 会话在套件中的每个功能之后都会被销毁

我正在尝试使用 behat BDD 和 Mink 以及 selenium webdriver for php 来自动化 Sugarcrm 功能我已经正确安装了它们并且能够一起运行 behat 和 mink 例如将 SugarCRM 上
vim 正则表达式仅用一个空格替换多个连续空格

我经常使用具有可变数量的空格作为单词分隔符的文本文件像Word这样的文本处理器会这样做因为某些字体中的字母大小不同所以公平地分配空白量并且即使在另存为纯文本我想自动化将这些具有可变长度的空格序列替换为单个空格的过程我怀疑正则表达
C# webbrowser 控件无法导航到另一个页面

我有一个控制台应用程序并且在其中定义了一个网络浏览器首先我导航到一个页面并填写登录表单并调用提交按钮进行登录之后我想使用相同的网络浏览器转到同一站点中的另一个页面但它不会导航到该页面相反它会导航到登录后重定向的页面这是我的
最新的处理器不支持 SSSE3 指令？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案是否有任何不支持 SSSE3 指令的仍然相关的 CPU Intel AMD Atom 没有 SSSE3 的最新 CPU 是什么没有 SS
限制 Rails 中的“每个”列表

我们有这个 li li 该代码将产生 50 个条目的总结果在我的例子中我如何才能将此视图限制为 20 是的只是限制它我不需要任何分页之类的 Thanks 更改控制器中的代码 shops正在设置或者将上面的代码改为 shops ta
使用 golang 解析损坏的 HTML

我需要在 HTML 字符串中查找元素不幸的是 HTML 几乎被破坏了例如没有打开对的关闭标签我尝试使用 XPathlaunchpad net xmlpath但它无法解析 HTML 文件真是太糟糕了如何使用 golang 找到损坏
模块导入自身

我正在尝试从特定于应用程序的终端在本例中为 Maya 但最终是其他终端导入模块我已经从 git 下载了一个项目我的结构如下 modulename submodule init py subsubmodule submodule in
如何获取 iPhone 应用程序的用户反馈？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一些服务可以促使用户尝试我的 iPhone 应用程序并提供反馈或评论我也愿意付钱您知道
从多个谷歌电子表格导入范围

我知道如何将数据从一个电子表格导入到另一个电子表格 IMPORTRANGE spreadsheet key range string Source 但是如何将多个电子表格导入到一个主电子表格中像这样的事情 IMPORTRANGE sp
在 OCaml 中将哈希表转换为对（键，值）列表

OCaml 中有没有办法将哈希表转换为键对值列表我知道给定一个哈希表ht我们可以做的 BatList of enum BatHashtbl enum ht 使用电池库这会将表转换为枚举然后将枚举转换为列表但我正在寻找一种不使
如何使用 jQuery 在点击时获取锚文本/href？

考虑我有一个看起来像这样的锚 div class res a href Resumes Resumes1271354404687 docx Resumes Resumes1271354404687 docx a div NOTE 锚点不会有
如何给 JS(jQuery) 中的翻译添加加法赋值(+=)？

我的期望是设置加法赋值运算符到transform translateX 但不知道我该怎么做我尝试了一些方法来做到这一点 inline grid css transform translate 4 0 inline grid css tr
使用 cygwin 在 Windows 上编译 ffmpeg 时出现问题

最近在Windows上编译ffmpeg遇到了很多麻烦我目前正在使用 cgywin 终端来运行代码我尝试过遵循网络上许多最流行的教程但我似乎无法让它发挥作用我目前正在使用本教程作为指南http www roman10 net how
升级到命名空间中的自定义小部件

我在命名空间 MyNameSpace 中有 MyCustomWidget namespace MyNameSpace class MyCustomWidget public QWidget 如何在 UI 表单中将 QWidget 升级为 M
Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此

我正在尝试连接两个 numpy 数组在一个文本列上运行 TF IDF 后我得到了一组列特征在另一个中我有一个列特征它是一个整数因此我读取一列训练和测试数据对此运行 TF IDF 然后我想添加另一个整数列因为我认为这将帮

Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此

Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此 的相关文章

随机推荐

热门标签

Numpy hstack - “ValueError：所有输入数组必须具有相同的维数” - 但它们确实如此的相关文章