使用 pandas 和 numpy 解析冒号分隔的稀疏数据

2024-03-25

我想解析 pandas/numpy 中 col_index:value 格式的数据文件。例如:

0:23 3:41 1:31 2:65

将对应于这个矩阵:

[[23 0 0 41] [0 31 65 0]]

这似乎是表示文件中稀疏数据的一种非常常见的方法,但我找不到一种简单的方法来解析它,而无需在调用 read_csv 后进行某种迭代。


我最近发现这实际上是 svm-light 格式,您可以使用 svm 加载器读取这样的数据集,例如:

http://scikit-learn.org/stable/modules/ generated/sklearn.datasets.load_svmlight_file.html http://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_svmlight_file.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 pandas 和 numpy 解析冒号分隔的稀疏数据 的相关文章

随机推荐

  • WCF Web服务流响应的最佳实践

    我正在尝试从 WCF Web 服务中提取大量数据 请求相当小 而响应消息将非常大 目前 由于 IIS6 对其可分配的内存 1 4GB 有限制 Web 服务正在引发 SystemOutOfMemory 异常 我在一些博客中读到 实施流式传输可
  • 如何优雅地降级 CSS 视口单位?

    CSS 视口单位 vw vh vmin vmax 非常棒 我想开始将它们用于字体 但我注意到here http caniuse com viewport units他们没有得到广泛的支持 我尝试在不支持的浏览器中搜索任何用于优雅降级的最佳实
  • ASP.NET MVC 4 参数由正斜杠“/”分隔,未正确传递参数

    我试图遵循许多网站使用的约定 这些网站使用多个正斜杠传递参数 而不是使用 GET 模型 也就是说 我希望使用如下 URL http www foo bar controller action arg1 a arg2 b arg3 c 以这种
  • jquery-select2 ajax搜索在另一个div中显示标签

    我想在另一个 div 中显示所选结果 而不是在输入框中显示 function formatRepo repo if repo loading return repo text var markup div class select2 res
  • 计算出的“goto”是否尊重 C++ 对象的生命周期?

    Regular goto在 C 中尊重对象生命周期 即使用goto跳出块将为适当的局部变量运行析构函数 start NonTrivial object if again goto start will call object NonTriv
  • 为什么oracle区分大小写?

    Oracle 默认区分大小写 而 SQL Server 和 MySQL 等其他数据库默认不区分大小写 这是否有原因 我知道有一些方法可以启用 禁用区分大小写 但 Oracle 与其他数据库不同似乎很奇怪 我还试图了解区分大小写的原因 我可以
  • 如何在 RichFaces/JSF 页面中嵌入和调用 javascript 脚本

    我一直在寻找一种在 JSF 页面中嵌入和调用 javascript 函数的方法 我也在使用 RichFaces 为了定义该函数 我似乎可以以跨浏览器支持的方式执行此操作
  • 模板参数中的自引用模板

    我该怎么做才能使这项工作成功 template
  • 使用 OpenCV 捕获 H264 流

    所以 一段时间以来 我一直在尝试让我的 Raspberry Pi 2 使用 OpenCV 从我的 Logitech C920 捕获 H264 流 我一直在互联网上搜寻信息 但没有运气 简短的系统描述 Raspberry Pi 2 运行 Ra
  • 透明背景上的 CoreText 字体平滑

    我尝试在 半 透明背景上使用 CoreText appkit 版本 进行渲染 结果边缘不平滑 在网上搜索表明这个问题没有解决方案 但是我不相信它 因为一个简单的观察 如果我创建一个包含相同字符串的 CATextLayer 那么字体是可爱和平
  • git全局配置问题

    不知何故 我的全局 git msysgit 设置user name and user email 天知道还有什么 被设置为最近前同事的详细信息 当我尝试改变它们时 我得到了could not commit to u gitconfig 如果
  • 将 SpringCloudSleuth 与 AWS X-Ray 集成

    我有一个使用 Springboot 应用程序运行 Fargate 实例的 ECS 集群 并且希望以最少的代码更改来启用跟踪 我开始研究两种方法 使用 AWS Xray 步骤 gt 添加依赖项 添加 WSXRayServletFilter 在
  • 删除numpy数组中的行

    我有一个可能如下所示的数组 ANOVAInputMatrixValuesArray 0 96488889 0 73641667 0 67521429 0 592875 0 53172222 0 78008333 0 5938125 0 48
  • 追求纯 CSS 布局有商业原因吗?

    似乎每次我尝试创建纯 CSS 布局时 都会比使用一两个表格花费更长的时间 让三列具有不同数量的数据的相同长度似乎需要特殊的技巧 特别是在处理跨浏览器问题时 我的问题 这几张桌子会伤害谁 表格似乎在表格数据上特别有效 为什么它们在当今时代如此
  • 为什么 C# 中函数 isprefix 比 Startswith 快?

    有谁知道为什么 C NET 的以 开始 http msdn microsoft com en us library system string startswith aspx函数比IsPrefix http msdn microsoft c
  • Perl:现实生活中的字符串长度限制

    同时 例如 perldata http perldoc perl org perldata html文档表明 Perl 中的标量字符串仅受可用内存的限制 我强烈怀疑在现实生活中还会有一些其他限制 我正在考虑以下想法 我不确定 Perl 中如
  • 尽管服务器回复积极,但 Rails 渲染未在浏览器中显示

    我在 Rails 中使用 渲染 时遇到问题 我的控制器中有一个自定义操作 搜索 它应该呈现索引 如下所示 def search date params reserve date tables Table all render index e
  • 确定哪些对象引用 SQL Server 中的表

    我需要重命名一个包含许多列和针对该表进行处理的存储过程的表 在这种情况下 如何获取数据库中与表有关系的所有项目 Using sys dm sql referencing entities http msdn microsoft com en
  • 如何为 Rails gem 指定 rvm gemsets ?

    MyApp 正在使用 rvm gemset 电子邮件受保护 cdn cgi l email protection 这不是默认的 我正在使用 gem 每当 定期发送电子邮件通知 这是我的日程表 rb every 1 minutes do ru
  • 使用 pandas 和 numpy 解析冒号分隔的稀疏数据

    我想解析 pandas numpy 中 col index value 格式的数据文件 例如 0 23 3 41 1 31 2 65 将对应于这个矩阵 23 0 0 41 0 31 65 0 这似乎是表示文件中稀疏数据的一种非常常见的方法