Python：如何像 R 中那样进行基本数据操作？

2023-12-26

我使用 R 已经有好几年了。 R在数据操作方面非常强大。我正在学习 python，我想知道如何使用 python 操作数据。基本上我的数据集被组织为数据框（例如 Excel 表）。我想知道（通过示例）如何使用 python 完成这种基本的数据操作任务？

1. Read csv file like the following

var1, var2, var3
1, 2, 3
4, 5, 6 
7, 8, 9

2. Subset data where var2 in ('5', '8') 
3. Make a new variable --> var4 = var3 * 3
4. Transpose this data
5. Write to csv file

非常感谢您的帮助和榜样！

我不同意 Cpfohl 的评论——也许是因为我自己也经历过同样的转变，而且天真的用户如何能够更准确地表述问题并不明显。这实际上是目前一个活跃的开发问题，许多项目都提出了不重叠的功能（例如在金融时间序列世界、大脑成像世界等）。

简而言之，Python 用于处理表格和 csv 文件的各种库对于初学者来说并不像 R 中的库那么好，这是不同级别的用户多年的最终结果。

首先，看一下 numpy 中的重新排列。这可能是常用库中最接近的数据结构，类似于 R 中的 data.frame。特别是，您可能会喜欢 numpy.recfromcsv 函数，尽管它不如例如 numpy.recfromcsv 函数那样强大。 R 中的 read.csv（例如，它会遇到非标准行结尾问题）。

对重新数组进行子集化很容易（尽管创建一个重新数组可能看起来很笨拙）：

import numpy as np
mydata = np.array([(1.0, 2), (3.0, 4)], dtype=[('x', float), ('y', int)])
mydata = mydata.view(np.recarray)
mydata[mydata.x > 2]

修改 numpy 数组的性质通常不像 R 中那么容易，但是 R 中有一个很好的函数库numpy.lib.recfunctions（必须单独导入 - 它不附带一个简单的import numpy）。特别是，请查看rec_append_fields 和rec_join 以添加列。

Numpy 有一个函数numpy.savetxt它将接受一个简单的分隔符参数来创建 csv 文件，但遗憾的是它不会打印列名称（至少，我没有看到它）。因此，虽然我不鼓励添加不必要的库（因为它提供的可移植代码较少），但您可能只使用matplotlib.mlab.rec2csv（您还会在该社区中找到一些其他类似的函数 - numpy 社区正在尝试将通常有用的数字/数据操作代码移植到 numpy 本身。谁知道，也许您会这样做？）。

你会注意到我没有回答（4），因为这没有意义。表不会在 Python 或 R 中转置。数组或矩阵可以。因此，将数据转换为具有统一数据类型的数组，然后只需使用 myarray.T 即可。

您可能会关注的其他工具包括 pytables（以及相关的包 carray）、larry、dataarray、pandas 和 tabular。特别是，dataarray 正在寻求创建一个用于标记数据数组的系统，该系统将作为其他项目的基础（我认为也有来自 larry 和 pandas 项目的开发人员）。

希望有帮助！达夫

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

Python：如何像 R 中那样进行基本数据操作？的相关文章

将一个大的 xlsx 文件导入到 R 中？

我想知道是否有人知道从大 xlsx 文件 20Mb 导入数据的方法我尝试使用 xlsx 和 XLConnect 库不幸的是两者都使用 rJava 我总是收到相同的错误 gt library XLConnect gt wb lt lo
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
OpenCV - 我需要将彩色图像插入黑白图像并且

我用以下代码将黑白图像插入彩色图像没问题 face grey cv cvtColor face cv COLOR RGB2GRAY for row in range 0 face grey shape 0 for column in ra
ggplot2：图例中的斜体

我正在尝试编辑图例中的标签以便第一个标签 WT 为纯文本而后续 7 个标签为斜体我一直在使用element text face c plain rep italic 7 但这导致没有任何标签被转换为斜体我有点困惑为什么它不起作用因
在R中提取其他两个字符串之间的字符串

我试图找到一种简单的方法来提取出现在两个已知子字符串之间的未知子字符串可以是任何内容例如我有一个字符串 a lt anything goes here STR1 GET ME STR2 anything goes here 我需要提取
类型错误：需要 Future 或协程

我尝试在 asyncssh 上自动重新连接 ssh 客户端 SshConnectManager 必须留在后台并在需要时进行 ssh 会话 class SshConnectManager object def init self host u
使用 python 只读取 Excel 中的可见行

我想只读取 python 中 Excel 工作表中的可见行输入 Excel表所以当我过滤时作为 python 中的输出在本例中我将仅获得可见数据 1 行这是我的代码 from openpyxl import load workbo
如何在交互式绘图（Python）中获得鼠标指向的（x，y）位置？

我使用 ipython 笔记本带有魔法 matplotlib nbagg 我正在审查matplotlib widget Cursor但仅查看光标widgets Cursor http matplotlib org 1 4 3 exampl
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
R 中的频率加权，与 Stata 的结果比较

我正在尝试分析明尼苏达大学 IPUMS 数据集中的数据1990 年美国人口普查 http usa ipums org usa sampdesc shtml us1990a in R 我正在使用survey http faculty wash
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
如何将带有几行代码的字符数组转换为 data.frame？

我有以下数组 my list lt c Jan 01 Dec 31 00 00 24 00 Jan 01 Jun 30 12 00 18 00 Jul 06 Dec 31 09 00 19 00 导致以下结果的最短代码是什么 x1 x2 x
动态显示仪表板页面

我有一个实用的闪亮应用程序它使用shinydashboard包裹新功能需要特定于用户的行为例如针对不同的用户名使用不同的数据集因此我打算显示登录表单验证凭据并设置反应值LoggedIn to true如果成功的话显示实际情况
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何解决 R 估计中的整数溢出错误

我正在尝试使用估计模型speedglm在 R 中数据集很大约 6988 万行和 38 列行数和列数相乘得到约 27 亿超出了整数限制我无法提供数据但以下示例重现了该问题 library speedglm large exampl
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
Pip 突然使用了错误版本的 Python

在 os x 上使用 pip 时遇到一个奇怪的问题据我所知快速查看我的 bash history 似乎可以确认我最近没有对我的配置进行任何更改唉 pip 命令似乎突然使用了与以前不同的 python 版本到目前为止我使用命令 p
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
django admin 中内联模型的分页器

我有这个简单的 django 模型由一个传感器和特定传感器的值组成每个日射强度计的值数量很多 gt 30k 是否可以以某种方式分页PyranometerValues在特定日期或一般情况下将分页器应用于管理内联视图 class Pyran

随机推荐

MySQL 配置文件部分

我试图了解 my ini 配置文件中的不同部分 client mysqld mysql 等我正在寻找描述 my ini 文件的每个可选部分的指南我也想知道有什么区别初始化连接 and 初始化连接我的意思是在下划线和连字符之间谢谢大
电子邮件地址验证的最佳实践（包括 Gmail 地址中的 +）

我知道这里有很多关于电子邮件验证和特定正则表达式的问题我想知道验证电子邮件的最佳做法是什么 email protected cdn cgi l email protection trick 详细信息在这里 http gmailblog b
Laravel中如何执行多个后台进程？

首先我了解队列并且现在对队列有很好的经验队列的问题是它是一个队列我想在后台一起执行多个功能或命令队列会将第二个命令或函数保留在队列中并在第一个命令或函数执行完成后执行例如我有一个包含约 3 000 000 条记录的表我想更
Mercurial：恢复单个大块

如何在 Mercurial 中恢复单个块类似于在 darcs 中完成的方式即它询问我每个块和文件是否要恢复它可以使用 TortoiseHg 吗 Thanks 实际上 mercurial 指的是块至少在 Shelve 工具中是这样
Node.js 中 console.log 和 sys.puts 之间的区别？

在node js中你可以使用console log or sys puts打印到屏幕上首选方法是什么这些方法有什么区别 sys puts只是在日志中打印给定的字符串但如果你想打印更复杂的对象 Array JSON JSObject 你
C# Html 敏捷包 (SelectSingleNode)

我正在尝试解析该字段但无法使其工作目前的尝试 var name doc DocumentNode SelectSingleNode id my name InnerHtml h1 class bla namehere h1 错误未将对
对原子类感到困惑：memory_order_relaxed

我正在研究这个网站 https gcc gnu org wiki Atomic GCCMM AtomicSync https gcc gnu org wiki Atomic GCCMM AtomicSync 这对于理解有关原子类的主题非常有
如何在Python中导入hbase？

我正在尝试在 python 中使用 hbase 并且使用 cloudera 存储库来安装 hadoop hbase 包它似乎可以工作因为我可以使用 shell 访问和处理数据库但它在 python 中不能完全工作我知道要与 hbas
在 java webapp/client 中管理 Web 服务/xml 绑定生成的工件的最佳方法？

我正在开发几个使用 JAXB 消息绑定的 Web 服务在 JAX WS 或 spring ws 中使用这些绑定时总会从 WSDL 自动生成一些代码来绑定消息对象我正在努力找出完成这项工作的最佳方法以便它易于使用难以破坏并与 ID
iPhone 中的 [NSBundle mainBundle] 是什么意思？

RootViewController rvController RootViewController alloc initWithNibName RootViewController bundle NSBundle mainBundle 有
l1是一个列表，l2 = l1；为什么“l2 = l2 + [item]”不会影响l1，而“l2 += [item]”却会影响？ [复制]

这个问题在这里已经有答案了可能的重复 Python 中的加等于有何作用 https stackoverflow com questions 2347265 what does plus equals do in python 我注意到一
Bootstrap 4 中的垂直居中对齐[重复]

这个问题在这里已经有答案了我正在尝试使用 Bootstrap 4 将我的容器置于页面中间到目前为止我还没有成功任何帮助将不胜感激我已经把它建在Codepen io http codepen io cmseaton42 pen EZ
使用javascript删除字符串中除第一个字符之外的所有出现的字符

我有这个字符串 abc def 我想保留第一并删除以下发生的所以预期的输出是 abc def 我使用这个并且它有效但感觉像是一个丑陋的黑客 abc def replace TEMP replace ig replace TEMP 如果
Java：为什么这里没有发生自动装箱？

这给了我一个错误 int l new int 0 2 192 1 3 9 2 2 int l2 new int 9001 7 21 4 3 11 10 10 int l3 new int 5 5 5 64 21 12 13 200 Set
如何安装.NET 4.5？

我在 Windows 7 上下载并安装了 NET 4 5 beta 但不确定它安装在哪里检查C Windows Microsoft NET Framework 找不到4 5的文件夹打开VS 2010并打开解决方案中项目之一的属性目标框
如何在Python中计算字符串的数字、字母、空格？

我正在尝试创建一个函数来检测字符串有多少个数字字母空格等这是我到目前为止所拥有的 def count x length len x digit 0 letters 0 space 0 other 0 for i in x if x i
节点 http.request 不执行任何操作

var http require http var options method GET host www google com port 80 path index html http request options function e
在python中将Unicode数据转换为int

我从 url 获取的值传递为 user data if request args get title user data title request args get title if request args get limit user
SSL 归档符号表错误（运行 ranlib）

我构建了 OpenSS1 0 2g智能狐客户端 http smartfoxserver com API 1 6 3 Cocos2dx v3 Android Windows 10 64 位它抛出错误 SSL 归档符号表错误运行 ranli
Python：如何像 R 中那样进行基本数据操作？

我使用 R 已经有好几年了 R在数据操作方面非常强大我正在学习 python 我想知道如何使用 python 操作数据基本上我的数据集被组织为数据框例如 Excel 表我想知道通过示例如何使用 python 完成这种基本的数据操

Python：如何像 R 中那样进行基本数据操作？

Python：如何像 R 中那样进行基本数据操作？ 的相关文章

随机推荐

热门标签

Python：如何像 R 中那样进行基本数据操作？的相关文章