将数据拆分为 3 列数据框

2024-01-12

我在将数据文件解析为数据帧时遇到问题。当我使用 pandas 读取数据时，我得到一个包含所有信息的一列数据框。

Server    
7.14.182.917 - - [20/Dec/2018:08:30:21 -0500] "GET /tools/performance/log/lib/ui-bootstrap-tpls-0.23.5.min.js HTTP/1.1" 235 89583
7.18.134.196 - - [20/Dec/2018:07:40:13 -0500] "HEAD / HTTP/1.0" 502 -
...

我想解析三列中的数据。我尝试使用df[['Server', 'Date', 'Address']] = pd.DataFrame([ x.split() for x in df['Server'].tolist() ])但我收到错误ValueError: Columns must be same length as key有没有办法将数据解析为 3 列，如下所示

Server        Date                          Address                               
7.14.182.917  20/Dec/2018:08:30:21 -0500.   "GET /tools/performance/log/lib/ui-bootstrap-tpls-0.23.5.min.js HTTP/1.1" 235 89583

根据输入文件类型和格式，此处可以采用多种方法。如果文件是有效的字符串路径，请尝试这些方法（更多这里） https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_fwf.html:

import pandas as pd
# approach 1
df = pd.read_fwf('inputfile.txt')

# approach 2
df = pd.read_csv("inputfile.txt", sep = "\t") # check the delimiter

# then select the columns you want
df_subset = df[['Server', 'Date', 'Address']]

完整解决方案：

import pandas as pd

# read in text file
df = pd.read_csv("test_input.txt", sep=" ", error_bad_lines=False)

# convert df to string
df = df.astype(str)

# get num rows
num_rows = df.shape[0]

# get IP from index, then reset index
df['IP'] = df.index

# reset index to proper index
new_index = pd.Series(list(range(num_rows)))
df = df.set_index([new_index])

# rename columns and drop old cols
df = df.rename(columns={'Server': 'Date', 'IP': "Server"})

# create Date col, drop old col
df['Date'] = df.Date.str.cat(df['Unnamed: 1'])
df = df.drop(["Unnamed: 1"], axis=1)

# Create address col, drop old col
df['Address'] = df['Unnamed: 2'] + df['Unnamed: 3'] + df['Unnamed: 4']
df = df.drop(["Unnamed: 2","Unnamed: 3","Unnamed: 4"], axis=1)

# Strip brackets, other chars
df['Date'] = df['Date'].str.strip("[]")
df['Server'] = df["Server"].astype(str)
df['Server'] = df['Server'].str.strip("()-'', '-',")

Returns:

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

jupyternotebook

将数据拆分为 3 列数据框的相关文章

如何为 Intellij/PyCharm 设置 PYTHONSTARTUP 脚本

我尝试添加PYTHONSTARTUP环境变量我还尝试了自定义启动脚本但更令人惊讶的是这also没有工作 npa别名无法识别出于一点绝望我什至尝试添加到interpreter options 那什么也没做实际上是什么Interpr
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
在 Python 中绘制分类数据的三个维度

我的数据包含三个我试图可视化的分类变量城市五个之一职业四种之一血型四种之一到目前为止我已经成功地以一种我认为易于使用的方式对数据进行了分组 import numpy as np pandas as pd Make data
小数缓存是Python规范中定义的还是一个实现细节？

Python 似乎有一个所谓的小数字缓存用于存储 5 到 256 范围内的数字我们可以使用以下程序来演示这一点 for i in range 7 258 if id i id i 0 print i is cached else pr
如何从 Lua 调用 Python 函数？

我想从我的 lua 文件运行 python 脚本我怎样才能实现这个目标 Example Python代码 sum py file def sum from python a b return a b Lua code main lua f
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
python-polars 通过分隔符将字符串列拆分为许多列

在 pandas 中以下代码会将 col1 中的字符串拆分为许多列有没有办法在极地做到这一点 d col1 a b c d a b c d df pd DataFrame data d df a b c d df col1 str sp
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
PyCharm 无法识别字典值类型

我有一个简单的代码片段其中我将字典值设置为空列表 new dict for i in range 1 13 new dict i 现在如果在下一行的循环内我会输入new dict i 并添加一个点我希望 PyCharm 向我显示可用于
如何在 Pytorch 中将一维 IntTensor 转换为 int

如何将一维 IntTensor 转换为整数这 IntTensor int 给出错误 KeyError Variable containing 423 torch IntTensor of size 1 我所知道的最简单最干净的方法 In
如何绘制多类分类器的精度和召回率？

我正在使用 scikit learn 我想绘制精度和召回曲线我正在使用的分类器是RandomForestClassifier scikit learn 文档中的所有资源都使用二元分类另外我可以绘制多类的 ROC 曲线吗另外我只找到
检查多个 pd.DataFrame 是否相等

是否有一种 Pythonic 方式无循环或递归来检查是否超过两个pd DataFrames 例如 pd DataFrames 列表彼此相等吗就像是 all x equals dfs 0 for x in dfs with dfs数据
如何修改 contenteditable 元素的innerHTML

我使用 Selenium 与 Chrome driver 和 python3 6 来测试网站我在网页中有代码片段如下 div class 3F6QL 2WovP div class 39LWd Type a message div div
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
Python：帮助（numpy）在退出时导致段错误

我遇到了一个奇怪的现象在 python 解释器中我执行以下操作 gt gt gt import numpy gt gt gt help numpy 帮助显示正确但一旦我按 q 返回解释器 Segmentation fault core
Scrapy的redirect_urls异常.KeyError

我是 Scrapy 和 Python 的新手最近推出了我的第一个蜘蛛有一个功能似乎以前有效但现在它只适用于我试图废弃的一些网站代码行是 item url direct response request meta redirect u
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
Python matplotlib 在鼠标悬停时不显示完整日期

我有一个数据框日期索引 and 温度值 Date Temperature 2015 10 21 9 118 2015 10 22 9 099 2015 10 23 8 945 2015 10 26 8 848 2015 10 27 8 84

随机推荐

.load() jQuery 不适用于 chrome？

我的代码在 Firefox 上运行得很好但在 Chrome 上却不行 jQuery 有问题吗 load 在谷歌浏览器上它对我来说效果很好如果您在计算机上运行代码而不是从实时网站运行代码则出于安全原因 Chrome 可能会禁止调用如
Yii框架中homeUrl和baseUrl有什么区别？

有什么区别homeUrl and baseUrl在 Yii 框架中 Yii app gt getBaseUrl true gt http localhost yii projects Yii app gt getHomeUrl gt yii
Laravel 在数组上调用成员函数 toArray() 错误

我希望有人能够消除我对这个错误的一些困惑这是我的代码注意 User模型与Image有hasMany关系 user User with profile gt whereUsername username gt firstOrFail im
Laravel 5.2 测试：测试未运行

我已经通过终端使用命令创建了一个测试 php artisan make test UserTest 现在我想使用以下命令运行测试 vendor bin UserTest 但它返回 bash vendor bin UserTest No su
谁能解释一下执行器中的rdd块

任何人都可以解释为什么当我第二次运行 Spark 代码时 rdd 块会增加即使它们在第一次运行期间存储在 Spark 内存中我使用线程提供输入 rdd 块的确切含义是什么我今天一直在研究这个问题看来 RDD 块是 RDD 块和非 R
Tensorboard：未找到图形定义文件。

在我的Python代码中我执行 train writer tf summary FileWriter TBOARD LOGS DIR train writer add graph sess graph 我可以看到在 E progs tens
为什么 MongoDB 不再允许在空文档中使用 $set 和 $unset？

我刚刚从MongoDB版本2 2更新到版本2 6 发现不能再使用 set and unset运营商在update使用空字典的方法例如调用db mytable update field value set 过去只是让文档保持不变但现在它
emxArray_real_T 到 C# 结构加上初始化

我正在尝试为此 C 结构创建一个构造函数包括初次尝试 StructLayout LayoutKind Sequential public struct emxArray real T public IntPtr data public
当存在冗余级别时，如何在 R 的 ggplot2 中保持恒定宽度的条形图？

考虑一些未出现级别的示例数据 dat lt data frame sex c F M F status c Pregnant Not pregnant Not pregnant frequency c 25 100 75 在样本数据中男性
如何使用 ModPerl::Registry 抑制旧版 CGI 脚本中的默认 mod_perl 错误页面

我有一个 Perl 语言的 CGI 脚本它可以自行生成 HTTP 错误页面我在 mod perl 下运行它ModPerl 注册表 http p3rl org ModPerl Registry 使用以下 Apache2 配置 Alias
如何检测MySQL存储过程的回滚？

我正在尝试找出一种方法来检测 MySQL 存储过程中是否发生回滚以便我可以通过 PHP 脚本相应地处理这种情况但到目前为止我找不到任何解决方案我的存储过程如下所示 delimiter create procedure multi in
Pip 在全局安装，而不是在虚拟环境中 --- 即使所有路径和 pip 都指向正确的位置

我读过了pip 安装在全局站点包中而不是 virtualenv https stackoverflow com questions 20952797 pip installing in global site packages instea
Django - 如何让永久链接与“一次性”slug 一起使用

我正在尝试将 slugs 添加到我的 django 应用程序中的 url 中就像这样做一样目前我的页面可以使用如下网址正常工作 http example com foo 123 我想添加 slugified 网址如下所示 http
Fluent NHibernate：混合自动映射和手动映射

如果使用 Fluent NHibernate 是否可以自动映射大多数类但指定应使用常规 Fluent API 映射几个特定类而不是自动映射如果是这样有人可以向我指出一些示例代码来展示如何做到这一点吗 Thanks 有可能的and容易混
如何解决 UserWarning: findfont: Could not match :family=Bitstream Vera Sans

下列的这个例子 http matplotlib org users transforms tutorial html axes coordinates import numpy as np import matplotlib pyplot
Android 和 Java 中的 TimeZone.getAvailableIDs

我是 Android 中时区列表的 TimeZone getAvailableIDs 与 Java 相比它在 Android 中的行为有所不同 String tzone TimeZone getAvailableIDs 3 3600 10
Apache 和 SSL 背后的 Tomcat

我到处寻找但找不到针对以下情况的明确解决方案我们有一个 Web 应用程序 Grails Spring Security 在 apache 后面的 tomcat 中运行 Part应用程序的一部分需要在 https 上运行因此使用 Spri
在jpanel上画线

我想让它像画一把尺子带有 90 度角刻度线的线 https stackoverflow com questions 3488419 java draw a ruler line with tick marks at 90 degree a
类的 Python repr

As the Python 2 文档 repr http docs python org 2 reference datamodel html object repr 状态如果可能的话这个即 repr 应该看起来像一个有效的 Pyth
将数据拆分为 3 列数据框

我在将数据文件解析为数据帧时遇到问题当我使用 pandas 读取数据时我得到一个包含所有信息的一列数据框 Server 7 14 182 917 20 Dec 2018 08 30 21 0500 GET tools performan

将数据拆分为 3 列数据框

将数据拆分为 3 列数据框 的相关文章

随机推荐

热门标签

将数据拆分为 3 列数据框的相关文章