从具有特定模式的 txt 文件创建 Pandas DataFrame

2024-04-15

我需要基于以下结构的文本文件创建一个 Pandas DataFrame：

Alabama[edit]
Auburn (Auburn University)[1]
Florence (University of North Alabama)
Jacksonville (Jacksonville State University)[2]
Livingston (University of West Alabama)[2]
Montevallo (University of Montevallo)[2]
Troy (Troy University)[2]
Tuscaloosa (University of Alabama, Stillman College, Shelton State)[3][4]
Tuskegee (Tuskegee University)[5]
Alaska[edit]
Fairbanks (University of Alaska Fairbanks)[2]
Arizona[edit]
Flagstaff (Northern Arizona University)[6]
Tempe (Arizona State University)
Tucson (University of Arizona)
Arkansas[edit]

带有“[edit]”的行是州，第 [number] 行是地区。我需要拆分以下内容，然后为每个区域名称重复州名称。

Index          State          Region Name
0              Alabama        Aurburn...
1              Alabama        Florence...
2              Alabama        Jacksonville...
...
9              Alaska         Fairbanks...
10             Alaska         Arizona...
11             Alaska         Flagstaff...

熊猫数据框

我不知道如何将基于“[编辑]”和“[数字]”或“（字符）”的文本文件拆分到相应的列中，并为每个区域名称重复州名称。请任何人给我一个起点来完成以下任务。

你可以先read_csv http://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html带参数name用于创建DataFrame带柱Region Name，分隔符是不在值中的值（例如;):

df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])

Then insert http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.insert.html新专栏State with extract http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.extract.html文本所在的行[edit] and replace http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.replace.html所有值来自(到列的末尾Region Name.

df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())
df['Region Name'] = df['Region Name'].str.replace(r' \(.+$', '')

最后删除文本所在的行[edit] by boolean indexing http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing，掩模是由str.contains http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.contains.html:

df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True)
print (df)
      State   Region Name
0   Alabama        Auburn
1   Alabama      Florence
2   Alabama  Jacksonville
3   Alabama    Livingston
4   Alabama    Montevallo
5   Alabama          Troy
6   Alabama    Tuscaloosa
7   Alabama      Tuskegee
8    Alaska     Fairbanks
9   Arizona     Flagstaff
10  Arizona         Tempe
11  Arizona        Tucson

如果需要所有值解决方案更容易：

df = pd.read_csv('filename.txt', sep=";", names=['Region Name'])
df.insert(0, 'State', df['Region Name'].str.extract('(.*)\[edit\]', expand=False).ffill())
df = df[~df['Region Name'].str.contains('\[edit\]')].reset_index(drop=True)
print (df)
      State                                        Region Name
0   Alabama                      Auburn (Auburn University)[1]
1   Alabama             Florence (University of North Alabama)
2   Alabama    Jacksonville (Jacksonville State University)[2]
3   Alabama         Livingston (University of West Alabama)[2]
4   Alabama           Montevallo (University of Montevallo)[2]
5   Alabama                          Troy (Troy University)[2]
6   Alabama  Tuscaloosa (University of Alabama, Stillman Co...
7   Alabama                  Tuskegee (Tuskegee University)[5]
8    Alaska      Fairbanks (University of Alaska Fairbanks)[2]
9   Arizona         Flagstaff (Northern Arizona University)[6]
10  Arizona                   Tempe (Arizona State University)
11  Arizona                     Tucson (University of Arizona)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从具有特定模式的 txt 文件创建 Pandas DataFrame 的相关文章

如何在 Java 中用 \n 替换 \\n

我有一个string test first n middle n last 现在我想更换所有 n by n 我试过了test replaceAll n n and test replaceAll n n 但它们不起作用有人有解决办法吗 T
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
PHP：检查任何基于拉丁语的语言中的字母字符？

使用 PHP 我想检查一个字符串仅包含字母字符我不想允许任何数字或特殊字符例如 ctype alpha 对于这个目的来说似乎很棒问题是我想允许重音字母例如法语等例如我想允许 L rien 我知道ctype alpha 可以与se
在我的 Mac 上以 root 身份运行 pip 时出现“权限被拒绝”

我开始使用我的 Mac 来安装 Python 包就像我在工作中使用 Windows PC 一样然而在我的 Mac 上我经常遇到没有权限写入日志文件或站点包时出错于是我想到了跑步pip install
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
Buildozer Numpy RuntimeError：工具链损坏：无法链接简单的 C 程序

用 Python 编写我的第一个 Android 应用程序并使用 Buildozer 对其进行打包因为稍后在项目中需要使用numpy 所以我尝试打包以下测试代码 import numpy import kivy kivy require
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
Python 上每个系数具有特定约束的多元线性回归

我目前正在数据集上运行多元线性回归起初我没有意识到我需要限制自己的体重事实上我需要有特定的正权重和负权重更准确地说我正在做一个评分系统这就是为什么我的一些变量应该对音符产生积极或消极的影响然而当运行我的模型时结果不符合我
如何在Python中获取套接字的外部IP？

当我打电话时socket getsockname 在套接字对象上它返回我的机器的内部 IP 和端口的元组但是我想找回我的外部IP 最便宜最有效的方式是什么如果没有外部服务器的配合这是不可能的因为您和另一台计算机之间可能存在任意
如何更改Python使用的SQLite版本？

我在 Debian 9 12 上安装了 Python 3 8 和 SQLite 3 16 2 并且需要升级到较新版本的 SQLite 我已经下载并编译了 SQLite 网站上提供的合并并将其放入 usr bin 所以当我这样做时 sqli
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
出于安全目的，您是否有理由不执行自己的算法来打乱 ID？

我计划实现我自己的非常简单的哈希公式为具有多个用户的应用程序添加一层安全性我目前的计划如下用户创建一个帐户此时后端会生成一个 ID ID 通过公式运行假设 ID 57 8926 36 7 或同样随机的东西然后我将新的用户
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
gstreamer 中的无缝视频循环

我正在尝试使用 gstreamer 循环播放视频它是 python 绑定第一次尝试是hook EOSmessage并为管道生成搜索消息 import gi gi require version Gst 1 0 from gi repos
在Python中通过sys.stdout写入unicode字符串

暂时假设一个人无法使用print 从而享受自动编码检测的好处所以这给我们留下了sys stdout 然而 sys stdout太蠢了不做任何合理的编码 http bugs python org issue4947 现在人们阅读 Pytho
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

TCP 兼容性：为什么 TCP 不兼容数据包广播和组播操作？

http en wikipedia org wiki User Datagram Protocol http en wikipedia org wiki User Datagram Protocol 与 TCP 不同 UDP 与数据包广播
从谷歌colab中的驱动器读取文件

我已阅读notebook https colab research google com notebooks io ipynb关于如何打开驱动器我已经按照指示使用 from google colab import drive drive
根据向量元素的数量截断数据框

我有一个数据框df 包含三个向量 subject condition value 01 A 12 01 A 6 01 B 10 01 B 2 02 A 5 02 A 11 02 B 3 02 B 5 02 B 9 主题 01 有四个观察值
非英文网址的 Facebook 分享问题

我们有一个阿拉伯语网站我们正在尝试在脸书上分享一个网址网址看起来像 http www website com ar http www website com ar story 75 问题是 Facebook 没有在上面的链接上显示缩略图
Angular，有没有办法在没有表单的情况下“markAsTouched”字段？

我已经知道了inputa 内的物品FormControl可以标记dirt or touched通过调用以下任何方法也许更多 group markAsTouched form get control name markAsTouched f
如何组织 Windows Phone 代码库以同时针对 7.x 和 8 平台

我接手了一个Windows 手机该项目之前针对的是 WP 7 1 平台随着最近宣布的新平台它也应该针对 WP 8 My VS 2010解决方案包含几个项目数据访问模型测试和 WP7 客户端应用程序我正在思考如何包含对 WP8 的
有没有办法告诉 Chrome 密码生成器网站密码政策？

从我迄今为止的测试来看 Chrome 密码生成器仅生成包含大写字母小写字母和数字的密码但似乎不使用特殊字符如果我正在构建一个网站该网站的密码策略需要至少一个特殊字符是否有一种方法可以让 chrome 意识到这一策略以便密码生成器
在 Xcode 中添加 Firebase 时如何解决“重复符号”

我无法解决重复符号错误错误是 duplicate symbol GSDK NSClassFromString in Pods FirebaseCore Frameworks FirebaseCore framework Firebas
pymssql：执行许多值错误 - 需要一个简单类型、元组或列表

grpidx data for i in range 0 len data1 grpidx data append data1 loc i price data1 loc i id cur executemany insert into g
摇动：发出是否需要重建任何东西的信号

我使用 shake 构建了一堆静态网页然后我必须使用 sftp 将其上传到远程主机目前 cronjob 运行 git pull get possibly updated sources my shake system lftp uplo
org.w3c.dom.Document 转换为字符串，无需 javax.xml.transform

我花了一段时间在 Google 上寻找一种将 org w3c dom Document 转换为整个 DOM 树的字符串表示形式的方法这样我就可以将对象保存到文件系统中然而我发现的所有解决方案都使用 javax xml transfor
KubernetesExternalName服务在DNS中不可见

我正在尝试将单个数据库实例公开为两个 Kubernetes 命名空间中的服务 Kubernetes 版本 1 11 3 在 Ubuntu 16 04 1 上运行数据库服务是可见的并且在默认命名空间中工作我在非默认命名空间中创建了一个Ex
打造 ecto 独一无二的领域

如何制作一个字段unique在体外我以为它和Ruby中的活动记录一样但似乎不是你想使用唯一约束 3 http hexdocs pm ecto Ecto Changeset html unique constraint 3 这与 Act
如果 MySQL 中的行不存在，则添加到该行

当向表中添加一行时但首先检查它是否存在哪种处理方法最有效是否是查询是否存在的情况如果不存在则插入或者重复使用或者简单地替换如果该行不存在这会起作用吗 Thanks 我认为这是 MySQL 中最快的方法 REPLACE int
不可变类型：公共最终字段与 getter

我需要一个小的容器类来存储一些应该不可变的字符串由于 String 本身是不可变类型所以我想到了类似的东西 public final class Immu public final String foo public final Str
从 airodump-ng 读取实时输出

当我执行命令 airodump ng mon0 gt gt output txt 时 output txt 为空我需要能够运行 airodump ng mon0 并在大约 5 秒后停止该命令然后才能访问其输出有什么想法我应该从哪里开始
如何以良好的格式结果格式化 python 列表

我有很多列表如下所示通过打印data并将其与字符串连接起来check str如下最后一条语句所示需要帮助以在字符串连接后更好地格式化列表值如预期所示 print data printing lists in this variabl
图像上的文本没有绝对位置

我正在尝试在页面中间的图像上放置一些文本我看到一个这样的例子 img src image png p p p p
在 docker 容器上保存配置

我创建了 2 个 docker 容器并尝试在 ubuntu debian 上安装一些应用程序和一些软件包如 mc ping traceroute 但每当我退出容器时我都会丢失其中的所有内容是否有任何 docker 命令可以保存我的配
从具有特定模式的 txt 文件创建 Pandas DataFrame

我需要基于以下结构的文本文件创建一个 Pandas DataFrame Alabama edit Auburn Auburn University 1 Florence University of North Alabama Jackson

从具有特定模式的 txt 文件创建 Pandas DataFrame

从具有特定模式的 txt 文件创建 Pandas DataFrame 的相关文章

随机推荐

热门标签