尝试用python解析文本文件进行数据分析

2023-12-11

我在 Perl 中做了很多数据分析，并尝试使用 pandas、numpy、matplotlib 等在 python 中复制这项工作。

一般工作流程如下：

1）glob目录中的所有文件

2）解析文件，因为它们有元数据

3）使用正则表达式来隔离给定文件中的相关行（它们通常以“LOOPS”等标签开头）

4）分割与标签匹配的行并将数据加载到哈希中

5）做一些数据分析

6）绘制一些图

以下是我通常在 Perl 中执行的示例：

print"Reading File:\n";                              # gets data
foreach my $vol ($SmallV, $LargeV) {
  my $base_name = "${NF}flav_${vol}/BlockedWflow_low_${vol}_[0-9].[0-9]_-0.25_$Mass{$vol}.";
  my @files = <$base_name*>;                         # globs for file names
  foreach my $f (@files) {                           # loops through matching files
    print"... $f\n";
    my @split = split(/_/, $f);
    my $beta = $split[4];
    if (!grep{$_ eq $beta} @{$Beta{$vol}}) {         # constructs Beta hash
      push(@{$Beta{$vol}}, $split[4]);
    }
    open(IN, "<", "$f") or die "cannot open < $f: $!"; # reads in the file
    chomp(my @in = <IN>);
    close IN;
    my @lines = grep{$_=~/^LOOPS/} @in;       # greps for lines with the header LOOPS
    foreach my $l (@lines) {                  # loops through matched lines
      my @split = split(/\s+/, $l);           # splits matched lines
      push(@{$val{$vol}{$beta}{$split[1]}{$split[2]}{$split[4]}}, $split[6]);# reads data into hash
      if (!grep{$_ eq $split[1]} @smearingt) {# fills the smearing time array
        push(@smearingt, $split[1]);
      }
      if (!grep{$_ eq $split[4]} @{$block{$vol}}) {# fills the number of blockings
        push(@{$block{$vol}}, $split[4]);
      }
    }
  }
  foreach my $beta (@{$Beta{$vol}}) {
    foreach my $loop (0,1,2,3,4) {         # loops over observables
      foreach my $b (@{$block{$vol}}) {    # beta values
        foreach my $t (@smearingt) {       # and smearing times
          $avg{$vol}{$beta}{$t}{$loop}{$b} = stat_mod::avg(@{$val{$vol}{$beta}{$t}{$loop}{$b}});     # to find statistics
          $err{$vol}{$beta}{$t}{$loop}{$b} = stat_mod::stdev(@{$val{$vol}{$beta}{$t}{$loop}{$b}});
        }
      }
    }
  }
}
print"File Read in Complete!\n";

我希望将此数据加载到分层索引数据结构中，其中 perl 哈希的索引成为我的 python 数据结构的索引。到目前为止，我遇到的 pandas 数据结构的每个示例都经过精心设计，其中整个结构（索引和值）都是在一个命令中手动分配的，然后进行操作以演示数据结构的所有功能。不幸的是，我无法一次分配所有数据，因为我不知道要分析的数据中有哪些质量、β、大小等。我这样做的方式不对吗？有谁知道更好的方法吗？数据文件是不可变的，我必须使用我了解如何做的正则表达式来解析它们。我需要帮助是将数据放入适当的数据结构中，以便我可以取平均值、标准差、执行数学运算并绘制数据图。

典型数据的标题行数未知，但我关心的内容如下所示：

Alpha 0.5 0.5 0.4
Alpha 0.5 0.5 0.4
LOOPS 0 0 0 2 0.5 1.7800178
LOOPS 0 1 0 2 0.5 0.84488326
LOOPS 0 2 0 2 0.5 0.98365135  
LOOPS 0 3 0 2 0.5 1.1638834
LOOPS 0 4 0 2 0.5 1.0438407
LOOPS 0 5 0 2 0.5 0.19081102
POLYA NHYP 0 2 0.5 -0.0200002 0.119196 -0.0788721 -0.170488 
BLOCKING COMPLETED
Blocking time 1.474 seconds
WFLOW 0.01 1.57689 2.30146 0.000230146 0.000230146 0.00170773 -0.0336667
WFLOW 0.02 1.66552 2.28275 0.000913101 0.00136591 0.00640552 -0.0271222
WFLOW 0.03 1.75 2.25841 0.00203257 0.00335839 0.0135 -0.0205722
WFLOW 0.04 1.83017 2.22891 0.00356625 0.00613473 0.0224607 -0.0141664
WFLOW 0.05 1.90594 2.19478 0.00548695 0.00960351 0.0328218 -0.00803792
WFLOW 0.06 1.9773 2.15659 0.00776372 0.0136606 0.0441807 -0.00229793
WFLOW 0.07 2.0443 2.1149 0.010363 0.018195 0.0561953 0.00296648

我（认为）我想要的，我用 think 作为序言，因为我是 python 新手，专家可能知道更好的数据结构，是一个分层索引系列，如下所示：

volume   mass   beta   observable   t   value

1224     0.0    5.6    0            0   1.234
                                    1   1.490
                                    2   1.222
                       1            0   1.234
                                    1   1.234
2448     0.0    5.7    0            1   1.234

等等：http://pandas.pydata.org/pandas-docs/dev/indexing.html#indexing-hierarchical

对于那些不了解 perl 的人：

我需要的主要内容是：

push(@{$val{$vol}{$beta}{$split[1]}{$split[2]}{$split[4]}}, $split[6]);# reads data into hash

我这里有一个名为“val”的哈希值。这是数组的哈希值。我相信用Python语言来说这将是一个列表字典。这里的每件事看起来都是这样的： '{$something}' 是散列 'val' 中的键，我将变量 $split[6] 中存储的值附加到指定散列元素的数组末尾通过所有 5 个键。这是我的数据的根本问题，因为我感兴趣的每个数量都有很多键。

=========

UPDATE

我想出了以下导致此错误的代码：

Traceback (most recent call last):
  File "wflow_2lattice_matching.py", line 39, in <module>
    index = MultiIndex.from_tuples(zipped, names=['volume', 'beta', 'montecarlo_time, smearing_time'])
NameError: name 'MultiIndex' is not defined

Code:

#!/usr/bin/python

from pandas import Series, DataFrame
import pandas as pd
import glob
import re
import numpy

flavor = 4
mass = 0.0

vol = []
b = []
m_t = []
w_t = []
val = []

#tup_vol = (1224, 1632, 2448)
tup_vol = 1224, 1632
for v in tup_vol:
  filelist = glob.glob(str(flavor)+'flav_'+str(v)+'/BlockedWflow_low_'+str(v)+'_*_0.0.*')
  for filename in filelist:
    print 'Reading filename:  '+filename
    f = open(filename, 'r')
    junk, start, vv, beta, junk, mass, mont_t = re.split('_', filename)
    ftext = f.readlines()
    for line in ftext:
      if re.match('^WFLOW.*', line):
        line=line.strip()
        junk, smear_t, junk, junk, wilson_flow, junk, junk, junk = re.split('\s+', line)
        vol.append(v)
        b.append(beta)
        m_t.append(mont_t)
        w_t.append(smear_t)
        val.append(wilson_flow)
zipped = zip(vol, beta, m_t, w_t)
index = MultiIndex.from_tuples(zipped, names=['volume', 'beta', 'montecarlo_time, smearing_time'])
data = Series(val, index=index)

您将得到以下信息：

NameError: name 'MultiIndex' is not defined

因为当您导入Series和DataFrame时，您没有直接导入MultiIndex。

你有 -

from pandas import Series, DataFrame

你需要 -

from pandas import Series, DataFrame, MultiIndex

或者您可以使用 pd.MultiIndex 来引用 MultiIndex，因为您将 pandas 导入为 pd

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

尝试用python解析文本文件进行数据分析的相关文章

将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
当单词以“|”分隔时如何读取文件（埃因霍温）？

在Python中我有一个文件其中的单词由例如 city state zipcode 我的文件阅读器无法区分单词另外我希望我的文件阅读器从第 2 行而不是第 1 行开始如何让我的文件阅读器分隔单词 import os import
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
使用 numpy 在 python 中执行最大方差旋转

我正在研究矩阵的主成分分析我已经找到了如下所示的组件矩阵 A np array 0 73465832 0 24819766 0 32045055 0 3728976 0 58628043 0 63433607 0 72617152 0 5
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
如何从 CSS 选择器中提取类名？

故事我目前正在构建一个 ESLint 规则以警告在 CSS 选择器定位器中使用引导布局导向和角度技术类目前我在字符串方法中使用简单的子字符串 for var i 0 i lt prohibitedClasses length i if
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
如何在 robobrowser-python 中发出 POST 请求

http robobrowser readthedocs org en latest api html http robobrowser readthedocs org en latest api html 我正在尝试使用 APIbrows
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

将样式应用于 Android ListView

我想在我的应用程序中设置 lisview 的样式如下图所示我尝试通过应用渐变来开发它 list item normal 的代码是
具有自定义视图的堆叠式 ActionBar 选项卡未正确显示

使用操作栏选项卡时有时当选项卡内容对于显示来说太大时它们会显示为堆叠当我对选项卡内容使用自定义视图时会出现问题它会导致所选选项卡不会显示在下拉列表中并且一旦选择选项卡下拉列表就会消失并出现小的空选项卡 Here is a
Aho-Corasick 整个单词的文本匹配？

我正在使用 Aho Corasick 文本匹配想知道是否可以更改它以匹配terms而不是字符换句话说我希望术语而不是字符成为匹配的基础举个例子搜索查询他句子你好世界 Aho Corasick 会将 he 与以索引 2 结尾的
播放视频 android 时未捕获第一次按后退按钮

我有一个奇怪的错误我不知道如何修复我有一个视频播放器一个播放视频的简单视频视图现在我已经实现了逻辑以便当用户按下后退按钮时它告诉他再次按下后退按钮以退出当他这样做时它就会退出但问题是第一次背压没有被抓住我不知道是什么原因
如果我想使用单个 UIMA 依赖库，是否需要重写整个 java 项目？

我想用https code google com p heideltime 在一个java项目中该代码适合 UIMA 管道这是我根本不理解的 UIMA 看起来像是为了解决大量我没有的问题而设计的所以我只想获得运行该代码所需的最少量的
如何保护 C++03 和 C++11 的移动构造函数？

这类似于在运行时可以检测到 C 03 和 C 11 之间的哪些差异如果有但在这种情况下我希望通过预处理器进行检测我们该如何守护移动构造函数 and 移动作业当源代码同时用于 C 03 和 C 11 时以下是否足够是移动语义所有
什么时候意图额外在活动之间变得无效？

我在活动之间接收意图额外内容时遇到问题在我的 MainActivity 中我启动 Gallery 活动来选择外部 SD 卡上的视频文件 public class MainMenu extends Activity Button chan
无法从 std::bind 推导出 std::function 的模板参数

我试图找到一种方法来调用许多类成员函数每个类成员函数都有不同的参数并且在调用之前和之后发生某些已知的功能这个包装函数是我尝试过的但是例如对它的最终调用不会编译错误 bool Wrapper Work std function Arg
遇到格式不正确的数值 - 这意味着什么？

当通知打开时我会收到以下消息标记注意遇到格式不正确的数值这是否意味着预期值不是一个简单的整数引用的行显示了这一点 per raw gt 0 ceil raw cast 5 100 0 重现 var dump 14 3 votes
从react-js-pagination获取分页器以显示在页面上

我有一个反应应用程序它是购物网站的前端我有一个产品页面我正在尝试将分页从react js pagination添加到其底部这样我就不必立即呈现整个产品列表我遵循了实施分页的指南https www npmjs com package
在函数上使用 sizeof 的输出[重复]

这个问题在这里已经有答案了为什么下面的代码给出 include
在 PHP 中，使用 fopen() 将文件指针资源分配给变量后，如何从变量中获取文件名？

例如 file fopen File txt r filename file gt basename 如果有像文件对象文件指针资源的basename这样的方法不那里没有顺便问一下什么场景下需要这个东西
如何在 GCE 上安装 SSL [Wordpress + Apache]

我使用 openssl 命令创建了一个私钥文件 openssl genrsa des3 out private key 2048 输入我的密码然后生成 CSR openssl req new key privatekey key out
从 API 实例化类时，我需要提供回调。如何将实例本身急切地绑定到回调？

我现在在几个不同的主要第三方库和框架中都遇到了这个问题让我尝试将其归结为要点 API提供了一个类Example 构造函数期望一个callback范围当某些事件发生时由于我无法控制的复杂逻辑 API 将调用callback功能我有一个
如何创建 NSInputStream 的子类？

我想创建 NSInputStream 的子类简单地说我尝试编写如下代码 interface SeekableInputStream NSInputStream NSUInteger startOffset NSUInteger tota
任务“:app:processDebugResources”的 Flutter 执行失败。无法解析配置“：app：debugCompileClasspath”的所有依赖项

Flutter 项目今天突然停止建设这是完整的错误 What went wrong Execution failed for task app processDebugResources gt Could not resolve all
上传多个文件 - MVC..有总文件大小限制吗？

我有一个表单用户可以从中添加属性列表除了用户必须输入的数据之外用户还可以上传许多图像我使用 HTML5 multiple 属性来允许用户一次上传多个文件由于某种原因当我上传一张图像时我总是会触发 HttpPost Add 方法
Codeigniter + dataTable 使用 bootstrap 模型自定义删除

到目前为止我所拥有的文档 ready 函数 table users DataTable processing true ajax deferRender true columns data id width 6 data descript
Java Scanner 类读取字符串[重复]

这个问题在这里已经有答案了我得到以下代码 int nnames String names System out print How many names are you going to save Scanner in new Scann
尝试用python解析文本文件进行数据分析

我在 Perl 中做了很多数据分析并尝试使用 pandas numpy matplotlib 等在 python 中复制这项工作一般工作流程如下 1 glob目录中的所有文件 2 解析文件因为它们有元数据 3 使用正则表达式来隔离给定

尝试用python解析文本文件进行数据分析

UPDATE

尝试用python解析文本文件进行数据分析 的相关文章

随机推荐

热门标签

尝试用python解析文本文件进行数据分析的相关文章