解析apache日志文件

2023-12-14

我刚刚开始学习 Python,想读取 Apache 日志文件并将每行的部分内容放入不同的列表中。

文件中的行

172.16.0.3 - - [25/Sep/2002:14:04:19 +0200] "GET / HTTP/1.1" 401 - "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.1 ) 壁虎/20020827"

根据阿帕奇网站格式是

%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{用户代理}i\

我可以打开该文件并按原样读取它,但我不知道如何使其以该格式读取,以便我可以将每个部分放入列表中。


这是一份工作常用表达.

例如:

line = '172.16.0.3 - - [25/Sep/2002:14:04:19 +0200] "GET / HTTP/1.1" 401 - "" "Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.1) Gecko/20020827"'
regex = '([(\d\.)]+) - - \[(.*?)\] "(.*?)" (\d+) - "(.*?)" "(.*?)"'

import re
print re.match(regex, line).groups()

输出将是一个元组,其中包含该行中的 6 条信息(具体来说,该模式中括号内的组):

('172.16.0.3', '25/Sep/2002:14:04:19 +0200', 'GET / HTTP/1.1', '401', '', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.1) Gecko/20020827')
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

解析apache日志文件 的相关文章

  • Java 读取大文本文件时出现 OutOfMemoryError

    我是 Java 新手 正在读取非常大的文件 需要一些帮助来理解问题并解决它 我们有一些遗留代码 必须对其进行优化才能正常运行 文件大小仅在 10mb 到 10gb 之间变化 只有当文件开始大小超过 800mb 时才会出现启动问题 Input
  • 如何屏蔽 PyTorch 权重参数中的权重?

    我正在尝试在 PyTorch 中屏蔽 强制为零 特定权重值 我试图掩盖的权重是这样定义的def init class LSTM MASK nn Module def init self options inp dim super LSTM
  • 为什么我不能导入 geopandas?

    我唯一的代码行是 import geopandas 它给了我错误 OSError Could not find libspatialindex c library file 以前有人遇到过这个吗 我的脚本运行得很好 直到出现此错误 请注意
  • 如何在 Ubuntu 上安装 Python 模块

    我刚刚用Python写了一个函数 然后 我想将其做成模块并安装在我的 Ubuntu 11 04 上 这就是我所做的 创建 setup py 和 function py 文件 使用 Python2 7 setup py sdist 构建分发文
  • 获取单个方程的脚本

    在文本文件中输入 a 2 8 b 3 9 c 4 8 d 5 9 e a b f c d g 0 6 h 1 7 i e g j f h output i j 期望的输出 输出 2 8 3 9 0 6 4 8 5 9 1 7 如果输入文件名
  • python ttk treeview:如何选择并设置焦点在一行上?

    我有一个 ttk Treeview 小部件 其中包含一些数据行 如何设置焦点并选择 突出显示 指定项目 tree focus set 什么也没做 tree selection set 0 抱怨 尽管小部件明显填充了超过零个项目 但未找到项目
  • python中函数变量的作用域

    假设我们有两个函数 def ftpConnect ftp FTP server ftp login ftp cwd path def getFileList ftpConnect files ftp nlst print files 如果我
  • 当x轴不连续时如何删除冗余日期时间 pandas DatetimeIndex

    我想绘制一个 pandas 系列 其索引是无数的 DatatimeIndex 我的代码如下 import matplotlib dates as mdates index pd DatetimeIndex 2000 01 01 00 00
  • Python:随时接受用户输入

    我正在创建一个可以做很多事情的单元 其中之一是计算机器的周期 虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中 我将进行计数 只需一个简单的操作 counter 1 print counter 跟踪我处于
  • Pandas:根据列名进行列的成对乘法

    我有以下数据框 gt gt gt df pd DataFrame ap1 X 1 2 3 4 as1 X 1 2 3 4 ap2 X 2 2 2 2 as2 X 3 3 3 3 gt gt gt df ap1 X as1 X ap2 X a
  • 在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

    我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本 我采取的步骤是 从以下位置安装 Python 3 4 1http python org http python org gt pip in
  • FastText - 由于 C++ 扩展未能分配内存,无法加载 model.bin

    我正在尝试使用 FastText Python APIhttps pypi python org pypi fasttext https pypi python org pypi fasttext虽然 据我所知 此 API 无法加载较新的
  • 在pycharm中调试python代码

    这个问题类似于this https stackoverflow com questions 10240018 how to use pycharm to debug python script一 我正在尝试调试pyethapp https
  • Python 矩阵每一行的总和

    lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
  • WindowsError:[错误 5] 访问被拒绝

    我一直在尝试终止一个进程 但我的所有选项都给出了 Windows 访问被拒绝错误 我通过以下方式打开进程 一个python脚本 test subprocess Popen sys executable testsc py 我想杀死那个进程
  • 使用 Doc2vec 后如何解释 Clusters 结果?

    我正在使用 doc2vec 将关注者的前 100 条推文转换为矢量表示形式 例如 v1 v100 之后 我使用向量表示来进行 K 均值聚类 model Doc2Vec documents t size 100 alpha 035 windo
  • Python模块单元测试的最佳文件结构组织?

    遗憾的是 我发现有太多方法可以在 Python 中保存单元测试 而且它们通常没有很好的文档记录 我正在寻找一种 终极 结构 它可以满足以下大部分要求 be discoverable by test frameworks including
  • 使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

    我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布 有
  • 如何使用 Django (Python) 登录表单?

    我在 Django 中构建了一个登录表单 现在我遇到了路由问题 当我选择登录按钮时 表单不会发送正确的遮阳篷 我认为前端的表单无法从 查看 py 文件 所以它不会发送任何 awnser 并且登录过程无法工作 该表单是一个简单的静态 html
  • 使用 numpy 加速 for 循环

    下一个 for 循环如何使用 numpy 获得加速 我想这里可以使用一些奇特的索引技巧 但我不知道是哪一个 这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

  • CLR UDF 返回 Varbinary(MAX)

    SQL CLR 用户定义函数是否可以返回数据类型 varbinary MAX 在文档中它提到 标量值函数返回的输入参数和类型可以是 SQL Server 支持的任何标量数据类型 除了 rowversion text ntext image
  • python 中列表推导式的计算方式以及计算顺序

    我有两个列表理解 其中条件在不同的地方定义 gt gt gt x 2 if x 2 0 else x 3 if x 3 0 else 0 for x in range 10 0 0 4 27 16 0 36 0 64 729 gt gt g
  • 如何在 bash 中创建仅包含十六进制字符而没有空格的文件的十六进制转储?

    我如何创建一个未修改的Linux 中使用 bash 的二进制文件的十六进制转储 这od and hexdump命令都在转储中插入空格 这并不理想 有没有一种方法可以简单地在输出中编写一个包含所有十六进制字符 减去空格或换行符的长字符串 xx
  • 为什么我的字符串开头有“未定义”文本?

    我有一个函数可以将 AJAX 请求的结果连接在一起 由于某种原因 我的最终字符串以 未定义 开头 这是重现该问题的简化示例 In practice fetched via AJAX from a server var vendors id
  • ASP.NET MVC 本地化

    我正在尝试通过路线实现本地化 我有以下内容 routes MapRoute DefaultLocalized lang controller action id new controller Home action Index id lan
  • 使用 mysql 中的递归 php 创建数组

    我需要从像这样组织的 mysql 数据库创建一个数组 id description parentId 1 Level 1 0 2 Level 2 0 3 Level 1a 1 4 Level 1b 1 5 Level 1a1 3 6 Lev
  • jQuery 动画背景位置在块中?

    我正在尝试使用 jQuery 使跨度的背景位置每秒下降 10 像素 有什么好的方法可以做到这一点 我一直在玩 jQuery animate delay CSS 等setTimeout功能 但我无法让任何东西工作 非常感谢建议 我试图使 y
  • gitlab-shell:不允许的命令

    我已经在 Ubuntu 14 04 上安装了最新版本的 GitLab 除了推送到远程之外它工作正常 Running ssh email protected git receive pack repo git 效果很好 在 gitlab sh
  • ASP.NET MVC5 占位符中的字体很棒

    我正在尝试向登录页面的占位符添加一个字体很棒的图标 这是我到目前为止所拥有的 我不知道如何获得字体很棒的图标inside文本框 作为占位符 Html TextBoxFor m gt m UserName new class form con
  • XElement.Load 读取 & 符号和特殊国家/地区字符时出错

    我在从 XML 文件读取 符号时遇到问题 XElement xmlElements XElement Load Path Xml Data File 当我有以下情况时 我会收到错误
  • 在下拉列表打开时更改其内容?

    我有一个包含一些项目的下拉列表 当用户选择其中之一时 我希望下拉列表保持打开状态并重新填充新项目 然后用户选择其中之一 最后下拉菜单关闭 可以用 JavaScript 完成吗 如果是这样 怎么办 为了科学 我创建了一个替代答案来测试这一点
  • 如何在xmppGroupCoreDataStorageObject中保存和获取?

    Using xmpp messenger ios 我已经创建了组并设置了其配置并将用户添加到其中 然后我想将该组添加到xmppGroupCoreDataStorageObject存储以将其列出到 OpenChatViewController
  • UITextField 边框颜色

    我非常希望将自己的颜色设置为 UITextField 边框 但到目前为止我只能找到如何更改边框线样式 我使用背景属性以这种方式设置背景颜色 self textField backgroundColor textFieldColor 但我也必
  • pip/python:普通站点包不可写

    我有一台新 Macbook 一个用户安装了它 然后我安装了一个新用户 我的 授予管理员权限并删除了旧用户 我在 Catalina 操作系统上 自从安装以来 我一直遇到一些权限问题 VSCode 找不到 Jupyter Notebook pi
  • 获取 Google Cloud Storage 中的文件列表 (Appengine PHP)

    我有一个 Google Cloud Storage 存储桶 MyBucket 它有 20 个项目 我想在我的 appengine PHP 应用程序中获取这些文件名 我正在考虑是否可以使用 App Engine 的内置 Google Clou
  • 正则表达式帮助 - python - 从 css 中提取所有图像 url

    我正在尝试从 css 文件中提取所有图像 jpg png gif uri 示例 CSS blockpricecont width 660px height 75px background url images postBack jpg re
  • 使用画布nodeJS模糊图像

    这好像是ctx filter blur amount 不起作用 这是我的代码 const body await request get url const data await Canvas loadImage body ctx filte
  • 在c#中通过位掩码存储多个值

    我试图通过位掩码将四个独立的 5 位值 0 31 存储在 32 位 int 内 但无法正确设置这些值 并从用于存储的掩码 int 中获取各个值 谁能帮我这个 Edit 抱歉外部链接 这里有一些 JavaScript 演示了我想要实现的目标
  • 如何在 ASP.NET Core 6 中将字段值从 true 切换为 false,反之亦然

    我正在使用 ASP NET Core 6 和 mongodb 作为数据库构建一个 API 我正在尝试设置某个字段以从 true 切换到 false 反之亦然 如果场isactive True 然后我必须将其更新为 false 反之亦然 我已
  • 解析apache日志文件

    我刚刚开始学习 Python 想读取 Apache 日志文件并将每行的部分内容放入不同的列表中 文件中的行 172 16 0 3 25 Sep 2002 14 04 19 0200 GET HTTP 1 1 401 Mozilla 5 0