逆向爬虫02 re模块

2023-11-12

python re模块

re是python中自带的正则表达式模块，可以用于正则匹配

1. findall() 将匹配到的所有结果塞进列表并返回

import re
# 匹配字符串中的所有字符'a'
result = re.findall("a", "我是一个abcdefag")
print(result)	# ['a', 'a']

# 匹配字符串中的所有数字
result = re.findall(r"\d+", "我今年18岁，我有2000块")	# 因为反斜杠'\'在字符串中会被当做转移功能，所以要在字符串前面加r
print(result)	# ['18', '2000']

2. finditer() 将匹配到的所有结果塞进迭代器并返回，迭代器中存放的是match对象，需要调用.group()获取匹配结果，迭代器可以优化程序性能，当能匹配到多个对象是，优先使用finditer()

import re
# 匹配字符串中的所有数字
result = re.finditer(r"\d+", "我今年18岁，我有2000块")
print(result)	# <callable_iterator object at 0x0000027D4A293580>
for item in result:
    print(item) # <re.Match object; span=(3, 5), match='18'> <re.Match object; span=(9, 13), match='2000'>
    print(item.group())	# 18, 2000

3. search() 它只返回一个match对象，该对象是finditer()匹配到的第一个对象

import re

result = re.search(r"\d+", "我叫周杰伦，今年32岁，我的班级是3年2班")
print(result.group())	# 32

4. match() 它只返回一个match对象，不同的是match相当于在正则匹配表达式前加上了’^’，即只从字符串开头匹配

import re

result = re.match(r"\d+", "9527，我的编号是9527")		# 正则表达式相当于是r"^\d+"
print(result.group())	# 9527

5. compile() 预加载正则表达式，相当于将正则表达式存储到一个变量中，方便后面调用，而不需要每次都申请内存

import re

obj = re.compile(r"\d+")
result = obj.findall("我叫周杰伦，今年32岁，我的班级是3年2班")
print(result)	# ['32', '3', '2']

6. 如何从正则中提取到我们想要的数据

# 将想要提取的数据用小括号括起来，可以单独取名字
# (?P<名字>正则)
# 提取数据的时候，需要group("名字")
import re

s = """
    <div class='⻄游记'><span id='10010'>中国联通</span></div>
    <div class='⻄游记'><span id='10086'>中国移动</span></div>
"""
# 想要获取上述字符串中的id和text信息
obj = re.compile(r"<span id='(?P<id>\d+)'>(?P<name>.*?)</span>")
result = obj.finditer(s)
for item in result:
    id = item.group("id")
    name = item.group("name")
    print(id, name)	# 10010 中国联通	10086 中国移动

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫学习

爬虫

正则表达式

python

逆向爬虫02 re模块的相关文章

如何检查当前日期并移至下一个日期

我遇到了一个我似乎无法理解的 python 问题不确定是否需要使用 if 语句但因为我是 python 新手所以我实际上不确定如何编写这个小问题事实上这就是我遇到的问题对于出发日历我希望 python 能够执行以下操作查看
将预训练的手套词嵌入与 scikit-learn 结合使用

我已经使用 keras 来使用预先训练的词嵌入但我不太确定如何在 scikit learn 模型上执行此操作我也需要在 sklearn 中执行此操作因为我正在使用vecstack集成 keras 序列模型和 sklearn 模型这就
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
通过 rpy 将 SPSS 文件（.sav）导入 pandas 时如何保留标签？

我正在寻找使用 SPSS 文件 sav pandas 在没有 SPSS 程序的情况下典型文件转换为 csv 后的样子如下在调查前两行的含义时我不知道 SPSS 似乎第一行包含Labels 而第二行包含VarNames 当我将文件带入
如何创建毫秒粒度的 Python 时间戳？

我需要一个自纪元以来的毫秒 ms 时间戳这应该不难我确信我只是缺少一些方法datetime或类似的东西实际上微秒 s 粒度也很好我只需要亚 1 10 秒的计时例子我有一个每 750 毫秒发生一次的事件假设它检查灯是否打开或关闭
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
导入 scipy.stats 时，出现“ImportError: DLL load failed: 找不到指定的过程”

我无法导入 scipy stats 并收到以下错误但不知何故 import scipy as sp 仍然可以正常工作其他库如numpy pandas都可以毫无问题地导入我尝试在 Anaconda 中重新安装 scipy 1 2 1 降
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
Tkinter 按钮鼠标右键和左键单击有不同的命令

我正在用 Python 制作扫雷游戏并使用 tkinter 库来创建 gui 有没有绑定到 tkinter 按钮两个命令的方法一个是右键单击按钮时的命令另一个是单击左键时的命令通常按钮仅设计用于单击但 tkinter 允许您为
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
Python：如何对数组 X 进行排序，但对 Y 进行相同的相对排序？

例如 X 5 6 2 3 1 Y 7 2 3 4 6 我对X进行排序 X 1 2 3 5 6 但我希望对 Y 应用相同的相对排序以便数字保持与以前相同的相对位置 Y 6 3 4 7 2 我希望这是有道理的通常你会做一个zip sort
使用枚举名称而不是值对 Pydantic 字段进行编码

我有一个枚举类 class Group enum Enum user 0 manager 1 admin 2 我有一个 pydantic 模型 class User BaseModel id int username str group G
将索引数组转换为 NumPy 中的 one-hot 编码数组

给定一个一维索引数组 a array 1 0 3 我想将其一次性编码为二维数组 b array 0 1 0 0 1 0 0 0 0 0 0 1 创建归零数组b有足够的列即a max 1 然后对于每一行i 设置a i 第列至1 gt
为什么我可以使用 tsql 连接到 Azure MS SQL，但不能使用 pymssql？

我今天在哪里 TDSVER 7 3 tsql H example database windows net U me D ExampleDB p 1433 P notreallymypassword 这不会 gt gt gt import
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Pandas：合并多个数据框并控制列名称？

我想将九个 Pandas 数据帧合并到一个数据帧中对两列进行联接控制列名称这可能吗我有九个数据集它们都有以下列 org name items spend 我想将它们加入到具有以下列的单个数据框中 org name items df
matplotlib imshow() 和像素强度

我试图了解矩阵的值是如何输入到 matplotlib 的imshow 函数确定灰度模式下像素的强度考虑示例代码 import random import matplotlib pyplot as plt import matplotlib

随机推荐

Python中去掉字符串空格的方法有哪些？

在Python中当我们使用Python处理字符串时经常会遇到字符串中包含空格的情况那么Python如何去掉字符串空格有多种方法可以从Python字符串中删除空格以下是详细内容介绍 1 使用strip 方法它是一个Python内置
KeyError: ‘Transformer/...query\\kernel is not a file in the archive‘,已解决。

在跑TransUNet时遇到很多报错前面的都是一些版本不对应问题然后遇到了这个源码还未完善的小bug 这个错误主要由字符串地址拼接时Windows和Linux等其他系统不太一样 Windows使用符号所以找到字符串拼接的地方加上
linux中 .zip .gz .tar 的差别及解压缩命令

一 Linux下最常用的压缩文件就是 tar了使用tar程序打出来的包我们常称为tar包对于tar包可以再用gz zip等压缩算法再次压缩比如 jdk 8u181 linux x64 tar gz 二解压缩命令 tar 可以保留原
pe模式下修复usb驱动_伺服驱动器三种控制模式的接线

我们在平时控制伺服电机的时候经常用到的控制模式就是三种模式分别是速度控制模式位置控制模式转矩控制模式现以三菱的伺服驱动器为例下面分别了解一下每个模式的控制接线及其注意事项一速度控制模式注 1 为了防止触电请务必将伺服放大器
python高级培训第五次任务

使用定时器实现当前时间每秒循环输出一次 import threading import time def run print time strftime Y m d H M S time localtime time time t thre
仿微信实现ListView长按删除

简言仿微信做了一个对话列表长按每个列表项弹出popupwindow进行删除操作最终效果如下第一步制作列表界面可以是ListView 也可以是RecyclerView 布局大家可以自己设计本文采用的是ListView 第二步为
blockly

学习自定义块视频学习 https developers google com blockly guides create custom blocks blockly developer tools hl zh cn 自定义地址 https
作为一个C++新手，我感兴趣的C++开源项目

2023年4月30日周日晚上昨天完成了一个C 项目后想再开始一个C 项目但不知道做什么于是决定看看有什么好的C 开源项目今晚在网上逛了一圈后发现了好多有趣的C 开源项目参考文章 GitHub Top 10 C 优质开源项目
SQLServer连接Pgsql或mysql读写数据

问题想把SQLServer的数据库迁移到PgSql里面因为两个数据库业务表的结构和字段都不一样需要逐表进行按需抽取想要的字段并导入数据解决方案可以在SqlServer里面创建链接服务器链接到Pgsql的表然后在SQLServe
如何在Anaconda安装Pygame

开始之前先来安装Pygame 可使用pip模块来帮助下载安装python包要安装Pygame 需在终端提示符下执行如下命令 python m pip install user pygame 对于下载了anaconda用户可按以下操作
cisp-pte考试复盘及常考题型总结

一选择题说基础也不基础 pte的题都是偏实践的那一类感觉也不算简单不好好看看还真容易栽这上面那就太可惜了比如 DMZ区 php伪协议谷歌命令 00截断中对php版本的要求等等类似的二大题 1 sql注入 1 碎碎念第一题
R语言系统教程（八）：绘图命令

R语言系统教程八绘图命令 8 1 高水平绘图函数 8 1 1 plot 函数 8 1 2 显示多变量数据 8 1 3 显示图形 8 2 高水平绘图中的命令 8 2 1 图中的逻辑命令 8 2 2 数据取对数 8 2 3 type 8 2
CORS跨域资源共享/一些非同源解决方法

定义向不同服务器发送请求在另一要被访问的服务器端可以这么写拦截所有请求 app use req res next gt 1 允许哪些客户端访问我代表允许所有的客户端访问我注意如果跨域请求中涉及到cookie信息传递值不可以为
计算机网络基本概念

互联网的两个重要基本特点连通性和共享计算机网络由若干结点和连接这些结点的链路组成网络之间可以通过路由连接起来构成一个覆盖范围更大的网络称为互连网也称为网络的网络网络把许多计算机连接在一起而互连网则把许多网络通过路由器连接
SecureCRT常用命令

常用命令一 ls 只列出文件名相当于dir dir也可以使用 A 列出所有文件包含隐藏文件 l 列表形式包含文件的绝大部分属性 R 递归显示 help 此命令的帮助二 cd 改变目录 cd 进入根目录 cd 回到自己的目录用户不
【HTML、CSS】使用HTML、CSS实现动态爱心

HTML部分源码 div class box div
OpenCV计算机视觉实战 - 文档扫描OCR识别【项目实战】

纸上得来终觉浅绝知此事要躬行 B站视频新课件 https pan baidu com s 1frWHqCVGR2VTn5QBtW4lPA 提取码 xh02 老课件 https pan baidu com s 1Wi31FxSPBqWiu
Kubernetes学习之路目录

Kubernetes基础篇环境说明版本说明系统环境 Centos 7 2 Kubernetes版本 v1 11 2 Docker版本 v18 09 Kubernetes学习之路一之概念和架构解析和证书创建和分发Kubernetes
c语言empty函数返回结果,C语言：实现函数init（）初始化数组、实现empty（）清空数组、实现reverse（）函数完成数组元素的逆置...

include void init int arr int len int i 0 printf 初始化数组 gt n for i 0 i scanf d arr i void reverse int arr int len int i 0
逆向爬虫02 re模块

python re模块 re是python中自带的正则表达式模块可以用于正则匹配 1 findall 将匹配到的所有结果塞进列表并返回 import re 匹配字符串中的所有字符 a result re findall a 我是一个abc

逆向爬虫02 re模块

python re模块

re是python中自带的正则表达式模块，可以用于正则匹配

逆向爬虫02 re模块 的相关文章

随机推荐

热门标签

逆向爬虫02 re模块的相关文章