数据提取之正则

2023-11-02

1. 什么是正则表达式

用事先定义好的一些特定字符、及这些特定字符的组合,组成一个规则字符串,这个规则字符串用来表达对字符串的一种过滤逻辑。

2. 正则表达式的常见语法

知识点

  • 正则中的字符
  • 正则中的预定义字符集
  • 正则中的数量词
    在这里插入图片描述

正则的语法很多,不能够全部复习,对于其他的语法,可以临时查阅资料,比如:表示或还能使用|

练习: 下面的输出是什么?

string_a = '<meta http-equiv="X-UA-Compatible" content="IE=edge,chrome=1">\n\t\t<meta http-equiv="content-type" content="text/html;charset=utf-8">\n\t\t<meta content="always" name="referrer">\n        <meta name="theme-color" content="#2932e1">'
ret = re.findall("<.*>",string_a)
print(ret)

3. re模块的常见方法

  • pattern.match(从头找一个)
  • pattern.search(找一个)
  • pattern.findall(找所有)
    - 返回一个列表,没有就是空列表
    re.findall("\d","chuan1zhi2") >> 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据提取之正则 的相关文章

随机推荐

  • E: Could not get lock /var/lib/dpkg/lock – open (11: Resource temporarily unavailable)

    是不是在使用ubuntu的时候特别是安装或更新的时候会出现下面的情况 E Could not get lock var lib dpkg lock open 11 Resource temporarily unavailable E Una
  • VUE中使用高德地图

    1 下载高德地图插件 npm i amap amap jsapi loader save 2 新建js文件 封装地图引入初始化代码 引入下载的插件 import AMapLoader from amap amap jsapi loader
  • 网络服务(2)——以太网配置IPV4和IPV6

    测试 网络拓扑 开发板 RK3399 lt gt 交换机 lt gt 我的电脑 虚拟机 配置指令 设置IP ip 6 addr add 1001 2001 2001 2001 159 64 dev eth0 ip 6 addr del 10
  • 统计学中的t检验 、f检验、卡方检验

    1 1数据的种类 我们都知道 一般数据可以分为两类 即定量数据 数值型数据 和定性数据 非数值型数据 定性数据很好理解 例如人的性别 姓名这些都是定性数据 定量数据可以分为以下几种 1 1 1定类数据 表现为类别 但不区分顺序 是由定类尺度
  • 毛玻璃效果 php,CSS3教程之制作倾斜导航条和毛玻璃效果

    这篇文章主要介绍了使用CSS3制作倾斜导航条和毛玻璃效果 需要的朋友可以参考下 导航条对于每一个Web前端攻城狮来说并不陌生 但是毛玻璃可能会相对陌生一些 简单的说 毛玻璃其实就是让图片或者背景使用相应的方法进行模糊处理 这种效果对用户来说
  • 使用机器学习方法预测IBM员工流失数据模型

    https www toutiao com a6642158841523864067 2019 01 03 14 50 15 在 IT公司 有许多员工架构可用 一些IT公司或特定部门或特定级别遵循主要的程序员结构 其中有一个 start 组
  • 8 种异步实现方式归纳总结

    一 异步的八种实现方式 1 线程Thread 2 Future 3 异步框架CompletableFuture 4 Spring注解 Async 5 Spring ApplicationEvent事件 6 消息队列 7 第三方异步框架 比如
  • HTML+CSS+JS漫谈(一)

    既然是技术博客 从本篇开始 将进入技术的主题 我将写出自己学习技术时遇到的问题以及解决的思路 一些想法以及一些收获 由于个人学的浅 如果有说的不对或不准确的地方 还请大家批评指正 前端开发三剑客HTML CSS JS之名是如雷贯耳 是前端入
  • jenkins构建dotnet5项目报错: The HTTP request to ‘GET https://api.nuget.org/v3/index.json‘ has timed out

    问题描述 使用官方镜像 mcr microsoft com dotnet sdk 5 0 AS build 在docker build 过程中报错 Step 15 24 RUN dotnet build Project API csproj
  • Java面向对象知识详解(超详细)

    面向对象 一 概念 二 类与对象 三 类与对象在内存中的存储 四 封装 面向对象的三大特征之一 五 构造方法 六 构造代码块和局部代码块 1 构造代码块 2 局部代码块 七 this关键字 八 继承 1 概念 2 特点 3 super关键字
  • 新人请教 R语言作业

    新人请教 这些题怎么做 文件bankloan csv中包含700条的个人贷款信息 1 表示违约 0 表示不违约 1 25分 使用文件bankloan csv中的数据 1 将一张画板分成1行2列 以收入为y轴 年龄为x轴在一张画板上 用不同颜
  • 《Linux就该这么学》学习随笔第二天——VMware虚拟机安装“该主机cpu类型不支持虚拟化性能计数器。”

    今天在安装虚拟机的时候遇到一个问题 记录下我的排查步骤以方便后来者 问题描述 虚机配置完成后 挂载系统镜像后开启虚拟机 虚机报错 提示 该主机cpu类型不支持虚拟化性能计数器 开启模块VPMC的操作失败 未能启动虚拟机 步骤 看到这个错误提
  • R语言 数据格式转换1

    矩阵转化成数据框 用as data frame x 数据框转化成矩阵比较麻烦 如果同时存在字符串类型和数值类型 那么就会默认将数值转化成字符串型 数据框无法转化成向量和因子 methods as 函数查看所有as 函数 R中最基础的数值类型
  • 【react】js创建虚拟dom

    1 创建 React createElement 标签名 标签属性 标签内容 2 渲染 ReactDOM render Dom 容器节点 注 jsx可以用于多标签嵌套的情况 写起来比较方便 但是jsx的写法浏览器识别不了 所以在script
  • Android Long SMS

    Android Long SMS SEND ap在发送long sms之前 会调用Framework的SmsManager的divideMessage 函数 将信息进行切分 然后sendMultipartTextMessage 判断是否为l
  • 粒子群算法应用——求解多峰函数

    一 问题概述 粒子群算法求解多峰函数 函数表达式 z 1 cos 1 1 x 1 2 cos 2 1 x 2 3 cos 3 1 x 3 4 cos 4 1 x 4 5 cos 5 1 x 5 1 cos 1 1 y 1 2 cos 2 1
  • Spring Boot + Vue3前后端分离实战wiki知识库系统<十二>--用户管理&单点登录开发一...

    目标 在上一次https www cnblogs com webor2006 p 17533745 html我们已经完成了文档管理的功能模块开发 接下来则开启新模块的学习 用户登录 这块还是有不少知识点值得学习的 先来看一下整体的效果 关于
  • 我的微博 http://t.sina.com.cn/wangtianping

    我的微博 http t sina com cn wangtianping
  • OpenCV中SVM的参数具体设置

    CvSVMParams CvSVMParams svm type CvSVM C SVC kernel type CvSVM RBF degree 0 gamma 1 coef0 0 C 1 nu 0 p 0 class weights 0
  • 数据提取之正则

    1 什么是正则表达式 用事先定义好的一些特定字符 及这些特定字符的组合 组成一个规则字符串 这个规则字符串用来表达对字符串的一种过滤逻辑 2 正则表达式的常见语法 知识点 正则中的字符 正则中的预定义字符集 正则中的数量词 正则的语法很多