如何使用正则表达式来匹配HTML中的字符集字符串？

2024-01-11

HTML 代码示例：

<meta http-equiv="Content-type" content="text/html;charset=utf-8" />

我想使用 RegEx 提取字符集信息（即这里是“utf-8”）

（我使用的是C#）

我的答案提供了 @Floyd 的更强大的版本，并在可能的程度上解决了 @You 的破损测试用例，其中使用负前瞻来避免它。我实际上只能想到一个相关的案例（@You 的示例的一种变体），它会给出误报，但我认为这种情况非常罕见。表达式预计使用不区分大小写的标志运行，并使用java.util.regex http://docs.oracle.com/javase/7/docs/api/java/util/regex/package-summary.html and JRegex http://jregex.sourceforge.net/.

捕获组会自动修剪，并且从不包含引号，也不包含其他标记字符（例如“/”或“>”）。在第二个表达式中，有 2 个捕获组；第一个是内容类型值，它可能为空（即，当使用字符集属性时），第二个是字符集值，它始终为非空（除非字符集值由于某种奇怪的原因实际上留空））。

仅用于匹配/分组字符集值的正则表达式 - 修剪，跳过引号

<meta(?!\s*(?:name|value)\s*=)[^>]*?charset\s*=[\s"']*([^\s"'/>]*)

与上面相同，但还匹配/分组内容类型（可选）和字符集（必需）值，修剪，跳过引号。小警告 - 错过匹配独立内容类型值，即“text/html”

<meta(?!\s*(?:name|value)\s*=)(?:[^>]*?content\s*=[\s"']*)?([^>]*?)[\s"';]*charset\s*=[\s"']*([^\s"'/>]*)

测试用例（除了最后一个之外都通过了）...

<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1"/>
<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" />
<meta http-equiv='Content-Type' content='text/html;charset=iso-8859-1'/>
<meta http-equiv='Content-Type' content='text/html;charset=iso-8859-1' />
<meta http-equiv=Content-Type content=text/html;charset=iso-8859-1/>
<meta http-equiv=Content-Type content=text/html;charset=iso-8859-1 />
<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1">
<meta http-equiv="Content-Type" content="text/html;charset=iso-8859-1" >
<meta http-equiv='Content-Type' content='text/html;charset=iso-8859-1'>
<meta http-equiv='Content-Type' content='text/html;charset=iso-8859-1' >
<meta http-equiv=Content-Type content=text/html;charset=iso-8859-1>
<meta http-equiv=Content-Type content=text/html;charset=iso-8859-1 >

<meta http-equiv="Content-Type" content="text/html;charset='iso-8859-1'">
<meta http-equiv="Content-Type" content="'text/html;charset=iso-8859-1'">
<meta http-equiv="Content-Type" content="'text/html';charset='iso-8859-1'">
<meta http-equiv='Content-Type' content='text/html;charset="iso-8859-1"'>
<meta http-equiv='Content-Type' content='"text/html;charset=iso-8859-1"'>
<meta http-equiv='Content-Type' content='"text/html";charset="iso-8859-1"'>

<meta http-equiv="Content-Type" content="text/html;;;charset=iso-8859-1">
<meta http-equiv="Content-Type" content="text/html;;;charset='iso-8859-1'">
<meta http-equiv="Content-Type" content="'text/html;;;charset=iso-8859-1'">
<meta http-equiv="Content-Type" content="'text/html';;;charset='iso-8859-1'">
<meta http-equiv='Content-Type' content='text/html;;;charset=iso-8859-1'>
<meta http-equiv='Content-Type' content='text/html;;;charset="iso-8859-1"'>
<meta http-equiv='Content-Type' content='"text/html;;;charset=iso-8859-1"'>
<meta http-equiv='Content-Type' content='"text/html";;;charset="iso-8859-1"'>

<meta  http-equiv  =  "  Content-Type  "  content  =  "  '  text/html  '  ;  ;;  '  ;  '  '  ;  '  ;  ' ;;  ;  charset  =  '  iso-8859-1  '  "  >
<meta  content  =  "  '  text/html  '  ;  ;;  '  ;  '  '  ;  '  ;  ' ;;  ;  charset  =  '  iso-8859-1  '  "  http-equiv  =  "  Content-Type  "  >
<meta  http-equiv  =  Content-Type  content  =  text/html;charset=iso-8859-1  >
<meta  content  =  text/html;charset=iso-8859-1  http-equiv  =  Content-Type  >
<meta  http-equiv  =  Content-Type  content  =  text/html  ;  charset  =  iso-8859-1  >
<meta  content  =  text/html  ;  charset  =  iso-8859-1  http-equiv  =  Content-Type  >
<meta  http-equiv  =  Content-Type  content  =  text/html  ;;;  charset  =  iso-8859-1  >
<meta  content  =  text/html  ;;;  charset  =  iso-8859-1  http-equiv  =  Content-Type  >
<meta  http-equiv  =  Content-Type  content  =  text/html  ;  ;  ;  charset  =  iso-8859-1  >
<meta  content  =  text/html  ;  ;  ;  charset  =  iso-8859-1  http-equiv  =  Content-Type  >

<meta charset="utf-8"/>
<meta charset="utf-8" />
<meta charset='utf-8'/>
<meta charset='utf-8' />
<meta charset=utf-8/>
<meta charset=utf-8 />
<meta charset="utf-8">
<meta charset="utf-8" >
<meta charset='utf-8'>
<meta charset='utf-8' >
<meta charset=utf-8>
<meta charset=utf-8 >

<meta  charset  =  "  utf-8  "  >
<meta  charset  =  '  utf-8  '  >
<meta  charset  =  "  utf-8  '  >
<meta  charset  =  '  utf-8  "  >
<meta  charset  =  "  utf-8     >
<meta  charset  =  '  utf-8     >
<meta  charset  =     utf-8  '  >
<meta  charset  =     utf-8  "  >
<meta  charset  =     utf-8     >
<meta  charset  =     utf-8    />

<meta name="title" value="charset=utf-8 — is it really useful (yep)?">
<meta value="charset=utf-8 — is it really useful (yep)?" name="title">
<meta name="title" content="charset=utf-8 — is it really useful (yep)?">
<meta name="charset=utf-8" content="charset=utf-8 — is it really useful (yep)?">

<meta content="charset=utf-8 — is it really useful (nope, not here, but gotta admit pretty robust otherwise)?" name="title">

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

regex

如何使用正则表达式来匹配HTML中的字符集字符串？的相关文章

如何使用Javascript统计通过ajax返回的
的数量？

我有一个 ajax 代码它将列表项返回为 li one li li Two li 每次都会返回不同数量的 li 的我想查一下数量 li li 它返回如何使用 JavaScript 检查它给你 returnedHTML find li
父元素的 mousedown 事件中的 offsetX 和 offsetY 错误

我在 mousedown 上获取 offsetX 时遇到问题下面是我的代码 div Click the text The mouseDown function is triggered when the mouse button is p
HTML 表单 POST 到 PHP 页面 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 好的我创
使整个网页着色

How I can take any given webpage and make everything look tinted a certain color Basically if you take google and tint i
如何在没有文本修饰的文本下方添加一行：下划线？ [复制]

这个问题在这里已经有答案了我需要在文本下方添加一行而不需要文本装饰下划线否则如何在文本和行之间创建自定义空间我们所做的您可以使用Border Bottom和一些Padding Bottom a border bottom 1px
关闭 Bootstrap 模式 onclick

我使用 Bootstrap 模式让用户在将商品添加到购物车之前选择产品选项我之前在这种情况下使用过它们没有任何问题但这个没有按预期关闭当用户单击添加到购物车按钮时会发生一些事情我认为问题就在那里首先一些脚本检查某些字段是
可编辑的 Div 插入位置

我有一个可编辑的 div 我正在使用一个按钮将图像插入到该 div 中现在我只是在做 document getElementById elementid innerHTML 为了将图像添加到 div 的末尾我想输入插入符号所在的图像
标题的固定高度和更改宽度（HTML 表格）

我需要确保表格标题的高度是固定的并且宽度是根据标题单元格内容进行调整的标题文本最多显示两行我们如何使用样式来做到这一点另外我想确保表行的宽度与标题行的宽度相同即标题行决定宽度注目前交易部门负责人别名是按行排列的它需要分
如何使用正则表达式选择字符串中每个单词的第一个字母

我试图使用正则表达式选择字符串中每个单词的第一个字母但遇到了问题我能够使用选择第一个单词的第一个字母 w igm 我如何修改它以选择字符串中每个单词的第一个字母举个例子我有字符串我喜欢狗我想要代码选择 I L 和 D Use a
使用正则表达式验证输入字符串是否为 0-255 之间的数字

我在将输入字符串与正则表达式匹配时遇到问题我想验证输入数字在 0 255 之间并且长度最多应为 3 个字符代码工作正常但当我输入 000000 至任意长度时显示 true 而不是 false 这是我的代码 String IP 000
Pandas 字符串提取所有匹配项

我正在学习 pandas 系列字符串方法中的正则表达式操作我能够从字符串中提取第一个数字但我的正则表达式与第二个数字不匹配如何捕获这两个数字注意第二行第二个元素在这里是 NAN CODE import pandas as pd d
使用 XPath 获取内部有链接的段落文本

我正在使用 XPath 解析 HTML 页面并希望获取某些特定段落的完整文本包括链接文本例如我有以下段落 p class main content This is sample paragraph with a href http g
从 firebase 数据库获取最高分值

在我的网站上有一些我从 firebase 获得的电影电影的分数在0到100之间我已经在我的网站上找到了所有电影我还想按降序显示它们例如评分最高的 5 部电影我怎样才能实现这一点感谢您的回答 const app initializ
为什么Disabled = true对于html有效？

我注意到我们的代码中有一个disabled ture 我是锚标签的源代码我想知道为什么它在 IE 中有效我也在互联网上进行了搜索通过网络搜索它也被用于很多源代码中我一直在搜索if ture 拼写错误的true也可以被IE使用有人
在java中将DataURL图像转换为图像文件

我在我的 java servlet 中接收图像 DataURL 它看起来像 data image jpeg base64 9j 4AAQSkZJRgABAQAAAQABAA 我需要将其另存为图像文件我该怎么做 The simplest w
下拉菜单导致滚动条

我用过这个W3C 的示例 http www w3schools com bootstrap bootstrap dropdowns asp div class dropdown div
为什么在线解析器似乎停在正则表达式处？

我一直想知道为什么似乎没有任何解析器比如说 BNF http en wikipedia org wiki Backus E2 80 93Naur Form 其行为类似于各种库中的正则表达式当然还有类似的事情ANTLR http www
( 后的正则表达式匹配数

我正在尝试使用正则表达式来匹配开括号字符后的可变长度的数字我努力了 d 但该正则表达式在匹配中包含括号我该如何排除它我正在使用 Sublime Text 正则表达式引擎来进行匹配您可以使用积极的后视 http www regula
透明、无边框文本输入

如何删除周围的边框
使用正则表达式匹配阿拉伯文文本

我试图使用正则表达式仅匹配阿拉伯语文本但出现异常这是我的代码 txt matches P Arabic 这是例外情况线程 main 中的异常 java util regex PatternSyntaxException 索引 9 附近

随机推荐

Visual Studio 2012 的 Intellisense 不再接受按空格键的建议

我一直在多台 PC 上使用 Visual Studio 2005 2008 2010 由其他人或我安装始终对它的智能感知建议是这样工作的我开始打字弹出带有建议的窗口突出显示当前建议然后我可以按空格键接受建议然而由于我在当前的
为 Flink 集群中的插件添加自定义依赖项

我有一个 Flink 会话集群作业管理器任务管理器版本 1 11 1 配置了 log4j console properties 以包含 Kafka 附加程序此外在作业管理器和任务管理器中我都启用了 flink s3 fs had
设置所有行的一列的值非常慢

我有一个包含大约 350 000 行的表最近我从 MyISAM 存储引擎更改为 InnoDB 我运行查询 UPDATE users SET online 0 每次我的服务器启动时使用 MyISAM 时都没有任何问题该查询通常只影响几百
EF 5-6.1.1 中的 NullReferenceException 具有同一类型的两个导航属性

我想首先我有一个解决这个问题的方法但我今天花了几个小时找出异常的原因所以我想我应该分享给定域中的两个实体 public class User public int Id get set public string Name get s
反应本机 ios：默认情况下 geoloc 的准确性很差

我正在使用 navigator geolocation watchPosition 和 getCurrentPosition 实现健身追踪器它在 android 和 ios 模拟器上运行良好具有 5 10m 精度但在 iphone 5
JavaFX：鼠标剪贴板在 Unix 中不起作用

您可能知道在 Unix 中通常使用鼠标进行复制粘贴操作 IE 文本选择自动将其复制到剪贴板并点击滚动条将其粘贴到您单击的位置对于使用 Java 7 和 Swing 的 GUI 应用程序我没有出现剪贴板问题但在 JavaFX 和 J
如何检测Android设备的芯片组信息？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案如何检测android设备的芯片组信息例如要禁用某些功能MediaTek芯片组本问题中讨论的 10
无法从站点获取服务器证书

我无法从我的网站其他网站获取证书我尝试了一些解决方案HttpsURLConnection和方法getServerCertificates但没有任何办法可以解决问题 URL httpsURL new URL https www goog
如何增加 Flink taskmanager.numberOfTaskSlots 以在没有 Flink 服务器的情况下运行它（在 IDE 或 fat jar 中）

我有一个关于在 IDE 中运行 Flink 流作业或作为 fat jar 运行而不将其部署到 Flink 服务器的问题问题是当我的工作中有超过 1 个任务槽时我无法在 IDE 中运行它 public class StreamingJob
使用 OpenSmpp 从 SMSC 接收消息

我正在尝试使用 OPENSMPP 接收来自 SMSC 的消息这是我的代码 try PDU pdu session receive 30000 if pdu instanceof DeliverSM DeliverSM received D
闪亮书签无法恢复selectizeinput

我设计了一个简单闪亮的应用程序 https yuchenw shinyapps io selectizeinput bookmark https yuchenw shinyapps io selectizeinput bookmark 有两
过滤列表中的位置，Haskell

我需要打印奇数索引的元素目前正在打印索引我不明白如何打印该索引的元素 f Int gt Int f lst filter odd 0 length lst I can t edit this part main do inputdata
在 Jython 中导入 jar API

我正在尝试导入 Java API 它作为 jar 文件分发我按照以下指示进行操作这个答案 https stackoverflow com a 1734231 1072062在 Stack Overflow 上有一个类似的问题但没有成功
ruby 中哪个更快 - 哈希查找还是带有 case 语句的函数？

我们在时间关键的脚本中有几个地方将旧 ID 转换为字符串目前我们在函数内使用 case 语句如下所示 def get name id case id when 1 one thing when 3 other thing else d
std::bind 和 std::thread 总是复制参数背后的基本原理是什么？

众所周知 std bind 和 std thread 的默认行为是它将复制或移动传递给它的参数并且要使用引用语义我们必须使用引用包装器有谁知道为什么这是一个很好的默认行为特别是在具有右值引用和完美转发的 C 11 中在我看来
如何删除我的 Google 云平台结算帐户？

我创建了一些计费帐户但我想删除一些如图所示我想删除BillingAccount1 and BillingAccount2因为谷歌告诉我这些帐户存在一些问题在文件中 https cloud google com billing doc
python google app engine 中的预热服务如何工作？

有人可以举例说明预热入站服务如何在 Google App Engine 的 python 运行时中工作吗我读过这个 http code google com appengine docs python config appconfig h
真正动态的 JPA CriteriaBuilder

我需要创建一个真正的动态 JPACriteriaBuilder 我得到一个Map
如何删除Mysql中的sleep进程

我发现我的mysql服务器有很多连接正在睡眠我想把它们全部删除那么我如何配置我的 mysql 服务器然后删除或处置当前不在进程中的处于睡眠状态的连接是否可以在 mysql 中删除这个东西告诉我如何执行以下操作一个连接只允许数据读
如何使用正则表达式来匹配HTML中的字符集字符串？

HTML 代码示例我想使用 RegEx 提取字符集信息即这里是 utf 8 我使用的是C 我的答案提供了 Floyd 的更强大的版本并在可能的程度上解决了 You 的破损测试用例其中使用负前瞻来避免它我实际上只能想到一个相关的案例

如何使用正则表达式来匹配HTML中的字符集字符串？

如何使用正则表达式来匹配HTML中的字符集字符串？ 的相关文章

随机推荐

热门标签

如何使用正则表达式来匹配HTML中的字符集字符串？的相关文章