BigQuery REGEXP_MATCH 和重音：边界通配符失败？

2024-05-13

在 GAS 中，我可以正确地将重音符号与具有边界字符的正则表达式相匹配，例如 \bà\b。仅当字符 à 是单独的单词时才匹配。这在 GAS 中有效：

function test_regExp() {
  var str = "la séance est à Paris";
  var RegExp = "\\bà\\b";
  var PatReg= new RegExp( RegExp);
  var found=PatReg.exec(str);
  if (found) {
    Logger.log( [str.substring(0,found.index),found[0],str.substring(found[0].length+found.index)] );
  } else Logger.log("oops! Did not match");

在 BigQuery 中，如果边界字符位于重音符号旁边，则模式不匹配。 \bséance\b 匹配降神会：

SELECT [row],etext,ftext FROM [hcd.hdctextx] WHERE (REGEXP_MATCH(ftext,"\\bséance\\b") ) LIMIT 100;

\bà\b 与单词 à 不匹配：

SELECT [row],etext,ftext FROM [hcd.hdctextx] WHERE (REGEXP_MATCH(ftext,"\\bà\\b") ) LIMIT 100;

我假设 BigQuery 与 GAS 不同，在边界字符集中包含重音符号。所以 \bséance\b 起作用是因为 é 可以在该配置中作为边界正常工作。 \bà\b 或 \bétranger\b 或 \bmarché\b 不起作用，因为重音 + \b 被解释为 \b\b，它从不匹配任何内容。（好吧，我在这里抓住救命稻草，因为我找不到更好的解释......除了一个错误。）

我不认为这是一个 unicode 问题，因为它只出现在边界位置。

因此，目前还无法在这些特定的重音配置中使用边界。

有没有办法在 BigQuery 或其他修复中设置区域设置？

解决方法：用 (?:[^a-zA-Zéàïëâê]) 等替换 \b。

Thanks!

BigQuery 的行为是正确的RE2 语法文档 https://code.google.com/p/re2/wiki/Syntax。（这并不奇怪，因为 BigQuery 使用 RE2 来实现正则表达式。）

RE2 的角色类别是：

\b = at word boundary (\w on one side and \W, \A, or \z on the other)
\w = word characters (≡ [0-9A-Za-z_])
\W = not word characters (≡ [^0-9A-Za-z_])
\A = beginning of text
\z = end of text

换句话说，只能使用 \b 来匹配非重音字符的边界。不过，RE2 对 Unicode 字符有大量支持，因此您很可能可以使用 \pL 之类的东西来制作替代正则表达式。

我不确定为什么 Google Apps 脚本不遵循此处的 RE2 规范，但我会跟进该团队以弄清楚发生了什么。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

BigQuery REGEXP_MATCH 和重音：边界通配符失败？的相关文章

将文本中的 URL 替换为 HTML 链接

不过这是一个设计例如我放置了一个链接例如 http example com http example com in textarea 我如何让 PHP 检测到它是http 链接然后将其打印为 print a href http w
MongoDb Spring 在嵌套对象中查找

我正在使用 Spring Data Mongodb 和这样的文档 id ObjectId 565c5ed433a140520cdedd7f attributes 565c5ed433a140520cdedd73 333563851 list
正则表达式匹配组，但组成员除外

因此有许多正则表达式可以匹配特定的组如下所示 Any character except a newline m Any character the m modifier enables multiline mode w A word c
将整个单词与特殊字符匹配的正则表达式不起作用？ [复制]

这个问题在这里已经有答案了我正在经历这个问题C Regex Match 整个单词 https stackoverflow com q 1209049 443568 它说要匹配整个单词使用 b模式 b 这对于匹配没有任何特殊字符的整个单词效
Firebase 导出到 BigQuery：保留群组查询

Firebase 通过 Firebase 远程配置提供拆分测试功能但缺乏使用用户属性实际上具有任何属性过滤群组部分中的保留的能力为了寻求此问题的解决方案我正在寻找 BigQuery 因为 Firebase Analytics 提供
如何在 BigQuery/SQL 中将行转置为包含大量数据的列？

我在将 BigQuery 中的大量数据表 15 亿行从行转置为列时遇到问题我可以弄清楚如何在硬编码时使用少量数据来完成此操作但是对于如此大量的数据该表的快照如下所示 CustomerID Feature Value 1 A123 3
使用 getElementById 在 javascript 中使用正则表达式进行 Html 表单验证？

我想使用正则表达式验证 html 表单的示例模式 AAA 111 2222 aa 1234 目前我的代码要么为所有输入返回正确要么为所有输入返回不正确并且我无法弄清楚我的问题出在哪里 var x document getEleme
跳过解析 CODE 标签内的 BBCode

我正在使用以下方法解析 BBCoderegex以便将其替换为 HTML 我现在被困住了因为 code 标签解析基本上当你这样做时 code b this is bb b u code in u i code i code 它不应该取代
扩展 PHP 正则表达式以涵盖“srcset”和“style”属性

我创建了一个 WordPress 插件可以将所有链接变成协议相关 URL https en wikipedia org wiki Wikipedia Protocol relative URL 删除http and https 基于我在中
哪些字符可以用作正则表达式分隔符？

哪些字符可以用作 Perl 正则表达式的分隔符 m re m re and m re 一切似乎都有效但我想知道所有可能性 From perlop http perldoc perl org perlop html 通过 m 您可以使用任意
使用 Google Apps 脚本从 Firebase 读取数据

因此正如标题所示我目前正在解决一个相当麻烦的问题这是场景我有一个 Google 电子表格其中包含一个包含姓名电子邮件和到期日期的模板但是它不包含实际数据数据本身位于 Firebase 中并且不断变化那么我的目标是让sc
如果逗号不在两个双引号之间，则用逗号分隔

我想用逗号分割这样的字符串 field1 value1 field2 value2 field3 value3 value4 into a string 看起来像 0 field1 value1 1 field2 value2 2 fiel
匹配CSS的正则表达式“<属性>：<值>”

我从以下位置检索了 CSS 规则document styleSheets现在我正在寻找提取它的属性和值 cssText expl position absolute background color rgb 204 204 204 max
URL 的正则表达式

我已经编写了正则表达式来验证 URL 它可以是这样的 example com www example com http www example com http www example com https www example com h
在前两个冒号上分割字符串

我想在前两个冒号上拆分一列字符串但不在任何后续冒号上拆分 my data lt read table text my string some data 123 34 56 78 100 87 65 43 21 200 a4 b6 c888
如何从 pandas 数据框中包含文本的列中提取年份（或日期时间）

假设我有一个 pandas 数据框 Id Book 1 Harry Potter 1997 2 Of Mice and Men 1937 3 Babe Ruth Story The 1948 Drama 948 Babe Ruth Stor
ruby 正则表达式扫描与 =~

Ruby 1 9 3 文档似乎暗示 scan 等同于除了 scan 返回多个匹配项而仅返回第一个匹配项并且 scan 返回匹配数据而返回索引但是在下面的示例中这两种方法似乎对相同的字符串和表达式返回不同的结果这是为什么
在 Google Doc Apps 脚本中使用 RegEx 来替换文本

Google 文档中有一行带有时间和日期戳我已经使用正则表达式编写了以下代码将该行替换为当前时间日期但我不确定为什么这不起作用 function UpdateDate var document DocumentApp getActi
将 Readability 公式转换为 python 函数

我得到了一个名为 FRES Flesch 阅读轻松测试的公式用于衡量文档的可读性我的任务是编写一个返回文本 FRES 的 python 函数因此我需要将这个公式转换成Python函数我已经根据我必须展示的答案重新实现了我的代码以
R tidyr regex：从字符列中提取有序数字

假设我有一个像这样的数据框 df lt data frame x c This script outputs 10 visualizations This script outputs 1 visualization This script

随机推荐

Grails Asset-pipeline 不加载角度部分模板

我将 angular ui bootstrap 与 Grails 2 3 x asset pipeline 1 6 1 插件一起使用其中一个组件 alert js 正在尝试加载 template alert alert html 但这会解
Perl 中的全局变量、子程序变量问题

如何将子程序变量值转移到另一个子程序变量中我可以使用全局变量吗 sub foo my myvar Hello sub foo1 my myvar1 myvar how can I get the Hello from myvar 我尝试使
无法更新 .mdf 数据库，因为该数据库是只读的（Windows 应用程序）

我使用 C 创建了一个数据库 Windows 应用程序我的应用程序在 Windows XP 上成功运行但在 Vista 或 Windows 7 系统上无法正确执行我的应用程序显示类似以下内容的消息无法更新 mdf 数据库因为该数据
Python脚本将特定文件从一个文件夹移动到另一个文件夹

我正在尝试编写一个脚本 python 2 7 它将使用正则表达式来识别文件夹中的特定文件并将它们移动到另一个文件夹但是当我运行脚本时源文件夹将移动到目标文件夹而不仅仅是其中的文件 import os shutil re src C
错误 LNK2001：无法解析的外部符号 __CxxFrameHandler3

我正在将 Qt 从 VS 2013 迁移到 Qt 5 10 1 到 VS 2015 出现以下多个链接错误 error LNK2001 unresolved external symbol CxxFrameHandler3 error LNK
WIX 自动生成 GUID *？

假设我生成产品 ID 为的 WIX XML 文件另外对于每个组件 GUID 我都使用
Code First - 实体框架 - 如何公开外键

我有以下数据对象 public class Customer System Data Entity ModelConfiguration EntityTypeConfiguration
如何配置应用程序中的所有记录器

Python 的日志记录模块允许模块或类定义自己的记录器不同的记录器可以有不同的处理程序其中一些可能选择记录到文件而另一些则选择记录到标准输出现在我的应用程序使用其中几个模块每个模块都有自己的记录器这些记录器具有各种处理程序
尝试将元素推入向量

在头文件我没有编写中已经定义了一个结构体如下所示 struct MemoryMessage public boost counted base public FastAlloc explicit MemoryMessage Memo
mongo objectid“包含”查询

我想查询 MongoDB 数据库中的集合以查找包含部分 ObjectID 的所有记录对于普通字符串我可以使用如下正则表达式 db teams find some string 51eed 但是我该如何对 ObjectID 执行类似的操作
访问事件处理程序内的对象实例

我有以下代码 var myObj inputs document getElementsByTagName input attachKeyEvent function for var i 0 i lt this inputs length
有没有办法删除 JShell 中的导入？

我正在发现 JShell 并且发现默认添加的导入 jshell gt imports import java io import java math import java net import java nio file import j
从 Java 应用程序读取的文件是否会调用系统调用？

我的理解是请求文件系统路径例如 aFile 的用户应用程序将调用文件系统并获取所请求文件的虚拟地址然后应用程序将尝试以该地址作为参数即作为 CPU 指令进行读写操作执行读取命令时内存管理单元会将该地址转换为物理地址并查看页
Android 4.2以下如何设置layoutDirection为RTL

尝试将布局元素设置为 RTL 顺序 4 2 及以上行 layoutDirection rtl 并在清单中 android supportsRtl true 工作得很好但对于 4 2 以下则不然解决方案有人吗只需使用视图兼容使用 and
在 GLUT 中使用鼠标滚轮

我想在 OpenGL GLUT 程序中使用鼠标滚轮来放大和缩小场景我怎么做 Freeglut 的 glutMouseWheelFunc 回调与版本相关并且在 X 中不可靠使用标准鼠标功能并测试按钮 3 和 4 OpenGlut 对 g
Firebase Analytics DebugView 收集的事件数据不完整

我正在将事件发送到 Firebase Analytics 并发现 DebugView 中缺少部分事件参数下面是发送到 Firebase 的两个相同事件我检查了 Xcode 调试控制台中是否存在所有参数缺失的参数似乎是随机的有时根本没
Elasticsearch - 使用“标签”索引来发现给定字符串中的所有标签

我有一个 elasticsearch v2 x 集群其标签索引包含大约 5000 个标签 tagName tagID 给定一个字符串是否可以查询标签索引以获取在该字符串中找到的所有标签我不仅想要精确匹配而且还希望能够控制模糊匹配
WARN 没有为 React Native 中的关键 ReactNativeFirebaseMessagingHeadlessTask 注册任务？

我已经使用创建了推送通知react native Firebase and react native push notification 我已经实现了所有类型的通知如本地日程背景和退出但我已通过以下方式发送了推送通知FCM当我的应用程
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
BigQuery REGEXP_MATCH 和重音：边界通配符失败？

在 GAS 中我可以正确地将重音符号与具有边界字符的正则表达式相匹配例如 b b 仅当字符是单独的单词时才匹配这在 GAS 中有效 function test regExp var str la s ance est Paris v

BigQuery REGEXP_MATCH 和重音：边界通配符失败？

BigQuery REGEXP_MATCH 和重音：边界通配符失败？ 的相关文章

随机推荐

热门标签

BigQuery REGEXP_MATCH 和重音：边界通配符失败？的相关文章