识别推文消息中正确的主题标签索引

2024-04-30

我需要识别 Twitter 消息（各种语言、表情符号等）中的正确索引。

我找不到返回这些位置的解决方案，如下例所示。

import (
    "regexp"
    "testing"

    "github.com/stretchr/testify/require"
)

func TestA(t *testing.T) {
    text := "???????? [URGENT] Les forces de dissuasion #nucleaire de la #Russie"

    var re = regexp.MustCompile(`#([_A-Za-z0-9]+)`)

    pos := re.FindAllStringIndex(text, -1)

    // FindAllStringIndex returns
    // [0][43,53]
    // [1][60,67]

    // These are the expected positions.

    require.Equal(t, pos[0][0], 37) 
    require.Equal(t, pos[0][1], 47)

    require.Equal(t, pos[1][0], 54)
    require.Equal(t, pos[1][1], 61)
}

The FindAllStringIndex() https://pkg.go.dev/regexp#Regexp.FindAllStringIndex函数返回字节的位置，而不是符文。

你需要import "unicode/utf8"并使用utf8.RuneCountInString(text[:pos[0][0]])等等而不是pos[0][0]确保计算 Unicode 代码点而不仅仅是字节：

// You can edit this code!
// Click here and start typing.
package main

import (
    "regexp"
    "testing"
    "unicode/utf8"

    "github.com/stretchr/testify/require"
)

func TestA(t *testing.T) {
    text := "???????? [URGENT] Les forces de dissuasion #nucleaire de la #Russie"

    var re = regexp.MustCompile(`#\w+`)

    pos := re.FindAllStringIndex(text, -1)

    require.Equal(t, utf8.RuneCountInString(text[:pos[0][0]]), 37)
    require.Equal(t, utf8.RuneCountInString(text[:pos[0][1]]), 47)
    require.Equal(t, utf8.RuneCountInString(text[:pos[1][0]]), 54)
    require.Equal(t, utf8.RuneCountInString(text[:pos[1][1]]), 61)

}

See the Go demo https://go.dev/play/p/WhBk6uYVd0M.

Also, #\w+是一个较短的模式来匹配#然后是一个或多个字母、数字或下划线。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

go

Substring

识别推文消息中正确的主题标签索引的相关文章

如何让“grep”从文件中读取模式？

假设有一个很大的文本文件我只想打印与某些模式不匹配的行显然我可以使用egrep v patter1 pattern2 pattern3 现在如果所有这些模式都在一个文本文件中怎么办最好的制作方法是什么egrep从文件中读取模式 g
Angular 2：使用正则表达式进行数字验证

我正在尝试验证 IE 11 中的数字字段
如何使用 Perl 正则表达式匹配字符串末尾/开头处的空格或单词？

我想找到与我的正则表达式匹配的序列它们应该位于由空格包围的字符串中间末尾或开头或者是字符串中唯一的东西 Example 我们假设序列 qwe45rty 就是我们正在寻找的我希望能够对所有这些因素都抱有积极的态度 qwe45rty qw
Kate 文本编辑器正则表达式用于在 PC 上更改 CNC 代码

使用某些CAM软件时通常会正确生成带有空格的CNC代码但例如当通过 USB 或网络移动到 Citizen Cincom L20 机器并在那里进行编辑时它会丢失空格也会丢失分号同时保留新行无论如何这些行都可以作为分号使用但是
正则表达式从字符串中提取 IP 和端口

我正在使用 Perl 尝试从字符串中提取 IP 地址和端口我尝试使用的正则表达式是 s sip 字符串是 sip 255 255 255 255 8080 transport TCP sip 255 255 255 255 8080 显然
使用 Python 从网站下载所有 pdf 文件

我遵循了几个在线指南试图构建一个可以识别并从网站下载所有 pdf 的脚本从而避免我手动执行此操作到目前为止这是我的代码 from urllib import request from bs4 import BeautifulSoup
如何使用 sed 仅删除双空行？

我找到了这个问题和答案 https stackoverflow com questions 4651591 howto use sed to remove only triple empty lines关于如何删除三重空行但是我只需要对
正则表达式将单词的开头和结尾与元音匹配

我正在尝试以下操作Regex aeiou aeiou 但它不起作用我测试了 abcda 并且不匹配它应该只是 aeiou aeiou 额外的您需要第二个字符是一个文字点例如 a hello 但由于您的测试用例 abcda 不包含这样
打印到 stdout 会导致阻塞的 goroutine 运行吗？

作为一个愚蠢的基本线程练习我一直在尝试实现理发师睡觉的问题 http en wikipedia org wiki Sleeping barber problem在戈兰对于通道来说这应该很容易但我遇到了一个 heisenbug 也就是
GoLang ssh：尽管将其设置为 nil，但仍出现“必须指定 HosKeyCallback”错误

我正在尝试使用 GoLang 连接到远程服务器在客户端配置中除了用户和密码之外我将 HostKeyCallback 设置为 nil 以便它接受每个主机 config ssh ClientConfig User user HostKey
如何从 pandas 数据框中的列中删除字符串值

我正在尝试编写一些代码以逗号分隔数据帧列中的字符串因此它成为一个列表并从该列表中删除某个字符串如果存在删除不需要的字符串后我想再次以逗号加入列表元素我的数据框如下所示 df Column1 Column2 0 a a b c
由于重复捕获组而不是捕获重复组，正则表达式不匹配

我有以下正则表达式 A G A G 具有以下表达式 A BsCb 我期望 3 个匹配结果 A Bs Cb 但测试在https regex101 com https regex101 com 只给我最后一场比赛Cb 并告诉我重复捕获组只会捕获
你能挽救我的负面回顾示例来传达数字吗？

在高级正则表达式一章中掌握 Perl http oreilly com catalog 9780596527242 我有一个损坏的示例我无法找到一个很好的修复方法这个例子可能为了自己的利益而试图变得太聪明但也许有人可以帮我解决它
匹配括号内任何字符的正则表达式

尝试创建一个与括号内的任何字符匹配的正则表达式我的正则表达式模式是这样的 preg match listanswer answer 括号内的所有字符串都是匹配模式但问题是当我尝试匹配例如 this word sample data 它
RegularExpressionValidator.ValidationExpression 强制长度为 10 或 12 个符号

RegularExpressionValidator ValidationExpression d 10 仅表示数字最多 10 位 RegularExpressionValidator ValidationExpression d 10
GOMAXPROCS 默认值是多少？

不设置同名环境变量时是否保证GOMAXPROCS设置为1 此代码显示的值 package main import runtime fmt func getGOMAXPROCS int return runtime GOMAXPROCS 0
git 匹配多个单词的标签

我们可以得到最后一个 git 标签它以一个单词例如 TEST 开头如下所示 git describe tag dirty match TEST 我想知道如何获得最后一个以 word1 开头的标签orword2 例如测试OR跑步我尝试
PHP 中的 Preg_replace

我想替换中包含的字符串中的内容content 它是多行等 preg replace 函数应该删除整个 com 没有垫子蒙特尝试这个 result preg replace s replacement content subject
ruby 正则表达式匹配模式的多次出现

我正在寻找构建一个 ruby 正则表达式来匹配模式的多次出现并将它们返回到数组中模式很简单即两个左括号一个或多个字符后跟两个右括号这就是我所做的 str Some random text lead first name and
Pure Bash 替换捕获组

我有这个示例字符串 test string 13A6 该字符数字可以是从 0 到 9 以及从 A 到 F 我想要这个输出 1 3 A 6 我有这个工作 result echo test string sed s g 我想在没有 sed 的

随机推荐

如何在 JIRA Script Runner 中通过电子邮件获取用户

编写 Groovy 脚本时JIRA 脚本运行器 https marketplace atlassian com plugins com onresolve jira groovy groovyrunner server overview 如
CGAL：从网格中读取顶点和三角形

我只是花了几个小时在 Visual Studio C 中使用 CGAL 来尝试了解网格的工作原理我想要得到的是对顶点和三角形列表的访问顶点以 double 3 形式三角形以 int 3 形式这是我正在编写的脚本 http doc c
SQL Server 2005：“保护”存储过程免受 MS Access 使用的 FMTONLY 模式影响

我们拥有的一些存储过程包含条件逻辑如下所示 Create Procedure dbo DoSomething Some Parameters As If Some Condition Begin Set SomeVariable Some
不带 Firebase 的集成 AdMob：不需要的权限 (C2D)

我正在使用 Firebase 将旧游戏从 AdMob 移植到最新的 AdMob 我使用的是已弃用的 AdMob 版本我想要尽可能最小的集成我不需要 Firebase 分析我有一个工作集成使用 Android Studio 项目但是
通过 R 中的属性对 SpatialPolygonsDataFrame 进行子集化（即删除多边形）的简单方法

我想简单地根据 data 数据框中相应的属性值从 SpatialPolygonsDataFrame 对象中删除一些多边形以便我可以绘制简化子集化的 shapefile 到目前为止我还没有找到一种方法来做到这一点例如假设我想从中删除所
在没有预定义大小的列中颤动可滚动 TabBarView

我想要一个屏幕顶部有一个小部件后面跟着一个选项卡栏我希望所有内容都位于 SingleChildScrollView 内以便可以滚动整个屏幕而不仅仅是单个选项卡的内容 Widget TabBar TabBarView 我查看了类似的
如何从二进制文件写入/读取特征矩阵

要将 Eigen Matrix 写入文件我真的很喜欢使用以下命令 typedef Eigen Matrix
在 OpenGL ES 中绘制立方体需要多少个顶点？

我在不同的在线站点中看到不同数量的顶点来表示 OpenGL ES 中的同一个立方体例如这是一个 float vertices width height depth 0 width height depth 1 width height
keyPressed 事件第一次重复时缓慢

好吧我很抱歉这是一个非常奇怪的问题但这让我发疯我通过以下方式处理游戏的 WASD 移动 Action ClassWASDKeyPressed new ClassWASDKeyPressed Action ClassWASDKeyRel
如何从普通请求调用（即@RequestMapping）调用@SendTo

我已经使用 Spring MVC 实现了 Web Socket 它对我来说工作得很好即从一个浏览器工作到另一个浏览器该浏览器对使用此代码的套接字开放 MessageMapping hello SendTo topic greetings
jQuery 迭代之间的每个循环中的等待/暂停/睡眠

我只是想在 jQuery Each 循环的每次迭代之后添加一个暂停我似乎无法弄清楚 item each function i var el this var timer setTimeout function el trigger cli
如何从 3 位整数中提取单个数字？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案这不是家庭作业问题我只是好奇如果我有一个计算 3 位数字的程序比如 123 我怎样才能得到 1 我试图在最后打印一条消息上面写着
顺序执行批处理文件

dim shell x y x D d y c bat x set shell createobject wscript shell shell run y shell run a bat set shell nothing 当我运行此脚本
在VS2008中，对于网站的FTP发布，有没有办法保存FTP登录密码？

我喜欢 Visual Studio 2008 IDE 集成非命令行功能可以选择通过 FTP 将 ASP NET 网站发布到我的网络服务器我可以存储我的 FTP 用户名但没有看到任何存储我的 FTP 密码的选项因此我每次发布时都必
如何在 Discord.js v13 中删除斜线命令

const glob require glob const promisify require util const Client require discord js const mongoose require mongoose con
如何从 C# 解析/简单分析 C/C++ 代码以获取方法列表

我需要浏览 C C 文件并提取类和方法的列表以及它们在文件中的位置 libclang 是最好的选择吗或者对于这项任务来说太多了只寻找配对支架会更好吗如果选择 libclang 有没有办法从 c 调用它 Thanks 你可以考虑cta
sqlalchemy，混合属性 case 语句

这是我试图通过 sqlalchemy 生成的查询 SELECT order id AS id order created at AS created at order updated at AS updated at CASE WHEN b
在非 SSIS 服务器上运行 SSIS 包时出现错误[重复]

这个问题在这里已经有答案了我正在 SSDT 2012 中工作我创建了一个 DTSX 包并将其部署到未安装 SSIS 的 SQL Server 我的理解是这应该有效但是我不断收到以下错误要在 SQL Server Data Tool
安卓。如何在按钮正上方显示弹出窗口

我需要在按钮上方直接显示弹出窗口我的按钮放置在滚动视图内弹出窗口始终显示在按钮下方这是我的代码 private void showPopup View view String text if infoPopup null Layout
识别推文消息中正确的主题标签索引

我需要识别 Twitter 消息各种语言表情符号等中的正确索引我找不到返回这些位置的解决方案如下例所示 import regexp testing github com stretchr testify require func

识别推文消息中正确的主题标签索引

识别推文消息中正确的主题标签索引 的相关文章

随机推荐

热门标签

识别推文消息中正确的主题标签索引的相关文章