Python使用正则表达式提取twitter文本数据中的@user和url链接

2024-04-07

有一个列表字符串twitter文本数据，例如下面的数据（实际上有大量文本，不仅仅是这些数据），我想提取twitter文本中@后面的所有用户名和url链接，例如：galaxy5univ 和 url 链接。

   tweet_text = ['@galaxy5univ I like you',
    'RT @BestOfGalaxies: Let's sit under the stars ...',
    '@jonghyun__bot .........((thanks)',
    'RT @yosizo: thanks.ddddd <https://yahoo.com>',
    'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']

my code:

import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
   text = pu.findall(row)
   name = (pn.findall(row))
   print("url: ", text)
   print("name: ", name)

通过在大量 Twitter 数据中测试代码，我发现我的 url 和 name 的两种模式都是错误的（尽管在一些 Twitter 文本数据中是正确的）。你们有一些关于在大量 Twitter 数据的情况下从 Twitter 文本中提取名称和 URL 的文档或链接吗？

如果您对从 Twitter 数据中提取名称和 url 有建议，请告诉我，谢谢！

请注意，您的pn = re.compile(r'@(\S+)')正则表达式将捕获之后的任何 1+ 非空白字符@.

排除匹配:，你需要转换简写\S上课到[^\s]否定字符类等效项，并添加: to it:

pn = re.compile(r'@([^\s:]+)')

现在，它将在第一个之前停止捕获非空白符号:。请参阅正则表达式演示 https://regex101.com/r/gD8xH9/1.

如果您需要捕捉到最后:，你只需添加:捕获组之后：pn = re.compile(r'@(\S+):').

至于URL匹配正则表达式，有网上有很多 http://www.regexguru.com/2008/11/detecting-urls-in-a-block-of-text/, 只是选择 https://stackoverflow.com/questions/6038061/regular-expression-to-find-urls-within-a-string最适合您的一种。

这是一个示例代码 https://ideone.com/rgAy2K:

import re
p = re.compile(r'@([^\s:]+)')
test_str = "@galaxy5univ I like you\nRT @BestOfGalaxies: Let's sit under the stars ...\n@jonghyun__bot .........((thanks)\nRT @yosizo: thanks.ddddd <https://y...content-available-to-author-only...o.com>\nRT @LDH_3_yui: #fam, ccccc https://m...content-available-to-author-only...s.com"
print(p.findall(test_str)) 
p2 = re.compile(r'(?:http|ftp|https)://(?:[\w_-]+(?:(?:\.[\w_-]+)+))(?:[\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?')
print(p2.findall(test_str))
# => ['galaxy5univ', 'BestOfGalaxies', 'jonghyun__bot', 'yosizo', 'LDH_3_yui']
# => ['https://yahoo.com', 'https://msn.news.com']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python使用正则表达式提取twitter文本数据中的@user和url链接的相关文章

str.translate 与 str.replace - 何时使用哪一个？

何时以及为什么使用前者而不是后者反之亦然目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者它们有不同的目的 translate只能用任意字符串替换单个字符但一次调用可以执行多次替换它的参数是一个特殊的表它将单个字符映射
scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
Keras model.predict 函数给出输入形状错误

我已经在 Tensorflow 中实现了通用句子编码器现在我正在尝试预测句子的类概率我也将字符串转换为数组 Code if model model type universal classifier basic class probs
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
使用pathlib获取主目录

翻看新的pathlib在 Python 3 4 中我注意到没有任何简单的方法来获取用户的主目录我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
正在使用 PIL 保存损坏的图像

我遇到一个问题操作图像像素导致保存损坏的图像因此我使用 PIL 打开图像然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后我转置图像
Py2exe - Pmw WindowsError：[错误 3]

我正在尝试使用 Py2exe 构建独立的可执行文件我已经导入了 Pmw 类当我运行独立可执行文件时出现以下错误 Traceback most recent call last File py line 9 in
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
在请求中设置端口

我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆我了解如何做基本的事情requests but cgminer想要更具体一点我想缩小 import socket import json sock
使用正则表达式搜索 Ruby 数组

你好我有一个小的 ruby 函数它可以分割出一个 Ruby 数组如下所示 def rearrange arr from to sidx arr index from eidx arr index to arr sidx arr sid
将 window.location 传递给 Flask url_for

我正在使用 python 在我的页面上当匿名用户转到登录页面时我想将一个变量传递到后端以便它指示用户来自哪里发送 URL 因此当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
python Recipe：列出最接近等于值的项[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字所以如果我通过4 我会得到3 如果我
如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

我正在尝试从树结构中获取扁平树如下所示我想将整个树放在一个字符串中就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
如何为 Imagus 悬停缩放扩展开发自定义过滤器？

当我读到关于悬停缩放是邪恶的 http www reddit com r YouShouldKnow comments 1wjrc8 ysk that the hover zoom extension is spyware 哎呀有两篇文章
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

将复选框数组从 js 发送到 django 视图

我对如何通过 Ajax 或 Json 执行此操作感到困惑但是如何将选择数组 curCheck 单击发送到 Django 视图并将其作为 python 数组接收 javascript document getElementById resu
如何专注于 jasmine.js 中的一项规范？

由于相当大的架构变化我有一堆失败的规格我想通过用焦点标记每个问题来一一修复它们 jasmine js有这样的功能吗我发誓我曾经读到过它确实如此但我在文档中没有看到它使用 Karma 时您只能启用一项测试fit or fdes
GWT DataGrid 中的延迟加载数据

是否可以将数据延迟加载到 GWT DataGrid 中类似于 GWT CellList 延迟加载数据的方式我有一个 GWT DataGrid 它可能会带回数百行但一次只显示大约 20 行发生这种情况时网格的加载速度相当慢我想使用
带有语义 UI 可见侧边栏的推送内容太宽

当使用可见的语义 UI 侧边栏时推送器中的内容太宽它具有浏览器窗口的宽度而不是可用空间的宽度 div class pushable div class ui left vertical inverted visible sidebar
$this->价值损失，好吧，它的价值

我正在使用的 PHP 文件有问题而且我似乎找不到解决方案在代码的一部分中值 this gt value已设置并且根据我的测试该值设置正确但是稍后在相同的代码中 this gt value是空的这是代码
Javascript Intellisense 未显示所有内容

需要集思广益我对 Javascript 库 jQuery ExtJS 等有疑问这些库似乎与 Visual Studio 2008 中内置的 Javascript Intellisense 不能很好地配合它们提供了 Intellise
如何从 HTML 中去除无关紧要的空白

我必须比较不同版本的 HTML 页面的格式和文本更改不幸的是创建它们的人公司使用某种 HTML 编辑器每次都会重新包装所有 HTML 并添加大量空格这使得很难区分它们因此我正在寻找一种工具最好是 Java 库它可以重新格式
什么时候应该在 HTML4/HTML5 中使用 name 属性？

通过阅读 HTML4 01 和 HTML5 的 W3C 文档我知道 name 属性最初作为 a 标签允许人们链接到文档中的锚点然而现在所有主要浏览器供应商都允许通过 id 属性链接到文档中的任何 HTML 元素 name 属性还有实际
无法在 WP7 应用程序中使用 System.Threading.Tasks

我最近完成了一个在线存储网站的库它允许我在文件存储网站和 Windows 桌面客户端 Outlook 插件之间调用 PHP 公开的 REST 现在这是一个问题其中包含库中最基本操作的代码示例优雅地终止 TPL 任务 https st
适用于图片和视频的 Android 相机

我想在我的 Android 应用程序中启动相机活动并且我知道该怎么做我想问当相机活动结束时如何检查是否是用户拍摄的照片或视频 UPDATED 我有一个对话框它询问两件事新照片或视频现有照片或视频如果没有的话 1 这意味着相机将
单击链接或按钮时复制文本

I am new to website development and try to figure out how can I make my user automatically copy a code in to his her mou
如何删除 JMenu 或 JMenuItem 上的边框

我正在使用 Eclipse Luna 和 Java 1 7 并尝试创建一个JPanel有一个JMenuBar This JMenuBar包含一个JMenu其中又包含一个JMenuItem 为了契合整体JMenuBar在我的项目视觉设计中我
GKE 集群的一个节点无法从 dockerhub 拉取镜像

这是一件很苦涩的事情我创建了一个private具有 3 个节点的节点池的 GKE 集群然后我有一个包含 3 个 Pod 的副本集其中一些 pod 将被调度到一个节点所以这些豆荚之一总是得到ImagePullBackOff 我检查错误
tinyMCE 获取编辑器返回 null

我在具有不同 id 的 2 个文本区域上初始化 2 个 tinyMCE 编辑器 var variable array id cName test mon test tinymce init selector model editor ent
多个 cURL 操作，同一会话

首先我知道curl multi init 但据我所知它并不能完全满足我的需要我在登录后下载文件所以 a 需要登录 b 下载图像这是我目前拥有的 login url https us test com Member Login ch
计算列中除 n 个指定范围之外的所有字段

我正在尝试计算整列中除 n 指定范围之外的所有字段我需要选择整个列以满足将来的扩展目前我正在尝试 COUNTIF B B lt gt ASY999 OR lt gt ASY002 OR lt gt CIB001 OR lt gt 但公式
我应该将跨域 XML 放在 Tomcat 中的什么位置？

我有一个跨域策略文件希望添加到我拥有的 Tomcat 服务器中如果tomcat是localhost 8080并且安装在 usr local tomcat 我应该放置此策略文件的根文件夹在哪里将您的跨域策略放入ROOT webapp f
关于重定向应该如何工作的问题

所以我有一个网络应用程序我正在使用一个表单该表单要求在提交之前填充所有字段如果您尝试在未填充字段的情况下提交应用程序它会再次加载带有错误的页面填写完所有字段并单击提交后它会重定向到同一页面并显示一条从 flashdata 生
Git 获取标记文件而不克隆

关于这些 URL git perl5 git perl org perl git http perl5 git perl org perl git tags 比如说我如何从 perl 5 10 0 获取 MANIFEST 目前无法从 Gi
Python使用正则表达式提取twitter文本数据中的@user和url链接

有一个列表字符串twitter文本数据例如下面的数据实际上有大量文本不仅仅是这些数据我想提取twitter文本中后面的所有用户名和url链接例如 galaxy5univ 和 url 链接 tweet text galaxy5un

Python使用正则表达式提取twitter文本数据中的@user和url链接

Python使用正则表达式提取twitter文本数据中的@user和url链接 的相关文章

随机推荐

热门标签

Python使用正则表达式提取twitter文本数据中的@user和url链接的相关文章