Python使用正则表达式提取twitter文本数据中的@user和url链接

2024-04-07

有一个列表字符串twitter文本数据,例如下面的数据(实际上有大量文本,不仅仅是这些数据),我想提取twitter文本中@后面的所有用户名和url链接,例如:galaxy5univ 和 url 链接。

   tweet_text = ['@galaxy5univ I like you',
    'RT @BestOfGalaxies: Let's sit under the stars ...',
    '@jonghyun__bot .........((thanks)',
    'RT @yosizo: thanks.ddddd <https://yahoo.com>',
    'RT @LDH_3_yui: #fam, ccccc https://msn.news.com']

my code:

import re
pu = re.compile(r'http\S+')
pn = re.compile(r'@(\S+)')
for row in twitter_text:
   text = pu.findall(row)
   name = (pn.findall(row))
   print("url: ", text)
   print("name: ", name)

通过在大量 Twitter 数据中测试代码,我发现我的 url 和 name 的两种模式都是错误的(尽管在一些 Twitter 文本数据中是正确的)。你们有一些关于在大量 Twitter 数据的情况下从 Twitter 文本中提取名称和 URL 的文档或链接吗?

如果您对从 Twitter 数据中提取名称和 url 有建议,请告诉我,谢谢!


请注意,您的pn = re.compile(r'@(\S+)')正则表达式将捕获之后的任何 1+ 非空白字符@.

排除匹配:,你需要转换简写\S上课到[^\s]否定字符类等效项,并添加: to it:

pn = re.compile(r'@([^\s:]+)')

现在,它将在第一个之前停止捕获非空白符号:。请参阅正则表达式演示 https://regex101.com/r/gD8xH9/1.

如果您需要捕捉到最后:,你只需添加:捕获组之后:pn = re.compile(r'@(\S+):').

至于URL匹配正则表达式,有网上有很多 http://www.regexguru.com/2008/11/detecting-urls-in-a-block-of-text/, 只是选择 https://stackoverflow.com/questions/6038061/regular-expression-to-find-urls-within-a-string最适合您的一种。

这是一个示例代码 https://ideone.com/rgAy2K:

import re
p = re.compile(r'@([^\s:]+)')
test_str = "@galaxy5univ I like you\nRT @BestOfGalaxies: Let's sit under the stars ...\n@jonghyun__bot .........((thanks)\nRT @yosizo: thanks.ddddd <https://y...content-available-to-author-only...o.com>\nRT @LDH_3_yui: #fam, ccccc https://m...content-available-to-author-only...s.com"
print(p.findall(test_str)) 
p2 = re.compile(r'(?:http|ftp|https)://(?:[\w_-]+(?:(?:\.[\w_-]+)+))(?:[\w.,@?^=%&:/~+#-]*[\w@?^=%&/~+#-])?')
print(p2.findall(test_str))
# => ['galaxy5univ', 'BestOfGalaxies', 'jonghyun__bot', 'yosizo', 'LDH_3_yui']
# => ['https://yahoo.com', 'https://msn.news.com']
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python使用正则表达式提取twitter文本数据中的@user和url链接 的相关文章

  • str.translate 与 str.replace - 何时使用哪一个?

    何时以及为什么使用前者而不是后者 反之亦然 目前尚不完全清楚为什么有些人使用前者以及为什么有些人使用后者 它们有不同的目的 translate只能用任意字符串替换单个字符 但一次调用可以执行多次替换 它的参数是一个特殊的表 它将单个字符映射
  • scipy.optimize on pandas dataframe

    我试图搜索它 但结果很差 有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误 考虑这个例子 import pandas as
  • Keras model.predict 函数给出输入形状错误

    我已经在 Tensorflow 中实现了通用句子编码器 现在我正在尝试预测句子的类概率 我也将字符串转换为数组 Code if model model type universal classifier basic class probs
  • 类型错误:“datetime.datetime”和“str”的实例之间不支持“>”

    我是 python 日期和时间类型的新手 我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天 我试过 from datetime import datetime from da
  • 无法在 virtualenv 中安装 libxml2

    我有一个问题libxml2蟒蛇模块 我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
  • App Engine NDB:如何访问属性的 verbose_name

    假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然 现在如果我打印 m prop 它会
  • 使用pathlib获取主目录

    翻看新的pathlib在 Python 3 4 中 我注意到没有任何简单的方法来获取用户的主目录 我能想到的获取用户主目录的唯一方法是使用旧的os path像这样的库 import pathlib from os import path p
  • 正在使用 PIL 保存损坏的图像

    我遇到一个问题 操作图像像素导致保存损坏的图像 因此 我使用 PIL 打开图像 然后将其转换为 NumPy 数组 image Image open myimage png np image np asarray image 然后 我转置图像
  • Py2exe - Pmw WindowsError:[错误 3]

    我正在尝试使用 Py2exe 构建独立的可执行文件 我已经导入了 Pmw 类 当我运行独立可执行文件时 出现以下错误 Traceback most recent call last File py line 9 in
  • 使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

    我想从 python 运行一个程序并找到它的内存使用情况 为此 我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
  • 在请求中设置端口

    我正在尝试利用cgminer使用 Python 的 API 我对利用requests图书馆 我了解如何做基本的事情requests but cgminer想要更具体一点 我想缩小 import socket import json sock
  • 使用正则表达式搜索 Ruby 数组

    你好 我有一个小的 ruby 函数 它可以分割出一个 Ruby 数组 如下所示 def rearrange arr from to sidx arr index from eidx arr index to arr sidx arr sid
  • 将 window.location 传递给 Flask url_for

    我正在使用 python 在我的页面上 当匿名用户转到登录页面时 我想将一个变量传递到后端 以便它指示用户来自哪里 发送 URL 因此 当用户单击此锚链接时 a href Sign in a 我想发送用户当前所在页面的当前 URL
  • 使用 if 语句的网格网格和用户定义函数的真值不明确

    假设我有一个函数f x y 足够光滑 然而 有些值仅在有限的意义上存在 以sin x x的价值x 0只存在于极限 x gt 0 中 在一般情况下 我用一个来处理这个问题if陈述 如果我在情节中使用它meshgrid我收到一条错误消息 Val
  • python Recipe:列出最接近等于值的项[关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 考虑像这样的列表 0 3 7 10 12 15 19 21 我想获得最接近任何值的最近的最小数字 所以如果我通过4 我会得到3 如果我
  • 如何展平解析树并存储在字符串中以进行进一步的字符串操作 python nltk

    我正在尝试从树结构中获取扁平树 如下所示 我想将整个树放在一个字符串中 就像没有检测到坏树错误一样 S NP SBJ NP DT The JJ high JJ seven day PP IN of NP DT the CD 400 NNS
  • 如何创建用于霍夫曼编码和解码的树?

    对于我的作业 我将对霍夫曼树进行编码和解码 我在创建树时遇到问题 并且陷入困境 不要介意打印语句 它们只是让我测试并查看函数运行时的输出是什么 对于第一个 for 循环 我从主块中用于测试的文本文件中获取了所有值和索引 在第二个 for 循
  • 如何为 Imagus 悬停缩放扩展开发自定义过滤器?

    当我读到关于悬停缩放是邪恶的 http www reddit com r YouShouldKnow comments 1wjrc8 ysk that the hover zoom extension is spyware 哎呀 有两篇文章
  • 两种 ODE 求解器之间的差异

    我想知道 两者之间有什么区别ODEINT and solve ivp用于求解微分方程 它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
  • MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

    我刚买了一台新笔记本电脑 想要设置MoviePY在那新的Windows 64x Python3 7 0 机器 我对所有内容都进行了三次检查 但是当涉及到我的代码的文本部分时 它向我抛出了这个错误 OSError MoviePy Error

随机推荐

  • 将复选框数组从 js 发送到 django 视图

    我对如何通过 Ajax 或 Json 执行此操作感到困惑 但是如何将选择数组 curCheck 单击发送到 Django 视图并将其作为 python 数组接收 javascript document getElementById resu
  • 如何专注于 jasmine.js 中的一项规范?

    由于相当大的架构变化 我有一堆失败的规格 我想通过用 焦点 标记每个问题来一一修复它们 jasmine js有这样的功能吗 我发誓我曾经读到过它确实如此 但我在文档中没有看到它 使用 Karma 时 您只能启用一项测试fit or fdes
  • GWT DataGrid 中的延迟加载数据

    是否可以将数据延迟加载到 GWT DataGrid 中 类似于 GWT CellList 延迟加载数据的方式 我有一个 GWT DataGrid 它可能会带回数百行 但一次只显示大约 20 行 发生这种情况时 网格的加载速度相当慢 我想使用
  • 带有语义 UI 可见侧边栏的推送内容太宽

    当使用可见的语义 UI 侧边栏时 推送器中的内容太宽 它具有浏览器窗口的宽度 而不是可用空间的宽度 div class pushable div class ui left vertical inverted visible sidebar
  • $this->价值损失,好吧,它的价值

    我正在使用的 PHP 文件有问题 而且我似乎找不到解决方案 在代码的一部分中 值 this gt value已设置 并且根据我的测试该值设置正确 但是 稍后在相同的代码中 this gt value是空的 这是代码
  • Javascript Intellisense 未显示所有内容

    需要集思广益 我对 Javascript 库 jQuery ExtJS 等 有疑问 这些库似乎与 Visual Studio 2008 中内置的 Javascript Intellisense 不能很好地配合 它们提供了 Intellise
  • 如何从 HTML 中去除无关紧要的空白

    我必须比较不同版本的 HTML 页面的格式和文本更改 不幸的是 创建它们的人 公司使用某种 HTML 编辑器 每次都会重新包装所有 HTML 并添加大量空格 这使得很难区分它们 因此 我正在寻找一种工具 最好是 Java 库 它可以重新格式
  • 什么时候应该在 HTML4/HTML5 中使用 name 属性?

    通过阅读 HTML4 01 和 HTML5 的 W3C 文档 我知道 name 属性最初作为 a 标签允许人们链接到文档中的锚点 然而 现在所有主要浏览器供应商都允许通过 id 属性链接到文档中的任何 HTML 元素 name 属性还有实际
  • 无法在 WP7 应用程序中使用 System.Threading.Tasks

    我最近完成了一个在线存储网站的库 它允许我在文件存储网站和 Windows 桌面客户端 Outlook 插件之间调用 PHP 公开的 REST 现在 这是一个问题 其中包含库中最基本操作的代码示例 优雅地终止 TPL 任务 https st
  • 适用于图片和视频的 Android 相机

    我想在我的 Android 应用程序中启动相机活动 并且我知道该怎么做 我想问当相机活动结束时 如何检查是否是用户拍摄的照片或视频 UPDATED 我有一个对话框 它询问两件事 新照片或视频 现有照片或视频 如果没有的话 1 这意味着相机将
  • 单击链接或按钮时复制文本

    I am new to website development and try to figure out how can I make my user automatically copy a code in to his her mou
  • 如何删除 JMenu 或 JMenuItem 上的边框

    我正在使用 Eclipse Luna 和 Java 1 7 并尝试创建一个JPanel有一个JMenuBar This JMenuBar包含一个JMenu其中又包含一个JMenuItem 为了契合整体JMenuBar在我的项目视觉设计中 我
  • GKE 集群的一个节点无法从 dockerhub 拉取镜像

    这是一件很苦涩的事情 我创建了一个private具有 3 个节点的节点池的 GKE 集群 然后我有一个包含 3 个 Pod 的副本集 其中一些 pod 将被调度到一个节点 所以这些豆荚之一总是得到ImagePullBackOff 我检查错误
  • tinyMCE 获取编辑器返回 null

    我在具有不同 id 的 2 个文本区域上初始化 2 个 tinyMCE 编辑器 var variable array id cName test mon test tinymce init selector model editor ent
  • 多个 cURL 操作,同一会话

    首先 我知道curl multi init 但据我所知 它并不能完全满足我的需要 我在登录后下载文件 所以 a 需要登录 b 下载图像 这是我目前拥有的 login url https us test com Member Login ch
  • 计算列中除 n 个指定范围之外的所有字段

    我正在尝试计算整列中除 n 指定范围之外的所有字段 我需要选择整个列以满足将来的扩展 目前我正在尝试 COUNTIF B B lt gt ASY999 OR lt gt ASY002 OR lt gt CIB001 OR lt gt 但公式
  • 我应该将跨域 XML 放在 Tomcat 中的什么位置?

    我有一个跨域策略文件 希望添加到我拥有的 Tomcat 服务器中 如果tomcat是localhost 8080并且安装在 usr local tomcat 我应该放置此策略文件的根文件夹在哪里 将您的跨域策略放入ROOT webapp f
  • 关于重定向应该如何工作的问题

    所以我有一个网络应用程序 我正在使用一个表单 该表单要求在提交之前填充所有字段 如果您尝试在未填充字段的情况下提交应用程序 它会再次加载带有错误的页面 填写完所有字段并单击 提交 后 它会重定向到同一页面并显示一条从 flashdata 生
  • Git 获取标记文件而不克隆

    关于这些 URL git perl5 git perl org perl git http perl5 git perl org perl git tags 比如说 我如何从 perl 5 10 0 获取 MANIFEST 目前无法从 Gi
  • Python使用正则表达式提取twitter文本数据中的@user和url链接

    有一个列表字符串twitter文本数据 例如下面的数据 实际上有大量文本 不仅仅是这些数据 我想提取twitter文本中 后面的所有用户名和url链接 例如 galaxy5univ 和 url 链接 tweet text galaxy5un