Tweepy 跟踪多个术语

2023-12-05

我正在对推文进行内容分析。我使用 tweepy 返回与某些术语匹配的推文，然后将 N 条推文写入 CSv 文件进行分析。创建文件和获取数据不是问题，但我想减少数据收集时间。目前我正在迭代文件中的术语列表。一旦达到 N（例如 500 条推文），它将移至下一个过滤项。

我想将所有术语（少于 400 个）输入到一个变量中，并匹配所有结果。这也有效。我无法得到的是来自 Twitter 的关于状态中匹配的术语的返回值。

class CustomStreamListener(tweepy.StreamListener):
    def __init__(self, output_file, api=None):
        super(CustomStreamListener, self).__init__()
        self.num_tweets = 0
        self.output_file = output_file

    def on_status(self, status):
       cleaned = status.text.replace('\'','').replace('&amp;','').replace('&gt;','').replace(',','').replace("\n",'')
        self.num_tweets = self.num_tweets + 1
        if self.num_tweets < 500:
            self.output_file.write(topicName + ',' + status.user.location.encode("UTF-8") + ',' + cleaned.encode("UTF-8") + "\n")
            print ("capturing tweet number " + str(self.num_tweets) + " for search term: " + topicName)
            return True
        else:
            return False
            sys.exit("terminating")

    def on_error(self, status_code):
        print >> sys.stderr, 'Encountered error with status code:', status_code
        return True # Don't kill the stream

    def on_timeout(self):
        print >> sys.stderr, 'Timeout...'
        return True #Don't kill the stream

with open('termList.txt', 'r') as f:
  topics = [line.strip() for line in f]

for topicName in topics:
    stamp = datetime.datetime.now().strftime(topicName + '-%Y-%m-%d-%H%M%S')
    with open(stamp + '.csv', 'w+') as topicFile:
        sapi = tweepy.streaming.Stream(auth, CustomStreamListener(topicFile))
        sapi.filter(track=[topicName])

具体来说我的问题是这样的。如果 track 变量有多个条目，如何获得匹配的内容？我还要声明我对 python 和 tweepy 比较陌生。

预先感谢您的任何建议和帮助！

您可以根据匹配的术语检查推文文本。就像是：

>>> a = "hello this is a tweet"
>>> terms = [ "this "]
>>> matches = []
>>> for i, term in enumerate( terms ):
...     if( term in a ):
...             matches.append( i )
... 
>>> matches
[0]
>>>

这将为您提供该特定推文的所有术语，a，匹配。在本例中，这只是“这个”术语。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python27

twitter

tweepy

Tweepy 跟踪多个术语的相关文章

将字符串转换为浮点数列表（在 python 中）

出于数据存储的目的我尝试从 txt 文件恢复浮点列表从字符串中可以看出 a 1 3 2 3 4 5 我想恢复 a 1 3 2 3 4 5 我期待一个简单的解决方案例如list a 但我找不到类似的东西 Use the AST模块 Ex
sudo 和 pip 不在同一路径上

pip and sudo不在我的计算机上的同一路径上因此当基本上一直我需要运行这两个命令时如下所示 sudo pip install xxx I get sudo pip command not found pip下载软件包但由于
Pandas ParserError：标记数据时出错。 C 错误：字符串内有 EOF

我的数据超过 400 000 行运行此代码时 f pd read csv filename error bad lines False 我收到以下错误 pandas errors ParserError Error tokenizing
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如
TemplateSyntaxError：“settings_tags”不是有效的标签库

当我尝试运行此测试用例时出现此错误这是在我的 django 应用程序的tests py 中编写的 def test accounts register self self url http royalflag com pk accoun
导入 SciPy 或 scikit-image，“from scipy.linalg import _fblas：导入错误：DLL 失败”

我正在导入 from scipy import misc io 但我收到这些错误 Traceback most recent call last File C work asaaki code generateProposals py li
如何搜索一列并用找到的内容填充另一列？

我有一个带有虚构人物数据的大熊猫数据框下面是一个小例子每个人都由一个数字定义 import pandas as pd import numpy as np df pd DataFrame Number 5569 3385 9832 64
使用 Poetry 创建的 Python 项目：如何在 Visual Studio Code 中调试它？

我有一个根据基本 Poetry 创建的 Python 项目指示 https python poetry org docs basic usage 项目文件夹是这样的 my project my project my project py F
Python SQLite3 SQL注入漏洞代码

我知道下面的代码片段由于 format 的原因很容易受到 SQL 注入的攻击但我不知道为什么有谁明白为什么这段代码容易受到攻击以及我从哪里开始修复它我知道这些代码片段使输入字段保持打开状态以便通过 SQL 注入执行其他恶意命令但不
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
Python 模块 BeautifulSoup 提取锚点 href

我正在使用 BeautifulSoup 模块通过以下方式从 html 选择所有 href def extract links html soup BeautifulSoup html anchors soup findAll a print
私有属性，但却是一个神秘的领域

我想将属性设为私有但带有 pydantic 字段 from pydantic import BaseModel Field PrivateAttr validator class A BaseModel a str I want a py
数据类和属性装饰器

我一直在阅读 Python 3 7 的数据类作为命名元组的替代品我通常在必须将数据分组到结构中时使用它我想知道数据类是否与属性装饰器兼容以便为数据类的数据元素定义 getter 和 setter 函数如果是这样是否在某处进行了描
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
如何使用 Matplotlib 可视化标量二维数据？

所以我有一个网格网格矩阵 X 和 Y 以及标量数据矩阵 Z 我需要将其可视化最好是一些 2D 图像在各点处带有颜色显示 Z 值我做了一些研究但没有找到任何能完全满足我想要的效果的东西 pyplot imshow Z 看起来不错
Docker Python 脚本找不到文件

我已经成功构建了一个 Docker 容器并将应用程序的文件复制到 Dockerfile 中的容器中但是我正在尝试执行引用输入文件在 Docker 构建期间复制到容器中的 Python 脚本我似乎无法弄清楚为什么我的脚本告诉我它无
Python 中的可逆 STFT 和 ISTFT

有没有通用的形式短时傅立叶变换 https en wikipedia org wiki Short time Fourier transform与内置于 SciPy 或 NumPy 或其他什么中的相应逆变换这是pyplotspecgram
从 HDF5 文件中删除信息

我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的
Python 子进程：无法转义引号

我知道以前曾问过类似的问题但它们似乎都是通过重新设计参数的传递方式即使用列表等来解决的但是我这里有一个问题因为我没有这个选项有一个特定的命令行程序我使用的是 Bash shell 我必须向其传递带引号的字符串它不能不被引用
python：日志记录：我们可以向记录器添加多个过滤器吗？考虑哪一个

我试图了解 Python 日志记录中的多个过滤器一个在配置中定义另一个在代码中定义如何工作我正在开发一个 Django 项目下面是我在 settings py 中的记录器配置我的目标是switch on and switch o

随机推荐

将 C“FOR”循环转换为 Delphi

我正在尝试将 FOR 循环从 C 转换为 Delphi 但我有一些疑问我知道 C 中的这段代码 for i 0 i lt mb gt size i 在Delphi中是这样的 for i 0 to mb size do begin end
在 AngularJS ng-repeat 中对集合进行分组？

我有一个非常简单的场景其中有一组记录可用我需要以简单的 ng repeat 方式显示它们但是我需要按属性对记录进行分组并且我的目标不是不必更改集合即可完成此分组我的想法是可以应用某种类型的过滤器但在实践中过滤器很好地过滤数据
如何创建一个函数来计算每个元素等于其右侧 2 个元素的次数

我知道我需要使用列表理解但我一生都无法弄清楚表示这一点的正确方法是什么此运行权的一个示例是晚上一次输出为 2 代表 e 一次代表 n 列表推导式将具有相同字母的字母放在右侧两个位置我们只需计算结果列表的长度 s evening a
在 shell 脚本中使用 passwd 命令

我正在编写一个 shell 脚本来自动添加新用户并更新其密码我不知道如何让 passwd 从 shell 脚本中读取而不是以交互方式提示我输入新密码我的代码如下 adduser 1 passwd 1 2 2 from man 1 pa
在 UIActivityViewController 中与不同类型共享数据

以下帖子提出了一个极其相似的问题 UIActivityViewController 中共享提供程序的不同数据但我的问题不同我知道如何通过使用与不同的活动共享相同类型的不同数据itemForActivityType 例如 id activ
List 上的 UISelectMany 导致 java.lang.ClassCastException：java.lang.String 无法转换为 T

我在用
使用 C#/Linq 累加序列的子序列

我试图根据以下要求找到一种更好的方法来处理数字序列的价值sequence i 是其自身价值加上累积的总和sequence 0 to sequence i 1 例如如果序列是一个列表 List
ServiceStack：测试 OrmLite，与 NuGet 一起安装，但出现错误“FileNotFoundException”

我刚刚在 Visual Studio 2012 中通过 NuGet 安装了 OrmLite 适用于 MySql 安装顺利通过没有任何错误并且所有 DLL s 似乎都已添加作为参考服务栈 Common 3 9 70 0 ServiceS
在 iPhone 上使用 Objective-C 的 HTTP POST 和 GET 教程 [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我下载了苹果使用 HTTP POST 和 GET 的演示他们的示例应用程序有一个包含不同部分的选项卡栏代码非常混乱有人能给我一些示例代码或一些相关教程的链接吗 Thanks M
在Python中使用Requests搜索网站时出现502错误

使用一个非常基本的程序在网站上搜索查询并打印搜索结果为什么会收到 502 错误 import requests from bs4 import BeautifulSoup import re def main url https www
fread 的下载速度比 readfile 慢很多

我通过 PHP 脚本从 URL 向用户提供下载服务使用时readfile 我得到了我的连接可以支持的最大下载速度大约 2 5MB s 但是当我使用fopen fread fclose路线下载速度非常非常慢大约1 2KB s 这是我的代
IntelliJ 找不到任何 LibGDX 包？

我刚刚切换到 Ubuntu 并且安装了 IntelliJ IDEA 14 社区版当我导入现有项目时我发现 IntelliJ 似乎找不到任何 LibGDX 依赖项我事先安装了 Gradle 我尝试使用 IntelliJ 项目中包含的 G
MYSQL select join 多个表并求和

我有三张桌子 1 master id master barcode name last stock 1 123 abc 15 2 234 bcd 10 3 345 cde 7 4 456 def 11 5 567 efg 20 2 反式输入
如何处理 Android 6 及更高版本上的卸载意图？

背景 On my 应用程序管理器应用程序我处理了卸载意图以便用户可以使用 root 在后台卸载应用程序问题到 Android 5 x 为止一切都很顺利并且工作正常但似乎从 Android 6 开始情况发生了变化即使日志显示
Android 总是使用“tinyALSA”吗？

今天我发现我可以写一个libaudio so并将其放入我的 Android 文件夹 system library 中以进行自定义音频处理我的设备是配备 Android 4 2 的 Galaxy Nexus 正在使用tinyAlsa并有一个
DataAnnotations.DisplayAttribute.Order 属性是否不适用于 ASP.NET MVC 2？

我为订单属性 of the 显示属性在我的模型元数据中 MetadataType typeof OccasionMetadata public partial class Occasion private class OccasionMet
SQLite 1.0.94 未出现在 EDM 提供程序上

我注意到这也是 1 0 93 的问题但似乎也适用于 1 0 94 进一步来说计算机运行 Windows 8 1 x64 Visual Studio 2013 从 SQLite 官方网站安装 sqlite netFx451 setup b
使用 getComputedStyle().getPropertyValue() 获取边框值？（Mozilla、FF）

在某些浏览器即 Firefox 中getComputedStyle getPropertyValue 不报告任何简写 CSS 的内容例如border 是否有一种非特定代码的方式来获取这些速记 CSS 值我考虑过制作一个速记 CSS 及
为什么用户代理样式表是最后一个要应用的样式表？

我见过一个answer 讨论了样式表在网页中的应用顺序我正在学习认证我遇到了这个问题问题您正在使用 HTML5 和 CSS3 创建应用程序风格页面源自五个样式表款式不是正确应用于应用程序中的页面你需要确定样式表应用的顺序
Tweepy 跟踪多个术语

我正在对推文进行内容分析我使用 tweepy 返回与某些术语匹配的推文然后将 N 条推文写入 CSv 文件进行分析创建文件和获取数据不是问题但我想减少数据收集时间目前我正在迭代文件中的术语列表一旦达到 N 例如 500 条推文

Tweepy 跟踪多个术语

Tweepy 跟踪多个术语 的相关文章

随机推荐

热门标签

Tweepy 跟踪多个术语的相关文章