从 Twitter 抓取用户位置

2023-11-21

我正在尝试从 Twitter 中获取用户名的纬度和经度。用户名列表是一个 csv 文件，一个输入文件中包含 50 多个名称。以下是我迄今为止所做的两次尝试。他们似乎都没有工作。欢迎对任何一个程序进行更正或采用全新的方法。

我有清单User_names我正在尝试查找用户个人资料并提取geolocation从个人资料或时间线。我在互联网上找不到太多样本。

我正在寻找一种更好的方法来从 Twitter 获取用户的地理位置。我什至找不到一个示例来显示参考 User_name 或 user_id 获取用户位置。首先有可能吗？

输入：输入文件超过 50k 行

AfsarTamannaah,6.80E+17,12/24/2015,#chennaifloods
DEEPU_S_GIRI,6.80E+17,12/24/2015,#chennaifloods
DEEPU_S_GIRI,6.80E+17,12/24/2015,#weneverletyoudownstr
ndtv,6.80E+17,12/24/2015,#chennaifloods
1andonlyharsha,6.79E+17,12/21/2015,#chennaifloods
Shashkya,6.79E+17,12/21/2015,#moneyonmobile
Shashkya,6.79E+17,12/21/2015,#chennaifloods
timesofindia,6.79E+17,12/20/2015,#chennaifloods
ANI_news,6.78E+17,12/20/2015,#chennaifloods
DrAnbumaniPMK,6.78E+17,12/19/2015,#chennaifloods
timesofindia,6.78E+17,12/18/2015,#chennaifloods
SRKCHENNAIFC,6.78E+17,12/18/2015,#dilwalefdfs
SRKCHENNAIFC,6.78E+17,12/18/2015,#chennaifloods
AmeriCares,6.77E+17,12/16/2015,#india
AmeriCares,6.77E+17,12/16/2015,#chennaifloods
ChennaiRainsH,6.77E+17,12/15/2015,#chennairainshelp
ChennaiRainsH,6.77E+17,12/15/2015,#chennaifloods
AkkiPritam,6.77E+17,12/15/2015,#chennaifloods

Code:

import tweepy
from tweepy import Stream
from tweepy.streaming import StreamListener
from tweepy import OAuthHandler
import pandas as pd
import json
import csv
import sys
import time

CONSUMER_KEY = 'XYZ'
CONSUMER_SECRET = 'XYZ'
ACCESS_KEY = 'XYZ'
ACCESS_SECRET = 'XYZ'

auth = OAuthHandler(CONSUMER_KEY,CONSUMER_SECRET)
api = tweepy.API(auth)
auth.set_access_token(ACCESS_KEY, ACCESS_SECRET)

data = pd.read_csv('user_keyword.csv')

df = ['user_name', 'user_id', 'date', 'keyword']

test = api.lookup_users(user_ids=['user_name'])

for user in test:
    print user.user_name
    print user.user_id
    print user.date
    print user.keyword
    print user.geolocation

Error:

Traceback (most recent call last):
  File "user_profile_location.py", line 24, in <module>
    test = api.lookup_users(user_ids=['user_name'])
  File "/usr/lib/python2.7/dist-packages/tweepy/api.py", line 150, in lookup_users
    return self._lookup_users(list_to_csv(user_ids), list_to_csv(screen_names))
  File "/usr/lib/python2.7/dist-packages/tweepy/binder.py", line 197, in _call
    return method.execute()
  File "/usr/lib/python2.7/dist-packages/tweepy/binder.py", line 173, in execute
    raise TweepError(error_msg, resp)
tweepy.error.TweepError: [{'message': 'No user matches for specified terms.', 'code': 17}]

我知道每个用户都不会共享地理位置，但那些将个人资料公开的人如果我可以获得地理位置，那就太好了。

我正在寻找名称和/或经纬度等用户位置。

如果这种方法不正确，那么我也愿意接受替代方案。

更新一：经过一番深入搜索，我发现了这个website这提供了一个非常接近的解决方案，但是我在尝试阅读时遇到错误userName从输入文件。

这表示只能获取 100 个用户的信息，有什么更好的方法来解除该限制？

Code:

import sys
import string
import simplejson
from twython import Twython
import csv
import pandas as pd

#WE WILL USE THE VARIABLES DAY, MONTH, AND YEAR FOR OUR OUTPUT FILE NAME
import datetime
now = datetime.datetime.now()
day=int(now.day)
month=int(now.month)
year=int(now.year)


#FOR OAUTH AUTHENTICATION -- NEEDED TO ACCESS THE TWITTER API
t = Twython(app_key='ABC', 
    app_secret='ABC',
    oauth_token='ABC',
    oauth_token_secret='ABC')

#INPUT HAS NO HEADER NO INDEX
ids = pd.read_csv('user_keyword.csv', header=['userName', 'userID', 'Date', 'Keyword'], usecols=['userName'])

#ACCESS THE LOOKUP_USER METHOD OF THE TWITTER API -- GRAB INFO ON UP TO 100 IDS WITH EACH API CALL

users = t.lookup_user(user_id = ids)

#NAME OUR OUTPUT FILE - %i WILL BE REPLACED BY CURRENT MONTH, DAY, AND YEAR
outfn = "twitter_user_data_%i.%i.%i.csv" % (now.month, now.day, now.year)

#NAMES FOR HEADER ROW IN OUTPUT FILE
fields = "id, screen_name, name, created_at, url, followers_count, friends_count, statuses_count, \
    favourites_count, listed_count, \
    contributors_enabled, description, protected, location, lang, expanded_url".split()

#INITIALIZE OUTPUT FILE AND WRITE HEADER ROW   
outfp = open(outfn, "w")
outfp.write(string.join(fields, "\t") + "\n")  # header

#THE VARIABLE 'USERS' CONTAINS INFORMATION OF THE 32 TWITTER USER IDS LISTED ABOVE
#THIS BLOCK WILL LOOP OVER EACH OF THESE IDS, CREATE VARIABLES, AND OUTPUT TO FILE
for entry in users:
    #CREATE EMPTY DICTIONARY
    r = {}
    for f in fields:
        r[f] = ""
    #ASSIGN VALUE OF 'ID' FIELD IN JSON TO 'ID' FIELD IN OUR DICTIONARY
    r['id'] = entry['id']
    #SAME WITH 'SCREEN_NAME' HERE, AND FOR REST OF THE VARIABLES
    r['screen_name'] = entry['screen_name']
    r['name'] = entry['name']
    r['created_at'] = entry['created_at']
    r['url'] = entry['url']
    r['followers_count'] = entry['followers_count']
    r['friends_count'] = entry['friends_count']
    r['statuses_count'] = entry['statuses_count']
    r['favourites_count'] = entry['favourites_count']
    r['listed_count'] = entry['listed_count']
    r['contributors_enabled'] = entry['contributors_enabled']
    r['description'] = entry['description']
    r['protected'] = entry['protected']
    r['location'] = entry['location']
    r['lang'] = entry['lang']
    #NOT EVERY ID WILL HAVE A 'URL' KEY, SO CHECK FOR ITS EXISTENCE WITH IF CLAUSE
    if 'url' in entry['entities']:
        r['expanded_url'] = entry['entities']['url']['urls'][0]['expanded_url']
    else:
        r['expanded_url'] = ''
    print r
    #CREATE EMPTY LIST
    lst = []
    #ADD DATA FOR EACH VARIABLE
    for f in fields:
        lst.append(unicode(r[f]).replace("\/", "/"))
    #WRITE ROW WITH DATA IN LIST
    outfp.write(string.join(lst, "\t").encode("utf-8") + "\n")

outfp.close()

Error:

File "user_profile_location.py", line 35, in <module>
    ids = pd.read_csv('user_keyword.csv', header=['userName', 'userID', 'Date', 'Keyword'], usecols=['userName'])
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 562, in parser_f
    return _read(filepath_or_buffer, kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 315, in _read
    parser = TextFileReader(filepath_or_buffer, **kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 645, in __init__
    self._make_engine(self.engine)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 799, in _make_engine
    self._engine = CParserWrapper(self.f, **self.options)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 1202, in __init__
    ParserBase.__init__(self, kwds)
  File "/usr/local/lib/python2.7/dist-packages/pandas/io/parsers.py", line 918, in __init__
    raise ValueError("cannot specify usecols when "
ValueError: cannot specify usecols when specifying a multi-index header

假设您只想获取用户个人资料页面中显示的位置，您可以使用API.get_user来自推威。下面是工作代码。

#!/usr/bin/env python
from __future__ import print_function

#Import the necessary methods from tweepy library
import tweepy
from tweepy import OAuthHandler


#user credentials to access Twitter API 
access_token = "your access token here"
access_token_secret = "your access token secret key here"
consumer_key = "your consumer key here"
consumer_secret = "your consumer secret key here"


def get_user_details(username):
        userobj = api.get_user(username)
        return userobj


if __name__ == '__main__':
    #authenticating the app (https://apps.twitter.com/)
    auth = tweepy.auth.OAuthHandler(consumer_key, consumer_secret)
    auth.set_access_token(access_token, access_token_secret)
    api = tweepy.API(auth)

    #for list of usernames, put them in iterable and call the function
    username = 'thinkgeek'
    userOBJ = get_user_details(username)
    print(userOBJ.location)

Note:这是一个粗略的实现。编写适当的休眠函数以遵守 Twitter API 访问限制。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python27

pandas

Geolocation

tweepy

twython

从 Twitter 抓取用户位置的相关文章

Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
操作错误：(sqlite3.OperationalError) SQL 变量太多，同时将 SQL 与数据帧一起使用

我有一个熊猫数据框如下所示 activity User Id 0 VIEWED MOVIE 158d292ec18a49 1 VIEWED MOVIE 158d292ec18a49 2 VIEWED MOVIE 158d292ec18a4
减少从 MongoDB 加载大熊猫数据帧所使用的内存

我有一个大型数据集包含 4000 万条记录总大小约为 21 0G 存储在 MongoDB 中我花了几个小时将其加载到 pandas 数据框中但总内存大小增加到约 28 7G 加载之前约为 600Mb cursor mongocoll
Python - 设置 .pop() 行为

这是我在 Python 集合中注意到的奇怪的事情我读到集合中没有顺序但它确实从 0 到 79 弹出较低的元素后来从 79 到 127 弹出它不再弹出较低的元素只有在 128 到来之后 79 才会被弹出为什么会这样呢有没有其他方
Python数据描述符不能作为实例变量工作？ [复制]

这个问题在这里已经有答案了正如官方演示中所描述的here https docs python org 2 howto descriptor html descriptor example 下面的代码将打印Retrieving var x
Pandas Groupby：如何使用两个 lambda 函数？

我目前可以在 Pandas 中执行以下操作但 FutureWarning 严厉地摇动着我的手指 grpd df groupby rank agg mean np mean meian np median min np min max np
我可以在我的机器上同时安装 python 2.7 和 3.5 的tensorflow吗？

目前我通过 Anaconda 在我的机器 MAC OX 上安装了 Python 2 7 Python 3 5 Tensorflow for Python 3 5 我也想在我的机器上安装 Tensorflow for Python 2 7 当
如何使用 Pandas、Numpy 加速 Python 中的嵌套 for 循环逻辑？

我想检查一下表的字段是否TestProject包含了Client端传入的参数嵌套for循环很丑陋有什么高效简单的方法来实现吗非常感谢您的任何建议 def test parameter a list parameter b list g
Pandas Merge (pd.merge) 如何设置索引和连接

我有两个 pandas 数据框 dfLeft 和 dfRight 以日期作为索引 dfLeft cusip factorL date 2012 01 03 XXXX 4 5 2012 01 03 YYYY 6 2 2012 01 04 XX
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
Pandas 每周计算重复值

我有一个Dataframe包含按周分组的日期和 ID df date id 2022 02 07 1 3 5 4 2022 02 14 2 1 3 2022 02 21 9 10 1 2022 05 16 我想计算每周有多少 id 与上周重
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
Pandas 多索引数据框中组之间的计算

假设我生成一个多索引数据框如下 arrays np array bar bar baz baz foo foo qux qux np array one two one two one two one two df pd DataFrame
如何在 Python 中使用 PIL\Numpy 获取灰度图像的平均像素值？

我有很少的灰度图像我想计算整个图像的平均像素值这样我就可以使用单个值来表示每个单独的图像如果你想做这样的事情你应该考虑使用scikit image而不是原始的 PIL 或枕头 SciKit Image 使用 numpy 数组来存储图
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x

随机推荐

如何使用 dplyr 编程语法来创建和计算变量名称

我想使用 dplyr 编程语法动态输入变量名但是正如许多人所描述的那样这可能非常令人困惑我尝试过各种 quo enquo 的组合等等都无济于事这是我的代码的最简单形式 library tidyverse df lt tibble
按指定顺序按 id 查找 ActiveRecord 对象的简洁方法

我想获取给定 id 数组的 ActiveRecord 对象数组我假设 Object find 5 2 3 将返回一个依次包含对象 5 对象 2 对象 3 的数组但我得到的数组按对象 2 对象 3 对象 5 的顺序排列 ActiveRec
使用 WinAPI 进行简单的 AES 加密

我需要在我的 Qt C 应用程序中进行简单的单块 AES 加密解密这是一个让诚实的人诚实的实现所以只是一个基本的encrypt key data 是必要的我不担心初始化向量等我的输入和密钥将始终恰好是 16 个字节 I d r
在网络上获取 Python 脚本输出的最简单方法是什么？

我有一个连续运行的 python 脚本它每 30 秒输出 2 行信息我希望能够在网络上查看此输出特别是我希望网站能够自动更新每 30 秒在页面网站顶部添加新输出而无需刷新页面我知道我可以用 javascript 做到这一点
GWT：在服务器代码中访问 i18n 消息

我有一个扩展的接口com google gwt i18n client Messages类我用它在 GWT 应用程序中检索 i18n 消息它看起来像这样 public interface MyMessages extends com g
jQuery 触发 DatePicker 更改事件

我有以下代码 custom datepicker selector datepicker weekStart 1 on changeDate function en var correct format correct format en
未标记 AcceptVerbs、HttpGet 或 HttpPost 的控制器操作的默认行为是什么？

如果我创建一个控制器操作并且不使用它来装饰它AcceptVerbs HttpPost or HttpGet 默认行为是什么该操作是否允许任何访问方法或默认为GET 它可以通过任何动词访问
java中equals方法的实现

这是我对 Coor 类的 equals 类的实现它只包含 2 个整数 x 和 y 这是实现该方法的正确方法吗 public boolean equals Object obj if obj null obj getClass this g
Python3 Tkinter 字体不工作

我将 python 3 3 与 tkinter 一起使用并且安装了 python3 tk 包在大多数文档中使用旧的 import tkFont 它不再起作用这应该有效 from tkinter import font appHigh
C++ 中的虚拟网络摄像头

我想编写一个新的虚拟网络摄像头驱动程序例如它将采用 AVI 或实时流作为屏幕并将其作为网络摄像头源进行流式传输我真的不会有网络摄像头我想添加一个可以传输桌面屏幕的虚拟网络摄像头我应该在内核模式下编写一个网络摄像头来做到这一点如果是
遍历并修改dict结构的树状列表

我有一个如下所示的结构 id 4 children None id 2 children id 1 children id 6 children None id 5 children None id 7 children id 3 chil
拳击会导致性能问题吗？

我正在开发一个项目其中我们正在生成一种编译为 java 的语言我们使用的框架 xtext 在其生成的代码中大量使用了装箱具体来说如果您有如下声明 int i 1 int j 2 int k i j 然后编译后的代码如下所示 Inte
ESLint：创建下一个应用程序时选项无效

我正在创建一个新的 Next js 应用程序当我跑步时yarn create next app我开始在 Visual Studio Code 中编写 javascript 代码每次我输入数字时 ESlint 扩展都会返回一个错误当然
如何在 Grails 中更新外部配置文件而不重建 war 文件

如何更新外部配置文件例如 config ex groovy config ex properties 而不在 Grails 中重建 war 文件重新启动应用程序服务器将应用外部配置文件中的新更新如果我理解得很好的话你想在战争之外外部
反向 Java Graphics2D 缩放和旋转坐标

我使用Java中的Graphics2D来缩放和旋转我绘制的图片我现在希望能够在单击图片中的某个点时知道原始坐标是什么因此鉴于旋转和缩放的坐标我想计算原始坐标有没有一种简单的方法可以做到这一点如果您保留一份副本AffineTran
Python 中 module.__init__() 最多接受 2 个参数错误

我有 3 个文件 factory imagenet py imdb py 和 imagenet py factory imagenet py 有 import datasets imagenet 它还有一个函数调用为 datasets im
maven命令中-D表示什么？

谁能解释一下 D 在 maven 命令中表示什么 mvn clean install DskipTests 您定义了一个可由Maven 插件 or 在 pom 内部使用 gt mvn help usage mvn options Optio
为什么 `cat <(cat)` 会产生 EIO？

我有一个程序可以同时读取两个输入文件我想让这个程序从标准输入读取我想我会用这样的东西 program1 lt cat lt program2 但我刚刚发现 cat lt cat produces mmap2 NULL 139264 PR
通过 Heroku 上托管的 Rails 上传和解压缩文件到 S3？

我希望能够将包含许多图像的 zip 文件上传到我的 Rails 应用程序然后我希望 Rails 解压该文件并将其中的图像附加到我的照片模型中回形针以便它们最终存储在我的 Amazon S3 帐户中通过 Paperclip 配置我想在
从 Twitter 抓取用户位置

我正在尝试从 Twitter 中获取用户名的纬度和经度用户名列表是一个 csv 文件一个输入文件中包含 50 多个名称以下是我迄今为止所做的两次尝试他们似乎都没有工作欢迎对任何一个程序进行更正或采用全新的方法我有清单User n

从 Twitter 抓取用户位置

从 Twitter 抓取用户位置 的相关文章

随机推荐

热门标签

从 Twitter 抓取用户位置的相关文章