我正在为我的项目寻找 Twitter 或其他社交网站数据集。我目前有 CAW 2.0 twitter 数据集,但它只包含用户的推文。我想要一个显示朋友、关注者数量等的数据。
它不一定是 Twitter,但我更喜欢 Twitter 或 Facebook。我已经尝试过 infochimps,但显然该文件无法再为 twitter 下载。
有人可以给我找到此类数据集的好网站吗?我将把数据集提供给 hadoop。
尝试以下三个数据集:
包含约 9700 万条推文:
罢工>
ed note:由于 Twitter 要求删除上面链接的数据集,因此不再可用。
包含4700万用户的用户图:
http://an.kaist.ac.kr/traces/WWW2010.html http://an.kaist.ac.kr/traces/WWW2010.html
以下数据集包含网络和推文,但是数据是通过滚雪球采样或其他方式收集的,因此朋友网络并不统一。它有大约 1000 万条推文,您可以向研究人员发送电子邮件以获取更多数据。
http://www.public.asu.edu/~mdechoud/datasets.html http://www.public.asu.edu/~mdechoud/datasets.html
不过请查看数据分发所依据的许可证。
希望这可以帮助,
您还可以告诉我该数据集计划进行哪些工作吗?
我有几个 hadoop / pig 脚本可用于数据集
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)