基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫

2023-05-16

语言：python

环境：ubuntu

爬取内容：steam游戏标签，评论，以及在 steamspy 爬取对应游戏的销量

使用相关：urllib，lxml，selenium，chrome

解释：

　　流程图如下

　　1.首先通过 steam 商店搜索页面的链接，打开 steam 搜索页面，然后用如下正则表达式来得到前100个左右的游戏的商店页面链接。


reg = r'<a href="(http://store.steampowered.com/app/.+?)"'

　　2.对于得到的每个商店页面链接，可以通过如下正则表达式来得到对应的有游戏名称.


reg = r'.+?/app/[0-9]+?/(.+?)/'

　　　例如如下链接 http://store.steampowered.com/app/268910/Cuphead/ ，可以得到游戏名字为Cuphead。

　　3.然后通过 selenium 来模拟 chrome 上的操作，以获取动态加载的网页。先打开网页 steamspy，然后在网页上检查元素，看源码，发现搜索框元素的 name 值为”s”，所以可以通过 driver.find_element_by_name("s") 找到搜索框，模拟输入对应的游戏名字。进行搜索，得到了新的页面，再通过如下正则表达式得到销量


reg = r'<strong>Owners</strong>:\s+?([0-9,]+?)\s+?'

　　　例如上面那个网址对应应当输入 Cuphead。

　　4.得到游戏标签，这一步比较简单，打开商店链接，得到源码，然后通过如下正则表达式获取标签即可


reg=r'>\s+?([^\t]+?)\s+?</a><a href="http://store.steampowered.com/tag.+?"\s+?class="app_tag"'

　　5.得到游戏评论。由于 steam 商店评论是动态加载的，所以要又通过 selenium 来模拟 chrome 的操作，首先进入商店页面，因为有些商店是有年龄确认的按钮存在，那么通过 xpath 来找 viewpage 的按钮，如果有按钮则模拟点击操作，否则不点击。代码如下


driver.find_element_by_xpath("//span[text()='View Page']").click()

　　6.这样就进入了商店页面，然后类似地，通过xpath找到加载评论的按钮，加载评论，代码如下。


driver.find_element_by_xpath("//span[starts-with(@class,'game_review_summary')]").click()

　　7.再通过xpath找到多条评论的链接，代码如下。


elements = driver.find_elements_by_xpath("//a[starts-with(@href,'http://steamcommunity.com/id')]")

　　8.得到评论链接之后，打开评论链接，并通过如下正则表达式来得到评论正文内容。


reg = r'<div\s+?id="ReviewText">(.+?)</div>'

代码：


  1 import urllib
  2 import re
  3 import sys
  4 import lxml
  5 from selenium import webdriver
  6 from selenium.webdriver.common.keys import Keys
  7 
  8 def getHtml(url):
  9     page = urllib.urlopen(url)
 10     html = page.read()
 11     return html
 12 
 13 def getGameLink(html):
 14     reg = r'<a href="(http://store.steampowered.com/app/.+?)"'
 15     gamelinkre = re.compile(reg)
 16     gamelinklist = re.findall(gamelinkre,html)
 17     return gamelinklist
 18 
 19 def getTag(html):
 20     reg = r'>\s+?([^\t]+?)\s+?</a><a href="http://store.steampowered.com/tag.+?"\s+?class="app_tag"'
 21     tagre = re.compile(reg)
 22     taglist = re.findall(tagre,html)
 23     return taglist
 24 
 25 def getReviewLink(url):
 26     gamereviewlinklist = []
 27     driver = webdriver.Chrome()
 28     flag = True
 29     try:
 30         driver.get(url)
 31         driver.implicitly_wait(30)
 32         flag = True
 33     except:
 34         return gamereviewlinklist
 35     try:
 36         driver.find_element_by_xpath("//span[text()='View Page']").click()
 37         driver.implicitly_wait(30)
 38         flag = True
 39     except:
 40         flag = False
 41     try:
 42         driver.find_element_by_xpath("//span[starts-with(@class,'game_review_summary')]").click()
 43         driver.implicitly_wait(30)
 44         flag = True
 45     except:
 46         flag = False
 47     if(flag == False):
 48         driver.quit()
 49         return gamereviewlinklist
 50     elements = driver.find_elements_by_xpath("//a[starts-with(@href,'http://steamcommunity.com/id')]")
 51     pattern = re.compile(r'recommended/.+')
 52     for element in elements:
 53         url = element.get_attribute("href") 
 54         if(re.search(pattern,url)):
 55            gamereviewlinklist.append(url) 
 56     driver.quit()
 57     return gamereviewlinklist
 58 
 59 def getReview(html):
 60     reg = r'<div\s+?id="ReviewText">(.+?)</div>'
 61     reviewre = re.compile(reg)
 62     reviewlist = re.findall(reviewre,html)
 63     reviewlist.append("")
 64     print reviewlist[0]
 65     return reviewlist[0]
 66 
 67 def getSale(url):
 68     searchwebname="http://steamspy.com/search.php"
 69     reg = r'.+?/app/[0-9]+?/(.+?)/'
 70     namere = re.compile(reg)
 71     nameresult = re.findall(namere,url)
 72     name = nameresult[0]
 73     print name
 74     driver = webdriver.Chrome()
 75     driver.get(searchwebname)
 76     driver.implicitly_wait(30)
 77     flag = True
 78     elem = driver.find_element_by_name("s")
 79     elem.clear()
 80     elem.send_keys(name)
 81     driver.implicitly_wait(30)
 82     elem.send_keys(Keys.RETURN)
 83     driver.implicitly_wait(30)
 84     pagesource = driver.page_source
 85     reg = r'<strong>Owners</strong>:\s+?([0-9,]+?)\s+?'
 86     salere = re.compile(reg)
 87     saleresult = re.findall(salere,pagesource)
 88     sale = "-1"
 89     if len(saleresult)>0:  
 90         sale = saleresult[0]
 91     print sale
 92     driver.quit()
 93     return sale
 94 
 95 
 96 reload(sys)
 97 sys.setdefaultencoding('utf-8')
 98 
 99 urls = []
100 inputfilename = "urls.txt"
101 inputfile = file(inputfilename,'r')
102 emptyflag = 0
103 while not emptyflag:
104     nowline = inputfile.readline()
105     if(nowline == ""):
106         emptyflag = 1
107     else:
108         urls.append(nowline)
109 inputfile.close()
110 
111 gamelinklist = []
112 for urli in urls:
113     html = getHtml(urli)
114     gamelinklist.extend(getGameLink(html))
115 
116 salefilename = "gamesales.txt"
117 salefile = file(salefilename,"w")
118 for gamelinki in gamelinklist:
119     sale = getSale(gamelinki)
120     print sale
121     print >> salefile,gamelinki
122     print >> salefile,sale
123     print >> salefile,"sale end"
124     print gamelinki+"--sale end"
125 salefile.close()
126 
127 tagfilename = "gametags.txt"
128 tagfile = file(tagfilename,"w")
129 for gamelinki in gamelinklist:
130     html = getHtml(gamelinki)
131     taglist = getTag(html)
132     print taglist
133     print >> tagfile,gamelinki
134     for tagi in taglist:
135         print >> tagfile,tagi
136     print >> tagfile,"tag end"
137     print gamelinki+"--tag end"
138 tagfile.close()
139 
140 reviewfilename = "gamereviews.txt"
141 reviewfile = file(reviewfilename,"w")
142 lst = ""
143 for gamelinki in gamelinklist:
144     reviewlinklist = getReviewLink(gamelinki)
145     print reviewlinklist
146     print >> reviewfile,gamelinki
147     for reviewlinki in reviewlinklist:
148         if(reviewlinki != lst):
149             html = getHtml(reviewlinki)
150             review = getReview(html)
151             print >> reviewfile,review
152             print >> reviewfile,"a review end"
153             lst = reviewlinki
154     print >> reviewfile,"review end"
155     print gamelinki+"--review end"
156 reviewfile.close()

View Code

转载于:https://www.cnblogs.com/FxxL/p/8410549.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫的相关文章

Apple推送通知服务教程 PART-1

本文由泰然教程组新人1V1计划出品 xff0c http article ityran com archives 194 翻译人员 xff1a 晓丫 amp 小样 xff0c Sharyu xff0c 大菠萝 xff0c outman xf
clickhouse的too many part问题

clickhouse踩坑记录 Yuque what DB Exception Too many partitions for single INSERT block more than 100 The limit is controlled
Steam游戏的爬取与分析

Steam游戏的爬取与分析本文爬取了steam冒险类游戏中热销产品中的7500个游戏进行统计分析 1 首先要先知道网页链接的组成形式 xff1a 2 其次查看我们想要爬取的信息区域 xff1a 3 开始分析 xff1a xff08 1 x
LIVE2D模型加载软件Live2DViewerEX（steam），LIVE2Dviewer（LIVED2D社区），LIVE2Dviewer（github），Ppet（github）让你的老婆活灵活现

1年前发在吾爱上的 xff0c 搬过来了 xff0c 诸位看看 LIVE2D模型加载软件Live2DViewerEX xff08 steam xff09 xff0c LIVE2Dviewer xff08 LIVED2D社区 xff09 xf
Linux-USB Gadget : Part 6: dummy hcd 驱动简介

Linux USB Gadget Part 6 dummy hcd 驱动简介作者 xff1a zjujoe 转载请注明出处 Email xff1a zjujoe 64 yahoo com BLOG xff1a http blog csdn
Debug Tutorial Part 6: Navigating The Kernel Debugger

Introduction In this tutorial we will be covering a few of the basic features of the kernel debugger and get used to usi
如何在 Ubuntu 18.04 上安装 Steam

Steam是由 Valve 公司开发的用于购买和玩视频游戏的跨平台娱乐平台它使您可以访问数千种游戏并结识新朋友在本教程中我们将向您展示如何在 Ubuntu 18 04 上安装 Steam 相同的说明适用于 Ubuntu 16 04 和
Wallpaper Engine特性仿制

wallpaper master 起源最近一直在折腾一下壁纸的东西前段时间刚写了一个跨平台桌面 windows linux kde 的壁纸网络应用个人使用效果还不错的样子地址前两天突然发现了wallpaper engine这个软件
麦昆PLUS V2-适合中小学STEAM教学的机器人套件

著名开源硬件商DFRobot推出的最新版本机器人套件麦昆Plus V2来了它非常适用于中小学STEAM机器人教学和麦昆LITE相比麦昆plus V2的优势有哪些和麦昆LITE相比具有丰富的扩展接口充足的电力供应宽大的机身麦昆
MSCAN：Learning Deep Context-aware Features over Body and Latent Parts for Person ReID阅读笔记

Learning Deep Context aware Features over Body and Latent Parts for Person Re identification 作者 DangWei Li等人 CVPR 2017 1
Human Resource Machine 全成就通关第41关

HUMAN RESOURCE MACHINE PROGRAM COMMENT 0 a INBOX JUMPZ d COPYTO 24 b BUMPUP 24 JUMP a c COPYFROM 22 OUTBOX COPYFROM 24 C
如何在 Ubuntu 20.04 上安装 Steam

Steam是由 Valve 公司开发的用于购买和玩视频游戏的跨平台娱乐平台它使您可以访问数千种游戏并结识新朋友本文介绍如何在 Ubuntu 20 04 上安装 Steam 客户端先决条件您需要以以下身份登录具有 sudo 权限的用户
Steam账号查询VAC封禁信息

可以通过SteamID 账号名称来查询 VAC封禁信息相关网址 1 SteamCN信誉平台 2
Steam 市场货币和 XML 格式

我试图在市场上以某种货币获取商品页面尝试添加 Accept Language ru RU r n and Accept Language ru RU ru r n and Accept Language ru ru RU q 0 8 r
OpenID 用户验证如何工作？

嗯我正在尝试实现 Steam OpenID 登录到网站但我不太确定它是如何完成的以及 Steam 如何验证使用 OpenID 登录的用户至于现在我发现的是 steam 只返回用户 ID 没有返回任何其他内容因此对于其余的事情我必须
Steam API 身份验证

在开始之前我要声明我对 OpenID 一无所知我什至不想做 OpenID 的用途但我想人们会提到它但这不是我想要的我有软件该软件要求用户在注册时提供其 Steam 用户名他们不通过 Steam 登录只是提供他们的用户名以便
尝试获取应用程序的价格，但 Steam API 密钥拒绝

我正在尝试制作一个机器人来获取 Steam 游戏的价格并将其保存在我的数据库中以供以后执行某些操作但我在使用 steam api 时遇到了问题我用这个 https partner steam api com ISteamEconomy
如何将 OPENID auth 集成到 REST api 和前端框架架构中

我目前正在制作一个需要用户登录的网站Steam http steamcommunity com 在他们可以使用我网站的其余功能之前 Steam 目前仅支持 OPENID 进行身份验证我的做法是按照以下步骤进行用户按下使用 Steam
如何获得市场上多个价格项目的反应

我通过以下链接查看背包 cs go 中每件物品的价格但以 100 件商品为例我检查 100 个链接以获取所有商品的价格是否可以查询带有许多商品的 steam 而 steam 只响应一个包含所有请求价格的 json 我希望它是一个这样的
Steam：使用 PHP 将 SteamID64 转换为 SteamID

有人如何使用 PHP javascript 将 steamid64 例如 76561198074259974 转换为 steamid STEAM 0 0 56997123 我想在加载屏幕上显示 steamid 但不是 steamid64 看

随机推荐

浅谈SpringBoot核心注解原理

SpringBoot核心注解原理今天跟大家来探讨下SpringBoot的核心注解 64 SpringBootApplication以及run方法 xff0c 理解下springBoot为什么不需要XML xff0c 达到零配置首先我们先
Quartus II和Modelsim的联合仿真（详细）

这篇文章不需要在modelsim中建库映射建工程等一些繁琐的步骤 xff0c 直接使用modelsim中的默认work库使用quartus 43 modelsim联合仿真首先推荐一篇文章 http www cnblogs com e
requests.post处理Content-Type: multipart/form-data的请求

前几天遇到一个需求 xff0c 要调用一个接口发送请求 xff0c 抓包之后得到的数据是这样的上网看了一些资料得知 xff0c 原来这个接口的数据是通过multipart form data格式传过去的 xff0c multipart f
上一步，下一步（撤销和恢复）

var data 61 data count 61 0 data list 61 function regain function handleSaveCss 获取workspace body里面的内容 var c 61 34 worksp
Ubuntu下dpkg安装软件遇到包依赖问题的处理方法

造冰箱的大熊猫 64 cnblogs 2019 9 10 向灵魂工程师致敬 xff01 在Ubuntu环境下通过dpkg命令安装deb包时 xff0c 如果遇到包依赖问题 xff0c 如 sudo dpkg i xxx deb Readin
Ubuntu18优化桌面版的运行速度

一刚开始使用Ubuntu18后 xff0c 感觉开机和运行速度都不理想 xff0c 通过改变一些配置可以提高下用户体验感二改变一些配置 a 使用Preload预加载 sudo apt install preload y b 禁用不必要
Debian安装mplayer,解决没有声音及声卡独占问题

通过软件中心可以安装Gnome mplayer 本来以为这样这个播放器已经是万能的了 xff0c 但是最近下载了几个 mkv的电影却发现Gnome mplayer没有办法打开感觉很失望在网上找了一番后说只要下载源代码自己安装就行
CentOS7中安装MySQL5.7

安装必要的组件 yum install y autoconf automake imake libxml2 devel expat devel cmake gcc gcc c 43 43 libaio libaio devel bzr bi
20190708新的开始

题目描述发展采矿业当然首先得有矿井 xff0c 小 FF 花了上次探险获得的千分之一的财富请人在岛上挖了 n 口矿井 xff0c 但他似乎忘记考虑的矿井供电问题为了保证电力的供应 xff0c 小 FF 想到了两种办法 xff1a 在这一
Debian安装JDK

sudo tar zxvf jdk 8u60 linux x64 tar gz C usr local vi bashrc export JAVA HOME 61 usr local jdk1 8 0 60 export JRE HOME
Go——多值赋值和短变量声明

1 多值赋值可以一次性声明多个变量 xff0c 并可以在声明时赋值 xff0c 而且可以省略类型 xff0c 但必须遵守一定的规则要求 xff0c 具体看下面的示例如下都是合法的 span class token comment 相同类
「一本通 1.2 练习 2」扩散(loj10015)

题目描述一个点每过一个单位时间就会向 4 个方向扩散一个距离 xff0c 如图所示 xff1a 两个点 a b 连通 xff0c 记作 e a b xff0c 当且仅当 a b 的扩散区域有公共部分连通块的定义是块内的任意两个点 u v
.db文件打开方式

有时在工作中 xff0c 数据库格式db后缀的格式 xff0c 直接是打不开的 xff0c 所以我这里使用了数据库管理工具 xff0c 步骤如下 1 在电脑安装 Navicat Premium xff0c 安装后在桌面生成图标 xff0c
MathType的配置问题；将word中的公式转换为mathtype格式失败，缺少OMML2MML.XSL

安装MathType后打开word报错打开会出现以下问题 xff1a 首先 xff0c 把startup添加到word的信任中心 xff1a 要确保路径被office信任依次打开word gt 文件 gt 选项 gt 信任中心 gt 信
XMPP系列(四）---发送和接收文字消息，获取历史消息功能

今天开始做到最主要的功能发送和接收消息获取本地历史数据先上到目前为止的效果图 xff1a 首先是要在XMPPFramework h中引入数据存储模块 xff1a 聊天记录模块的导入 import 34 XMPPMessageArchiv
linux新增磁盘后，用fdisk等命令查询不到

ls sys class scsi host xff08 会看到有host0 host1 hostN xff0c 对每个host进行如下操作 xff09 echo 34 34 gt sys class scsi host host0 sca
ubuntu上源码编译安装mysql5.7.27

一查看操作系统环境和目录结构 xff0c 并创建mysql用户和组 xff0c 以及规划安装mysql所需要的目录 cat etc issue 查看发行版本信息 xff1a cat proc version 查看正在运行的内核版本信息 u
（转-收集）MSSQL手工注入语句集合

and exists select from sysobjects 判断是否是MSSQL and exists select from tableName 判断某表是否存在 tableName为表名 and 1 61 select 64 6
滚动视图 UIScrollView

UIScrollView xff1a 提供可以显示大于应用窗口的内容功能的控件用户可以通过手势使内容滚动和缩放从而查看全部内容初始化一个UIScrollView的对象 1 UIScrollView scroll 61 U
基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫

语言 xff1a python 环境 xff1a ubuntu 爬取内容 xff1a steam游戏标签 xff0c 评论 xff0c 以及在 steamspy 爬取对应游戏的销量使用相关 xff1a urllib xff0c lxml

基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫

基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫 的相关文章

随机推荐

热门标签

基于steam的游戏销量预测 — PART 1 — 爬取steam游戏相关数据的爬虫的相关文章