Python 【爬虫3】_微信小程序_小游戏数据助手数据爬取

2023-05-16

一、背景介绍

近期产生需求，需要批量重复获取微信小程序数据助手的部分数据，减少重复工作，提高效率。

二、环境准备

主要逻辑：charles抓包，分析，爬取，数据存储

环境配置：pc-win10/移动-iphone/软件-charles

* Charles配置与使用，参考的此条链接：https://blog.csdn.net/HeyShHeyou/article/details/90045204

*charles注意事项：

官网安装包下载可能会很慢，可以去找找其他下载资源
软件每半小时会断开链接，需要重新启动
重启后，最好将proxy----windows proxy 去掉勾选（否则会产生过多信息，不容易找到目标链接）
善于利用清除功能帮助筛选

三、代码实现

抓包：通过charles抓包，找到所需内容的url
分析：分析url的content为json格式，根据需求，提取相关数据
存储：将数据保存到表格中
查找url规律：分析url规律，进行项目批量循环处理

import requests
import pandas as pd
import pandas as pd
import urllib3


def ltv(url,canshu,content):
    res = requests.get(url, verify=False)
    res = res.json()['data']['sequence_data_list']
    df_LTV = pd.DataFrame(res[canshu]['point_list'])
    df_LTV = df_LTV[['value', 'label']]
    df_LTV.rename(columns={'value': content}, inplace=True)
    return df_LTV


urllib3.disable_warnings()
df = pd.read_csv('WX_account2.csv', sep=',')
df_url = pd.read_csv('url2.csv', sep=',')
df_all2 = pd.DataFrame(columns=['game', 'label'])
for j in range(len(df_url['url'])):
    url = df_url['url'].loc[j]
    content = df_url['content'].loc[j]
    canshu = int(df_url['canshu'].loc[j])
    df_right = pd.DataFrame(columns=[])
    df_all = pd.DataFrame()
    for i in range(len(df['appid'])):
        try:
            game = df['game'].loc[i]
            appid = df['appid'].loc[i].strip()
            url_new = url.format(appid)
            print(i, game)
            df_right = ltv(url_new, canshu, content)
            df_right['game'] = game
            df_all = pd.concat([df_all, df_right], join='outer')
        except:
            continue

    df_all2 = pd.merge(df_all2, df_all, how='right', on=['game', 'label'])

df_all2.to_csv('data.csv', sep=',', index=False, encoding='utf_8_sig')

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python 【爬虫3】_微信小程序_小游戏数据助手数据爬取的相关文章

数据库作业八—嵌套查询、EXISTS、集合查询、基于派生表的查询

嵌套查询接着上一篇说带有EXISTS谓词的查询 EXISTS 存在带有EXISTS 谓词的子查询不返回任何数据 xff0c 只产生逻辑真值 true 或逻辑假值 false 如果返回true xff0c 主查询会执行 xff0c 返回
jupyter安装了tensorflow后一直报错No module named PIL

以jupyter为例 xff0c 装了anaconda 明明运行pip install Pillow xff0c 显示了已经装载了 xff0c 但是就是找不到PIL包解决办法就是 xff0c 这个包其实安装在base环境下 xff0c 你
makefile中的“立即展开”与“延后展开”

GUN make的执行过程分为两个阶段第一阶段 xff1a 读取所有的makefile文件 xff08 包括 MAKEFILES 变量指定的指示符 include 指定的以及命令行选项 f xff08 file xff09 指定的ma
接口自动化之持续集成【Jenkins配置--Python+Pytest+Jenkins+Allure】

前置条件 xff1a 接口自动化测试框架用的是Python 43 Pytest 43 Requests xff1b 本文Jenkins部署在本地电脑 xff08 实际应在服务器 xff0c 当然配置步骤一致 xff09 xff0c 本地部署
【Django】Model query转换成Dataframe时，如何减少50%的内存消耗

通常我们在Django framework里去取DB数据做处理时 xff0c 会用values 这个function xff0c 然后直接转换成dataframe 假设需要取整个table的数据 xff0c 简单粗暴的写法如下 xff1a
使用pypi-server创建私有pip源

为了让内网使用pip下载安装需要在内网中创建pip源类似离线仓库使用pypiserver可以指定离线仓库目录 xff0c 将安装包放到离线仓库目录即可 xff0c 只要有人上传一次后 xff0c 其他人需要该模块 xff0c 就不用再
UBUNTU下QT开发应用程序常见错误及其解决办法

错误 xff1a helloworld直接报错 1 error cannot find lGL 原因 xff1a 缺少GL库解决办法 xff1a sudo apt get install libgl1 mesa dev 我下载了最新的q
1488：新的开始

题目描述发展采矿业当然首先得有矿井 xff0c 小 FF 花了上次探险获得的千分之一的财富请人在岛上挖了 n 口矿井 xff0c 但他似乎忘记考虑的矿井供电问题为了保证电力的供应 xff0c 小 FF 想到了两种办法 xff1a 在这一
解决：使用 Vue 3 Script Setup 时 ESLint 报错 ‘defineProps‘ is not defined

解决 xff1a 使用 Vue 3 Script Setup 时 ESLint 报错 defineProps is not defined Vue 3 的 Script Setup 语法引入了 defineProps defineEmits
Wek6 A - Tree diameter

问题描述 xff1a 实验室里原先有一台电脑编号为1 xff0c 最近氪金带师咕咕东又为实验室购置了N 1台电脑 xff0c 编号为2到N 每台电脑都用网线连接到一台先前安装的电脑上但是咕咕东担心网速太慢 xff0c 他希望知道第i台电
CSCSWek12 B-Happy 消消乐

题目描述 Q老师是个很老实的老师 xff0c 最近在积极准备考研 Q老师平时只喜欢用Linux系统 xff0c 所以Q老师的电脑上没什么娱乐的游戏 xff0c 所以Q老师平时除了玩Linux上的赛车游戏SuperTuxKart之外 xff0
ubuntu中各个文件夹的作用

Ubuntu的根目录的文件夹各个含义 home xff1a 家目录 xff0c 所有普通用户都有一个以自己名字命名的文件夹存放在这个目录中普通用户登录ubuntu默认进入的就是家目录中自己的文件夹 xff0c 可用pwd命令查看 xff0
【CUDA】Ubuntu系统如何安装CUDA保姆级教程(2022年最新)

本期目录 Linux安装CUDA Linux安装CUDA 输入以下命令 xff0c 查看 GPU 支持的最高 CUDA 版本笔者这里显示的是 11 6 xff0c 这意味着 xff0c 安装的 CUDA 版本必须 lt 61 11 6 n
AVI视频格式分析-封装格式

AVI视频封装格式分析使用的工具RIFF块CHUNK块LIST块hdrl LISTavih CHUNKstrl LISTstrh CHUNKstrf CHUNK JUNK CHUNKmovi LISTidx1 CHUNK 使用的工具 el
2014.10.10

1 主要是制作了suse镜像 xff0c 但是还存在很多问题 xff0c 没有加上默认网关 xff0c 我很不开心 xff0c 根目录没有扩展 2 了解了下 boot from image 通过glance上传一个镜像 xff0c 然后通过
2014.10.11

我只想骂csdn xff01 截图直接粘过来居然不能直接显示出来 xff01 xff01 xff01 妈蛋 xff01 xff01 1 suse镜像制作完善 xff0c 根目录未扩展这是个大问题 xff0c 默认网关没加上所谓的根目录扩展
2014.10.12

早晨8点就起了 xff0c 然后匆匆奔向wx xff0c 为了思念的人 xff0c 吃了个中午饭 xff0c 感觉还不错 xff0c 下午回来之后又去了wpj xff0c 胡扯一通 xff0c 而且发现现在家里人的注意力完全放在我的情感生活
vmware 下安装 red hat 9，dos 以及wmware tools

1 安装vmware vmware 版本 7 11 282343 英文原版下载 xff1a http dl sh ctc 2 pchome net 03 lt VMware workstation full 7 1 1 282343 rar
关于上财陈畅的俄罗斯方块的学习

最近同学学习C xff0c 想做一个大练习 xff0c 于是选择了俄罗斯方块 xff0c 我 xff0c 计算机专业在校学生 xff0c 说实话理论还行 xff0c 实践动手能力很差 xff0c 同学让我先做 xff0c 然后给他讲讲怎样一
xrdp开源项目的代码分析

最近我的博客将重新恢复更新 xff0c 从2012年3月份起 xff0c 我开始参与某公司的堡垒机项目的研发工作 xff0c 堡垒机又叫内控堡垒机 xff0c 运维审计系统 xff0c 相信不少人也听说过 xff0c 目前电信 xff0c

随机推荐

xrdp开源项目的代码分析-1

首先要说明情况 xff0c 我分析的代码基于xrdp 2012 5 11日 xff0c 而不是最新的代码 xff0c 最新的代码稍有改动 xff0c 但是主体的思想没有变化 xrdp 2012 5 11日代码的下载地址 xff1a http
穿山甲的投放小技巧（账户如何快速过冷启动期）

1 300 xff08 出价 xff1a 目标成本的2 3倍出价 xff09 xff0c 看成本 2 600 xff08 出价 xff1a 300预算时的一半 xff09 xff0c 看成本 3 放到日满格预算 xff08 出价 xff1a
C++加入库dll

加入头文件加入 include 34 MES inc MES2Interface h 34 pragma comment lib 34 MES lib MES2Interface lib 34 MES2Interface dll 复制到运行
结构体的大小如何计算

我们实际生活中 xff0c 保存的数据一般不会是同一种类型 xff0c 所以引入了结构体而结构体的大小也不是成员类型大小的简单相加需要考虑到系统在存储结构体变量时的地址对齐问题由于存储变量地址对齐的问题 xff0c 结构体大小计算必须
flatpak安装的firefox视频播放卡顿的解决方案

最近在debian系统中使用flatpak安装最新版的firefox后发现 xff0c firefox在播放视频时十分卡顿 xff0c 经过四处搜索 xff0c 终于找到了解决方案 How to use hardware accelerat
NodeBB 安装部署 Linux(阿里云 CentOS 6.3 Redis NodeJS)

网上有很多 xff0c 写的都不完整 xff0c 我尽量给大家一个完整的基于Linux 阿里云 CentOS 6 3 安装 NodeBB 论坛 1 先安装NodeJs 安装方式有多种 xff0c 有通过下载源代码编译的 xff0c 有下载
shell脚本使用字符串截取报Bad substitution错误的原因即解决方法

shell脚本使用字符串截取报Bad substitution错误的原因即解决方法绝大多是是因为解释器的问题第一步使用命令查看你指令那个解释器 span class token function ls span bin sh al 我
Android播放器(一) 通过FFmpeg解码为RGBA格式播放

代码可以参考 xff1a Github地址本文主要介绍如何通过FFmpeg将MP4格式的视频数据解码为一帧一帧的RGBA像素格式数据来播放因为主要是视频的解码及播放 xff0c 对于音频只是解码出了音频对应的pcm数据 xff0c 并没
终于把(白嫖)阿里ESC服务器搞到手了(方法会写在文章中)

我这里就讲讲我购买并搭建服务器的过程和这个过程让我疑惑的点和我最后解决的方案什么是阿里云一阿里云包括什么 xff1f 二什么是ESC服务器 xff1f 1 1 弹性计算1 1 1 弹性就是嘿嘿嘿 xff0c 你懂的1 1 2 计
kube-flannel.yaml

官网对kube flannel yml的解释 adds the cni version to the cni conf yaml inside the kube flannel cfg xff08 把cui版本加入kube flannel
linux服务器编程环境安装中的坑附加详细安装步骤(三)

编程环境九搜索优化ElasticSearch 十分布式Zookeeper离线下载解压文件结构自定义配置修改数据存放目录修改客户端端口号启动坑1坑2 十一消息队列RabbitMQKafka安装下载解压目录结构site docs目录b
自学uni-app （2）uni-app的导出模块(export default)和常用方法

跨平台框架uni app 导出模块1 datadata对象属性的数据类型数字字符串布尔类型json对象类型数组 1 2 methods 2 数据对象属性的引用2 1 显式引用2 2 隐式引用映射 xff08 map xff09 列表渲染
关于web.xml的详细解释，分层解析每一个标签(第二部分)

webapp配置文件之web xml web app下的welcome file listweb app下的filterfilter下的descriptionfilter下的display namefilter下的iconfilter下的f
C#代码修改设计原图psd、ai格式图层文字内容等导出bmp等，需要license 要高额付费放弃

Update text is supported only in licensed mode System ComponentModel LicenseException HResult 61 0x80131901 Message 61 U
Intellij IDEA 快捷开发技巧（天池大赛半决赛学习进程-2）

文章目录 Intellij IDEA什么是JVM语言 xff1f 代码补全模板常用快捷补全模板打印循环列表循环条件语句静态定义断点调试 Intellij IDEA intelliJ IDEA是用于JVM语言的集成开发环境 xff08 ID
关于windows10系统下没有选择双系统的界面直接进入windows10的解答

文章目录问题一问题二 xff1a 问题一 Windows10下安装debian10 但没有提前准备空闲磁盘 xff0c 在安装过程格式化了E盘安装安装完成后重启是Windows系统怎么才能进入debian系统答 xff1a 有三种设
Windows10 Xrdp远程桌面连接ubuntu 18.04

Windows10 Xrdp远程桌面连接ubuntu 18 04 xff0c 一步到位 xff01 00 前言01 环境02 安装步骤03 远程桌面连接 00 前言 modify 2020 08 3 我习惯在windows写代码 xff0c
常用的锂电池充电芯片

1 TP4056 UMW 友台半导体 TP4056是一款性能优异的单节锂离子电池恒流恒压线性充电器 TP4056采用ESOP8封装配合较少的外围原件使其非常适用于便携式产品 xff0c 并且适合给USB电源以及适配器电源供电基于特殊的内
学习 C/C++ 到底应该看哪些书或者视频？

Hello xff0c 大家好 xff0c 我是 Eg 初学 C C 43 43 xff0c 不知道该看哪些书籍 xff1f 学长说郝斌的视频好 xff0c 学姐又说谭浩强的书好 xff0c 大学老师却说把教材中的内容吃透就行那到底谁说的
Python 【爬虫3】_微信小程序_小游戏数据助手数据爬取

一背景介绍近期产生需求 xff0c 需要批量重复获取微信小程序数据助手的部分数据 xff0c 减少重复工作 xff0c 提高效率二环境准备主要逻辑 xff1a charles抓包 xff0c 分析 xff0c 爬取 xff0c 数