python3 scrapy爬取微信公众号及历史信息V1.0

2023-11-11

妹子图.png

环境：

python3 scrapy

目的

写这篇文章主要是做一下纪念，毕竟是搞了快两天的东西了，今天加大了量，使用scrapy爬取100多个微信公众号，然后出现IP被封的情况下，当然了，这种情况并不是没有办法解决，只需要在scrapy中进行设置一下就可以了，主要是在本地进行调试，然后IP代理池那一块暂时找不到好的质量高的IP，只是爬取了各大网站的免费IP，并没有很好的解决效果，这个版本只要在IP中稍微进行下设置调整，可以不愧为一个很好的爬取微信公众号历史消息的一个小案例。

爬取步骤

找到公众号
获取历史消息
获取详情页内容

还有第4步：

将详情页内容解析出来，图片，文字都单独拎出来，现在暂时不做处理，因为这一块有些麻烦的。逻辑整体就是这样。

python代码

这里是spider的代码，其他的就不用贴出来了：

spiders/WeChatSogou.py

# -*- coding: utf-8 -*-
# @Time    : 2018/2/25 14:24
# @Author  : 蛇崽
# @Email   : 643435675@QQ.com
# @File    : WeChatSogou.py（微信公众号爬虫：不包含浏览量跟评论）
import scrapy
import re
import time
import json
import requests
from fake_useragent import UserAgent
from scrapy import Request
from scrapy_redis.spiders import RedisSpider
from News_scrapy.items import NewsItem
from News_scrapy.constants.WeChatSource import WXSource

class WeChatSogouSpider(scrapy.Spider):
    name = "WeChat"
    allowed_domains = ["weixin.sogou.com",'mp.weixin.qq.com']
    start_urls = ['http://weixin.sogou.com/']

    def parse(self, response):

        wx_source = WXSource.get_dict()
        for v_wx_source in wx_source:
            print('wx_source ===',v_wx_source)
            try:
                type = v_wx_source.split('-')[0]
                channel = v_wx_source.split('-')[1]
                print("正在抓取:", type, channel)
                v_main_url = 'http://weixin.sogou.com/weixin?type=1&s_from=input&query={}'.format(channel)
                print('v_main_url',v_main_url)
                yield scrapy.Request(url=str(v_main_url),callback=self.parse_main_link,meta={'type':type})
            except:
                continue
                print('wx_source error ===', v_wx_source)


    def parse_main_link(self,response):
        print('parse_main_link ====  ',response.body)
        target_url = response.xpath("//*['txt-box']/p[@class='tit']/a/@href").extract_first()
        print('===== start =====')
        print('target_url',target_url)
        print('==== end =====')
        if target_url:
            yield scrapy.Request(url=target_url,callback=self.parse_list_gzhao)


    def parse_list_gzhao(self,response):
        print('resonse:  ',response)
        req_text = response.text

        reg_content_url = r'"content_url":"(.*?)",'
        m_infos = re.findall(reg_content_url, req_text, re.S)
        print(len(m_infos))
        for v_info in m_infos:
            v_info = 'https://mp.weixin.qq.com' + re.sub('&amp;', '&', v_info)
            print(v_info)
            yield scrapy.Request(url=v_info,callback=self.parse_detail)

    def parse_detail(self, response):
        print('parse_detail ===== ',response.text)

注意事项：
1 allowed_domains = ["weixin.sogou.com",'mp.weixin.qq.com'] 

2  reg_content_url = r'"content_url":"(.*?)",'
 这里通过正则方式获取每个详情页链接的url，因为原文用的js动态加载的，

下面这是注意事项2的截图：

很蛋疼吧，哈哈，哎。

放上自己小小的学习交流群吧
[Python自学交流群(702689263)](https://jq.qq.com/?_wv=1027&k=5b7RSfo
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3 scrapy爬取微信公众号及历史信息V1.0 的相关文章

如何将多个参数传递给 Scrapy 蜘蛛（不再支持使用多个蜘蛛运行“scrapy scrapy”时出现错误）？

我想将多个用户定义的参数传递给我的 scrapy spider 所以我尝试遵循这篇文章如何在 scrapy 蜘蛛中传递用户定义的参数 https stackoverflow com questions 15611605 how to pa
如何在scrapy中发出请求之前更改请求url？

我需要在下载响应之前修改我的请求网址但我无法改变它即使使用修改请求网址后request replace url new url the process response打印未修改的 url 这是中间件的代码 def process re
无法从 Scrapy 脚本访问 request.response.meta['redirect_urls']

我无法访问request response meta redirect urls 来自我的 Scrapy 脚本但在 Scrapy shell 中访问同一网页的此信息没有问题当我打印钥匙时request response meta我只看到
Scrapy蜘蛛抓取页面和抓取项目之间的区别

我正在编写一个 Scrapy CrawlSpider 它读取第一页上的 AD 列表获取一些信息例如列表和 AD url 的缩略图然后向每个 AD url 发出请求以获取其详细信息它在测试环境中工作和分页显然很好但今天试图进行完整的
尝试伪造和轮换用户代理

我正在尝试伪造用户代理并在 Python 中轮换它们我在网上找到了一个关于如何使用 Scrapy 执行此操作的教程scrapy 用户代理 https github com svetlyak40wt scrapy useragents包裹
好斗的。开始爬行后如何更改蜘蛛设置？

我无法更改解析方法中的蜘蛛设置但这绝对是一个办法例如 class SomeSpider BaseSpider name mySpider allowed domains example com start urls http examp
使用 selenium 登录 stackoverflow 可以正常工作，但使用 scrapy python 则不行。如何使用无头浏览登录？

我一直在尝试自动登录 stackoverflow 来学习网络抓取首先我尝试了 scrapy 但使用下面的代码我并没有那么幸运 import scrapy from scrapy utils response import open in
使用scrapy到json文件只得到一行输出

好吧我对一般编程很陌生并且具体使用 Scrapy 来实现此目的我编写了一个爬虫来从 pinterest com 上的 pin 获取数据问题是我以前从我正在抓取的页面上的所有引脚获取数据但现在我只获取第一个引脚的数据我认为问题出在
在同一进程中多次运行Scrapy

我有一个网址列表我想抓取其中的每一个请注意将此数组添加为start urls不是我正在寻找的行为我希望它在单独的爬网会话中一一运行我想在同一个进程中多次运行Scrapy 我想将 Scrapy 作为脚本运行如常见做法 https
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
如何从网站中抓取动态内容？

所以我使用 scrapy 从亚马逊图书部分抓取数据但不知何故我知道它有一些动态数据我想知道如何从网站中提取动态数据到目前为止我已经尝试过以下方法 import scrapy from items import AmazonsItem
访问 Scrapy 内的 django 模型

是否可以在 Scrapy 管道内访问我的 django 模型以便我可以将抓取的数据直接保存到我的模型中我见过this https scrapy readthedocs org en latest topics djangoitem ht
Scrapy FakeUserAgentError：获取浏览器时发生错误

我使用 Scrapy FakeUserAgent 并在我的 Linux 服务器上不断收到此错误 Traceback most recent call last File usr local lib64 python2 7 site pack
Scrapy：AttributeError：“列表”对象没有属性“iteritems”

这是我关于堆栈溢出的第一个问题最近想用linkedin 刮刀 https github com junks linkedInScraper 所以我下载并指示 scrapycrawl linkedin com 并收到以下错误消息供您参考
即使收到 200 状态代码也重试 Scrapy 请求

我正在抓取一个网站有时会返回 200 但在 response body 中没有任何文本当我尝试使用 Selector 解析它时会引发 AttributeError 是否有一种简单的方法来检查以确保正文包含文本如果没有则重试请求直到
运行Scrapy的Django自定义管理命令：如何包含Scrapy的选项？

我希望能够运行Scrapy网络爬虫框架 http scrapy org 来自 Django 内部 Scrapy本身只提供了一个命令行工具scrapy执行其命令即该工具不是故意编写为从外部程序调用的用户米哈伊尔科罗博夫 https st
如何更改 scrapy view 命令使用的浏览器？

如何更改 scrapy shell 中 view response 命令使用的浏览器我的机器上默认使用 safari 但我希望它使用 chrome 因为 chrome 中的开发工具更好 As eLRuLL https stackoverf
如何添加剧作家的等待时间

我正在将 scrapy 与 playwright 集成但发现自己在单击后添加计时器时遇到困难因此当我点击后截取页面的屏幕截图时它仍然挂在登录页面上如何集成计时器以便页面等待几秒钟直到页面加载选择器 onetrust close
避免由于相对 URL 导致的错误请求

我正在尝试使用Scrapy抓取一个网站并且我想要抓取的每个页面的url都是使用这种相对路径编写的 a href en item to scrap html Link a 现在在我的浏览器中这些链接可以工作您可以访问类似的网址http
scrapy-如何停止重定向（302）

我正在尝试使用 Scrapy 抓取 url 但它会将我重定向到不存在的页面 Redirecting 302 to

随机推荐

maven 报错 Failed to execute goal on project ...: Could not resolve dependencies for project ...

网上看了很多博客都是说在根工程那里clean install一下就可以了根本原因还是要看Could not resolve dependencies for project 我这边是common工程打包的时候打成了war包其他工程都是
最全IO流解析——IO流的骚操作

Java中是通过流的方式对数据进行操作用于操作流的类都在IO包中 IO流用来处理设备之间的数据传输 IO流按照流向分为输入流和输出流按照操作的数据分为字节流和字符流字节流可以操作任何数据因为在计算机中任何数据都是以字节的形式存储的
Centos7的iso everything与DVD以及Live的区别

DVD ISO 可以用安装程序安装的所有安装包推荐镜像 Netinstall iso 从网络安装或者救援系统 Everything iso 包含centos7的一套完整的软件包可以用来安装系统或者本地镜像 GnomeLive iso G
Mac下github的基本使用（有详细过程）

一 github准备 1 注册github账号 https github com 按照提示进行注册 2 查看git版本由于macOS默认安装了git 在终端输入 git v 3 设置username和email username随便输入一
如何防止uniswap和pancakeswap夹子机器人

被机器人夹是通俗说法实际就是 front running 抢先提前交易具体就是机器人在链上嗅探到你有买入行为的时候他立刻买 gas给的比你高快你一步确认这样你成交价就高了因为交易所有滑点所以你依旧会以高一点的价格成交并且再将价
区块链简单实现之p2p网络多节点同步

区块链简单实现之p2p网络多节点同步将区块保存为json文件节点不确定性区块里保存节点信息并未向所有节点广播简单模拟广播的代码实现效果完整的代码承接上文区块链的简单实现我们已经实现了一个简单的区块链数据结构现状区
wasm + ffmpeg实现前端截取视频帧功能

有没有那么一种可能在前端页面处理音视频例如用户选择一个视频然后支持他设置视频的任意一帧作为封面就不用把整一个视频上传到后端处理了经过笔者的一番摸索基本实现了这个功能一个完整的demo ffmpeg wasm截取视频帧功能支持
paddle-pytorch API对应表

PyTorch API名称对应Paddle API torch set default dtype paddle set default dtype torch get default dtype paddle get default d
linux下mysql-connector-c++连接远程服务器失败

最近在将windows项目移植到linux下碰到诸多问题先谈mysql connector c 连接远程服务器失败问题在windows下 sql Driver driver sql mysql get driver instance
因果推理相关的图神经网络研究

本文介绍两篇因果推理相关的图神经网络研究工作一 OOD推荐系统下的因果表征学习本文介绍了什么是推荐系统中的Out of Distribution OOD 问题并从因果的角度提出了一种解决OOD问题的表示学习方式文章链接 https
关于xinput1_3.dll丢失的详细解决方法

xinput1 3 dll是电脑文件中的dll文件动态链接库文件如果计算机中丢失了某个dll文件可能会导致某些软件和游戏等程序无法正常启动运行并且导致电脑系统弹窗报错在我们打开软件或者游戏的时候电脑提示xinput1 3 dll
Windows10下安装Linux子系统

Windows10下安装Linux子系统版本说明版本作者日期备注 0 1 ZY 2019 7 9 初稿目录文章目录 Windows10下安装Linux子系统版本说明目录一初衷二资料收集三官方安装说明 1 准备
5.0结构型模式—概述

结构型模式描述如何将类或对象按某种布局组成更大的结构它分为类结构型模式和对象结构型模式前者采用继承机制来组织接口和类后者釆用组合或聚合来组合对象由于组合关系或聚合关系比继承关系耦合度低满足合成复用原则所以对象结构型模式比类结构
国庆假期将至，拓世AI智能规划行程，让您轻松游遍全球热门景点！

卡夫卡曾说人不是活几年几月几天几小时而只活几个瞬间亲赴一场与美景的邂逅便是去找寻人生里的瞬间之美转眼已是九月正是人间好时节挥别工作和生活的烦闷奔向辽阔的天地中即将到来的国庆长假你需要来一场说走就走的旅行将所有烦恼
动态数据源配置druid+mybatis

本方案不限数据库数量完全动态配置支持不同的数据库部署在不同的服务器上 mybatis plus没测试下个版本用oracle配的时候尝试plus 一这次我们使用Mysql 本地现在有两个个数据库用于测试如图二下一步我们看一下Dru
LintCode入门题目

37 反转一个3位整数反转一个只有3位数的整数样例样例 1 输入 number 123 输出 321 样例 2 输入 number 900 输出 9 注意事项你可以假设输入一定是一个只有三位数的整数这个整数大于等于100 小于10
表空间的操作

1 创建表空间 create tablespace tablespace name datafile filepath size filesize autoextend on next autosize maxsize filemaxsiz
rule34服务器不稳定,rule34网站

rule34网站内容精选换一换网站后台数据录入完成后您需要为您的网站设置便于客户浏览和操作的前台显示界面本章节主要通过已安装的网站模板指导您完成PC版手机版网页的制作以及网站数据的备份已完成网站后台的设置并且成功绑定域名
用PyCharm打开已有代码

一代码的打开 1 在当前环境打开新的项目 2 点open 打开文件存放的位置 3 trust Project 4 this window or new window 一般选this window 5 解决代码中的问题 1 一定要解决 2
python3 scrapy爬取微信公众号及历史信息V1.0

环境 python3 scrapy 目的写这篇文章主要是做一下纪念毕竟是搞了快两天的东西了今天加大了量使用scrapy爬取100多个微信公众号然后出现IP被封的情况下当然了这种情况并不是没有办法解决只需要在scrapy中进行

python3 scrapy爬取微信公众号及历史信息V1.0

环境：

目的

爬取步骤

python代码

python3 scrapy爬取微信公众号及历史信息V1.0 的相关文章

随机推荐

热门标签