python多线程获取百度搜索(5.26更新)

2023-11-04

1.网站

输入搜索内容，获取搜索结果，进行保存

百度搜索

把内容整理后保存到mysql数据库，保存字段：
关键字、标题、真实网址、简介、原网站名称

2.爬取结果

mysql数据

3.编写爬虫

爬虫使用scrapy框架编写，分布式、多线程

编写Items

class BaiduSearchItem(scrapy.Item):
    # 关键词
    keyword = scrapy.Field()
    # 标题
    title = scrapy.Field()
    # 真实链接
    url = scrapy.Field()
    # 简介
    intro = scrapy.Field()
    # 网站名称
    site = scrapy.Field()

3.1添加管道

class BaiduSearchPipeline:

    def open_spider(self, spider):
        if spider.name == 'baidu_search':
            # 插入
            self.insert_sql = "INSERT INTO t_baidu_search(keyword,title,url,intro,site) values(%s,%s,%s,%s,%s)"

            pool = PooledDB(pymysql,
                            MYSQL['limit_count'],
                            host=MYSQL["host"],
                            user=MYSQL["username"],
                            passwd=MYSQL["password"],
                            db=MYSQL["database"],
                            port=MYSQL["port"],
                            charset=MYSQL["charset"],
                            use_unicode=True)
            self.conn = pool.connection()
            self.cursor = self.conn.cursor()

    def close_spider(self, spider):  # 在关闭一个spider的时候自动运行
        if spider.name == 'baidu_search':
            self.conn.close()
            self.cursor.close()

    def process_item(self, item, spider):
        try:
            if spider.name == 'baidu_search':
                self.cursor.execute(self.insert_sql,
                                    (item['keyword'], item['title'],
                                     item['url'], item['intro'], item['site']))
                self.conn.commit()
        except BaseException as e:
            print("baidu search错误在这里>>>>>>>>>>>>>", e, "<<<<<<<<<<<<<错误在这里")
        return item

3.2添加解析

def parse(self, res):

        html = res.text
        page = res.meta['page']
        keyword = res.meta['keyword']

        soup = BeautifulSoup(html, 'html.parser')

        temp_result_arr1 = soup.find_all(class_='result c-container new-pmd')
        temp_result_arr2 = soup.find_all(
            class_='result c-container xpath-log new-pmd')

        temp_result_list = temp_result_arr1 + temp_result_arr2

        item = BaiduSearchItem()

        for result in temp_result_list:
            title = result.find('a').text

            href = result.find('a')['href']
            real_url = tool.get_real_url(href)

            try:
                intro = result.find(class_='c-abstract').text
            except:
                try:
                    intro = result.find(class_='content-right_8Zs40').text
                except:
                    intro = ""
                    continue

            try:
                site = result.find(class_='c-showurl c-color-gray').text
            except:
                try:
                    site = result.find(class_='c-color-gray').text
                except:
                    site = ""

            if site in WHITE_LIST:
                print('白名单网站，不保存...', site)
                continue
            else:
                print('不在白名单中，继续...', site)

            item['keyword'] = keyword  # 关键词
            item['title'] = title  # 标题
            item['url'] = real_url  # 真实链接
            item['intro'] = intro.replace(' ', '')  # 简介
            item['site'] = site.replace(' ', '')  # 网站名称
            yield item

一次性把待爬关键词放到keywords.csv文件中，每个关键词放一行

4.源码

说明文档

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫js逆向

python

百度

开发语言

python多线程获取百度搜索(5.26更新) 的相关文章

用户警告：MovieWriter ffmpeg 不可用

尝试在 google colab 上制作动画收到此警告用户警告 MovieWriter ffmpeg 不可用 warnings warn MovieWriter s 不可用 writer did pip 安装 ffmpeg 标准化但没有
Python - Pandas - 将特定函数应用于给定级别 - 多索引数据帧

我有一个多索引 DataFrame 并且我希望仅对分配给我的级别之一的向量应用一些计算使用下面的代码 import pandas as pd import datetime ticker date US datetime date tod
为什么 Python zipfile 不提供与命令行 zip 相同的输出 .zip 文件大小？

这是生成的文件的大小zip seq 10000 gt 1 txt zip 1 1 txt adding 1 txt deflated 54 ls og 1 zip rw r r 1 22762 Aug 29 10 04 1 zip 这是一个
使用列中的日期范围扩展 pandas 数据框

我有一个 pandas 数据框其日期和字符串与此类似 Start End Note Item 2016 10 22 2016 11 05 Z A 2017 02 11 2017 02 25 W B 我需要将其扩展转换为以下内容在之间填
使用 Python pdb 检查未处理异常原因的最简单方法是什么？

我刚刚将所有单元测试数据从 JSON 转换为 YAML 现在代码中的某处引发了异常更具体地说这是打印的回溯 Traceback most recent call last File tests test addrtools py lin
每当我尝试在 VPS 上使用 Discord 机器人登录时，都会收到“SSL：Certificate_verify_failed”

我正在将我的机器人从旧的坏掉的笔记本电脑转移到合适的 VPS 我使用的是较旧的异步版本的 Discord py 0 16 0 因为我在重写之前很长时间就开始研究这个东西了而且我对 Linux 没有太多经验因此迁移到 Windows S
ValueError：无法将 DatetimeIndex 转换为 dtype datetime64[us]

我正在尝试为 S P 500 ETF 创建一个包含 30 分钟数据的 PostgreSQL 表 spy30new 用于测试新插入的数据来自具有 15 分钟数据的多个股票的表全部 15 个 all15 在 dt 时间戳和 instr 股
根据另一个非索引数组中的值从 numpy 数组中选择元素

假设我有以下两个数组 a array 1 L 74 423088306605 5 H 128 05441039929008 2 L 68 0581377353869 0 H 88 15726964130869 4 L 97 45015825
PyQt5 - 无法使用 QVideoWidget 播放视频

from PyQt5 QtWidgets import from PyQt5 QtMultimedia import from PyQt5 QtMultimediaWidgets import from PyQt5 QtCore impor
是否可以使用 csv.DictReader 保持列顺序？

例如我的 csv 有如下列 ID ID2 Date Job No Code 我需要以相同的顺序写回各列这dict立即打乱了顺序所以我相信这更多是读者的问题蟒蛇的dicts 在 3 6 之前不维持顺序但是无论如何在该版本中csv
Python：像石英一样的事件调度程序[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
python-messaging 无法处理 HTTP 请求

我正在使用下面的代码尝试使用 python messaging 发送彩信https github com pmarti python messaging blob master doc tutorial mms rst https gith
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539
Groupby Sum 忽略几列

在此数据框中我想按位置进行分组并获得分数的总和但我不希望纬度经度和年份在此过程中受到影响 sample pd DataFrame Location A B C A B C Year 2001 2002 2003 200
pyqt4窗口调整大小事件

我正在使用 python3 和 pyqt4 我希望每次运行时都会运行一些代码QMainWindow已调整大小我想要这样的东西 self window resized connect self resize but resized不是内置函
使用 selenium 和 firefox 保存图像

我正在尝试使用 selenium 服务器和 python 客户端从网站保存图像我知道图像的 URL 但我无法找到保存它的代码无论是当它是文档本身还是当它嵌入到当前浏览器会话中时到目前为止我找到的解决方法是保存页面的屏幕截图有两种硒方
如何将 MP3 音频文件读入 numpy 数组/将 numpy 数组保存到 MP3？

有没有办法从 MP3 音频文件中读取写入 MP3 音频文件numpy具有类似 API 的数组scipy io wavfile read https docs scipy org doc scipy 0 14 0 reference gen
从由空格分隔的单个输入整数列表创建二维数组

我正在解决一些问题geeksforgeeks我遇到了一个特定的问题其中在测试用例中提供了输入如下所示 2 2 denotes row column of the matrix 1 0 0 0 all the elements of th
使用 Python 3.x 基本获取 URL 的 HTML 正文

我是Python新手我对 Python 2 x 中的旧 urllib 和 urllib2 与 Python 3 中的新 urllib 之间的差异有点困惑除此之外我不确定数据在发送到 urlopen 之前何时需要编码我一直在尝试使用
Python google云函数部署失败-Madmom pip包

我正在尝试使用 madmom python pip 包部署 Python3 7 Google Cloud Function 但是指定madmom 0 16 1requirements txt 中的内容导致部署失败当我从requiremen

随机推荐

深入理解计算机系统——实验（二）Data Lab（附解释）

2020 4 18更新有朋友对下列第5个函数bang中我的分析提出了质疑隔了一年多我也不大记得了首先关于补码 Two s complement 给出wikipedia中的定义 Two s complement is a mathema
蓝桥题解（不定期更新）

597 跑步锻炼 import math if name main moth 0 31 28 31 30 31 30 31 31 30 31 30 31 day 6 ans 0 for year in range 2000 2021 if
【基于python实现UI自动化】5. selenium实现获取页面元素属性(内容、标题、URL、浏览器名称等)

python UI自动化 1 selenium工具介绍 2 selenium环境搭建 3 Selenium的元素定位 3 0 selenium常见8大元素定位 3 1 selenium通过By定位元素 3 2 selenium通过JS定位元
Connected to the target VM, address: ‘127.0.0.1:56150‘, transport: ‘socket‘

Connected to the target VM address 127 0 0 1 56150 transport socket Connected to the target VM address 127 0 0 1 56150 t
软件测试自学好还是培训好？软件测试自学与培训的优劣势对比

随着移动互联网行业的火爆软件测试行业成了香饽饽一大批想要学习软件测试的新手都经历过这样的迷茫期软件测试自学好还是报培训班好首先如果你对软件测试行业真的感兴趣从此工具为乐代码为生我觉的无论是自学还是培训你都可以在这个行业混得
详细介绍Glib 主事件循环轻度分析与编程应用

1 glib 事件循环概述 glib 是一个跨平台用 C 语言编写的若干底层库的集合编写案例最好能够结合 glib 源码方便随时查看相关函数定义 glib 实现了完整的事件循环分发机制有一个主循环负责处理各种事件事件通过事件源描述
Linux 系统安全如何设定 log 日志记录服务器

在网上越来越多的黑客的出现越来越多的高手出现的情况下如何才能确保自己可以保存一份完整的 log 呢稍微有点概念的黑客都知道进入系统后的第一见事情就是去清理 log 而发现入侵的最简单最直接的方法就是去看系统纪录文件现在我们来说说如
虚拟机防火墙

查看防火墙和开通端口查看防火状态 systemctl status firewalld service iptables status 暂时关闭防火墙 systemctl stop firewalld service iptables s
Ubuntu进入root用户模式

root 用户给予你完全控制系统的能力它可以做任何事以及使用系统的一切东西它可以在你的 Linux 系统上访问任何文件和运行任何命令因此它应该被谨慎地使用所以Ubuntu默认锁定root用户当我们想进行一些特殊任务时需要用到ro
Kotlin Flow 冷流和热流

本文主要分析了冷流和热流的相关实现原理原理逻辑长而复杂特别是涉及热流 SharedFlow 相关实现原理时逻辑更是抽象理解比较困难本文比较长建议根据目录选择分段阅读可以先看基础概念和冷流再分别看热流 SharedFlo
区块链学习笔记（四）——Proof of Work

区块链学习笔记四 Proof of Work 前言一 PoW是什么二要点 1 比特币的构成 2 PoW的优缺点三为什么是乌托邦式的共识前言我们常说的共享机制有Pow PoS DPoS 而区块链采用的是谁获胜谁获奖的原则即工
遥感+python 1.5 重投影

遥感 python 1 5 重投影目录遥感 python 1 5 重投影一重投影概念二代码实现 2 1 读取影像 2 2 输出影像 2 3 坐标转换本章节笔者主要讲述重投影的概念原理即代码实现一重投影概念当考虑两幅
selector xmlns:android=“http://schemas.android.com/apk/res/android
Windows10 下安装mmdetection 问题之“cannot import name ‘deform_conv_cuda‘”

最近在使用mmdetection工具箱官方只给出Linux系统下的安装方法自己尝试在Windows10下的安装其中遇到过一些问题在此记录下来希望给小伙伴一些帮助安装环境 VS2015 CUDA 9 0 Pytorch 1 1 t
centos系统ACFS-9459: ADVM/ACFS is not supported

centos6 3系统发现acfs和advm无法使用 ASMCA图形界面的acfs和volume选项卡为灰色这是由于acfs不支持centos系统导致的 Last login Thu Dec 14 09 33 10 2017 from 1
cuda Sample 功能分析(1-st 记) 0_Introduction 之 asyncAPI

源码链接 https github com NVIDIA cuda samples blob v11 8 Samples 0 Introduction asyncAPI asyncAPI cu 首先这个sample不是演示async co
C++：rand()函数和srand()函数解读

1 srand unsigned int t 这个是设定种子因为电脑取随机数是伪随机只要种子一样则取出来的数一定一样这里用time 0 这个内函数 copy则是返回了当前的时间值这个值是按照时间而变化的所以 srand unsi
java中实现多态的机制是什么_java多态机制是什么

java多态机制是什么 java中实现多态的机制是依靠父类或接口的引用指向子类从而实现了一个对象多种形态的特性其中父类的引用是在程序运行时动态的指向具体的实例调用该引用的方法时不是根据引用变量的类型中定义的方法来运行而是根据具体的
专治疑难系列 - 解决Ubuntu忘记root密码问题

博客主页 Passerby Wang的博客 CSDN博客系统运维云计算 Linux基础领域博主所属专栏专治疑难系列上期文章专治疑难系列解决win11中xbox开机自启问题如觉得博主文章写的不错或对你有所帮助的话还望大家多多
python多线程获取百度搜索(5.26更新)

1 网站输入搜索内容获取搜索结果进行保存把内容整理后保存到mysql数据库保存字段关键字标题真实网址简介原网站名称 2 爬取结果 3 编写爬虫爬虫使用scrapy框架编写分布式多线程编写Items class B