爬虫：你一定要知道的模板（附源码）

2023-11-13

爬虫：你一定要知道的模板（附源码）

作为一名cv程序员，梦想是造飞机，现实是拧螺丝

普通的爬虫，无非就是固定的模板

xpath，bs定位标签
axios返回数据，json解析
selenium

json解析版

import requests
import codecs,csv
import time
import random


headers={
 #防盗链
 'referer':'https://www.douyin.com/user/MS4wLjABAAAA27xpsfnWLkcy9tQJszZ5kXKtqrVyqtn6lrFDRmE1kJZ8tUom93dXxUK0pplVJnwQ?modal_id=7200628769755876648',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63',
#有的网站需要带cookie才能返回数据
    'cookie':''
}

# ip池
ip_list = [

{'HTTP': '116.9.163.205:58080'},
{'HTTP': '61.216.185.88:60808'},
{'HTTP': '182.34.102.50:9999'},
{'HTTP': '183.236.232.160:8080'},
{'HTTP': '117.94.124.21:9000'},
{'HTTP': '210.5.10.87:53281'},
{'HTTP': '121.13.252.58:41564'},
{'HTTP': '121.13.252.60:41564'},
{'HTTP': '117.114.149.66:55443'},
{'HTTP': '112.14.47.6:52024'}
]
# 随机获取ip
# ip = ip_list.pop(random.randint(0, len(ip_list) - 1))
ip=random.choice(ip_list)

def getPlayUrl():
    for i in range(0,1000):
        
        try: 
            print('正在爬取'+str(i)+'页')
            #请求url，一般只需要拼接url，即可获取多页
            url = ''
            res=requests.get(url,headers=headers,proxies=ip)
            # print(res.text)
            print(res)
            #json格式，直接提取
            data=res.json()['comments']
            # print(data)
            for item in data:
                comments={}
                comments['cid']=item['cid']
                create_time=item['create_time']
                comments['time']=time.strftime("%Y-%m-%d %H:%M",time.localtime(create_time))
                
                # comments['user']=item['user']['nickname']
                comments['comment']=item['text']
                yield comments
            time.sleep(1)
        except Exception as e:
            print(e)
            break

if __name__=='__main__':
	#保存数据
    f=codecs.open('抖音评论_1.csv','a+',encoding='utf-8-sig')
    filename=['cid','time','comment']
    writer=csv.DictWriter(f,filename)
    writer.writeheader()
    for i in getPlayUrl():
        print(i)
        writer.writerow(i)

    # getPlayUrl()

元素定位

BeautifulSoup

from bs4 import BeautifulSoup
import requests
import time
import codecs,csv

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36'
}

f=codecs.open('歌单_1.csv','w+', encoding='utf-8-sig')
filename=['歌单详情页地址','歌单标题','歌单播放量','歌单贡献者名字']
writer=csv.DictWriter(f,filename)
writer.writeheader()
j=0
for i in range(0, 656, 35):
    time.sleep(2)
    print('正在爬取'+str(j)+'页')
    
    url = 'https://music.163.com/discover/playlist/?&order=hot&limit=35&offset=' + str(i)
    response = requests.get(url=url, headers=headers)
    html = response.text
    soup = BeautifulSoup(html, 'html.parser')
    # 获取包含歌单详情页网址的标签
    ids = soup.select('.dec a')
    # 获取包含歌单索引页信息的标签
    lis = soup.select('#m-pl-container li')
    print(len(lis))

   

    for j in range(len(lis)):
        # 获取歌单详情页地址
        url = 'https://music.163.com'+ids[j]['href']
        # 获取歌单标题
        title = ids[j]['title']
        # 获取歌单播放量
        play = lis[j].select('.nb')[0].get_text()
        # 获取歌单贡献者名字
        user = lis[j].select('p')[1].select('a')[0].get_text()
        # 输出歌单索引页信息
        obj={'歌单详情页地址':url,'歌单标题':title,'歌单播放量':play,'歌单贡献者名字':user}
        print(obj)
        # 将信息写入CSV文件中
        writer.writerow(obj)

    j+=1

xpath

import requests
from lxml import etree
import json
import re
import pprint
import codecs,csv
import time
import random

headers={
    'referer':'https://www.mafengwo.cn/mdd/citylist/10183.html',
    'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/111.0.0.0 Safari/537.36 Edg/111.0.1661.44',
    'cookie':''
}
def getSpot():
    for i in range(0,16):
        try:
            print('爬取第' + str(i) + '页……')
            url='https://www.mafengwo.cn/mdd/base/list/pagedata_citylist'
            data={
                'mddid': '10183',
                'page': i
            }
            res=requests.post(url=url,headers=headers,data=data,proxies=ip)
            # print(res)
            # print(res.text)
            data=json.loads(res.text)
            text=data['list']
            html=etree.HTML(text)
            total=html.xpath("//li[@class='item ']")
            for item in total:
                info={}
                info['地址']=item.xpath(".//div[@class='title']/text()")[0]
                info['累计游玩人数']=item.xpath(".//div[@class='nums']/b/text()")[0]
                info['url']='https://www.mafengwo.cn/'+item.xpath('.//a/@href')[0]
                yield info
            time.sleep(2)
        except Exception as e:
            print(e)
            break

        

if __name__=="__main__":

    # ip池
    ip_list = [

        {'HTTP': '61.164.39.68:53281'},
        {'HTTP': '27.42.168.46:55481'},
        {'HTTP': '116.9.163.205:58080'},
        {'HTTP': '182.34.102.50:9999'},
        {'HTTP': '183.236.232.160:8080'},
        {'HTTP': '113.124.86.24:9999'},
        {'HTTP': '210.5.10.87:53281'}
    ]

    # 随机获取ip
    ip = ip_list.pop(random.randint(0, len(ip_list) - 1))
    f=open('日本旅游目的地.csv','a+',newline='',encoding='utf-8-sig')
    filename=['地址','累计游玩人数','url']
    writer=csv.DictWriter(f,filename)
    # writer.writeheader()
    for comment in getSpot():
        print(comment)
        writer.writerow(comment)

个人觉得xpath比较简单，用的比较上手

selenium版

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import csv
import pandas as pd
import time


data = pd.read_csv('zhiwu.csv')
names=data['name']
urls=data['link']

def add_options():
    print("—————————— options ——————————")
    # 创建谷歌浏览器驱动参数对象
    chrome_options = webdriver.ChromeOptions()
    # 不加载图片
    # prefs = {"profile.managed_default_content_settings.images": 2}
    # chrome_options.add_experimental_option("prefs", prefs)
    # 使用无界面浏览器模式！！
    chrome_options.add_argument('--headless')
    # 使用隐身模式（无痕模式）
    chrome_options.add_argument('--incognito')
    # 禁用GPU加速
    chrome_options.add_argument('--disable-gpu')
    return chrome_options

# 配置Selenium ChromeDriver
# service = Service('path/to/chromedriver')
# driver = webdriver.Chrome()

driver = webdriver.Chrome(options=add_options())
# 设置等待时间
wait = WebDriverWait(driver, 10)



# 循环爬取每一页的数据
for name,url in zip(names,urls):

    # 访问超链接并提取数据
    driver.get(url)
    # 提取评估信息、形态特征、地理分布等信息
    try:
        eval_info = driver.find_element(By.XPATH, '//*[@id="swx"]').text
    except:
        eval_info = ''
    try:
        morpho_feature = driver.find_element(By.XPATH, '//*[@id="tezheng"]').text
        # print(morpho_feature)
    except:
        morpho_feature = ''
    try:
        geo_distribution = driver.find_element(By.XPATH, '//*[@id="chandi"]').text
        # print(geo_distribution)
    except:
        geo_distribution = ''
    try:
        func_application = driver.find_element(By.XPATH, '//*[@id="gongneng"]').text
        # print(func_application)
    except:
        func_application = ''
    try:
        protection_value = driver.find_element(By.XPATH, '//*[@id="protvalue"]').text
        # print(protection_value)
    except:
        protection_value = ''
    try:
        protection_measure = driver.find_element(By.XPATH, '//*[@id="protway"]').text
        # print(protection_measure)
    except:
        protection_measure = ''
    try:
        cultivation_points = driver.find_element(By.XPATH, '//*[@id="growway"]').text
        # print(cultivation_points)
    except:
        cultivation_points = ''
    try:
        iframe = driver.find_element(By.XPATH, '//*[@id="Label1"]/iframe')
        driver.switch_to.frame(iframe)
        img_url = driver.find_element(By.XPATH, '//*[@id="pinfo"]/a').get_attribute('href')
        print(img_url)
    except:
        img_url = ''
    # 保存为csv文件，文件以表格的中文名列进行命名
    with open(f'{name}.csv', 'w', newline='', encoding='utf-8-sig') as csvfile:
        writer = csv.writer(csvfile)
        writer.writerow(['评估信息', '形态特征', '地理分布', '功能用途', '保护价值', '保护措施', '栽培要点','图片链接'])
        writer.writerow([eval_info, morpho_feature, geo_distribution, func_application,
                         protection_value,protection_measure, cultivation_points,img_url])
    time.sleep(1)


# 关闭浏览器
driver.quit()

新闻版+详情页

import requests
import codecs,csv
import time
import json
from lxml import etree
from pprint import pprint


headers={
 #防盗链
 'referer':'https://news.sina.com.cn/china/',
'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/110.0.0.0 Safari/537.36 Edg/110.0.1587.63',
}


def getInfo():
    for i in range(1,31):
        
        try: 
            print('正在爬取'+str(i)+'页')
            #请求url，一般只需要拼接url，即可获取多页
            url = 'https://feed.sina.com.cn/api/roll/get?pageid=121&lid=1356&num=20&versionNumber=1.2.4&page='+str(i)+'&encode=utf-8&callback=feedCardJsonpCallback'
            res=requests.get(url,headers=headers)
            # print(res.text)
            print(res)
            #json格式，直接提取
            
            text=res.text.split('try{feedCardJsonpCallback(')[1].split(');}catch(e){};')[0]
            # print(text)
            data=json.loads(text)
            # pprint(data)
        
            for item in data['result']['data']:
                info={}
                info['标题']=item['title']
                info['简介']=item['intro']
                create_time=int(item['ctime'])
                info['发布时间']=time.strftime("%Y-%m-%d %H:%M",time.localtime(create_time))
                info['主题']=item['keywords']
                try:     
                  info['评论数']=item['comment_total']
                except:
                    info['评论数']=''


                #爬取详情页
                d_url=item['url']

                res_1=requests.get(d_url,headers=headers)
                res_1.encoding='utf-8'   
                html=etree.HTML(res_1.text)
                info['详情']=html.xpath('//*[@id="article"]')[0].xpath('string(.)').replace('\n','').replace('\t','')
                yield info
            time.sleep(2)
        except Exception as e:
            print(e)
            break

if __name__=='__main__':
	#保存数据
    f=codecs.open('新浪新闻.csv','w+',encoding='utf-8-sig')
    filename=['标题','简介','发布时间','主题','评论数','详情']
    writer=csv.DictWriter(f,filename)
    writer.writeheader()
    for info in getInfo():
        print(info)
        writer.writerow(info)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫

python

开发语言

爬虫：你一定要知道的模板（附源码）的相关文章

goJS 下拉菜单删除项目

我有简单的 python Flask goJS 图形应用程序如下所示节点和链接文本的源是从应用程序的后端加载的我将它们设置为model modelData像这样的部分 var graphDataString JSON parse di
如何在Python中找到低精度浮点值的原始文本表示？

我遇到了显示问题floatPython 中的值从外部数据源加载它们是 32 位浮点数但这也适用于较低精度的浮点数以防万一这些值是由人类在 C C 中输入的因此与任意计算值不同与round数字很可能not预期的但不能被忽略
Flask - 如何从 JSON GET 请求获取参数

我有一个发出以下 GET 请求的客户端 api GET tasks 5fe7eabd 842e 40d2 849e 409655e0891d 22task 22 22hello 22 22url 22 22 tasks 5fe7eabd 8
如何从数据库模式自动生成示例 Django 应用程序？

我正在评估概念验证应用程序的框架该应用程序的生命周期约为 30 天之后它将被遗忘或完全重写我已确定要从现有数据库模式自动生成示例应用程序然后调整视觉设计的某些方面我看过一个演示红宝石 on Rails 它会为数据库中的每个表自动生
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
tkinter 上的“NoneType”对象没有属性“get”错误[重复]

这个问题在这里已经有答案了我最近开始使用 python 3 6 进行编码tkinter并尝试创建我自己的项目repl it 该项目是一个简单的交互式待办事项列表但是我陷入困境并且无法使该功能正常工作该函数只是简单地获取条目并将其添加到
Python绕相机轴旋转图像

假设我有一个图像是在对某些原始图像应用单应性变换 H 后获得的未显示原始图像将单应性 H 应用于原始图像的结果是该图像我想围绕合适的轴可能是相机所在的位置如果有的话将此图像旋转 30 度以获得此图像如果我不知道相机参数如何
为什么 np.linalg.norm(..., axis=1) 比写出向量范数公式慢？

标准化矩阵的行X对于单位长度我通常使用 X np linalg norm X axis 1 keepdims True 在尝试优化算法的此操作时我非常惊讶地发现在我的机器上写出标准化的速度大约快了 40 X np sqrt X 0 2
如何让 Discord 机器人显示“机器人正在输入...”状态？

所以如果我有一个像这样的长命令 bot command pass context True async def longCommand ctx typing status sleep 10 bot say Done 不幸的是在文档或此处没
在 Pyinstaller、语音识别和 Pyttsx3 中使用“-w”时，PySimpleGUI 中出现“OSError：[WinError 6] 句柄无效”

所以我用 PySimpleGUI 创建了一个程序然后用 Pyinstaller 从它创建了 exe 文件这是我的命令 pyinstaller hidden import pyttsx3 drivers hidden import pyt
UTF-8 解码如何知道字节边界？

我一直在阅读大量有关 unicode 编码的文章尤其是有关 Python 的文章我想我现在对此已经有了相当深入的了解但仍有一个小细节我有点不确定解码如何知道字节边界例如假设我有一个带有两个 unicode 字符的 unicode
Python 将 0 计算为 False

在 Python 控制台中 gt gt gt a 0 gt gt gt if a print L gt gt gt a 1 gt gt gt if a print L L gt gt gt a 2 gt gt gt if a print L
桨在移动时留下痕迹（Pygame Pong 游戏）[重复]

这个问题在这里已经有答案了我的游戏中的球拍有问题每次我试图移动它时桨都会留下一条痕迹我想这是因为我的代码没有删除旧位置的前一个桨如果是的话怎么删除之前的呢我应该使用blit Code import pygame sys ran
Tensorflow：Cuda 计算能力 3.0。所需的最低 Cuda 能力为 3.5

我正在从源安装tensorflow 文档 https www tensorflow org versions r0 10 get started os setup html installing from sources Cuda驱动版本
Python 的二进制字符串列表

我有一个像这样的二进制字符串 1100011101 我想将其解析为一个列表其中每个 1 或 0 块都是列表中的单独值例如 1100011101 变成 11 000 111 0 1 您可以通过使用正则表达式而不是从中获得一点次要性能g
Python 日志记录 - 如何检查记录器是否为空

我刚刚在我的应用程序中实现了日志记录我想知道是否有一种方法可以检查记录器是否为空我的想法是在我的脚本中设置两个处理程序一个用于带水平仪的控制台WARNING 一个用于带级别的文件DEBUG 在脚本的最后我需要检查是否CONSOLE记
使用字体模块的 Tkinter 代码无法从命令行运行？

我有使用 tkinter 的代码我可以从 IDLE 运行得很好但会引发异常AttributeError module object has no attribute font 当它从命令行运行时其他 tkinter 程序工作正常但任
Python 柯里化任意数量的变量

我正在尝试使用柯里化在 Python 中进行简单的函数添加我找到了这个咖喱装饰器here https gist github com JulienPalard 021f1c7332507d6a494b def curry func def
为什么变量不在循环外更新？

无法弄清楚为什么结果中的第一个键是 abc 而不是我期望的 c 我使用的是Python 3 6 4 数据结构很奇怪因为我删除了不相关的键和值 f replace ab r data abc 1 def 2 ghi 3 jkf 4 lmn
Python，质数检查器[重复]

这个问题在这里已经有答案了你好我正在创建一个函数来检查一个数字是否是素数但它告诉我 9 是一个素数 def eprimo num if num lt 2 return False if num 2 return True else f

随机推荐

How to be a under-graduate student

1 想法去搜集这种记载的文字所以研究生要学会去搜集资料或信息 2所以我们要看很多的资料看资料是我们研究生阶段特别重要的不要轻视了 3 现在培养研究生就是培养你们要勇于拓宽科技新领域到第一线去干4论文记载了一个研究课题的过程和结论
电容的频率特性曲线

电容的频率特性曲线电容电容 Capacitance 亦称作电容量是指在给定电位差下的电荷储藏量记为C 国际单位是法拉 F 一般来说电荷在电场中会受力而移动当导体之间有了介质则阻碍了电荷移动而使得电荷累积在导体上造成电荷的累
python-opencv计算重叠矩形面积IOU

import cv2 import numpy as np def calc riou r1 r2 r1 np array r1 r2 np array r2 rect1 r1 0 r1 1 r1 2 r1 3 r1 4 rect2 r2
Redis第二十四讲 Redis集群如何确保数据能被插入到同一个哈希槽与集群的哈希槽为什么是16384

为什么哈希槽是16384 Redis 集群并没有使用一致性hash 而是引入了哈希槽的概念 Redis 集群有16384个哈希槽每个key通过CRC16校验后对16384取模来决定放置哪个槽集群的每个节点负责一部分hash槽但为什么哈
25_Vue3路由-VueRouter的基本使用及动态路由和路由嵌套

Vue3路由之Vue router的基本使用及路由嵌套和动态路由认识前端路由路由其实是网络工程中的一个术语在架构一个网络时非常重要的两个设备就是路由器和交换机当然目前在我们生活中路由器也是越来越被大家所熟知因为我们生活中都会用
代理模式与装饰模式的区别干货

装饰器模式关注于在一个对象上动态的添加方法然而代理模式关注于控制对对象的访问换句话说用代理模式代理类 proxy class 可以对它的客户隐藏一个对象的具体信息因此当使用代理模式的时候我们常常在一个代理类中创建一个对象的实
关于机器学习中查准率与查全率（召回率）矛盾关系的探讨

昨天和舍友讨论查准率和查全率很多资料中指出之所以需要F1值的原因在于准确率与召回率的关系是矛盾的即查准率高的查全率低查全率高的查准率低因此需要F1值综合度量但关于为什么两者的关系是矛盾的一直不太理解现在看过帖子后总结一些想法
ERROR: The install method you used for conda--probably either `pip install conda` or `e

TOCERROR The install method you used for conda probably either pip install conda or easy install conda is not compatible
MySQL安装（全网最全最详细教程）

目录 1 MySQL的卸载 1 1 停止MySQL服务 1 2 软件的卸载 2 MySQL的下载安装配置 2 1 MySQL的4大版本 2 2 软件的下载 2 3 软件的安装 2 4 软件的配置 3 多版本mysql同时安装 4 安装过
西门子PLC全系列模块接线

https www siemensplc com biancheng 10649 html
最燃黑客情报官薛锋：端起AK伏特加，代表人民把坏人抓

文史中一情报专家从未凋零真相并不总是像女神一样遥不可及在二战最为焦灼的时候盟军迫切地想知道一件事情德国人究竟有多少坦克于是他们派出间谍破译电报对德国俘虏刑讯逼供得出的结论是德国每个月可以生产1000多辆坦克可是好像哪
用echo输出多个空行

大家用shell编程用echo输出空行的时候通常想到就是用N个echo 如下输出三个空行 echo echo echo 虽然内心里还是觉得如上写法有些丑陋其实 echo是还有更多用法的这在手册里面是有说明的通过查看手册我们可以知
深度学习系列资料总结

作者简介 CSDN 阿里云人工智能领域博客专家新星计划计算机视觉导师百度飞桨PPDE 专注大数据与AI知识分享公众号 GoAI的学习小屋免费分享书籍简历导图等更有交流群分享宝藏资料关注公众号回复加群或链接加群专栏推
opencv学习笔记

include quickdemo h include shuzu h include
Flask数据库

文章目录一 ORM 1 1 什么是ORM 1 2 ORM的优缺点有哪些 1 3 Flask SQLAlchemy安装及设置 1 4 其他配置信息 1 5 常用的SQLAlchemy字段类型 1 6常用的SQLAlchemy列选项常用的S
java docker nacos 9848端口报错

问题 9848报错新版本部署 Nacos2 0版本相比1 X新增了gRPC的通信方式因此需要增加2个端口新增端口是在配置的主端口 server port 基础上进行一定偏移量自动生成端口与主端口的偏移量描述 9848 1000
【PTA】矩阵列平移

给定一个 n n 的整数矩阵对任一给定的正整数 k
python安装及配置

1 python的下载及安装 1 1下载从官网下载 https www python org 如图点击downloads按钮在下拉框中选择系统类型 windows Mac OS Linux等选然后择下载最新版本的Python 1 2
JavaArrayList集合基础&学生管理系统

1 ArrayList 集合和数组的区别共同点都是存储数据的容器不同点数组的容量是固定的集合的容量是可变的 1 1 ArrayList的构造方法和添加方法 public ArrayList 创建一个空的集合对象 public bo
爬虫：你一定要知道的模板（附源码）

爬虫你一定要知道的模板附源码作为一名cv程序员梦想是造飞机现实是拧螺丝普通的爬虫无非就是固定的模板 xpath bs定位标签 axios返回数据 json解析 selenium json解析版 import requests

爬虫：你一定要知道的模板（附源码）

爬虫：你一定要知道的模板（附源码）

json解析版

元素定位

BeautifulSoup

xpath

selenium版

新闻版+详情页

爬虫：你一定要知道的模板（附源码） 的相关文章

随机推荐

热门标签

爬虫：你一定要知道的模板（附源码）的相关文章