python爬取表情包

2023-11-01

效果图：

源代码（说明就在注释里）：

import os
import requests
from bs4 import BeautifulSoup

if not os.path.exists('./images/'):
    os.mkdir('./images/')

headers = {
    'User-Agent':
        'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'
}


def get(pos):
    url = f'https://fabiaoqing.com/biaoqing/lists/page/{pos}.html'
    response = requests.get(url, headers=headers).text

    '''
    lxml: html解析库,因为python和html两者没有关系
    python没有办法直接控制html代码
    我们就需要使用lxml这个库将html代码转成python对象
        需要大家去下载 pip install lxml
    '''
    soup = BeautifulSoup(response, 'lxml')
    img_list = soup.find_all('img', class_='ui image lazy')
    for img in img_list:
        img_url = img['data-original']
        img_title = img['title']
        print(img_url, img_title)
        try:
            with open('./images/' + img_title + os.path.splitext(img_url)[-1], 'wb') as f:
                '''
                因为一张图片是二进制数据
                    如果我们使用text文本形式返回
                    会对文件造成破坏
                    
                    使用content去返回原始数据
                    
                '''
                image = requests.get(img_url, headers=headers).content
                # 写入二进制数据 image这个变量是存储requests返回的二进制数据的
                f.write(image)
                print('保存成功:', img_title)
        except (PermissionError, IOError, Exception):
            pass


if __name__ == '__main__':
    a = int(input("几页？（1-280）"))
    if a > 280:
        raise Exception("YOU ARE A SB!!!!!!")
    for i in range(1, a + 1):
        get(i)
        print(f"已完成第{i}页")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

python爬取表情包的相关文章

使用 Python 编辑 RTF 文件

也许这是一个愚蠢的问题但我不明白所以道歉我有一个 RTF 文档我想更改它例如有一个表我想复制一行并以面向对象的方式更改代码中第二行中的文本我认为 pyparsing 应该是可行的方法但我摆弄了几个小时但没有明白我没有提供
为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
检查 python 中命令行参数的数量

我是蟒蛇新手还是把脚弄湿了我正在尝试做这样的事情 import sys if len sys argv lt 3 or lt len sys argv gt 3 print This script will compare two fi
如何在 Python 中的函数入口、内部和退出处进行日志记录

我希望能够使用 Python 日志记录工具在我的代码中进行简单且一致的日志记录我能够执行以下操作我希望所有现有未来的模块和函数都有输入和完成日志消息我不想添加相同的代码片段来定义日志记录参数如下所示don t want t
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
PIL.Image.open和tf.image.decode_jpeg返回值的区别

我使用 PIL Image open 和 tf image decode jpeg 将图像文件解析为数组但发现PIL Image open 中的像素值与tf image decode jpeg不一样为什么会出现这种情况 Thanks 代
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
pygame：使用 sprite.RenderPlain 绘制精灵组的顺序

我有一个精灵组需要按一定的顺序绘制以便其精灵按应有的方式重叠然而即使使用运算符模块函数 sorted self sprites key attrgetter y x 对组进行排序顺序也是错误的我该如何解决这个问题直截了当地说
如何在 Seaborn 中的热图轴上表达类

我使用 Seaborn 创建了一个非常简单的热图显示相似性方阵这是我使用的一行代码 sns heatmap sim mat linewidths 0 square True robust True sns plt show 这是我得到的
无法在 PyCharm 版本 9.3.3 中安装 NumPy。 Python版本3.8.2

在 PyCharm 中安装 NumPy 时出错尝试安装 Microsoft Visual C 14 0 还是行不通 NumPy 正在通过命令安装pip3 install numpy在 cmd 终端中但是当尝试将其安装在 PyCharm
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged

随机推荐

Linux进程控制编程实验_02

任务1 编写一个进程创建实验程序task51 c 创建如图所示的进程族亲结构其中p1是程序启动时由加载程序创建第一个进程各进程的输出信息分别如下 p1 I am father process p11 当前时间是 lt 年月日时分
Eclipse CDT c++支持C++11

最近要在Linux 环境下面写一些代码需要支持C 11 可是CDT 不认识C 11的特性看了很多网上的配置资料各种版本下面还是不一样 Eclipse 16 04 CDT 9 4 GCC 5 4 首先创建一个C project 写点C
mysql知识系列：用命令行远程登录Mysql

参考命令行登录Mysql 远程登录Mysql的方法总结 mysql uxxx pxxx hxxx xxx xxx xxx P3306 xxx 为替换的内容
Python 基础合集8：类的继承和多态

一前言本小节主要梳理类的继承和多态继承包含三种形式单继承多层继承多重继承环境说明 Python 3 6 windows11 64位二继承基础语法如下 class B A 表示的含义就是B 继承A A 是B 的父类 cla
把数据插入到数据库的两种方法

把表单中的数据插入到数据库中有两种方法 1 直接使用sql语句的优点速度快不耗资源缺点不能传递太长的字段内容字段比较多时不易排错推荐有经验的编程者优先考虑具体操作假设表单中有以下字段 username password s
阿里云免费试用服务器，怎么申请

免费试用也要分个人用户和企业用户个人用户选择比较少目前只有下面这个配置免费试用3个月企业用户有4款机型一参与对象满足以下全部条件的阿里云用户 1 阿里云注册会员用户可以联系我注册账号这样试用以后如果要新购也可以有优惠 2
微信小程序调用天气信息

在微信小程序中调用天气信息下面是示例代码 wx request url example php 仅为示例并非真实的接口地址 data x y header content type application json 默认值 succes
jdk和tomcat的关系

1 什么是jvm 我们从操作系统的层面来理解 jvm其实就是操作系统中的一个进程既然是一个进程那么我们很容易的可以通过任务管理器来查看假设此时我们启动myeclipse myeclipse其实就是用java语言编写的一个软件他的运行
Java定时任务调度工具详解之Quartz篇（中级）一：浅谈JobExecutionContext&JobDatai&浅谈Trigger

概要 OpenSymphony提供的强大的开源任务调度框架官网 http www quartz scheduler org 纯java实现精细控制排程特点强大的调度功能灵活的应用方式分布式和集群能力主要用到的设计模式 Buil
微信小程序+java后台+云服务器开发学习记录

仅作为个人学习记录 1 使用了iview辅助开发 2 开发后台时访问jsp和servlet突然404 检查以后发现8080端口被以前没清理干净的java程序占用了到任务管理器里把java exe干掉以后重启idea一切恢复正常困扰了我
100流明相当于多少w_lx和瓦数换算(1lx等于多少w)

你好别想太多了这个没得换算的所谓能换算的都是已知光效的灯就是每瓦多少流明的然后再通过受照面积换算希望对你有所帮助望采纳白炽灯的瓦数光照强度 10W 65lm 15W 101lm 25W 198lm 40W 340lm 60
身边那些百万年薪的程序员朋友

大家好我是寂小桦争取每周在这里给大家分享自己作为独立开发者经历以及身边程序员朋友的趣事百万年薪是个永远说不烂的话题就在最近的一年仿佛雨后春笋一般身边开始涌现出很多年薪百万的程序员朋友清一色集中在腾讯阿里京东头条这些公司其中一
数字电路的时钟（3）-- 抖动

引言抖动是时钟信号边沿事件的时间点集合相对于其理想值的离散时序变量时钟信号中的抖动通常是由系统中的噪声或其他干扰导致的具体因素包括热噪声电源变化负载条件器件噪声以及相邻电路耦合的干扰等抖动类型时钟信号抖动定义有多种主要是周
IDEA的Junit安装(添加jar包)

1 安装junit插件 1 打开IDEA 点击文件选择设置 setting 2 选择Plugins gt 点击Browse repositories 3 在搜索框中搜索Junit gt 找到Junit Generator V2 0点击 g
我所理解的设计模式（C++实现）——适配器模式（Adapter Pattern）

解决的问题适配器模式把一个类的接口变换成客户端所期待的另一种接口从而使原本接口不匹配而无法在一起工作的两个类能够在一起工作比如说我的hp笔记本美国产品人家美国的电压是110V的而我们中国的电压是220V 要在中国能使用必须找个
java内存管理（堆、栈、方法区）

java内存管理简介首先我们要了解我们为什么要学习java虚拟机的内存管理不是java的gc垃圾回收机制都帮我们释放了内存了吗但是在写程序的过程中却也往往因为不懂内存管理而造成了一些不容易察觉到的内存问题并且在内存问题出现的时候
Android Activity调用Dialog后的返回值方法

这个例子只是简单的返回一个String 而在实际需要时可能需要在DIalog或非Activity 如ListView中的Adapter 中做复杂的操作后返回值至主Activity 例如本人最近在做一个ListView中的Adapter包
软件工程知识体系

三个知识体系知识体系设计知识体系开发知识体系业务知识体系业务知识体系是指需要导入管理信息系统的客户所从事行业的业务知识软件实现的过程是从理解客户业务和相关知识开始的理解和掌握客户业务知识是理解客户需求和优化客户业务的基础个
使用vue+echarts绘制图表

五步绘制echarts图表目录五步绘制echarts图表第一步 main js中添加如下代码第二步 template中添加如下代码第三步 methods中写一个绘制折线图的函数第四步 mounted中调用函数第五步 css中添
python爬取表情包

效果图源代码说明就在注释里 import os import requests from bs4 import BeautifulSoup if not os path exists images os mkdir images hea

python爬取表情包

python爬取表情包 的相关文章

随机推荐

热门标签

python爬取表情包的相关文章