爬虫入门级（五）

2023-11-15

Python爬虫入门级（五）

实现两个小案例：
1> 爬取豆瓣电影的TOP250
2> 爬取电影的资源下载地址

爬取豆瓣电影的TOP250

1、分页爬取数据
2、csv数据加载到本地

####抓取豆瓣电影排行

#1、判断页面元代满是否有数据
#2、有数据之后通过re获取页面源代码，通过正则获取到我们需要的数据

import requests,re,csv

f = open("C:\\Users\\Desktop\\tmp\\data.csv",mode="w")
csvw = csv.writer(f)

# https://movie.douban.com/top250?start=25&filter=
for n in ['0','25','50','75','100']:

    url = "https://movie.douban.com/top250?start="+n+"&filter="
    ##反扒策略之一
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"
    }
    resq = requests.get(url,headers=headers)
    page_content = resq.text

    #解析数据
    obj = re.compile(r'<li>.*?<div class="item">.*? <span class="title">(?P<name>.*?)'
                    r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'
                    r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
                    r'<span>(?P<num>.*?)</span>',re.S)
 

    #开始匹配
    result = obj.finditer(page_content)
    for i in result :
        # print(i.group("name"))
        # print(i.group("score"))
        # print(i.group("num"))
        # print(i.group("year").strip() )
        dic = i.groupdict()
        dic['year'] = dic['year'].strip()
        print(dic.values())
        csvw.writerow(dic.values())

##关闭访问
resq.close()

爬取电影的资源下载地址

1、跳转子链接爬取数据
2、使用Dataframe 查看数据，并加载到本地

#### 电影天堂
##  1、定位到2021必看片
##  2、从必看片找到连接
##  3、请求子页面的连接地址，并获取下载地址
import requests,re
#创建指定列的Dataframe
df = pd.DataFrame(columns=('mov_name', 'load_url'))

url = "https://dytt89.com/"
resq = requests.get(url,verify=False)
resq.encoding = "gb2312" ## 从页面源代码中获取页面编码格式
## 正则表达式
obj1 = re.compile(r"2021必看热片.*<ul>(?P<ul>.*?)</ul>",re.S)  ##匹配必看电影表达式
obj2 = re.compile(r"<a href='(?P<href>.*?)'",re.S)  ##匹配子链接表达式
obj3 = re.compile(r'◎片　　名(?P<mov_name>.*?)<br />.*?<td '
                  r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<load_url>.*?)">',re.S)  ##电影详细信息内容
##拿出数据
result1 = obj1.finditer(resq.text)
##创建数组，用作存储子链接
child_href_list = []
for i in result1:
    ul = i.group('ul')
    ###提取子链接
    result2 = obj2.finditer(ul)
    for j in result2:
        # 拼接处完整地址
        print(url.strip("/") + j.group('href'))
        child_href_list.append(url.strip("/") + j.group('href'))

##提取子链接
for child_href in child_href_list:
    child_resq = requests.get(child_href,verify=False)
    child_resq.encoding = "gb2312"
    result3 = obj3.finditer(child_resq.text)
    for a in result3:
        # print(a.group('mov_name')+"\t"+a.group('load_url'))
        df = df.append([{'mov_name':a.group('mov_name'),'load_url':a.group('load_url')}], ignore_index=True)

##关闭访问
resq.close()
df.to_csv("C:\\Users\\Desktop\\tmp\\movie_load_url.csv")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

爬虫

数据分析

爬虫入门级（五）的相关文章

使用 python requests 模块时出现 HTTP 503 错误

我正在尝试发出 HTTP 请求但当前可以从 Firefox 浏览器访问的网站响应 503 错误代码本身非常简单在网上搜索一番后我添加了user Agent请求参数但也没有帮助有人能解释一下如何消除这个 503 错误吗顺便说一句
Django 的内联管理：一个“预填充”字段

我正在开发我的第一个 Django 项目我希望用户能够在管理中创建自定义表单并向其中添加字段当他或她需要它们时为此我在我的项目中添加了一个可重用的应用程序可在 github 上找到 https github com stephen
如何用python脚本控制TP LINK路由器

我想知道是否有一个工具可以让我连接到路由器并关闭它然后从 python 脚本重新启动它我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器但是
Python 中的舍入浮点问题

我遇到了 np round np around 的问题它没有正确舍入我无法包含代码因为当我手动设置值而不是使用我的数据时返回有效但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
使用 Python 从文本中删除非英语单词

我正在 python 上进行数据清理练习我正在清理的文本包含我想删除的意大利语单词我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作例如给出一些文本 Io andiamo to the beach w
Pandas 日期时间格式

是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

我是 Emacs 新手我正在尝试设置我的 python 环境到目前为止我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中显然使用了什么
使用 xlrd 打开 BytesIO (xlsx)

我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格使用 xlrd 应该可以但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置本例中的起点是一个带有上传输入和提交按钮的网页提交后文件被捕获req
为什么 PyYAML 花费这么多时间来解析 YAML 文件？

我正在解析一个大约 6500 行的 YAML 文件格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
如何通过 TLS 1.2 运行 django runserver

我正在本地 Mac OS X 机器上测试 Stripe 订单我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集？

我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络并使用反向传播算法将它们训练为监督数据集然而我对优化算法以及任务学习代理和环境的概念感到困惑例如我将如何实现一个神经网络例如 1 以使用 pybrain 遗传算法
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
pip 列出活动 virtualenv 中的全局包

将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装系统软件包的列表而不是我的 virtualenv 中安装的软件包的列表我尝试再次降级到 1 4 但这并不能解决我的问题这有点类似于这个问题 http
仅第一个加载的 Django 站点有效

我最近向 stackoverflow 提交了一个问题标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
如何断言 Unittest 上的可迭代对象不为空？

向服务提交查询后我会收到一本字典或一个列表我想确保它不为空我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例现有的替代方案看起来并不正确 self assertTrue
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
在 JavaScript 函数的 Django 模板中转义字符串参数

我有一个 JavaScript 函数它返回一组对象 return Func id name 例如我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事有什么解

随机推荐

外置存储权限在哪打开_安卓手机外置sd卡权限怎么打开

展开全部在2 x的版本中在manifest中配置的权限e68a843231313335323631343130323136353331333365643662android permission WRITE EXTERNAL STORA
bug: TypeError: Invalid attempt to spread non-iterable instance

报错信息分析此类报错多为扩展运算符报错问题代码解决方式
Win11系统pin码忘记了怎么办？Win11忘记pin码解决方法

Win11系统pin码忘记了怎么办如果我们忘记了这个密码那么就会导致无法进入到系统来使用电脑了这个问题还是比较让人着急的特别是需要开机进行电脑急用的用户那么我们怎么去解决这个问题接下来一起看看Win11忘记pin码解决方法 Wi
Windows时间戳的计算

一实验目的掌握Windows中FileTime时间戳的手工解析方法利用WinHex或X Ways等十六进制编辑器进行手工取证把Windows中 MFT文件里记载的十六进制时间转化为年月日时分秒的可读时间加深对于时间戳的理解二
日本核污水今日入海，这帮黑客怒了！

自2011年东日本大地震以来日本谋划已久的福岛核电站核污水排海计划已于8月24日下午起正式施行预计排污周期长达30年整个海洋及其生物都有可能遭受难不可逆的毁灭性打击据现场媒体报道经过17分钟的流淌核污染水经由1公里的海底隧道流进
Web框架中的ORM框架

Web框架中的ORM框架在 Python 实现的 Web 框架中通过 API 接口来访问后端的视图函数视图函数对数据库中的数据进行处理然后返回给前端在这个过程中视图函数不是直接通过 SQL 来操作数据库而是通过模型类的对象属性或
C语言练习题(15) 有如下代码，则 *(p[0]+1) 所代表的数组元素是（）（非常详细的讲解）

1 有如下代码则 p 0 1 所代表的数组元素是 int a 3 2 1 2 3 4 5 6 p 3 p 0 a 1 A a 0 1 B a 1 0 C a 1 1 D a 1 2 解析 C a 3 2 1 2 3 4 5 6 p 0 代
Ubuntu 16.04 gcc降级为4.8版本

1 下载gcc g 4 8 sudo apt get install y gcc 4 8 sudo apt get install y g 4 8 2 链接gcc g 实现降级 cd usr bin sudo rm gcc sudo ln
【算法与数据结构】236、LeetCode二叉树的最近公共祖先

文章目录一题目二解法三完整代码所有的LeetCode题解索引可以看这篇文章算法和数据结构 LeetCode题解一题目二解法思路分析根据定义最近祖先节点需要遍历节点的左右子树然后才能知道是否为最近祖先节点那
localhost 已拒绝连接。

Tomcat的localhost 8080拒绝访问直接在tomcat的bin目录下双击startup bat 启动就好了再访问localhost 8080就可以出来了
坑爹公司大盘点 --- 转自拉钩

那些年我们满怀憧憬迈入社会却遭遇了理想与现实的碰撞一起看看网上盘点的坑爹公司吧遇到这样的公司真的是醉了 gt 转自拉钩 1 头衔公司从入职第一天就封你为大中华区销售总监或者全球发行战略副总裁全国市场委员会主席然后没有手下没
如何有效保证Java代码单元测试覆盖率

背景介绍我们在实际项目开发过程中不同level的童鞋由于专业技能的层次不同导致在参与实际开发的业务代码中经常会出现各种bug 项目管理中好的pm或许会给充足的时间来让开发童鞋们定位修复这些bug 也有各种客观原因的PM不会在项目中预留
Spring Boot使用方法

Spring Boot 七步走 1 勾选包 Spring Boot是自带TomCat的创建Spring Boot工程文件创建时需要更改资源下载地址我选择阿里云的这个地址而且Spring Boot不需要导包只需要勾选需要的包进入后
深度学习基础：SVD奇异值分解及其意义【转】

排版较好的一版 http shartoo github io SVD decomponent 上面的补充奇异值的物理意义是什么 https www zhihu com question 22237507 answer 225371236
使用 ELK 收集日志

在当前分布式微服务架构下各个应用都部署在不同的服务器上每个应用都在记录着自己重要或者不重要的日志信息当我们要通过日志信息来排查错误时可以根据出错应用在对应的机器上找报错相关的日志信息但是可能我们不具有相应服务器的访问权限也可
初学者入门：认识STM32单片机

本教程含有较多专业词汇大部分时候不完全理解并不影响继续往下阅读大家只需要了解大致的概念即可当然也鼓励大家多查百度和多问chatgpt 让自己学会的更多什么是单片机单片机就是把中央处理器CPU 存储器等计算机的功能部件和定
C语言进阶：文件操作，学生信息管理系统

文章目录 1 重定向 2 读文件和写文件 3 打开文件和关闭文件 4 综合大题学生信息管理系统 5 二进制读文件和二进制写文件 6 文件定位 7 其他文件操作函数 8 系统再优化之用户登录与注册 1 重定向重定向文件输出把运行出来的内
WSL子系统启动报错 Wsl/Service/CreateInstance/CreateVm/HCS_E_SERVICE_NOT_AVAILABLE

今天琢磨着WindowsLinux子系统研究研究新东西结果当我启动WSL时却出现了下面的提示 WSL启动报错由于未安装所需的特性无法启动操作 Error code Wsl Service CreateInstance CreateVm
url pattern中/与/*的区别
爬虫入门级（五）

Python爬虫入门级五实现两个小案例 1 gt 爬取豆瓣电影的TOP250 2 gt 爬取电影的资源下载地址爬取豆瓣电影的TOP250 1 分页爬取数据 2 csv数据加载到本地抓取豆瓣电影排行 1 判断页面元代满是否有数据 2

爬虫入门级（五）

Python爬虫入门级（五）

爬取豆瓣电影的TOP250

爬取电影的资源下载地址

爬虫入门级（五） 的相关文章

随机推荐

热门标签

爬虫入门级（五）的相关文章