爬虫入门级(五)

2023-11-15

Python爬虫入门级(五)

实现两个小案例:
1> 爬取豆瓣电影的TOP250
2> 爬取电影的资源下载地址

爬取豆瓣电影的TOP250

1、分页爬取数据
2、csv数据加载到本地

####抓取豆瓣电影排行

#1、判断页面元代满是否有数据
#2、有数据之后通过re获取页面源代码,通过正则获取到我们需要的数据

import requests,re,csv

f = open("C:\\Users\\Desktop\\tmp\\data.csv",mode="w")
csvw = csv.writer(f)

# https://movie.douban.com/top250?start=25&filter=
for n in ['0','25','50','75','100']:

    url = "https://movie.douban.com/top250?start="+n+"&filter="
    ##反扒策略之一
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"
    }
    resq = requests.get(url,headers=headers)
    page_content = resq.text

    #解析数据
    obj = re.compile(r'<li>.*?<div class="item">.*? <span class="title">(?P<name>.*?)'
                    r'</span>.*?<p class="">.*?<br>(?P<year>.*?)&nbsp.*?'
                    r'<span class="rating_num" property="v:average">(?P<score>.*?)</span>.*?'
                    r'<span>(?P<num>.*?)</span>',re.S)
 

    #开始匹配
    result = obj.finditer(page_content)
    for i in result :
        # print(i.group("name"))
        # print(i.group("score"))
        # print(i.group("num"))
        # print(i.group("year").strip() )
        dic = i.groupdict()
        dic['year'] = dic['year'].strip()
        print(dic.values())
        csvw.writerow(dic.values())

##关闭访问
resq.close()


爬取电影的资源下载地址

1、跳转子链接爬取数据
2、使用Dataframe 查看数据,并加载到本地

#### 电影天堂
##  1、定位到2021必看片
##  2、从必看片找到连接
##  3、请求子页面的连接地址,并获取下载地址
import requests,re
#创建指定列的Dataframe
df = pd.DataFrame(columns=('mov_name', 'load_url'))

url = "https://dytt89.com/"
resq = requests.get(url,verify=False)
resq.encoding = "gb2312" ## 从页面源代码中获取页面编码格式
## 正则表达式
obj1 = re.compile(r"2021必看热片.*<ul>(?P<ul>.*?)</ul>",re.S)  ##匹配必看电影表达式
obj2 = re.compile(r"<a href='(?P<href>.*?)'",re.S)  ##匹配子链接表达式
obj3 = re.compile(r'◎片  名(?P<mov_name>.*?)<br />.*?<td '
                  r'style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(?P<load_url>.*?)">',re.S)  ##电影详细信息内容
##拿出数据
result1 = obj1.finditer(resq.text)
##创建数组,用作存储子链接
child_href_list = []
for i in result1:
    ul = i.group('ul')
    ###提取子链接
    result2 = obj2.finditer(ul)
    for j in result2:
        # 拼接处完整地址
        print(url.strip("/") + j.group('href'))
        child_href_list.append(url.strip("/") + j.group('href'))

##提取子链接
for child_href in child_href_list:
    child_resq = requests.get(child_href,verify=False)
    child_resq.encoding = "gb2312"
    result3 = obj3.finditer(child_resq.text)
    for a in result3:
        # print(a.group('mov_name')+"\t"+a.group('load_url'))
        df = df.append([{'mov_name':a.group('mov_name'),'load_url':a.group('load_url')}], ignore_index=True)

##关闭访问
resq.close()
df.to_csv("C:\\Users\\Desktop\\tmp\\movie_load_url.csv")


本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

爬虫入门级(五) 的相关文章

  • 使用 python requests 模块时出现 HTTP 503 错误

    我正在尝试发出 HTTP 请求 但当前可以从 Firefox 浏览器访问的网站响应 503 错误 代码本身非常简单 在网上搜索一番后我添加了user Agent请求参数 但也没有帮助 有人能解释一下如何消除这个 503 错误吗 顺便说一句
  • Django 的内联管理:一个“预填充”字段

    我正在开发我的第一个 Django 项目 我希望用户能够在管理中创建自定义表单 并向其中添加字段当他或她需要它们时 为此 我在我的项目中添加了一个可重用的应用程序 可在 github 上找到 https github com stephen
  • 如何用python脚本控制TP LINK路由器

    我想知道是否有一个工具可以让我连接到路由器并关闭它 然后从 python 脚本重新启动它 我知道如果我写 import os os system ssh l root 192 168 2 1 我可以通过 python 连接到我的路由器 但是
  • Python 中的舍入浮点问题

    我遇到了 np round np around 的问题 它没有正确舍入 我无法包含代码 因为当我手动设置值 而不是使用我的数据 时 返回有效 但这是输出 In 177 a Out 177 0 0099999998 In 178 np rou
  • 处理 Python 行为测试框架中的异常

    我一直在考虑从鼻子转向行为测试 摩卡 柴等已经宠坏了我 到目前为止一切都很好 但除了以下之外 我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
  • 使用 Python 从文本中删除非英语单词

    我正在 python 上进行数据清理练习 我正在清理的文本包含我想删除的意大利语单词 我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作 例如给出一些文本 Io andiamo to the beach w
  • Pandas 日期时间格式

    是否可以用零后缀表示 pd to datetime 似乎零被删除了 print pd to datetime 2000 07 26 14 21 00 00000 format Y m d H M S f 结果是 2000 07 26 14
  • 将 python2.7 与 Emacs 24.3 和 python-mode.el 一起使用

    我是 Emacs 新手 我正在尝试设置我的 python 环境 到目前为止 我已经了解到在 python 缓冲区中使用 python mode el C c C c将当前缓冲区的内容加载到交互式 python shell 中 显然使用了什么
  • 使用 xlrd 打开 BytesIO (xlsx)

    我正在使用 Django 需要读取上传的 xlsx 文件的工作表和单元格 使用 xlrd 应该可以 但因为文件必须保留在内存中并且可能不会保存到我不知道如何继续的位置 本例中的起点是一个带有上传输入和提交按钮的网页 提交后 文件被捕获req
  • 为什么 PyYAML 花费这么多时间来解析 YAML 文件?

    我正在解析一个大约 6500 行的 YAML 文件 格式如下 foo1 bar1 blah name john age 123 metadata whatever1 whatever whatever2 whatever stuff thi
  • 如何通过 TLS 1.2 运行 django runserver

    我正在本地 Mac OS X 机器上测试 Stripe 订单 我正在实现这段代码 stripe api key settings STRIPE SECRET order stripe Order create currency usd em
  • 如何使用 pybrain 黑盒优化训练神经网络来处理监督数据集?

    我玩了一下 pybrain 了解如何生成具有自定义架构的神经网络 并使用反向传播算法将它们训练为监督数据集 然而 我对优化算法以及任务 学习代理和环境的概念感到困惑 例如 我将如何实现一个神经网络 例如 1 以使用 pybrain 遗传算法
  • pyspark 将 twitter json 流式传输到 DF

    我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理 但根据我的用例 我需要所有字段twitter J
  • Jupyter Notebook 找不到 Python 模块

    不知道发生了什么 但每当我使用 ipython 氢 原子 或 jupyter 笔记本时都找不到任何已安装的模块 我知道我安装了 pandas 但笔记本说找不到 我应该补充一点 当我正常运行脚本时 python script py 它确实导入
  • pip 列出活动 virtualenv 中的全局包

    将 pip 从 1 4 x 升级到 1 5 后pip freeze输出我的全局安装 系统 软件包的列表 而不是我的 virtualenv 中安装的软件包的列表 我尝试再次降级到 1 4 但这并不能解决我的问题 这有点类似于这个问题 http
  • 仅第一个加载的 Django 站点有效

    我最近向 stackoverflow 提交了一个问题 标题为使用mod wsgi在apache上多次请求后Django无限加载 https stackoverflow com questions 71705909 django infini
  • 如何断言 Unittest 上的可迭代对象不为空?

    向服务提交查询后 我会收到一本字典或一个列表 我想确保它不为空 我使用Python 2 7 我很惊讶没有任何assertEmpty方法为unittest TestCase类实例 现有的替代方案看起来并不正确 self assertTrue
  • 在本地网络上运行 Bokeh 服务器

    我有一个简单的 Bokeh 应用程序 名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
  • 实现 XGboost 自定义目标函数

    我正在尝试使用 XGboost 实现自定义目标函数 在 R 中 但我也使用 python 所以有关 python 的任何反馈也很好 我创建了一个返回梯度和粗麻布的函数 它工作正常 但是当我尝试运行 xgb train 时它不起作用 然后 我
  • 在 JavaScript 函数的 Django 模板中转义字符串参数

    我有一个 JavaScript 函数 它返回一组对象 return Func id name 例如 我在传递包含引号的字符串时遇到问题 Dr Seuss ABC BOOk 是无效语法 I tried name safe 但无济于事 有什么解

随机推荐

  • 外置存储权限在哪打开_安卓手机外置sd卡权限怎么打开

    展开全部 在2 x的版本中 在manifest中配置的权限e68a843231313335323631343130323136353331333365643662android permission WRITE EXTERNAL STORA
  • bug: TypeError: Invalid attempt to spread non-iterable instance

    报错信息 分析 此类报错多为扩展运算符报错 问题代码 解决方式
  • Win11系统pin码忘记了怎么办?Win11忘记pin码解决方法

    Win11系统pin码忘记了怎么办 如果我们忘记了这个密码 那么就会导致无法进入到系统来使用电脑了 这个问题还是比较让人着急的 特别是需要开机进行电脑急用的用户 那么我们怎么去解决这个问题 接下来一起看看Win11忘记pin码解决方法 Wi
  • Windows时间戳的计算

    一 实验目的 掌握Windows中FileTime时间戳的手工解析方法 利用WinHex或X Ways等十六进制编辑器进行手工取证 把Windows中 MFT文件里记载的十六进制时间转化为 年月日时分秒 的可读时间 加深对于时间戳的理解 二
  • 日本核污水今日入海,这帮黑客怒了!

    自2011年东日本大地震以来 日本谋划已久的福岛核电站核污水排海计划已于8月24日下午起正式施行 预计排污周期长达30年 整个海洋及其生物都有可能遭受难不可逆的毁灭性打击 据现场媒体报道 经过17分钟的流淌 核污染水经由1公里的海底隧道流进
  • Web框架中的ORM框架

    Web框架中的ORM框架 在 Python 实现的 Web 框架中 通过 API 接口来访问后端的视图函数 视图函数对数据库中的数据进行处理然后返回给前端 在这个过程中 视图函数不是直接通过 SQL 来操作数据库 而是通过模型类的对象属性或
  • C语言练习题(15) 有如下代码,则 *(p[0]+1) 所代表的数组元素是( )(非常详细的讲解)

    1 有如下代码 则 p 0 1 所代表的数组元素是 int a 3 2 1 2 3 4 5 6 p 3 p 0 a 1 A a 0 1 B a 1 0 C a 1 1 D a 1 2 解析 C a 3 2 1 2 3 4 5 6 p 0 代
  • Ubuntu 16.04 gcc降级为4.8版本

    1 下载gcc g 4 8 sudo apt get install y gcc 4 8 sudo apt get install y g 4 8 2 链接gcc g 实现降级 cd usr bin sudo rm gcc sudo ln
  • 【算法与数据结构】236、LeetCode二叉树的最近公共祖先

    文章目录 一 题目 二 解法 三 完整代码 所有的LeetCode题解索引 可以看这篇文章 算法和数据结构 LeetCode题解 一 题目 二 解法 思路分析 根据定义 最近祖先节点需要遍历节点的左右子树 然后才能知道是否为最近祖先节点 那
  • localhost 已拒绝连接。

    Tomcat的localhost 8080拒绝访问 直接在tomcat的bin目录下双击startup bat 启动就好了 再访问localhost 8080就可以出来了
  • 坑爹公司大盘点 --- 转自拉钩

    那些年我们满怀憧憬迈入社会 却遭遇了理想与现实的碰撞 一起看看网上盘点的坑爹公司吧 遇到这样的公司真的是醉了 gt 转自拉钩 1 头衔公司 从入职第一天 就封你为大中华区销售总监 或者全球发行战略副总裁 全国市场委员会主席 然后没有手下 没
  • 如何有效保证Java代码单元测试覆盖率

    背景介绍 我们在实际项目开发过程中 不同level的童鞋由于专业技能的层次不同 导致在参与实际开发的业务代码中经常会出现各种bug 项目管理中好的pm或许会给充足的时间来让开发童鞋们定位修复这些bug 也有各种客观原因的PM不会在项目中预留
  • Spring Boot使用方法

    Spring Boot 七步走 1 勾选包 Spring Boot是自带TomCat的 创建Spring Boot工程文件 创建时需要更改资源下载地址 我选择阿里云的这个地址 而且Spring Boot不需要导包 只需要勾选需要的包 进入后
  • 深度学习基础:SVD奇异值分解及其意义【转】

    排版较好的一版 http shartoo github io SVD decomponent 上面的补充 奇异值的物理意义是什么 https www zhihu com question 22237507 answer 225371236
  • 使用 ELK 收集日志

    在当前分布式 微服务架构下 各个应用都部署在不同的服务器上 每个应用都在记录着自己重要或者不重要的日志信息 当我们要通过日志信息来排查错误时 可以根据出错应用在对应的机器上找报错相关的日志信息 但是 可能我们不具有相应服务器的访问权限 也可
  • 初学者入门:认识STM32单片机

    本教程含有较多专业词汇 大部分时候 不完全理解并不影响继续往下阅读 大家只需要了解大致的概念即可 当然 也鼓励大家多查百度和多问chatgpt 让自己学会的更多 什么是单片机 单片机 就是把中央处理器CPU 存储器 等计算机的功能部件 和定
  • C语言进阶:文件操作,学生信息管理系统

    文章目录 1 重定向 2 读文件和写文件 3 打开文件和关闭文件 4 综合大题 学生信息管理系统 5 二进制读文件和二进制写文件 6 文件定位 7 其他文件操作函数 8 系统再优化之用户登录与注册 1 重定向 重定向文件输出 把运行出来的内
  • WSL子系统启动报错 Wsl/Service/CreateInstance/CreateVm/HCS_E_SERVICE_NOT_AVAILABLE

    今天琢磨着WindowsLinux子系统研究研究新东西 结果当我启动WSL时却出现了下面的提示 WSL启动报错 由于未安装所需的特性 无法启动操作 Error code Wsl Service CreateInstance CreateVm
  • url pattern中/与/*的区别

  • 爬虫入门级(五)

    Python爬虫入门级 五 实现两个小案例 1 gt 爬取豆瓣电影的TOP250 2 gt 爬取电影的资源下载地址 爬取豆瓣电影的TOP250 1 分页爬取数据 2 csv数据加载到本地 抓取豆瓣电影排行 1 判断页面元代满是否有数据 2