python爬虫——爬取电影天堂磁力链接

2023-11-02

爬虫：静态网页爬取

工具：pycharm，python3.6，火狐浏览器

模块：requests(可以使用pip install requests安装)，re（不用安装）

网址：http://www.ygdy8.net/html/gndy/dyzz/index.html电影天堂

以火狐浏览器为例
这里写图片描述

复制影片名称，在网页源代码中查找，看能否找到。
这里写图片描述
查看页面源代码，Ctrl+f。

在网页源代码中，能够查找到内容。这样一般都是属于静态网页。查找不到，一般是动态网页。动态网页需要按F12，在network（网络）中查找。

随便点击一个电影，就会到电影详情界面。往下浏览会看到下载地址，磁力链。
这里写图片描述

这就是我们要获取的磁力链地址。

我们再看一下主页，看到下面的翻页界面。
这里写图片描述
我们点击第二页，观察一下网址。

这是前三页的网址。
首页网址是http://www.ygdy8.net/html/gndy/dyzz/index.html，与
http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html是一样的

http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html
http://www.ygdy8.net/html/gndy/dyzz/list_23_2.html
http://www.ygdy8.net/html/gndy/dyzz/list_23_3.html

编写代码，首先实现翻页功能，共有177页，我们利用for循环制造网址。
使用字符串拼接。打印查看网址。


for page in range(1,178):
    url='http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(page)+'.html'
    print(url)

我们可以得到177页的网址。

我们先分析一页，在里面查找磁链接。这样我们需要先进入详情页面，然后在里面找到磁链接。

这里写图片描述
看一下这个页面的网址：http://www.ygdy8.net/html/gndy/dyzz/20180804/57202.html
我们在http://www.ygdy8.net/html/gndy/dyzz/list_23_1.html的网页源代码里，查找一下20180804/57202看能否找到。

刚好找到这个网址。我们在网页源代码中把这个链接提取出来。得到详情页。
先访问，获取源代码


for page in range(1,2):
    url='http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(page)+'.html'
    print(url)
    html=requests.get(url)
    print(html)
    print(html.text)

发现获取到的源码有乱码，我们需要指定一下编码格式。
按F12查看元素
这里写图片描述
发现编码charset=gb2312

for page in range(1,2):
    url='http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(page)+'.html'
    print(url)
    html=requests.get(url)
    html.encoding="gb2312"
    print(html.text)

指定编码后，打印出来不再是乱码了。接下来提取网页源码中的信息，也就是详情页，网址是相对网址，不是完整网址（"/html/gndy/dyzz/20180804/57202.html"），提取出来以后还需要拼接成完整的网址。
使用正则表达式提取。

data=re.findall('<a href="(.*?)" class="ulink">',html.text)  #返回的是列表
    print(data)

正则表达式（.*？）非贪婪匹配。加括号是提取出来
循环得到详情页完整网址

for m in data:
        xqurl = 'http://www.ygdy8.net'+m
        print(xqurl)

这样就得到一页中所有电影的详情页。我们随意找一个xqurl打开，都能看到电影的详细信息。接下来获取详情页的源代码。在源代码中利用正则表达式获取磁力连接。
这里写图片描述

		xqurl = 'http://www.ygdy8.net'+m
        #print(xqurl)

        html2=requests.get(xqurl)
        html2.encoding='gb2312'#指定编码
        #print(html2.text)
        dyLink = re.findall('<a href="(.*?)">ftp://.*?</a></td>',html2.text)[0]
        print(dyLink)

为了防止有些匹配不到信息，数组越界，我们使用try。

		xqurl = 'http://www.ygdy8.net'+m
        #print(xqurl)

        html2=requests.get(xqurl)
        html2.encoding='gb2312'#指定编码
        #print(html2.text)
        try:
            dyLink = re.findall('<a href="(.*?)">ftp://.*?</a></td>',html2.text)[0]
            print(dyLink)
        except:
            print("没有匹配信息")

将获取链接写入到记事本

with open('电影天堂.txt','a') as f:
            f.write(dyLink+'\n')

#完整代码

import requests
import re


for page in range(1,178):
    url='http://www.ygdy8.net/html/gndy/dyzz/list_23_'+str(page)+'.html'
    print(url)
    html=requests.get(url)
    html.encoding="gb2312"
    #print(html.text)
    data=re.findall('<a href="(.*?)" class="ulink">',html.text)  #返回的是列表
    #print(data)
    for m in data:
        xqurl = 'http://www.ygdy8.net'+m
        #print(xqurl)

        html2=requests.get(xqurl)
        html2.encoding='gb2312'#指定编码
        #print(html2.text)
        try:
            dyLink = re.findall('<a href="(.*?)">ftp://.*?</a></td>',html2.text)[0]
            print(dyLink)
        except:
            print("没有匹配信息")

        with open('电影天堂.txt','a',encoding="utf-8") as f:
            f.write(dyLink+'\n')

代码中可以用time模块控制爬取每页的时间。防止ip被封。也可以使用代理ip

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python爬虫

python爬虫——爬取电影天堂磁力链接的相关文章

Python爬虫入门案例6：scrapy的基本语法+使用scrapy进行网站数据爬取

几天前在本地终端使用pip下载scrapy遇到了很多麻烦总是报错花了很长时间都没有解决最后发现pycharm里面自带终端狂喜于是直接在pycharm终端里面写scrapy了这样的好处就是每次不用切换路径了 pycharm会直接把
sojson jsjiami.com.v6 爬虫js逆向

sojson jsjiami com v6 爬虫js逆向地址 aHR0cDovL3d3dy5wYmMuZ292LmNuL3JteWgvMTA1MjA4Lzg1MzIvaW5kZXg1Lmh0bWw 抓取内容第一次请求发现返回的不是正确
爬取中国移动用户问答

最近一个好朋友在搞爬虫问了很多问题所以干脆直接写了一个范例这个程序整体要两次解析网页第一层是分析网页中的json数据来获取qtid 第二层是用qtid来解析获得问答所在的网页因为在问答网页里的数据存储是引用的数据库中的数据所以不
零基础学完Python的7大就业方向，原来赚钱的路子这么多？

我想学 Python 但是学完 Python 后都能干啥现在学 Python 哪个方向最简单哪个方向最吃香相信不少 Python 的初学者都会遇到上面的这些问题大家都知道 Python 很吃香薪资高就业面广但具体的有哪些方
python模拟登录京东网页

目标网站京东网首页登录目标网址 https www jd com 任务要求 1 导入selenium库并使用该库驱动Chrom浏览器完成请求 2 驱动浏览器对象找到登录按钮点击 3 在新页面中选择账号登录 4 找到用户名和密码输
AutoScraper——爬虫神器

AutoScraper是一个自动化的爬虫工具非常智能而且使用简单便捷 AutoScraper 是使用 Python 实现的 Web 爬虫兼容 Python 3 能快速且智能获取指定网站上的数据在github上具有4 8K githu
大数据采集概述

文章目录大数据采集概述 1 互联网大数据与采集 1 1互联网大数据来源 1 社交媒体 2 社交网络 3 百科知识库 4 新闻网站 5 评论信息 6 位置型信息 1 2 互联网大数据的特征 1 大数据类型和语义更加丰富 2 数据的规范化程度
爬虫需要知道的基础

一爬虫概述 1 爬虫必须知道的要素爬虫要遵循网上的爬虫机器人协议怎样查看在网址后面加上 robots txt来查看可以查到哪些是允许的哪些是不允许的爬虫的基本步骤找到网址发起请求解析页面并获得原始数据对数据进行处理保
某乎搜索接口x-zse-96参数逆向学习分析，网站：aHR0cHM6Ly93d3cuemhpaHUuY29tLw==

目标参数 x zse 96 参数分析全局搜索x zse 96 只有两个地方出行打上断点后刷新网页从图中断点地方可以看到搞清楚u f s 的由来就解决了x zse 96 可以看到s参数是由以下几部分组成 1 101 3 2 0 固定版
利用几行python代码爬取全国疫情数据，全方位地图分析疫情地区分布

爬取全国疫情数据所用的网页连接 https api inews qq com newsqa v1 automation foreign country ranklist 可视化用到的模块 gt 戳这里下载也可以看最后或私信我如果没有
[Python

目录一问题简介二解决方案 1 全局搜索sign 2 文件局部搜索 3 寻找目标函数 4 调用函数 5 补全JS代码 6 token的获取三 Python代码 1 UI类 2 爬虫逻辑类四完整代码 JS代码 Python代码一
跳过selenium检测爬取淘宝直通车

最近有对阿里商家端进行一些数据爬取这次爬取的是直通车人群溢价数据发现对selenium的检测相当厉害然而我的回答是你强任你强清风拂山岗咱人工登录怕过谁什么cokies user agent selenium检测 token
python是真刑啊！爬虫这样用，离好日子越铐越近了~

一个程序员写了个爬虫程序整个公司200多人被端了不可能吧刚从朋友听到这个消息的时候我有点不太相信做为一名程序员来讲谁还没有写过几段爬虫呢只因写爬虫程序就被端有点夸张了吧朋友说消息很确认并且已经进入审判阶段了 01 对消息进
python—scrapy框架爬虫—链家二手房数据

本文讲解的是scrapy框架爬虫的实例文章目录前言 scrapy简介 1 scrapy框架的流程 2 流程简介操作 1 创建scrapy项目 2 运行 3 代码部分前言本文爬取的是链家重庆主城九区的二手房数据同时将爬取的数据存入
高考失利，还适合选计算机专业吗？？

前言高考落榜人生陷入低谷对于很多人来说这意味着梦想的破灭和无尽的绝望但是对于我来说这只是人生旅程的一个起点我喜欢编程也热爱编程虽然网上很多言论说计算机行业已经很卷了但是我却认为无论再哪个行业你不卷也同样落后于人所以
爬虫跨域请求获取json数据解决参数加密

分析网址提示抓取对方信息是通过对方允许的请不要违法操作抓取其他个人有关信息网址先发送了一个OPTIONS请求 Request URL http xxxxxxxx com Request Method OPTIONS Status
英雄联盟英雄信息【python爬虫】

文章目录下面开始正式教学思路分析开始工作这里要注意一下实现以下是全部代码相信大家都知道撸啊撸这个游戏了吧小时候偷偷跑去网吧和朋友们开黑的日子那是我们逝去的青春学了爬虫课后终于按捺不住了决定自己手动编写爬虫程序就把自己
Python爬虫-MongoDB

Python爬虫 MongoDB 文章目录 Python爬虫 MongoDB 前言与MySQL对比启动关闭MongoDB 操作数据库操作集合操作数据操作增删改查保存运算符高级操作聚合常用管道常用表达式安全性
python3爬虫伪装代理IP

在爬取类似起点色魔张大妈这样的网站时会被网站看出是爬虫机制这时需要伪装成浏览器以及使用IP代理的方式来爬去正常内容实例 import re import requests import urllib request from l
Python采集猎聘网站招聘数据内容，看看现在职位风向

嗨喽大家好呀这里是爱看美女的茜茜呐环境使用 Python 3 10 Pycharm 模块使用第三方模块需安装 requests gt pip install requests pandas gt pip install panda

随机推荐

SQL中binary 和 varbinary的区别 blob

http www cnblogs com lovevivi archive 2013 09 25 3339087 html binary 和 varbinary 固定长度 binary 的或可变长度 varbinary 的 binary 数
查看文件的MD5 值

从网上下载到资源文件后为了确保下载的文件没有被黑客非法篡改一般都会校验一下MD5是否与最初上传的版本是否一致查看两个文件的MD5 值可以判断文件在传输过程中有没有损坏或者丢失字节 Windows电脑 window 键盘左下角Ctrl
SpringBoot前后端调用接口下划线与驼峰之间转换

1 前言最近在开发过程中自测自己的接口的时候会出现一下驼峰与下划线转换问题今天就出篇文章写下吧顺便加深下印象 2 步骤 2 1导入maven依赖注意因为我的项目中引入了Redisson的依赖所以就不用单独引入jackson依
解决 Element-UI 的 el-dialog 对话框移动问题的方法

系列文章目录文章目录系列文章目录前言一问题描述二解决方法 1 安装 vuedraggable 库 2 引入并使用 vuedraggable 3 将 el dialog 放入 draggable 组件总结前言 Element
python3.8 环境下安装 robot framework 遇到的问题及解决

博客原址 https testerhome com topics 23384 安装过程就不多说了反正就是很心酸以下是安装步骤 1 安装python3 8 2 在线安装robotframework pip install robotfra
Hyperledger fabric查询区块错误问题解决：“error Entry not found in index”

最近写了一个Hyperledger Fabric区块监控的程序功能是应用程序监听区块生成事件并查询新生成区块的信息然而当客户端收到Peer发来的blockEvent事件后调用Channel对象的queryBlockByNumber
Java面试回忆录：教你解决线上频出MySQL死锁问题！附带学习经验

引言最近项目上线的频率颇高连着几天加班熬夜身体有点吃不消精神也有些萎靡无奈业务方催的紧工期就在眼前只能硬着头皮上了脑子浑浑噩噩的时候写的就不能叫代码可以直接叫做Bug 我就熬夜写了一个bug被骂惨了 Java并发编程技术官笔
【UE4】修改引擎-添加更多视口窗口Viewport

先看效果视口添加了viewport 5 和 viewport 6 前言此修改必须基于虚幻引擎源码版请先安装源码版虚幻引擎源码版安装教程来自CSDN 虚幻4源码版安装教程开始首先安装源码版引擎这里用的是4 26 2源码版引擎 1
小米笔记本重装系统没有wifi功能和扬声器没有声音解决的过程（红米G游戏本）

要看解决方法的直接看文章最后经过 1 因为自己已经用pe系统给很多同学包括我自己重装过很多次系统了所以最开始打算用pe给小米笔记本装系统 pe盘里面装的镜像是MSDN上面下载的最新1909的win10 2 最开始用pe 系统给小米笔记本
初学nodejs必看，nodejs入门良言。

断断续续用nodejs开发也快一年了不得不说本人天资驽钝实在不敢恭维技术只能说久病成医坑踩的多了就知道怎么避免了在此写写几句自己踩过的坑希望能帮到即将步入nodejs这行的同学们注这篇博客技术点不多更多的是跟大家分享一个思路
Java练习——输入n个数，存入数组，进行排序输出

题目输入n个数存入数组进行排序输出 package paixu import java util Scanner public class paixu public static void main String args int z
数据分析常用库（包含pytorch、tensorflow安装）

1 pandas 2 numpy 3 sklearn 安装的时候是 scikit learn 4 matplotlib 5 pytorch cuda版本pytorch安装不一定需要更新英伟达的驱动电脑cuda版本可以高于pytorch的
NSSCTF之Web篇刷题记录(13)

NSSCTF之Web篇刷题记录 12 GXYCTF 2019 BabyUpload GKCTF 2020 cve版签到 HCTF 2018 Warmup GDOUCTF 2023 泄露的伪装羊城杯 2020 easycon HNCTF 2
服务器风扇测试软件,图解服务器风扇安装的正确方法

一般不是太垃圾的机箱总有两个地方可以装风扇前面的一般在硬盘托架处后面的一般在电源下面键盘口上方有的机箱出厂就已经装好1 2个风扇了图中越红的区域温度相对越高应该什么样的风道合理呢 1 前后都装机箱风扇的情况应该前进后出这样机
k8s搭建高可用spring-cloud-config配置中心集群

k8s搭建高可用配置中心查找镜像 docker部署关闭认证方式部署开启认证方式部署 docker compose方式部署 k8s方式部署使用configMap挂载配置挂载本地目录方式测试应用加载配置中心配置启动查找镜像镜像地
Nginx禁止某IP（段）访问的两种方法

修改Nginx配置文件nginx conf Nginx配置访问IP可以修改nginx conf文件只需要在server中添加allow和deny的IP即可如下 server listen 80 server name localhost
数据加载的时候出现RuntimeError: Pin memory thread exited unexpectedly

很有可能是因为num workers太大导致的可以调小一些
ch03-数值计算（进阶）

文章目录数学函数三角双曲函数指数和对数算术操作自动域数值计算舍入和积差符号函数截断插值导数和微积分梯度梯形公式多项式简介便捷类关系运算真值测试值和类型逻辑运算比较二进制运算位运算左右移打
优先队列(priority_queue)总结

文章目录 priority queue 一优先队列简介二优先队列特性和操作 1 头文件定义 2 默认优先输出大数据 1 举例 3 优先输出小数据即小顶堆 1 举例 4 自定义优先级重载默认的 lt 符号 1 使用 funtion
python爬虫——爬取电影天堂磁力链接

爬虫静态网页爬取工具 pycharm python3 6 火狐浏览器模块 requests 可以使用pip install requests安装 re 不用安装网址 http www ygdy8 net html gndy dyzz

python爬虫——爬取电影天堂磁力链接

python爬虫——爬取电影天堂磁力链接 的相关文章

随机推荐

热门标签

python爬虫——爬取电影天堂磁力链接的相关文章