用python编写递归爬取多重网址的网站信息

2023-11-14

项目组要得到这个http://kalug.linux.org.tw/~shawn/project/thesis/目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个，用迅雷，flashget好像都没这样的功能：找到给一个链接，然后再递归爬取这个链接下的所有链接的。
于是自己写了一个，好像还行o(∩_∩)o...呵呵下面是代码，这里主要爬取pdf与doc文件。


# -*- coding: utf-8 -*-
import urlparse,urllib,re,os
"""
this class is mainly used to crawl the deep url in the urls
do this work for 242
"""
class SpiderMulti:

    def read(self,url):
        urlli=self.analy(url)
        urldic = {}
        cutli=urlli[1:]
        for x in cutli:
            urldic.update(x)
        for url in [x.keys()[0] for x in cutli]:
            if self.islink(url,urldic):
                print url
                self.read(url)
            else:
                self.download(url,urldic)


    def analy(self,url):
        urlli=[]
        try:
            html=urllib.urlopen(url).read().split('\n')
            orignalUrl = url    #re.search(r'<h2>(.*?)</h2>',url,re.I|re.DOTALL)
            for eachline in html:
                #print eachline
                currentFind = re.search(r'href="(.*?)"',eachline,re.IGNORECASE|re.DOTALL)
                if currentFind:
                    urldic = {}
                    curUrl = urlparse.urljoin(orignalUrl,currentFind.group(1))
                    dirFind = re.search(r'class="t".*?>(.*?)<',eachline,re.IGNORECASE|re.DOTALL)
                    curDir = dirFind.group(1)
                    urldic[curUrl]=curDir
                    urlli.append(urldic)
        except:
            print 'can not open ',url
            pass

        #print urlli
        return urlli

    def islink(self,url,urldic):
        if urldic[url] == 'Directory':
            return True
        else:
            return False

    def download(self,url,urldic):
        print '=====:',url,urldic[url]
        if (self.isfile(url)):
            name = os.path.join(r'd:\data',url.split('/')[-1])
            print 'dowm:',url,name
            try:
                f=urllib.urlretrieve(url,name)
            except:
                print 'can not writtofile'
                pass

    def isfile(self,url):
        if re.search(r'doc$|pdf$',url,re.IGNORECASE|re.DOTALL):
            return True
        else:
            return False



if __name__=='__main__':
    t=SpiderMulti()
    url='http://kalug.linux.org.tw/~shawn/project/thesis/'
    t.read(url)

解释一下：
1、主函数是read()，在这里面实现递归。

2、analy(url)函数分析传入的url，提取出该页的url链接，当然如果你要用你自己的url这里需要改变的是正则表达式的匹配规则。返回一个列表，列表的元素是字典，key是当前的链接地址，值是该地址对应的类型（这里主要是针对该类网站这样设计的，大家可以打开看看网页
的结果）。

3、islink()函数是判断输入的url是不是目录，如果是则递归执行read()函数

4、download()函数是：输入的链接对应的是个文件，但是不一定是我们想要的pdg或者doc文件，所以先用isfile()函数判断一下，然后再进行下载，完成任务。呵呵

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

用python编写递归爬取多重网址的网站信息的相关文章

打乱列表并返回副本

我想对数组进行洗牌但我找到的只是类似的方法random shuffle x from 在 Python 中随机化字符串列表的最佳方法 https stackoverflow com questions 1022141 best way t
使用 scipy.signal.spectrogram 在 pyqtgraph 中绘制 wavfile 的频谱

我有一个用于音乐和语音分析的 PyQt 加 pyqtgraph 程序我想绘制 wav 文件的频谱使用 scipy python 包计算我可以在 matplotlib 中完成但由于 matplotlib 的性能我需要切换到 pyqt
如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
使用 LSTM 进行时间序列模式识别(python)

我的应用场景和上一个类似时间序列中的模式识别 https stackoverflow com questions 11752727 pattern recognition in time series By processing a tim
字符串在内部存储为单独的字符，内存中的每个字符都由其他类似的字符串共享吗？

例如是字符串var1 ROB 存储为 3 个内存位置 R O 和 B 每个位置都有自己的地址和变量var1指向内存位置R 那它怎么指向O和B呢并执行其他字符串例如 var2 BOB 指向内存中相同的 B 和 Ovar1指的是字符串如
Django 视图集没有属性“get_extra_actions”

我第一次使用 Django 我正在尝试构建一个 API 我正在遵循一些教程和示例它工作正常但在安装所有要求和项目后我现在正在 Raspberry Pi 中运行该项目失败并出现以下错误 Performing system checks
如何将魔杖图像对象转换为 numpy 数组（不使用 OpenCV）？

我正在使用将 pdf 文件转换为图像Wand http docs wand py org en 0 4 4 然后我使用 ndimage 进行进一步的图像处理我想直接将 Wand 图像转换为 ndarray 我已经看到答案here htt
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
组内条件计数

我想在之后进行条件计数groupby 例如按列的值分组A 然后计算每组中值出现的频率5出现在列中B 如果我整个过程都这样做DataFrame 只是len df df B 5 所以我希望我能做到df groupby A df B 5 siz
XGBoostLibraryNotFound：在候选路径中找不到 XGBoost 库，您是否安装了编译器并在根路径中运行了 build.sh？

我在移动 XGBoost 的 python package 目录时遇到这个问题 Traceback most recent call last File setup py line 19 in LIB PATH libpath find l
Django 模板：输出带有所有小数位的浮点数

我如何在 django 模板中输出这个数字小数位数是可变的我事先不知道 x 0 000015 1 x 输出是 1 5e 05 2 x stringformat f 输出是 0 000015 这不是本地化的应该有逗号我需要对输出进行本
Python列表错误还是我错了？

我构建了一个 3 级嵌套列表 run on Python 3 2 3 32 bit on Win 7 L2 list 0 for i in range 2 L3 list L2 for i in range 3 L4 list L3 for
setUp() 中的 if 条件忽略测试

在unittest python库中存在函数setUp and tearDown用于设置变量和其他测试前后的事情如何运行或忽略 setUp 中条件的测试您可以致电if cond self skipTest reason in setU
numpy 相关系数错误 - RuntimeWarning：true_divide 中遇到无效值

当我尝试查找数据系列之间的相关性时出现以下错误 gt gt gt i 1 1 1 gt gt gt j 2 2 2 gt gt gt import numpy as np gt gt gt np corrcoef i j usr loca
aarch64 Linux 硬浮点或软浮点

linux系统有arm64 有arm架构armv8 a 如何知道 Debian 运行的是硬浮动还是软浮动符合 AAPCS64 GNU GCC for armv8仅提供硬浮动aarch64工具链这与 armv7 a 的 GCC 不同后者
禁用或限制 /o/applications（django rest 框架、oauth2）

我目前正在使用 Django Rest 框架编写 REST API 并使用 oauth2 进行身份验证使用 django oauth toolkit 我对他们俩都很满意他们做的正是我想要的然而我有一个担忧我正在将我的应用程序传递到
如何将 bisect.insort_left 与键一起使用？

文档缺少示例你如何使用bisect insort left 基于密钥尝试根据键插入 bisect insort left data brown 7 将插入放在data 0 从文档 bisect insort left a x lo 0
如何使用 python 在 XML 声明后添加注释

import xml etree ElementTree as ET def addCommentInXml fileXml C Users Documents config xml tree ET parse fileXml root t
无法使用python和beautifulsoup抓取网页中的某些href

我目前正在使用 Python 3 4 和 bs4 爬取网页以收集塞尔维亚在里约 2016 年的比赛结果所以网址here http rio2016 fivb com en volleyball women teams srb serbia
带有远程解释器的 Python 控制台无法在 PyCharm 中接受输入

我是使用 PyCharm 进行远程开发的新手我设置了一个远程环境除了一个例外之外它工作正常无法在控制台中接受用户输入在控制台中运行以下语句时控制台被阻塞提示上一个命令仍在运行请等待或按控制台中的 Control C 来中断

随机推荐

还在用夸克？这3款能安装插件的手机浏览器不香吗

说到浏览器插件很多人想到的多数是电脑上的玩法实际上随着手机浏览器功能越来越完善很多手机浏览器已经开始支持插件的使用也就是说支持安装插件的手机浏览器不仅能体验如电脑般丝滑强大的功能而且又不会造成内存过分臃肿开启响应缓慢的问题
GLSL着色器的正确文件扩展名是什么？

openGL系列文章目录文章目录 openGL系列文章目录前言一 glslangValidator exe工具使用二着色器程序后缀名前言我正在学习glsl着色我遇到了不同的文件格式我见过人们给出他们的顶点和片段着色器 ve
Java中在特定区间产生随机数

原文地址 http blog sina com cn s blog 59aebaa10100ct47 html 参考地址 http blog csdn net codefunjava article details 44408555 htt
贝叶斯分类器-机器学习ML

参考 1 统计学习方法李航 2 https baike baidu com item E8 B4 9D E5 8F B6 E6 96 AF E5 88 86 E7 B1 BB E5 99 A8 1739590 fr aladdin 3 h
力扣｜错误的集合 C语言

题目连接错误的集合集合 s 包含从 1 到 n 的整数不幸的是因为数据错误导致集合里面某一个数字复制了成了集合里面的另外一个数字的值导致集合丢失了一个数字并且有一个数字重复给定一个数组 nums 代表了集合 S 发生错误
浅析muduo库中的定时器设施

一个设计良好的定时器在服务端的应用程序上至关重要 muduo定时器的实现陈硕大牛在书中已经详细的谈过笔者尝试从源码的角度解读定时器的实现如果理解不对欢迎指正在muduo的定时器系统中一共由四个类 Timestamp Timer T
学习CSSGrid布局

一重要术语 CSS Grid 网格布局又称为 Grid 网格是一个二维的基于网格的布局系统它的目标是完全改变我们基于网格的用户界面的布局方式 FlexBox 一维布局 Grid 二维布局 Flexbox 和 Grid 能协同工作
C# 文件IO

文章目录判断某个文件夹是否存在获取当前运行程序 exe或dll 所在路径创建文件夹移动剪切文件夹复制文件创建文件覆盖写文件方式一使用FileStream 方式二使用StreamWriter 追加写文件读文件一一
springBoot国际化的一种方式

引言当我们的应用面向不同国家用户时根据不同的locale返回不同的语言信息的国际化功能就显得有必要了一般来说国际化主要表现在前端用户界面上在现在前后端分离的背景下前端页面的国际化交由前端代码独立完成少部分表现在后端上后端主要表
HTML存储详解

和大家一起先来了解一下H5之前的存储方式 cookies的诞生 http请求头上带着数据大小只能为4K 主Domain的污染下面是百度的一些Cookies HTTP中带的表示只能被服务器端修改的数据一般用来存储身份验证等信息 co
搞清axis的含义，这一篇就够了！

文章目录 axis的含义旁门左道式理解二维数组中的axis 三维数组中的axis 正规理解 axis的含义在自己分析之前先摆上官方关于多维数组中axis的值的定义 axis 0 表示第一个维度 axis 1 表示第二个维度 axis
Java异步调用的几种方式

一通过创建新线程二通过线程池三通过 Async注解四通过CompletableFuture 日常开发中会经常遇到说前台调服务然后触发一个比较耗时的异步服务且不用等异步任务的处理结果就对原服务进行返回这里就涉及的Jav
css3 transaction display,HTML5+CSS3 本地数据库基本

HTML5 CSS3 本地数据库基本 Web SQL Database 本地数据库是一个已经废弃的规范但是鉴于除了IE和Firefox 其他浏览器都已经实现了Web SQL Database 并且它还具有一些Storage 存储所不具
Windows更新CUDA

经过整整一天的奋战终于成功更新了CUDA 特此记录一下这个艰难的过程最最最先要确定的是你的电脑得是支持GPU的一查看电脑现存CUDA版本电脑搜索NVIDIA 在出现的页面中的左下角点击系统信息出现以下界面可以看到驱动版本是
LXC 3.0交叉编译

LXC交叉编译代码下载 git clone https github com lxc lxc git 代码文件编译编写交叉编译文件 host machine system linux cpu family arm cpu arm end
redis的持久化和主从复制

什么是redis持久化 redis作为一个键值对内存数据库 nosql 数据存储在内存当中在处理客户端请求时所有操作都是在内存当中运行问题存储在内存中的数据只要服务器关机内存中的数据就会消失不仅服务器关机会造成数据消失 re
VMware虚拟机安装Linux系统

文章目录前言一 Linux是什么二安装步骤 1 新建虚拟机 2 安装CentOS 7 总结前言之前使用VMware虚拟机安装了Windows系统本文讲的是使用VMware虚拟机安装Linux系统提示以下是本篇文章正文内容
Modbus通信协议详解

一 Modbus 协议简介 Modbus 协议是应用于电子控制器上的一种通用语言通过此协议控制器相互之间控制器经由网络例如以太网和其它设备之间可以通信它已经成为一通用工业标准有了它不同厂商生产的控制设备可以连成工业网络进行
APPCAN + wampserver 实现简单的个人登录功能

开发背景 Appcan wampserver 其中wampserver主要用于提供本地服务器和数据库这是软件开发工程这门课中的一个大作业需要实现 1 首页 index html 首页包含滚动图片新闻列表和导航栏首页内容通过Requ
用python编写递归爬取多重网址的网站信息

项目组要得到这个http kalug linux org tw shawn project thesis 目录网址下面的所有文件以及这个文件目录的下层目录以及更下层目录的文件包括这个用迅雷 flashget好像都没这样的功能找到给一个链

用python编写递归爬取多重网址的网站信息

用python编写递归爬取多重网址的网站信息 的相关文章

随机推荐

热门标签

用python编写递归爬取多重网址的网站信息的相关文章