我的脚本不会进入下一页进行抓取

2024-03-07

我编写了一个用于网络抓取的代码，除了下一页活动之外，一切都很好。当我运行我的代码时scrape数据只是来自网站scraping第一页不会向前移动以抓取其他页面数据。实际上，我是使用 python 进行网络抓取的新手，所以请指导我。你能修复我的代码吗？看看我的代码并请帮助我，谢谢

这是我的代码：

import requests
from bs4 import BeautifulSoup
#import pandas as pd
#import pandas as pd
import csv

def get_page(url):
    response = requests.get(url)
    if not response.ok:
        print('server responded:', response.status_code)
    else:
        soup = BeautifulSoup(response.text, 'html.parser') # 1. html , 2. parser
    return soup

def get_detail_page(soup):

     try:
        title = (soup.find('h1',class_="cdm_style",id=False).text)
     except:
         title = 'Empty Title'
     try:
         collection = (soup.find('td',id="metadata_collec").find('a').text)
     except:
         collection = "Empty Collection"
     try:
         author = (soup.find('td',id="metadata_creato").text)
     except:
         author = "Empty Author"
     try:
         abstract = (soup.find('td',id="metadata_descri").text)
     except:
         abstract = "Empty Abstract"
     try:
         keywords = (soup.find('td',id="metadata_keywor").text)
     except:
         keywords = "Empty Keywords"
     try:
         publishers = (soup.find('td',id="metadata_publis").text)
     except:
         publishers = "Empty Publishers"
     try:
         date_original = (soup.find('td',id="metadata_contri").text)
     except:
         date_original = "Empty Date original"
     try:
        date_digital = (soup.find('td',id="metadata_date").text)
     except:
        date_digital = "Empty Date digital"
     try:
        formatt = (soup.find('td',id="metadata_source").text)
     except:
        formatt = "Empty Format"
     try:
        release_statement = (soup.find('td',id="metadata_rights").text)
     except:
        release_statement = "Empty Realease Statement"
     try:
        library = (soup.find('td',id="metadata_librar").text)
     except:
        library = "Empty Library"
     try:
        date_created = (soup.find('td',id="metadata_dmcreated").text)
     except:
        date_created = "Empty date Created"
     data = {
         'Title'        : title.strip(),
         'Collection'   : collection.strip(),
         'Author'       : author.strip(),
         'Abstract'     : abstract.strip(),
         'Keywords'     : keywords.strip(),
         'Publishers'   : publishers.strip(),
         'Date_original': date_original.strip(),
         'Date_digital' : date_digital.strip(),
         'Format'       : formatt.strip(),
         'Release-st'   : release_statement.strip(),
         'Library'      : library.strip(),
         'Date_created' : date_created.strip()
         

     }
     return data
def get_index_data(soup):
    try:
        titles_link = soup.find_all('a',class_="body_link_11")
    except:
        titles_link = []
    else:
        titles_link_output = []
        for link in titles_link:
            try:
                item_id = link.attrs.get('item_id', None) #All titles with valid links will have an item_id
                if item_id:
                    titles_link_output.append("{}{}".format("http://cgsc.cdmhost.com",link.attrs.get('href', None)))
            except:
                continue
    return titles_link_output
def write_csv(data,url):
    with open('11_to_55.csv','a') as csvfile:
        writer = csv.writer(csvfile)
        row = [data['Title'], data['Collection'], data['Author'],
        data['Abstract'], data['Keywords'], data['Publishers'], data['Date_original'],
        data['Date_digital'], data['Format'], data['Release-st'], data['Library'],
        data['Date_created'], url]
        writer.writerow(row)
def main():
    #url = "http://cgsc.cdmhost.com/cdm/singleitem/collection/p4013coll8/id/2653/rec/1"
    #get_page(url)
    for x in range(1,4):
        mainurl = ("http://cgsc.cdmhost.com/cdm/search/collection/p4013coll8/searchterm/1/field/all/mode/all/conn/and/order/nosort/page/")
        print(x)
        url = (mainurl + str(x))
        products = get_index_data(get_page(url))
        for product in products:
            data1 = get_detail_page(get_page(product))
            write_csv(data1,product)
    #write_csv(data,url)


if __name__ == '__main__':
    main()

我开始尝试找出为什么它没有正确加载下一页，但在找到答案之前，我找到了另一种方法来获取您正在寻找的数据。页面上有一个选项可以更改您要返回的结果数量。我将其更改为 10000，现在集合中的所有项目都加载在一页上。

如果这不是您想要的，而是仍然想解决页面更改问题，请告诉我，我会再看一下。

cgsc.cdmhost.com/cdm/search/collection/p4013coll8/searchterm/1/field/all/mode/all/conn/and/显示/10000/订单/nosort/ad/asc

我测试了加载索引页面，但没有测试详细页面。我不想下载整个集合。

以下是我所做的一些更改和一些建议。

不再需要循环索引页。页面现在返回所有项目。
具体说明您捕获的异常。在本例中是 AttributeError
在您的请求中添加用户代理，许多网站会阻止没有它的请求

祝你好运！

import requests
from bs4 import BeautifulSoup
#import pandas as pd
#import pandas as pd
import csv

def get_page(url):
    response = requests.get(url, headers={'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.37"})
    if not response.ok:
        print('server responded:', response.status_code)
    else:
        soup = BeautifulSoup(response.text, 'html.parser') # 1. html , 2. parser
    return soup

def get_detail_page(soup):

    # Be specific with your exception capturing. 
    try:
        title = (soup.find('h1',class_="cdm_style",id=False).text)
    except AttributeError:
        title = 'Empty Title'
    try:
        collection = (soup.find('td',id="metadata_collec").find('a').text)
    except AttributeError:
        collection = "Empty Collection"
    try:
        author = (soup.find('td',id="metadata_creato").text)
    except AttributeError:
        author = "Empty Author"
    try:
        abstract = (soup.find('td',id="metadata_descri").text)
    except AttributeError:
        abstract = "Empty Abstract"
    try:
        keywords = (soup.find('td',id="metadata_keywor").text)
    except AttributeError:
        keywords = "Empty Keywords"
    try:
        publishers = (soup.find('td',id="metadata_publis").text)
    except AttributeError:
        publishers = "Empty Publishers"
    try:
        date_original = (soup.find('td',id="metadata_contri").text)
    except AttributeError:
        date_original = "Empty Date original"
    try:
        date_digital = (soup.find('td',id="metadata_date").text)
    except AttributeError:
        date_digital = "Empty Date digital"
    try:
        formatt = (soup.find('td',id="metadata_source").text)
    except AttributeError:
        formatt = "Empty Format"
    try:
        release_statement = (soup.find('td',id="metadata_rights").text)
    except AttributeError:
        release_statement = "Empty Realease Statement"
    try:
        library = (soup.find('td',id="metadata_librar").text)
    except AttributeError:
        library = "Empty Library"
    try:
        date_created = (soup.find('td',id="metadata_dmcreated").text)
    except AttributeError:
        date_created = "Empty date Created"
    data = {
    'Title'        : title.strip(),
    'Collection'   : collection.strip(),
    'Author'       : author.strip(),
    'Abstract'     : abstract.strip(),
    'Keywords'     : keywords.strip(),
    'Publishers'   : publishers.strip(),
    'Date_original': date_original.strip(),
    'Date_digital' : date_digital.strip(),
    'Format'       : formatt.strip(),
    'Release-st'   : release_statement.strip(),
    'Library'      : library.strip(),
    'Date_created' : date_created.strip()
    }
    return data

def get_index_data(soup):
    try:
        titles_link = soup.find_all('a',class_="body_link_11")
    except:
        titles_link = []
    else:
        titles_link_output = []
        for link in titles_link:
            try:
                item_id = link.attrs.get('item_id', None) #All titles with valid links will have an item_id
                if item_id:
                    titles_link_output.append("{}{}".format("http://cgsc.cdmhost.com",link.attrs.get('href', None)))
            except:
                continue
    return titles_link_output

def write_csv(data,url):
    with open('11_to_55.csv','a') as csvfile:
        writer = csv.writer(csvfile)
        row = [data['Title'], data['Collection'], data['Author'],
        data['Abstract'], data['Keywords'], data['Publishers'], data['Date_original'],
        data['Date_digital'], data['Format'], data['Release-st'], data['Library'],
        data['Date_created'], url]
        writer.writerow(row)

def main():
    main_url = ("http://cgsc.cdmhost.com/cdm/search/collection/p4013coll8/searchterm/1/field/all/mode/all/conn/and/display/10000/order/nosort/ad/asc")
    products = get_index_data(get_page(main_url))
    print(products)
#     for product in products:
#         data1 = get_detail_page(get_page(product))
#         write_csv(data1,product)
#     write_csv(data,url)


if __name__ == '__main__':
    main()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

我的脚本不会进入下一页进行抓取的相关文章

上传时的 Google Drive API——这些额外的空行从何而来？

总结一下该程序我从我的 Google 云端硬盘下载一个文件然后在本地计算机中打开并读取一个文件 file a txt 然后在我的计算机中打开另一个文件 file b txt 处于附加模式并且在使用这个新的 file b 更新我的 Go
嵌套字典中的 Django 模板

我正在使用 Django 模板并且遇到了嵌套字典的一个问题 Dict result dict type 0 file name abc count 0 type 1 file name xyz count 50 我的 HTML 文件中的模
使用 Python 创建 MIDI

本质上我正在尝试从头开始创建 MIDI 并将它们放到网上我对不同的语言持开放态度但更喜欢使用Python 两种语言之一如果这有什么区别的话并且想知道我应该使用哪个库提前致谢看起来这就是您正在寻找的适用于 Python 的简单
TensorFlow：带有轴选项的 bincount

在 TensorFlow 中我可以使用 tf bincount 获取数组中每个元素的计数 x tf placeholder tf int32 None freq tf bincount x tf Session run freq feed
在Python中如何获取字典的部分视图？

是否有可能获得部分视图dict在Python中类似于pandasdf tail df head 说你有很长一段时间dict 而您只想检查某些元素开头结尾等 dict 就像是 dict head 3 To see the first 3
Pyqt-如何因另一个组合框数据而更改组合框数据？

我有一个表有 4 列这 4 列中的两列是关于功能的一个是特征另一个是子特征在每一列中所有单元格都有组合框我可以在这些单元格中打开txt 我想当我选择电影院作为功能时我只想看到子功能组合框中的电影名称而不是我的数据中的
如何在VIM中设置文件的正确路径？

每当我击中 pwd在 vim 中命令总是返回路径C Windows system32 即使我在桌面上的 Python 文件中所以每当我跑步时 python 命令返回 python can t open file Users myname
更改 x 轴比例

我使用 Matlab 创建了这个图使用 matplotlib x 轴绘制大数字例如 100000 200000 300000 我想要 1 2 3 和 10 5 之类的值来指示它实际上是 100000 200000 300000 有没有一
如何根据 HTTP 请求使用 Python 和 Flask 执行 shell 命令并流输出？

下列的这个帖子 https stackoverflow com questions 15092961 how to continuously display python output in a webpage 我能够tail f网页的日志
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
如何使用 Bokeh 动态隐藏字形和图例项

我正在尝试在散景中实现复选框其中每个复选框应显示隐藏与其关联的行我知道可以通过图例来实现这一点但我希望这种效果同时在两个图中发生此外图例也应该更新在下面的示例中出现了复选框但不执行任何操作我显然不明白如何更新用作源的数据
如何从 JSON 响应重定向？

所以我尝试使用 Flask 和 Javascript 上传器 Dropzone 上传文件并在上传完成后重定向文件上传正常但在烧瓶中使用传统的重定向 return redirect http somesite com 不执行任何操作页面
以编程方式使用 Sphinx 特定指令解析 .rst 文件

我希望能够在 Python 中解析基于 sphinx 的 rst 以便进一步处理和检查就像是 import sphinx p sphinx parse path to file rst do something with p 似乎在 do
Flask 应用程序的测试覆盖率不起作用

您好想在终端的 Flask 应用程序中测试删除路由我可以看到测试已经过去它说 test user delete test app LayoutTestCase ok 但是当我打开封面时它仍然是红色的这意味着没有覆盖它请有人向我
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
通过 Web 界面执行 python 单元测试

是否可以通过 Web 界面执行单元测试如果可以如何执行 EDIT 现在我想要结果对于测试我希望它们是自动化的可能每次我对代码进行更改时抱歉我忘了说得更清楚 EDIT 这个答案此时已经过时了 Use Jenkins https j
python 中的 after() 与 update()

我是 python 新手开始使用 tkinter 作为画布到目前为止我使用 update 来更新我的画布但还有一个 after 方法谁能给我解释一下这个函数请举个例子两者之间有什么区别 root after integer c

随机推荐

使用 tomcat 读取 spring boot 上的控制台输入

是否可以在 Spring Boot 上的嵌入式 tomcat 启动之前读取控制台输入假定的应用程序流程是向用户请求用户名和密码这将用于启动应用程序它在使用时有效java jar命令问题是当我关闭控制台 Linux 上的 SSH 时
MongoDB填写查询结果中不包含的数据

假设我有一个包含以下数据的集合 date ISODate 2018 01 01T00 00 00Z count 3 date ISODate 2018 01 04T00 00 00Z count 5 我应该使用什么 mongodb 函数才能
尝试理解 ScrollView 内 LinearLayout 的边距

我需要有一个LinearLayout里面一个SrollView然后LinearLayout必须有一个余量ScrollView 起初我能想到解决这个问题的唯一方法就是LinearLayout在另一个里面LinearLayout在最后一个布局
无法使用 QWebEngineView 渲染网页

我一直在尝试将网页渲染到 PyQt5 中的小部件上这些是我的设置 PyQt 5 15 4 PyQtWebEngine 5 15 4 PyQt5 工具 5 15 4 2 我正在尝试渲染一些基本网站例如 google com 但我面临着一个
为什么枚举数组可以转换为两种不同的 IEnumerable 类型？

我似乎在 C 中偶然发现了一些我不完全理解的不寻常的东西假设我定义了以下枚举 public enum Foo short The values aren t really important A B 如果我声明一个数组Foo或通过检索一个
Spark SQL 中的 Cross Join 计算

我有一个临时视图仅1记录值我想使用该值来计算另一个大表中存在的客户的年龄带有100M 行我用了一个CROSS JOIN条款这会导致性能问题有没有更好的方法来实现这个要求并且性能会更好会不会broadcast提示适合这种情况
如何正确解释作为字符串接收的 JSON 对象？

我的网络服务已损坏无法访问和更改它发送一些主要不错的 JSON 但其中一个属性是作为字符串发送的嵌套 JSON 对象 http www ireland com api getitemweb 185213 http www ireland
在 C++ 中使用“void”模板参数

采取以下最小示例 using Type1 std function
使用循环向mysql插入100000条数据

我想在mysql中用循环插入数据 100000 当我运行没有错误但数据没有插入到我的表中时这是我的查询 DELIMITER DECLARE i INT DEFAULT 1 WHILE i lt 100 DO INSERT INTO vo
使用 RestTemplate 的 Spring Web 服务的超时配置

我想使用 RestTemplate 在客户端为 Spring Web 服务配置超时我尝试了以下配置
批处理文件：列出特定文件夹中的rar文件并将结果写入文本文件

我有一个文件夹其中包含一些 rar 文件和子文件夹这些子文件夹包含 rar 文件或子文件夹递归结构我想编写一个批处理文件列出此文件夹树完整路径中的所有 rar 文件结果被写入文本文件 Example 具体文件夹 Quest
WordPress - 将特色图像添加到自定义帖子类型

我正在尝试将特色图像添加到我的主题中但不适用于帖子或页面我创建了一个名为属性的自定义类型用于房地产经纪人那么如何启用特色图像因为它没有出现在场景选项中希望有人能帮忙 property new Cuztom Post Type
Oracle无法从LONG数据类型转换为CLOB数据类型（数据类型不一致错误）

Oracle 11g 在尝试将 long 数据类型转换为 clob 时出现以下错误我尝试 select to lob long col name from table1 I get Error Execution 1 39 ORA 009
定制频道wifi直连

谁能告诉我有没有自定义 wifi direct 频道的选项我不仅需要在 ch1 ch6 和 ch11 之间进行自定义还需要在我选择的其他频道中进行自定义我怎样才能做到这一点要更改设备 Wifi Direct 的频道您需要执行以下
设置创建或更改时间戳

Using utimes futimes futimens等等可以设置文件的访问和修改时间戳修改时间是文件数据最后一次改变的时间同样 ctime 或更改时间是文件属性例如权限最后一次更改的时间 Linux POSIX 维护三个时间
WPF TreeView刷新

我有一个问题我用TreeView在我的 WPF 项目中可视化我的 XML 数据问题是当我编辑我的XmlDocument它不会刷新TreeView 但我注意到当我检查时SelectedNode 这是我编辑的XmlNode 所以我的编辑
为什么我的文本字符串在 Pygame 中呈现为实心/填充矩形？ [复制]

这个问题在这里已经有答案了所以我制作了一个 Yo Mama 笑话生成器它做了它应该做的事情如果我删除所有 Pygame 特定的代码并将其打印到终端命令行它就会起作用但是当我添加 Pygame 并创建一个应用程序时它会将文本显示
正则表达式：用一种模式替换另一种模式

我正在尝试用另一种正则表达式模式替换一种正则表达式模式 st srt Awake 01x02 iNTERNAL WEBRiP XViD GeT srt st mkv Awake S01E02 iNTERNAL WEBRiP XViD GeT
laravel5: chdir(): 没有这样的文件或目录 (errno 2)

当我将 Laravel 5 上的网站构建部署到 VPS 服务器时遇到问题但在本地计算机上它工作正常我的页面是http easyway vn http easyway vn 当前页面显示空白并出现错误无法加载资源服务器响应状态为 50
我的脚本不会进入下一页进行抓取

我编写了一个用于网络抓取的代码除了下一页活动之外一切都很好当我运行我的代码时scrape数据只是来自网站scraping第一页不会向前移动以抓取其他页面数据实际上我是使用 python 进行网络抓取的新手所以请指导我你能修复我

我的脚本不会进入下一页进行抓取

我的脚本不会进入下一页进行抓取 的相关文章

随机推荐

热门标签

我的脚本不会进入下一页进行抓取的相关文章