如何抓取网络新闻并将段落合并到每篇文章中

2023-12-14

我正在从该网站抓取新文章https://nypost.com/search/China+COVID-19/page/2/?orderby=relevance我使用 for 循环来获取每篇新闻文章的内容，但我无法组合每篇文章的段落。我的目标是将每篇文章存储在一个字符串中，所有字符串都应该存储在我的文章 list.

When I 打印（我的文章[0]），它给了我所有的文章。我希望它应该给我一篇文章。

任何帮助将不胜感激！

            for pagelink in pagelinks:
                #get page text
                page = requests.get(pagelink)
                #parse with BeautifulSoup
                soup = bs(page.text, 'lxml')
                containerr = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
                articletext = containerr.find_all('p')
                for paragraph in articletext:
                    #get the text only
                    text = paragraph.get_text()
                    paragraphtext.append(text)
                    
                #combine all paragraphs into an article
                thearticle.append(paragraphtext)
            # join paragraphs to re-create the article 
            myarticle = [''.join(article) for article in thearticle]
    
    print(myarticle[0])

为了清楚起见，完整代码附在下面

def scrape(url):
    user_agent = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; Touch; rv:11.0) like Gecko'}
    request = 0
    urls = [f"{url}{x}" for x in range(1,2)]
    params = {
       "orderby": "relevance",
    }
    pagelinks = []
    title = []
    thearticle = []
    paragraphtext = []
    for page in urls:
        response = requests.get(url=page,
                                headers=user_agent,
                                params=params) 
        # controlling the crawl-rate
        start_time = time() 
        #pause the loop
        sleep(randint(8,15))
        #monitor the requests
        request += 1
        elapsed_time = time() - start_time
        print('Request:{}; Frequency: {} request/s'.format(request, request/elapsed_time))
        clear_output(wait = True)

        #throw a warning for non-200 status codes
        if response.status_code != 200:
            warn('Request: {}; Status code: {}'.format(request, response.status_code))

        #Break the loop if the number of requests is greater than expected
        if request > 72:
            warn('Number of request was greater than expected.')
            break


        #parse the content
        soup_page = bs(response.text, 'lxml') 
        #select all the articles for a single page
        containers = soup_page.findAll("li", {'class': 'article'})
        
        #scrape the links of the articles
        for i in containers:
            url = i.find('a')
            pagelinks.append(url.get('href'))
        #scrape the titles of the articles
        for i in containers:
            atitle = i.find(class_ = 'entry-heading').find('a')
            thetitle = atitle.get_text()
            title.append(thetitle)
            for pagelink in pagelinks:
                #get page text
                page = requests.get(pagelink)
                #parse with BeautifulSoup
                soup = bs(page.text, 'lxml')
                containerr = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
                articletext = containerr.find_all('p')
                for paragraph in articletext:
                    #get the text only
                    text = paragraph.get_text()
                    paragraphtext.append(text)
                    
                #combine all paragraphs into an article
                thearticle.append(paragraphtext)
            # join paragraphs to re-create the article 
            myarticle = [''.join(article) for article in thearticle]
    
    print(myarticle[0])

print(scrape('https://nypost.com/search/China+COVID-19/page/'))

你不断地追加到现有的列表 [] 中，它不断增长，你需要在每个循环中清除它。

    articletext = containerr.find_all('p')
    for paragraph in articletext:
        #get the text only
        text = paragraph.get_text()
        paragraphtext.append(text)

    #combine all paragraphs into an article
    thearticle.append(paragraphtext)
# join paragraphs to re-create the article 
myarticle = [''.join(article) for article in thearticle]

应该是这样的

    articletext = containerr.find_all('p')
    thearticle = [] # clear from the previous loop
    paragraphtext = [] # clear from the previous loop
    for paragraph in articletext:
        #get the text only
        text = paragraph.get_text()
        paragraphtext.append(text)

    thearticle.append(paragraphtext)
    myarticle.append(thearticle)

但你可以将其进一步简化为：

article = soup.find("div", class_=['entry-content', 'entry-content-read-more'])
myarticle.append(article.get_text())

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

request

webcrawler

如何抓取网络新闻并将段落合并到每篇文章中的相关文章

从数据框中按索引删除行

我有一个数组wrong indexes train其中包含我想从数据框中删除的索引列表 0 63 151 469 1008 要删除这些索引我正在尝试这样做 df train drop wrong indexes train 但是代码失败
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
通过列表理解压平列表列表

我正在尝试使用 python 中的列表理解来展平列表我的清单有点像 1 2 3 4 5 6 7 8 只是为了打印这个列表列表中的单个项目我编写了这个函数 def flat listoflist for item in listoflis
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
如何设置 Celery 来调用自定义工作器初始化？

我对 Celery 很陌生我一直在尝试设置一个具有 2 个独立队列的项目一个用于计算另一个用于执行到目前为止一切都很好我的问题是执行队列中的工作人员需要实例化一个具有唯一 object id 的类每个工作人员一个 id 我想知
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
在 Pandas 中使用正则表达式的多种模式

我是Python编程的初学者我正在探索正则表达式我正在尝试从描述列中提取一个单词数据库名称我无法给出多个正则表达式模式请参阅下面的描述和代码描述 Summary AD1 Low free DATA space in data
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
android httprequest java.net.UnknownHostException

我想用android发出http请求是使用这个 void testHTTP HttpClient httpClient new DefaultHttpClient HttpUriRequest request new HttpPost h
检查字典键是否有空值

我有以下字典 dict1 city name yass region zipcode phone address tehsil planet mars 我正在尝试创建一个基于 dict1 的新字典但是它不会包含带有空字符串的键它不会包
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户
列表值的意外更改

这是我的课 class variable object def init self name name alias parents values table name of the variable self name 这是有问题的函数 f
您可以使用关键字参数而不提供默认值吗？

我习惯于在 Python 中使用这样的函数方法定义 def my function arg1 None arg2 default do stuff here 如果我不供应arg1 or arg2 那么默认值None or default

随机推荐

带有 FileSystemWatcher 和 Timer 的 Windows 服务 - 确保所有内容都得到处理

我创建了一个 C Windows 服务应用程序来启动FileSystemWatcher监视目录中文件的创建找到文件后我实例化一个自定义类该类解析文件 CSV 并使用其内容调用 Web 服务该服务在某种程度上是异步的并返回一个唯一的
使用 SUDS 时添加 xsi:type 和信封命名空间

我需要与 SOAP 服务交互但这样做遇到了很多麻烦非常感谢对此的任何指示原来的错误信息是 org apache axis2 databinding ADBException Any type element type has not
MySQL Select Query 生成动态列结果

我需要编写一个动态返回列的查询例如我有一个包含列的表 tblTest Id Name Type Amount 1 Receipt Cash 100 2 Receipt Card 200 3 Receipt Cheque 250 4 Re
如何将日期时间列四舍五入到最近的一刻钟

我已将数据文件加载到 Python pandas 数据框中我有一个格式的日期时间列2015 07 18 13 53 33 280 我需要做的是创建一个新列将其四舍五入到最接近的一刻钟因此上面的日期将四舍五入为2015 07 18 1
Gradle应用程序插件：修改workingDir属性

我只是想修改程序运行的目录通常它是从项目根目录运行的这让我有点恼火因为测试程序可能非常烦人因为我的程序在运行时生成文件和文件夹 A JavaExec任务有一个属性称为JavaExec workingDir 这正是我想要修改为我选择
使用数组进行字符串插值

我正在尝试使用 php 创建链接但遇到了一些困难有人可以帮我弄这个吗我希望链接转到 yourteam php 标题为变量 row User ID 的内容 echo tr td a href row User ID a td td b
水平冻结一表列

我有一个活动其中我实现了一个表格视图表格视图有标题和正文表格可以水平和垂直滚动这是活动源代码 public class ReportListActivity extends Activity TableLayout report t
使用来自 PHP 网页的输入参数运行 .exe

我目前正在尝试获取一个可执行文件以在 PHP 网页中运行当前使用exec 从命令行运行时该程序需要两个参数我不确定使用 PHP 运行它的最佳方法是什么特别是可以使用以下语法从命令行运行 exe my program exe inp
在 WooCommerce 我的帐户订单列表上显示产品缩略图

我正在尝试在 WooCommerce 我的帐户 gt 订单列表中的订单号旁边显示产品缩略图 Below is the screenshot of the order 我必须使用什么钩子来显示图像 I tried 将产品图片添加到 Wooco
在 PHP 中删除 JSON 数组元素，然后重新编码为 JSON

function deleteNews selected file file get contents news json true data json decode file true unset file foreach selecte
取消 jquery 可拖动对象或重置

我想加载一个可以拖动到地图 div 上的对象页面但想要有一个清除撤消按钮这可以用 jquery 实现吗你可以在上一个问题中看到代码 jQuery UI droppables 更改删除的图像这可以通过简单的调用来实现 animate
使用 gradle/clojuresq 构建 clojure

我正在尝试使用 gradle Clojuresque 构建 clojure 代码运行它并获取 uberjar 我使用来自的提示http dev clojure org display doc Getting Started with Gr
使用php发送whatsapp消息

你好我想使用 php 发送 Whatsapp 消息我运行这段代码
Inno Setup - 使用通配符注册表项设置 DefaultDir？

我最近开始使用 Inno Setup 尝试创建一个简单的 exe 安装程序来进行游戏修改我的安装程序大部分工作正常但目前还有些基础我真正希望安装程序做的是自动找到该模组设计的游戏的安装目录战争黎明黑暗十字军这样用户就不需要手动浏
XML SAX：在一个示例 XML 文件中解释“qName”和“localName”的结果

我正在测试如何使用SAXParser并了解其组成部分这是我用来测试的 XML 文件
姜戈；连接到 AWS Elastic Bean 上的上游时，44 connect() 失败（111：连接被拒绝）

我想将我的 django 项目上传到 AWS ElasticBean 但我一直在获取502 网关错误 nginx 1 20 0 我在 youtube 上浏览了一些视频但似乎不起作用这是我的项目目录 ebextensions elasti
收到错误：查询输入必须至少包含一个表或查询

我收到此错误查询输入必须至少包含一个表或查询我的代码是 using OleDbConnection myCon new OleDbConnection Provider Microsoft ACE OLEDB 12 0 Data Sou
使用 Overpass API 查找坐标周围的多个标签

鉴于此立交桥查询https overpass turbo eu s Sle 搜索博物馆和画廊我如何引入一种新类型的标签来搜索同一位置例如我还想搜索node amenity cafe bar 同一区域周围500米 lat 500 53
通过 TCP 通过我的公共 IP 连接到我自己

我正在尝试使用我的公共 IP 连接到我自己的计算机如果我使用127 0 0 1连接成功但是使用公网IP会出现以下错误 ConnectionRefusedError WinError 10061 No connection could b
如何抓取网络新闻并将段落合并到每篇文章中

我正在从该网站抓取新文章https nypost com search China COVID 19 page 2 orderby relevance我使用 for 循环来获取每篇新闻文章的内容但我无法组合每篇文章的段落我的目标是将每篇

如何抓取网络新闻并将段落合并到每篇文章中

如何抓取网络新闻并将段落合并到每篇文章中 的相关文章

随机推荐

热门标签

如何抓取网络新闻并将段落合并到每篇文章中的相关文章