如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时

2023-11-29

我是初学者，这个论坛上的答案非常宝贵。我正在使用 Python 3 和 Beautiful Soup 通过循环页码从同一网站上的多个网页中抓取（非表）数据。它有效，但我不断收到 AttributeError: 'NoneType' object has no attribute 'text' 第一次迭代后。

这是我迄今为止尝试过的代码：

import requests

from bs4 import BeautifulSoup

import csv

import lxml


# Lists to store the scraped data in

addresses = []
geographies = []
rents = []
units = []
availabilities = []

# Scraping all pages

pages_url = requests.get('https://www.rent.com/new-york/tuckahoe-apartments')

pages_soup = BeautifulSoup(pages_url.text, 'html.parser')

list_nums = pages_soup.find('div', class_='_1y05u').text

print(list_nums)

pages = [str(i) for i in range(1,8)]

for page in pages:

    response = requests.get('https://www.rent.com/new-york/tuckahoe-apartments?page=' + page).text

    html_soup = BeautifulSoup(response, 'lxml')


    # Extract data from individual listing containers

    listing_containers = html_soup.find_all('div', class_='_3PdAH')
    print(type(listing_containers))
    print(len(listing_containers))



    for container in listing_containers:
        address = container.a.text
        addresses.append(address)

        geography = container.find('div', class_='_1dhrl').text
        geographies.append(geography)

        rent = container.find('div', class_='_3e12V').text
        rents.append(rent)

        unit = container.find('div', class_='_2tApa').text
        units.append(unit)

        availability = container.find('div', class_='_2P6xE').text
        availabilities.append(availability)

        import pandas as pd
        test_df = pd.DataFrame({'Street' : addresses,
                                'City-State-Zip' : geographies,
                                'Rent' : rents,
                                'BR/BA' : units,
                                'Units Available' : availabilities

        })
        print(test_df)

这是输出：

240 Properties
<class 'bs4.element.ResultSet'>
30
                     Street                      City-State-Zip     Rent                 BR/BA    Units Available
0  Quarry Place at Tuckahoe  64 Midland PlaceTuckahoe, NY 10707  $2,490+  1–2 Beds • 1–2 Baths  2 Units Available
Traceback (most recent call last):
  File "renttucktabletest.py", line 60, in <module>
    availability = container.find('div', class_='_2P6xE').text
AttributeError: 'NoneType' object has no attribute 'text'

我正在寻找的结果是pandas 数据框中的所有 240 个列表与上面输出中显示的第一次迭代完全相同。任何人都可以帮助修复这个错误吗？将不胜感激。谢谢你！

正如所指出的，问题是一些容器缺少某些div元素。例如，没有“单位”或“可用性”信息。

解决这个问题的一种方法是使用if - else声明。仅当元素存在时追加，否则追加NaN价值。就像是：

import requests
import numpy as np
from bs4 import BeautifulSoup

import csv

import lxml


# Lists to store the scraped data in

addresses = []
geographies = []
rents = []
units = []
availabilities = []

# Scraping all pages

pages_url = requests.get('https://www.rent.com/new-york/tuckahoe-apartments')

pages_soup = BeautifulSoup(pages_url.text, 'html.parser')

list_nums = pages_soup.find('div', class_='_1y05u').text

print(list_nums)

pages = [str(i) for i in range(1,8)]

for page in pages:

    response = requests.get('https://www.rent.com/new-york/tuckahoe-apartments?page=' + page).text

    html_soup = BeautifulSoup(response, 'lxml')


    # Extract data from individual listing containers

    listing_containers = html_soup.find_all('div', class_='_3PdAH')
    print(type(listing_containers))
    print(len(listing_containers))



    for container in listing_containers:
        address = container.a
        if address:
            addresses.append(address.text)
        else:
            addresses.append(np.nan)

        geography = container.find('div', class_='_1dhrl')
        if geography:
            geographies.append(geography.text)
        else:
            geographies.append(np.nan)

        rent = container.find('div', class_='_3e12V')
        if rent:
            rents.append(rent.text)
        else:
            rents.append(np.nan)

        unit = container.find('div', class_='_2tApa')
        if unit:
            units.append(unit.text)
        else:
            units.append(np.nan)

        availability = container.find('div', class_='_2P6xE')
        if availability:
            availabilities.append(availability.text)
        else:
            availabilities.append(np.nan)

import pandas as pd
test_df = pd.DataFrame({'Street' : addresses,
                        'City-State-Zip' : geographies,
                        'Rent' : rents,
                        'BR/BA' : units,
                        'Units Available' : availabilities

})
print(test_df)

                     Street                      City-State-Zip     Rent  \
0  Quarry Place at Tuckahoe  64 Midland PlaceTuckahoe, NY 10707  $2,490+   
1     address not disclosed                  Tuckahoe, NY 10707   $2,510   
2     address not disclosed                  Tuckahoe, NY 10707   $4,145   
3        60 Washington St 1  60 Washington StTuckahoe, NY 10707   $3,500   
4        269 Columbus Ave 5  269 Columbus AveTuckahoe, NY 10707   $2,700   

                  BR/BA    Units Available  
0  1–2 Beds • 1–2 Baths  2 Units Available  
1        1 Bed • 1 Bath                NaN  
2       2 Beds • 2 Bath                NaN  
3       3 Beds • 2 Bath                NaN  
4       2 Beds • 1 Bath                NaN

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pandas

webscraping

beautifulsoup

如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时的相关文章

将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
如果另一列中的值为空，则删除重复项 - Pandas

我拥有的 df Name Vehicle Dave Car Mark Bike Steve Car Dave Steve 我想从名称列中删除重复项但前提是车辆列中的相应值为空我知道我可以使用 df dropduplicates
如何合并多个Excel文件，每个Excel文件中有多个相同数量的工作表

我目前可以将多个 Excel 文件合并到一张表中我想合并每个 Excel 文件中具有两个不同工作表的多个工作表并为每个工作表指定名称我怎样才能实现这个目标下面是我当前的代码用于将多个 Excel 文件中的单个工作表组合在一起而无需
为什么我的 Pygame 窗口在为对象设置动画时会闪烁？

所以我的 pygame 窗口不会停止闪烁我知道只要one项目在snake snakearray 不会闪烁 class for the array class snake snakearray ScreenConfigs width 2 S
Python Pandas to_datetime AttributeError：'tuple'对象没有属性'lower'

我有一个由 6 列组成的 csv 第一列具有特定的日期格式因此我需要将其转换为美国格式 YYYY mm dd 阅读 CSV 文件的内容后我继续修改日期列但不断收到以下错误 CSV Gmt time Open High Low Cl
条件移位：在 pandas 中使用多个条件从“当前行值”中减去“前一行值”

我有以下数据框 Disease HeartRate State MonthStart MonthEnd Covid 89 Texas 2020 02 28 2020 03 31 Covid 91 Texas 2020 03 31 2020
使用一次递归调用实现递归

给定一个函数如下 f n f n 1 f n 3 f n 4 f 0 1 f 1 2 f 2 3 f 3 4 我知道使用递归来实现它并在一个函数内进行三个递归调用但我想在函数内仅使用一次递归调用来完成此操作怎样才能做到呢要实现使用
使用 Tabula 通过 Python 读取 pdf 时出现 Java 错误

我已经安装了 tabula 库用于使用 python 将 pdf 读取到 pandas 数据框中但是当我运行代码时 import tabula df tabula read pdf sample1 pdf pages 1 我得到了例外
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
ValueError：使用火炬张量时需要解压的值太多

对于神经网络项目我使用 Pytorch 并使用 EMNIST 数据集已经给出的代码加载到数据集中 train dataset dsets MNIST root data train True transform transforms T
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
ssl.SSLEOFError: EOF 发生违反协议 (_ssl.c:1129)

我正在尝试使用 GOOGLE Drive Api 从电脑上传多个文件到云端硬盘 from pydrive auth import GoogleAuth from pydrive drive import GoogleDrive import
ValueError：没有为“dense_input”提供数据

我正在使用以下简单的代码使用tensorflow加载csv并使用keras执行建模无法弄清楚这个错误 import tensorflow as tf train dataset fp tf keras utils get file fna
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
数据框 - 平均列

我在 pandas 中有以下数据框 Column 1 Column 2 Column3 Column 4 2 2 2 4 1 2 2 3 我正在创建一个数据框其中包含第 1 列和第 2 列第 3 列和第 4 列等的平均值 ColumnA
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
哪个版本的 Miniconda 具有适用于 Windows 64 位的 Python 3.6？

我正在开发一个需要这些深度学习库的项目 keras 和 tensorflow 不幸的是这些不适用于 Python 3 7 有人可以告诉我一个带有 Python 3 6 的 Miniconda 版本适用于 Windows 64 位吗我
如何通过函数注释指示函数需要函数作为参数，或返回函数？

您可以使用函数注释 http www python org dev peps pep 3107 在python 3中指示参数和返回值的类型如下所示 def myfunction name str age int gt str return

随机推荐

Delphi 中重复直到中使用的函数 Sleep() 的奇怪行为

我的功能是单击按钮时的反应当我单击按钮时它应该开始重复并写入数组中的值并将它们显示在主窗体的标签中问题在于功能睡眠有一些错误或其他原因因为当我单击按钮时它等待了很长一段时间然后它最终开始执行操作但速度很快让我们看看我的代
JavaScript 缩放整个 Div

我正在寻找一个可以放大整个 div 的 JQuery 脚本我找到了以下插件 http test dpetroff ru jquery iviewer test and 这些插件正是我需要的东西只需用滚轮放大和缩小但我有一个问题我需要
npm install 在出现如此多的警告后给出错误

我的 ReactJS 项目直到上周都运行良好但从周日开始它在 npm install 上出现以下错误 PS C Projects Interface ClientApp gt npm install npm WARN deprecate
如何使用IpropertyStorage读取文件的属性？

如何使用 iPropertyStorage 读取文件的属性如标题作者页数等谁知道c 中的代码请发布它实际上我正在尝试以编程方式使用 c 读取文件属性标题摘要作者注释等当您看到文件的属性时摘要选项卡上显示的内容 F
事务回滚，但插入一条记录

大家好我已经使用 jsf spring 3 0 hybernate JPA 和atomikos 进行了 XA 交易管理 mysql 是我的后端这里一切正常但是插入操作当异常抛出时交易应该回滚但是它没有发生这是我们应用程序的一个
使用jquery附加vue js组件

我正在尝试动态附加vue使用 jquery 将组件添加到我的应用程序中但什么也没有发生附加元素没有渲染 div div 我想要的结果是附加时
HSM 和自定义模块

我们正在实施安全关键系统其中FIPS 140 2需要兼容的 HSM 硬件安全模块来生成和存储密钥材料执行加密解密以及运行自定义代码并为自定义模块设置以下要求模块可通过 RPC 访问模块可以访问所有 HSM 密钥和服务模块具有
php shell命令错误GLIBCXX_3.4.9未找到

我试图从 php 执行 shell 命令将文件转换为 pdf 但出现此错误有人可以详细解释我如何修复它吗我不太擅长linux 而且如果我直接通过终端执行命令一切都会正常 usr lib libreoffice program oos
我为什么可以在 std::vector 中使用前向声明的类？

我认为您只能创建指向前向声明类的引用或指针成员然而我惊讶地发现这个有效 include
在 GAE 上使用 boto3 - 遇到 Popen 问题

我正在尝试在 Google App Engine 中运行一些 python 代码该代码向 Amazon SQS 发送消息我已经安装了 boto3 但在尝试将其导入我的 AppEngine 服务时遇到错误 File base data h
使用 R 中的 Match 函数查找“第一次出现”

我是 R 和 Stackoverflow 的新手所以请原谅我提出这个非常基本的问题我正在尝试在我的数据集中找到第一个女性的索引代码快照我的整个数据集称为自行车所以首先我认为分配一个仅包含性别的新向量是个好主意 bike gen
使用填充堆叠不同长度的 Numpy 数组

a np array 1 2 3 b np array 4 5 l a b 我想要一个功能stack padding这样 assert stack padding l np array 1 2 3 4 5 0 numpy 是否有实现的标准方
Prolog 将分钟转换为小时

这是我创建的代码 mins to hours In H M In lt 60 H 0 M is In mins to hours In H M In gt 60 H is H1 1 In1 is In 60 mins to hours In
jQuery AJAX 请求 302 重定向 - 哪些回调可用？

我正在使用一个使用 jQuery 1 2 6 的旧系统我正在通过以下方式发送 AJAX 请求jQuery ajax功能它所访问的 URL 正在发送 302 HTTP 重定向响应并最终以 200 HTTP OK 响应结束我已经注册了两
如何将 $SHELL 变量传递到 perl 搜索和替换中

我有以下两个命令 value grep o Logs txt textFILE perl i wpe s onclick img document getElementById img 1 img style display img sty
ftplib.FTP 超时行为不一致

我正在尝试使用ftplib FTP 使用超时选项作为特定主机名的超时值但我遇到了奇怪的行为为了测试它我编写了一段非常简单的代码 import ftplib from ftplib import FTP ftp ftplib FTP g
将表达式作为参数传递：关键字不能是表达式

这是我的行动 gt gt gt def show d print d gt gt gt test result True gt gt gt show test result True gt gt gt show test info Some
使用 SDL 2 和 -static 进行编译时收到对各种 Windows 库的未定义引用？

我正在对 SDL2 中的 Wolfenstein 3D 引擎进行修改使用 Wolf4SDL 作为基础并且遇到了一个问题在链接器选项中使用 static 时我得到了对各种事物的大量未定义引用这是我的构建日志来说明我的意思 Build
将数据集动态绑定到 RDLC 报告

我想将动态数据集绑定到 rdlc 如果我在 ASPX 文件中使用内联数据源静态绑定我可以查看报告但是如果我使用以下代码报告查看器将继续显示正在加载图像我已经检查了数据集名称如果我将数据集名称更改为 Orders2 它会显示
如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时

我是初学者这个论坛上的答案非常宝贵我正在使用 Python 3 和 Beautiful Soup 通过循环页码从同一网站上的多个网页中抓取非表数据它有效但我不断收到 AttributeError NoneType object

如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时

如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时 的相关文章

随机推荐

热门标签

如何修复 AttributeError: 'NoneType' 对象没有属性 'text'...循环时的相关文章