使用网络抓取提供数据框

2023-11-30

我正在尝试将一些刮取的值附加到数据框中。我有这个代码：

import time
import requests
import pandas

import pandas as pd
from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
import json

# Grab content from URL
url = "https://www.remax.pt/comprar?searchQueryState={%22regionName%22:%22%22,%22businessType%22:1,%22listingClass%22:1,%22page%22:1,%22sort%22:{%22fieldToSort%22:%22ContractDate%22,%22order%22:1},%22mapIsOpen%22:false,%22listingTypes%22:[],%22prn%22:%22%22}"

PATH = 'C:\DRIVERS\chromedriver.exe'
driver = webdriver.Chrome(PATH)
option = Options()
option.headless = False
#chromedriver = 
#driver = webdriver.Chrome(chromedriver)
#driver = webdriver.Firefox() #(options=option)
#driver.get(url)
#driver.implicitly_wait(10)  # in seconds

time.sleep(1)
wait = WebDriverWait(driver, 10)
driver.get(url)

rows = driver.find_elements_by_xpath("//div[@class='row results-list ']/div")
data=[]
for row in rows:
    price=row.find_element_by_xpath(".//p[@class='listing-price']").text
    print(price)
    address=row.find_element_by_xpath(".//p[@class='listing-address']").text
    print(address)
    Tipo=row.find_element_by_xpath(".//p[@class='listing-type']").text
    print(Tipo)
    Area=row.find_element_by_xpath(".//p[@class='listing-area']").text
    print(Area)
    Quartos=row.find_element_by_xpath(".//p[@class='icon-bedroom-full']").text
    print(Quartos)
    data.append([price],[address],[Tipo],[Area],[Quartos])



#driver.quit()

问题是它返回以下错误：

NoSuchElementException                    Traceback (most recent call last)
<ipython-input-16-9e4d01985cda> in <module>
     49     price=row.find_element_by_xpath(".//p[@class='listing-price']").text
     50     print(price)
---> 51     address=row.find_element_by_xpath(".//p[@class='listing-address']").text
     52     print(address)
     53     Tipo=row.find_element_by_xpath(".//p[@class='listing-type']").text

~\anaconda3\lib\site-packages\selenium\webdriver\remote\webelement.py in find_element_by_xpath(self, xpath)
    349             element = element.find_element_by_xpath('//div/td[1]')
    350         """
--> 351         return self.find_element(by=By.XPATH, value=xpath)
    352 
    353     def find_elements_by_xpath(self, xpath):

~\anaconda3\lib\site-packages\selenium\webdriver\remote\webelement.py in find_element(self, by, value)
    656                 value = '[name="%s"]' % value
    657 
--> 658         return self._execute(Command.FIND_CHILD_ELEMENT,
    659                              {"using": by, "value": value})['value']
    660 

~\anaconda3\lib\site-packages\selenium\webdriver\remote\webelement.py in _execute(self, command, params)
    631             params = {}
    632         params['id'] = self._id
--> 633         return self._parent.execute(command, params)
    634 
    635     def find_element(self, by=By.ID, value=None):

~\anaconda3\lib\site-packages\selenium\webdriver\remote\webdriver.py in execute(self, driver_command, params)
    319         response = self.command_executor.execute(driver_command, params)
    320         if response:
--> 321             self.error_handler.check_response(response)
    322             response['value'] = self._unwrap_value(
    323                 response.get('value', None))

~\anaconda3\lib\site-packages\selenium\webdriver\remote\errorhandler.py in check_response(self, response)
    240                 alert_text = value['alert'].get('text')
    241             raise exception_class(message, screen, stacktrace, alert_text)
--> 242         raise exception_class(message, screen, stacktrace)
    243 
    244     def _value_or_default(self, obj, key, default):

NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":".//p[@class='listing-address']"}
  (Session info: chrome=90.0.4430.72)

但是，当我仅尝试使用第一个元素时，它会返回价格列表。如果我在数据框中给它不同的位置并且使用相同类型的路径，有什么区别？

你遇到的主要问题是locators。 1 首先，比较我使用的定位器和您代码中的定位器。 2 其次，添加显式等待from selenium.webdriver.support import expected_conditions as EC3 第三，删除不必要的代码。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC


driver = webdriver.Chrome(executable_path='/snap/bin/chromium.chromedriver')
url = "https://www.remax.pt/comprar?searchQueryState={%22regionName%22:%22%22,%22businessType%22:1,%22listingClass%22:1,%22page%22:1,%22sort%22:{%22fieldToSort%22:%22ContractDate%22,%22order%22:1},%22mapIsOpen%22:false,%22listingTypes%22:[],%22prn%22:%22%22}"
driver.get(url)
wait = WebDriverWait(driver, 10)
wait.until(EC.presence_of_all_elements_located((By.XPATH, "//div[@class='row results-list ']/div")))
rows = driver.find_elements_by_xpath("//div[@class='row results-list ']/div")
data = []
for row in rows:
    price_p = row.find_element_by_xpath(".//p[@class='listing-price']").text
    address = row.find_element_by_xpath(".//h2[@class='listing-address']").text
    type = row.find_element_by_xpath(".//li[@class='listing-type']").text
    area = row.find_element_by_xpath(".//li[@class='listing-area']").text
    quartos = row.find_element_by_xpath(".//li[@class='listing-bedroom']").text
    data.append([price, address, price_p, area, quartos])
driver.close()
driver.quit()

请注意，我是在 Linux 上进行的。您的 Chrome 驱动程序位置不同。另外，要打印列表，请使用：

for p in data:
    print(p.text, sep='\n')

您可以根据需要修改它。我收到以下输出：

['240 000 €', 'Lisboa -  Lisboa, Carnide', 'Apartamento', '54 m\n2', '1']
['280 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '80 m\n2', '1']
['285 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '83 m\n2', '1']
['290 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '85 m\n2', '1']
['280 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '80 m\n2', '1']
['290 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '85 m\n2', '1']
['285 000 €', 'Lisboa -  Lisboa, Beato', 'Apartamento', '83 m\n2', '1']
['80 000 €', 'Santarém -  Cartaxo, Ereira e Lapa', 'Terreno', '12440 m\n2', '1']
['260 000 €', 'Lisboa -  Sintra, Queluz e Belas', 'Prédio', '454 m\n2', '1']
['37 500 €', 'Santarém -  Torres Novas, Torres Novas (Santa Maria, Salvador e Santiago)', 'Prédio', '92 m\n2', '1']
['505 000 €', 'Lisboa -  Sintra, Algueirão-Mem Martins', 'Duplex', '357 m\n2', '1']
['135 700 €', 'Lisboa -  Mafra, Milharado', 'Terreno', '310 m\n2', '1']
['132 800 €', 'Lisboa -  Mafra, Milharado', 'Terreno', '310 m\n2', '1']
['133 440 €', 'Lisboa -  Mafra, Milharado', 'Terreno', '310 m\n2', '1']
['179 000 €', 'Lisboa -  Mafra, Milharado', 'Terreno', '310 m\n2', '1']
['75 000 €', 'Lisboa -  Vila Franca de Xira, Vila Franca de Xira', 'Apartamento', '52 m\n2', '1']
['575 000 €', 'Porto -  Matosinhos, Matosinhos e Leça da Palmeira', 'Apartamento', '140 m\n2', '1']
['35 000 €', 'Setúbal -  Almada, Caparica e Trafaria', 'Outros - Habitação', '93 m\n2', '1']
['550 000 €', 'Leiria -  Alcobaça, Évora de Alcobaça', 'Moradia', '160 m\n2', '1']
['550 000 €', 'Lisboa -  Loures, Santa Iria de Azoia, São João da Talha e Bobadela', 'Moradia', '476 m\n2', '1']

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

selenium

使用网络抓取提供数据框的相关文章

Python模块可以访问英语词典，包括单词的定义[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个 python 模块它可以帮助我从英语词典中获取单词的定义当然有enchant 这可以帮助我检查该单词是否存在于英语中
如何迭代按值排序的 Python 字典？

我有一本字典比如 a 6 b 1 c 2 我想迭代一下by value 不是通过键换句话说 b 1 c 2 a 6 最直接的方法是什么 sorted dictionary items key lambda x x 1 对于那些讨厌 la
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
填充两个函数之间的区域

import matplotlib pyplot as plt import numpy as np def domain x np arange 0 10 0 001 f1 lambda x 2 x x 2 0 5 plt plot x
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
为什么Python的curses中escape键有延迟？

In the Python curses module I have observed that there is a roughly 1 second delay between pressing the esc key and getc
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
为什么在 Python 2.4 中使用 Unicode 数据会出现 ASCII 编码错误，而在 2.7 中却不会？

我有一个程序当在 Python 2 7 中运行时会生成正确的 Unicode 输出到标准输出当在 Python 2 4 中运行时我得到UnicodeEncodeError ascii codec can t encode chara
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Python urllib.request.urlopen：AttributeError：'bytes'对象没有属性'data'

我正在使用 Python 3 并尝试连接到dstk 我收到错误urllib包裹我对SO进行了很多研究但找不到与这个问题类似的东西 api url self api base street2coordinates api body jso
Numpy 过滤器平滑零区域

我有一个 0 及更大整数的 2D numpy 数组其中值代表区域标签例如 array 9 9 9 0 0 0 0 1 1 1 9 9 9 9 0 7 1 1 1 1 9 9 9 9 0 2 2 1 1 1 9 9 9 8 0 2 2 1
按元组分隔符拆分列表

我有清单 print L I WW am XX newbie YY ZZ You WW are XX cool YY ZZ 我想用分隔符将列表拆分为子列表 ZZ print new L I WW am XX newbie YY ZZ You
在 pytube3 中获取 youtube 视频的标题？

我正在尝试构建一个应用程序来使用 python 下载 YouTube 视频pytube3 但我无法检索视频的标题这是我的代码 from pytube import YouTube yt YouTube link print yt titl
Python 将日志滚动到变量

我有一个使用多线程并在服务器后台运行的应用程序为了无需登录服务器即可监控应用程序我决定包括Bottle http bottlepy org为了响应一些HTTP端点并报告状态执行远程关闭等我还想添加一种查阅日志文件的方法我可以使用以
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
您可以将操作直接应用于map/reduce/filter 中的参数吗？

map and filter通常可以与列表理解互换但是reduce并不那么容易被交换map and filter 此外在某些情况下我仍然更喜欢函数语法但是当您需要对参数本身进行操作时我发现自己正在经历语法体操最终必须编写整个函数
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break

随机推荐

c++：如何打印不带回车的新行[重复]

这个问题在这里已经有答案了可能的重复如何使 cout 表现得像二进制模式我使用 C 将二进制数据打印到标准输出然后将其重定向到文件我不想直接写入文件但是当我尝试打印该值时 0A 我正进入状态 0D 0A 这是我将输出复制到
从平面 Modelica 代码中提取类型/类名

我想知道是否已经存在从平面 Modelica 代码中提取所有变量及其相应类型分别为类名的可能性例如给定扁平 Modelica 模型的摘录 constant Integer nSurfaces 8 constant Integer c
使用 DOMDocument 从网站抓取所有图像

我基本上想要得到ALL使用 DOMDocument 的任何网站中的图像但由于某些我还不知道的原因我什至无法加载我的 html url http
Elasticsearch 未在浏览器中运行

我已经在 Ubuntu 中下载了 Elasticsearch 8 1 安装成功后当我执行 curl u elastic https 127 0 0 1 9200 k 它显示了预期的弹性搜索响应但当我击中http 127 0 0 1 92
如何使用 Fiddler 将 XML POST 到 ASP.NET WebAPI

给定以下 ASP NET WebAPI 我尝试使用 Fiddler 发送测试 POST 但无法让它工作无论我发送什么我总是只看到没有数据发送到服务信息 Imports System Web Http Imports System Net
SQLITE 将大量行转置为列

我有一个这样订购的数据库 ID Subject Value 1 Subj1 Val1 1 Subj2 Val2 2 Subj1 Val3 2 Subj5 Val4 等等 ID 数以千计受试者数以万计我想找到这个矩阵的转置我怎么做如果
从 mcrypt_decrypt 到 openssl_decrypt

我有一个问题我想用 open ssl 解密替换对 mcrypt 的函数调用但输出是混合的这是 mcrypt 实现效果很好 decrypted trim mcrypt decrypt MCRYPT RIJNDAEL 128 subst
在 JPA 上映射 Oracle XMLType (EclipseLink)

我们的项目有一些特殊要求其中之一是从 Oracle 10g 数据库的 XMLType 数据库列获取数据我们找到了一个使用 JDBC 的简单解决方案但它会使应用程序有点混乱因为所有数据访问都是通过 JPA 完成的使用的实现是 Ecl
使用 HTML5 创建音频可视化工具

我正在尝试使用我在网上找到的示例对在线广播流使用音频可视化这一页然而与发现的问题类似这个帖子我的音频文件即使使用本地文件进行测试就是没有声音当然可视化也没有任何作用我的 HTML 如下
在 Firefox 和 Chrome 中呈现 HTML

div style height 20 width 70 div div gt div style height 20 width 30 div 在 Chrome 中这两个部分位于同一行但是两个div之间有一个小差距但在 Firefo
根据多个数据块的列值改变点颜色 gnuplot

我的问题非常类似于this其一从中我学到了很多东西但是我正在使用多个数据块如下所示 1 2 3 4 5 6 7 8 0 4 3 0 4 5 7 2 3 0 4 5 0 5 6 7 我将它们绘制如下 plot file txt ind
为什么 Python 创建的 MD5 哈希与在 shell 中使用 echo 和 md5sum 创建的 MD5 哈希不同？

Python MD5 哈希值与 shell 上的 md5sum 命令创建的哈希值不同为什么 gt gt gt import hashlib gt gt gt h hashlib md5 gt gt gt h update mystring
SSIS版本检查

这是我在这个论坛上的第一篇文章我一直坚持使用 Microsoft SSIS 软件包但我真的不知道如何打败它我已经提到了 SSIS 包文件我尝试在 SQL Server 2005 上使用 Business Intelligence D
在 contenteditable div 中设置插入符位置

Intro 当编辑 contenteditable DOM 对象的内容时不同的浏览器有不同的行为例如 Firefox 18 0 创建一个新段落 p 或换行符 br 在某些情况下 Chrome 24 会创建一个 p div 为了解决这个问
如何修复 iOS 12 Safari Cors 预检错误？

我试图更好地理解 COR 因为我们的 Web 应用程序的一些用户抱怨说自从他们升级到 iOS 12 后他们收到了预检错误来自网络检查器的错误 Error Preflight response is not successful Err
导出可运行的 JAR 文件不支持 UTF-8 编码 - Java Eclipse

我使用 eclipse IDE 制作了这个小型 Java 程序我已将工作区设置为支持 UTF 8 并且程序在从 eclipse 执行时运行良好该程序的一部分是将一些数据写入文件需要 UTF 8 因为它是阿拉伯语我需要导出一个可运行的
java.io.IOException：找不到 Main [动态功能模块] 的 PROCESSED_RES 输出

将动态模块添加到已有 6 种风格的多模块项目中出现这个错误 ERROR Unable to resolve dependency for dynMod debug compileClasspath Could not resolve pr
如何检查指针是否指向数组或单个 int 或 char

我想知道一个指针是否指向一个array或单身integer 我有一个需要两个指针的函数 int and char 作为输入并判断指针是否指向array或单身integer pointer pointer 4 pointer1 pointer
如何导入 XML 表 Google Sheets

所以我有一个谷歌表我想通过 ergast com API 导入 F1 排位赛和比赛结果我只需要表中的驱动程序和位置信息但如果更容易的话我很乐意导入整个表我尝试过 IMPORTHTML IMPORTFEED IMPORTXML 但无
使用网络抓取提供数据框

我正在尝试将一些刮取的值附加到数据框中我有这个代码 import time import requests import pandas import pandas as pd from bs4 import BeautifulSoup f

使用网络抓取提供数据框

使用网络抓取提供数据框 的相关文章

随机推荐

热门标签

使用网络抓取提供数据框的相关文章