使用 BeautifulSoup python 3.6 抓取数据时网页值丢失

2024-03-12

我正在使用下面的脚本来删除“股票报价”数据http://fortune.com/fortune500/xcel-energy/ http://fortune.com/fortune500/xcel-energy/，但其给出空白。

我也使用过硒驱动程序，但同样的问题。请帮忙解决这个问题。

import requests
from bs4 import BeautifulSoup as bs
import pandas as pd

r = requests.get('http://fortune.com/fortune500/xcel-energy/')
soup = bs(r.content, 'lxml') # tried: 'html.parser

data = pd.DataFrame(columns=['C1','C2','C3','C4'], dtype='object', index=range(0,11))
for table in soup.find_all('div', {'class': 'stock-quote row'}):
    row_marker = 0
    for row in table.find_all('li'):
    column_marker = 0
    columns = row.find_all('span')
    for column in columns:
        data.iat[row_marker, column_marker] = column.get_text()
        column_marker += 1
    row_marker += 1
print(data)

输出获取：

              C1    C2   C3   C4
0       Previous Close:         NaN  NaN
1           Market Cap:   NaNB  NaN    B
2   Next Earnings Date:         NaN  NaN
3                 High:         NaN  NaN
4                  Low:         NaN  NaN
5         52 Week High:         NaN  NaN
6          52 Week Low:         NaN  NaN
7     52 Week Change %:   0.00  NaN  NaN
8            P/E Ratio:    n/a  NaN  NaN
9                  EPS:         NaN  NaN
10      Dividend Yield:    n/a  NaN  NaN

您要查找的数据似乎可以在此处找到API端点 http://fortune.com/api/v2/company/xel/expand/1:

import requests

response = requests.get("http://fortune.com/api/v2/company/xel/expand/1")
data = response.json()
print(data['ticker'])

仅供参考，在硒自动化浏览器中打开页面时，您只需要确保在解析 HTML 之前等待所需的数据出现 http://selenium-python.readthedocs.io/waits.html#explicit-waits，工作代码：

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import pandas as pd


url = 'http://fortune.com/fortune500/xcel-energy/'
driver = webdriver.Chrome()
wait = WebDriverWait(driver, 10)

driver.get(url)
wait.until(EC.visibility_of_element_located((By.CSS_SELECTOR, ".stock-quote")))

page_source = driver.page_source
driver.close()

# HTML parsing part
soup = BeautifulSoup(page_source, 'lxml') # tried: 'html.parser

data = pd.DataFrame(columns=['C1','C2','C3','C4'], dtype='object', index=range(0,11))
for table in soup.find_all('div', {'class': 'stock-quote'}):
    row_marker = 0
    for row in table.find_all('li'):
        column_marker = 0
        columns = row.find_all('span')
        for column in columns:
            data.iat[row_marker, column_marker] = column.get_text()
            column_marker += 1
        row_marker += 1
print(data)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

selenium

webscraping

beautifulsoup

使用 BeautifulSoup python 3.6 抓取数据时网页值丢失的相关文章

在 __init__ 中使用属性设置器

如何在中使用属性设置器 init 没有 pylint 抱怨该属性已在外部定义 init 例如以下代码仅产生一个异常该异常被底部的 try 子句捕获 class CircleNotUsingSetterInInit object def
Cython：如何使用 C++ 类的用户定义转换？

赛通的文档 https cython readthedocs io en latest src userguide wrapping CPlusPlus html overloading operators似乎对如何用户定义的转换 http
Django - 在设置中使用反向 url 映射

例如 django 设置文件中的一些选项是 urlLOGIN URL and LOGIN REDIRECT URL 是否可以避免对这些 url 进行硬编码而使用反向 url 映射目前这确实是我发现自己在多个地方编写相同网址的唯一地方
Py2Exe“缺少以下模块”

使用 Py2Exe 时我收到警告例如 The following modules appear to be missing Crypto Crypto Cipher Crypto Hash Padding 由于找不到这些模块导致 EX
python pandas 标记如果列中每个值有多个唯一行

在下面的数据框中我有三列 Code Category Count X A 89734 X A 239487 Y B 298787 Z B 87980 W C 098454 我需要添加一列如果一个类别有多个唯一代码如上例中的 B 它会获
Python：在 Plotly 中的图形上方创建注释空间

我想在图中创建额外的注释空间请参阅附图中的绿色区域目前 y 轴定义了绘图的高度我可以将绘图推到超出 y max 限制在某个点在图像中标记为红色之后隐藏 y 轴吗我尝试避免轴到达评论部分绿色谢谢你在此输入图像描述 htt
无法获取POST参数

我正在使用 WebApp2 作为框架在 Python 中开发一个 Web 应用程序我无法获取通过填写表单提交的http POST请求参数这是我创建的表单的 HTML 代码
Python中定义类变量时如何引用类方法？

我有以下类和类变量 class MyClass class var 1 a class var 2 run class method classmethod def run class method cls return ran class
无法在python中使用selenium打开IE

我正在 Windows 10 计算机 Internet Explorer 11 python 3 6 selenium 3 4 3 和 IEDriverServer 3 5 上运行我正在尝试使用以下代码打开 IE from seleniu
Python 的局限性是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我花了几天时间阅读有关 C 和 Python 的内容发现 Python 非常简单且易于学习所以我想知道它真的值得花时间学习吗或者我应该花时
使用 PIL 对图像进行着色，同时保持透明度？

好吧情况是这样的我想使用 Python 图像库来主题化图像如下所示 Theme color 33B5E5 IN OUT 我使用 ImageMagick 命令得到了结果 convert image png colorspace gr
Tkinter 嵌套主循环

我正在写一个视频播放器tkinter python 所以基本上我有一个可以播放视频的 GUI 现在我想实现一个停止按钮这意味着我将有一个mainloop 对于 GUI 还有另一个嵌套mainloop 播放停止视频并返回 GUI 启动窗
python3导入找不到模块

我正在尝试测试书中的一个例子我得到了一个ImportError 该示例开始如下 from tkinter import from PP4E Gui Tools widgets import frame button entry 如果我放一
R rvest 检索空表

我正在尝试两种策略来从网络表中获取数据 library tidyverse library rvest webpage lt read html https markets cboe com us equities market stati
为什么 django-rest-frameworks request.data 有时是不可变的？

在我宁静的CreateAPIView我变异我的request data字典有时我会收到测试未捕获的错误 This QueryDict instance is immutable 例如这 class CreateView CreateAPI
无法在 AWS Lambda 上使用请求模块

我需要在每天运行一次的 python 脚本中进行休息调用我无法使用 AWS Lambda 将 requests 包打包到我的 python 包中我收到错误无法导入模块 lambda function 没有名为 lambda funct
python lxml 我如何在项目名称中使用标签？

我需要使用项目的特殊名称构建 xml 文件这是我当前的代码 from lxml import etree import lxml from lxml builder import E wp E wp tmp wp title print
如何在 Jinja2 中包含具有相对路径的模板

我正在尝试在模板中包含同一文件夹中的另一个模板为此我只是在做 import header jinja2 问题是我不断收到TemplateNotFound error 我的模板文件夹看起来像 myProject templates arb
如何通过python将python字典存储到mysql数据库中

我试图通过将字典转换为字符串然后尝试插入来将以下字典存储到 mysql DB 中但出现以下错误如何解决这个问题或者有其他方法将字典存储到 mysql DB 中吗 dic office component office Word2010
为调色板图像分配不同的调色板索引

我正在用 Python 和 Pygame 编写游戏为此图形将采用旧视频游戏机如 NES 的风格因此图形由具有 2 位 4 色图像的单个图块集文件组成我希望在加载这些图像时能够为这些图像分配任意 4 色调色板我想要做的是使用

随机推荐

如果父对象不是单例，那么子对象也是单例吗？

我有一个不是单例的 Dao 从他扩展的其他对象是否是单例代码示例
按数字顺序对文件进行排序

我编写了一个程序将文件夹中的所有文件组合在一起这是我的代码的一部分 File folder new File c some directory File listOfFiles folder listFiles for File file
Dplyr select 和 group_by 之间关于引用变量的区别？

在当前版本的 dplyr 中 select参数可以按值传递 variable lt Species iris gt select variable Species 1 setosa 2 setosa 3 setosa 4 setosa 5
是否可以从 Visual Studio 2013 创建 Windows 8 应用商店应用程序？

因此我有一台安装了 Visual Studio 2013 的 Windows 8 1 计算机每当我去创建新的 Windows 应用商店项目时我都看不到任何创建新的 Windows 8 应用商店应用程序的选项而不是 Windows 8
设置 32 英尺库

我正在尝试开始使用这个库 32feet http 32feet codeplex com 我有一个 Broadcomm 蓝牙堆栈但无法弄清楚如何设置该库当我运行我的代码时我得到未处理的异常 System PlatformNotSup
Android连接错误java.lang.UnsupportedOperationException [重复]

这个问题在这里已经有答案了当我尝试连接到 mysql 数据库时我在 android studio 上遇到问题这是代码 public Connection getMySqlConnection Declare and initializ
DownloadManager 在 INSUFFICIENT_SPACE_ERROR 之后不发送广播

问题 If the cache目录已满尝试执行简单请求将失败而不发送DownloadManager ACTION DOWNLOAD COMPLETE播送 Note 该问题很普遍但大部分可以在缓存有限的低端设备上重现 data data
找不到符号方法添加（java.lang.integer）..实际上是什么问题？

public class ArrayList instance variables replace the example below with your own public void processinput String s int
用于包裹转运的高效车辆路线

我有一个仓库和三个配送和接收地点我知道它们之间的距离每个地点都有不同数量的标准尺寸包裹但重量也不同我有三辆车一辆车运载 30 个包裹或 1100 磅一辆车运载 20 个包裹或 700 磅一辆车运载 15 个包裹或 500 磅
分页sql查询语法

我正在尝试按日期对讨论板中的帖子进行排序这是我的代码 query mysql query SELECT FROM statement LIMIT startpoint limit ORDER BY datetime ASC 这在语法上有什
文本数据的多标签核外学习：部分拟合的 ValueError

我正在尝试构建一个多标签外核文本分类器如上所述here http scikit learn org stable auto examples applications plot out of core classification htm
JMeter 记录使用 HTTPS 的 iOS 本机应用程序会导致 SSL 握手问题

我有一个用于我们的应用程序的 IPAD 混合应用程序它会在登录过程中尝试访问我们的 https 服务器我想使用 JMeter 来记录这个简单的流程我正在本地计算机上运行 JMeter 代理服务器我更新了 IPAD 代理详细信息以便
是否可以在 Codename One 中通过 css 自定义滑块？

我的应用程序有一个进度条需要更改背景和缩略图我发现拇指图像可以通过设计器中的常量进行更改但我在 Constants 段落中找不到该常量CSS 选择器页面 https github com shannah cn1 css wiki Su
如何将属性 getter 作为函数类型传递给另一个函数

如何将属性 getter 传递给接受函数类型的函数这是我想要实现的目标的示例 class Test val test String get lol fun testFun func gt String invoke it here fun
由于 sqlite3 gem 错误，Heroku 部署失败

我刚刚开始阅读 Michael Hartl 所著的 ruby railstutorial org 书籍并且已经完成了第一章我正在使用 mac book OS X Terminal 和 Sublime Text 一切都按计划进行直到测试
R在sqldf中调用变量

我需要对 sqldf 语句进行循环为此我需要在 sqldf 代码中调用循环变量我的表数据可能是 data lt read table text loaddate DaysRange DaysRangeNext 1 2014 03 1
我对并发 MySQL 连接感到困惑

所以我读了一本关于Mysql的书它说可以访问数据库的并发用户数是有限制的这是否意味着如果我有 20k 用户同时浏览我的 Web 应用程序我的 Web 应用程序将无法加载数据库中的数据因为每次我的网站加载时我的网络应用程序都会访问
FutureWarning：如果 dtype='numeric'，则字节/字符串数组将转换为十进制数字

FutureWarning Arrays of bytes strings is being converted to decimal numbers if dtype numeric This behavior is deprecated
截断内存映射文件

我正在对索引文件使用内存映射 IO 但问题是如果文件大部分为空我无法调整文件大小之前的某个地方 MappedByteBuffer map raf getChannel map MapMode READ WRITE 0 1 lt lt 3
使用 BeautifulSoup python 3.6 抓取数据时网页值丢失

我正在使用下面的脚本来删除股票报价数据http fortune com fortune500 xcel energy http fortune com fortune500 xcel energy 但其给出空白我也使用过硒驱动程序但

使用 BeautifulSoup python 3.6 抓取数据时网页值丢失

使用 BeautifulSoup python 3.6 抓取数据时网页值丢失 的相关文章

随机推荐

热门标签

使用 BeautifulSoup python 3.6 抓取数据时网页值丢失的相关文章