网页抓取协助

2023-12-11

我必须从这个网页中提取一些信息。我知道有更简单的方法来获取这些信息，但这就是我的任务。到目前为止，我一直在尝试这样做：

import pandas as pd
import requests
from bs4 import BeautifulSoup

url = 'https://www.nasdaq.com/market-activity/funds-and-etfs/qqq/historical'
page = requests.get(url)
soup = BeautifulSoup(page.text, 'html.parser')

从这里我尝试使用以下方法将其直接读入 Pandas DataFrame：

df = pd.read_html(str(soup.select('historical-data__table')))

但是，我收到此错误：


  File "<ipython-input-94-f3a234b1eafd>", line 1, in <module>
    df = pd.read_html(str(soup.select('historical-data__table')))

  File "C:\Anaconda3\lib\site-packages\pandas\io\html.py", line 1094, in read_html
    displayed_only=displayed_only)

  File "C:\Anaconda3\lib\site-packages\pandas\io\html.py", line 916, in _parse
    raise_with_traceback(retained)

  File "C:\Anaconda3\lib\site-packages\pandas\compat\__init__.py", line 420, in raise_with_traceback
    raise exc.with_traceback(traceback)

ValueError: No tables found

任何帮助将不胜感激。

该数据来自一个 API，该 API 是

您可以直接使用它来获取它python 请求 :

import requests

response = requests.get(
    'https://api.nasdaq.com/api/quote/QQQ/historical',
    params = {
        'assetclass':'etf',
        'fromdate':'2019-09-11',
        'todate': '2019-10-11',
        'limit': 18
    }
)
print(response.json()['data']['tradesTable']['rows'])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

webscraping

beautifulsoup

网页抓取协助的相关文章

python 中的代表

我实现了这个简短的示例来尝试演示一个简单的委托模式我的问题是这看起来我已经理解了委托吗 class Handler def init self parent None self parent parent def Handle self
如何使用 imaplib 获取“消息 ID”

我尝试获取一个在操作期间不会更改的唯一 ID 我觉得UID不好所以我认为 Message ID 是正确的但我不知道如何获取它我只知道 imap fetch uid XXXX 有人有解决方案吗来自 IMAP 文档本身 IMAP4消息号
在 Python distutils 中从 setup.py 查找脚本目录的正确方法？

我正在分发一个具有以下结构的包 mymodule mymodule init py mymodule code py scripts script1 py scripts script2 py The mymodule的子目录mymodul
将数据帧行转换为字典

我有像下面的示例数据这样的数据帧我正在尝试将数据帧中的一行转换为类似于下面所需输出的字典但是当我使用 to dict 时我得到了索引和列值有谁知道如何将行转换为像所需输出那样的字典任何提示都非常感激 Sample data pri
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
if 语句未命中中的 continue 断点

在下面的代码中两者a and b是生成器函数的输出并且可以评估为None或者有一个值 def testBehaviour self a None b 5 while True if not a or not b continue pri
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
使用鼻子获取设置中当前测试的名称

我目前正在使用鼻子编写一些功能测试我正在测试的库操作目录结构为了获得可重现的结果我存储了一个测试目录结构的模板并在执行测试之前创建该模板的副本我在测试中执行此操作 setup功能这确保了我在测试开始时始终具有明确定义的状态现在
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
使用 NumPy 将非均匀数据从文件读取到数组中

假设我有一个如下所示的文本文件 33 346 1223 10 23 11 23 12 23 13 23 14 23 15 23 16 24 10 24 11 24 12 24 13 24 14 24 15 24 16 25 14 25 15
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
具有自定义值的 Django 管理外键下拉列表

我有 3 个 Django 模型 class Test models Model pass class Page models Model test models ForeignKey Test class Question model M
如何读取Python字节码？

我很难理解 Python 的字节码及其dis module import dis def func x 1 dis dis func 上述代码在解释器中输入时会产生以下输出 0 LOAD CONST 1 1 3 STORE FAST 0 x
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li
Python 无法使用套接字绑定我的外部/公共 IP 地址，给出错误但是当使用本地 IP 地址时，错误不会显示

这是出现主要错误的代码与我的本地 IP 的绑定将起作用 s bind 192 168 1 4 port 与我的公共 IP 的绑定失败并出现以下错误 s bind 99 99 99 99 port WinError 10049 请求的地址在
迭代 pandas 数据框的最快方法？

如何运行数据框并仅返回满足特定条件的行必须在之前的行和列上测试此条件例如 1 2 3 4 1 1 1999 4 2 4 5 1 2 1999 5 2 3 3 1 3 1999 5 2 3 8 1 4 1999 6 4 2 6 1 5 1

随机推荐

GCM HTTP 错误 401：未经授权

我在客户端集成了 GCM 也制作了服务器端组件一切工作正常我能够从服务器向所有注册的客户端发送推送通知我使用谷歌应用程序引擎作为我的服务器问题出现时 I changed the API Key on server 早些时候我使用我
使用反射/ TypeDescriptor 设置匿名类型的属性值是否可能？

我尝试使用 TypeDescriptor 并且该值没有改变并且通过反射我得到一个错误表明该属性没有设置器 C 匿名类型是不可变的并且它们的属性无法更改 If you really如果愿意您可以使用反射来设置支持字段但这将是一个坏主
受约束的 TypeVar 和 Union 之间有什么区别？

如果我想要一个可以是多种可能类型的类型 Union我似乎是这样表示的 U Union int str U可以是一个int or a str 我注意到了TypeVars 允许可选的 var arg 参数它们似乎也做同样的事情 T TypeV
为什么/何时 cout 缓冲区自动刷新？

我的理解是从here如果我要输出字符而不刷新缓冲区 endl or cin 在程序结束之前它们不会出现在我的控制台上所以我尝试做一个无限循环 for std cout lt lt a lt lt std endl 和不刷新缓冲区相同 fo
rdf:resource中#的含义是什么

我不清楚什么时候应该在 URI 之前rdf resource with 特点它到底是什么意思是使用相对 URI 的方式还是必须与rdf ID但不与rdf about 您能否附上错误和正确用法的示例 inside rdf resourc
如何在XAML中引用图像资源？

我放了一个Image窗口上的控件我想显示存储在名为 Resources resx 的项目资源文件中的图像资源文件中图像的名称是搜索有人可以告诉我如何去做这件事吗如果图像位于您的资源文件夹中并且其构建操作设置为资源您可以在 XAM
PHP 正则表达式不包括
```
 标签                
            
```
我正在使用名为的 WordPress 插件Acronyms https wordpress org plugins acronyms 该插件用其描述替换首字母缩略词它使用 PHPPREG REPLACE功能问题是它取代了包含在 pre
在 WiX 安装程序中设置服务启动类型

我正在尝试将预安装服务的启动类型设置为Automatic 使用 WiX 另一项任务是在安装时启动服务我是通过以下方式实现的
Lucene 4.2 字符串字段

我是 Lucene 的新手我有两个文档我希望与称为关键字的文档字段完全匹配该字段可能在文档中出现多次第一个文档包含关键字 Annotation is Cool 第二个文档包含关键字注释也很酷当我搜索注释很酷时如何构建查
DataGrid - “双向绑定需要 Path 或 XPath。”

我想在 DataGrid 上显示我的对象数据库 public class Student public string Imie get set public string Nazwisko get set string Numer get
边框 CSS HTML 中的文本

我想要一个看起来像这样的 div 这可以用 HTML CSS 实现吗我还将使用 jQuery 为这个 div 制作动画当 div 隐藏时我希望显示标题和顶行是的但这不是一个div 它是fieldset fieldset borde
Android Studio - 构建错误 - Android 任务已创建

构建项目时出现如下错误错误 2 0 Android 任务已创建调用 android applicationVariants 时会发生这种情况 android libraryVariants 或 android testVariants
NSLocalizedString()的第二个参数是什么？

是什么 comment参数在 NSString NSLocalizedString NSString key NSString comment 如果我这样做 NSLocalizedString Hello World Key Hello W
如何防止 Spyne 包装我的回复？

这是示例服务 NS my app namespace class MyMethodRS ComplexModel tns NS Version XmlAttribute Unicode class MyService ServiceBase
Django Haystack 和 Whoosh 搜索工作正常，但 SearchQuerySet 返回 0 个结果

编辑更多信息在帖子底部原问题我似乎遇到了与这个未解决的问题相同的问题 django haystack Whoosh SearchQuerySet all 始终无我已经在我的 Django 项目上使用 Whoosh 设置了 Hay
使用ffmpeg丢弃容器中的数据流

我正在尝试使用 ffmpeg 删除 Mp4 容器内的数据字幕流这是 ffprobe 的屏幕截图 Input 0 mov mp4 m4a 3gp 3g2 mj2 from test m4v Metadata major brand is
Ansible，如何在主机清单中定义列表？

我有一个剧本我想在我的主机文件中定义一个字符串列表这是我的主机文件 dashboard 1 2 3 4 dashboard domain test site domain one two foo bar 这是我尝试使用以下方法编写的剧本
WCF 中的 Owin 中间件替代品是什么？

我正在尝试在 WCF 应用程序中实现多租户但面临一些问题所以我已经在应用程序中配置了 Autofac 并且 Autofac 也支持多租户与WCF 现在我的情况略有不同我有一个正在使用此 WCF 服务的移动应用程序该服务部署在 Azu
Microsoft Office 365 组：来宾用户无法使用图形端点进行驱动器调用[关闭]

Closed 这个问题是无法重现或由拼写错误引起目前不接受答案我们的应用程序通过对驱动器项执行 Get 调用来读取组驱动器内容这对于内部成员和来宾用户来说过去都工作得很好它现在适用于内部成员但不再适用于来宾用户以下是示例调用 h
网页抓取协助

我必须从这个网页中提取一些信息我知道有更简单的方法来获取这些信息但这就是我的任务到目前为止我一直在尝试这样做 import pandas as pd import requests from bs4 import Beautiful

网页抓取协助

网页抓取协助 的相关文章

随机推荐

热门标签

网页抓取协助的相关文章