将div类中的信息提取到json对象（或数据框）

2023-12-27

对于表中的每一行页面，我想单击 ID（例如，第 1 行的 ID 是 270516746）并将信息（每行没有相同的标题）提取/下载到某种形式的 python 对象中，最好是 json 对象，或数据框（json 可能更容易）。

我已经到了可以到达我想要拉下的表的地步：

import os
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
import pandas as pd
import sys

driver = webdriver.Chrome()
driver.get('http://mahmi.org/explore.php?filterType=&filter=&page=1')

#find the table with ID, Sequence, Bioactivity and Similarity
element = driver.find_elements_by_css_selector('table.table-striped tr')
for row in element[1:2]: #change this, only for testing
        id,seq,bioact,sim = row.text.split()


#now i've made a list of each rows id, sequence, bioactivity and similarity.
#click on each ID to get the full data of each
        print(id)
        button = driver.find_element_by_xpath('//button[text()="270516746"]') #this is one example hard-coded
        button.click()

 #then pull down all the info to a json file?
        full_table = driver.find_element_by_xpath('.//*[@id="source-proteins"]')
        print(full_table)

然后我陷入了可能是最后一步的困境，一旦单击上面一行中的按钮，我就找不到如何说“.to_json()”或“.to_dataframe()”。

如果有人可以提供建议，我将不胜感激。

更新1：删除并合并到上面。

更新 2：根据下面的建议，要使用 beautifulsoup，我的问题是如何导航到弹出窗口的“modal-body”类，然后使用 beautiful soup：

#then pull down all the info to a json file?
        full_table = driver.find_element_by_class_name("modal-body")
        soup = BeautifulSoup(full_table,'html.parser')
        print(soup)

返回错误：

    soup = BeautifulSoup(full_table,'html.parser')
  File "/Users/kela/anaconda/envs/selenium_scripts/lib/python3.6/site-packages/bs4/__init__.py", line 287, in __init__
    elif len(markup) <= 256 and (
TypeError: object of type 'WebElement' has no len()

更新 3：然后我尝试仅使用 beautifulsoup 来抓取页面：

from bs4 import BeautifulSoup 
import requests

url = 'http://mahmi.org/explore.php?filterType=&filter=&page=1'
html_doc = requests.get(url).content
soup = BeautifulSoup(html_doc, 'html.parser')
container = soup.find("div", {"class": "modal-body"})
print(container)

它打印：

<div class="modal-body">
<h4><b>Reference information</b></h4>
<p>Id: <span id="info-ref-id">XXX</span></p>
<p>Bioactivity: <span id="info-ref-bio">XXX</span></p>
<p><a id="info-ref-seq">Download sequence</a></p><br/>
<h4><b>Source proteins</b></h4>
<div id="source-proteins"></div>
</div>

但这不是我想要的输出，因为它没有打印 json 层（例如，源蛋白质 div 下面有更多信息）。

更新 4，当我添加到上面的原始代码时（更新之前）：

full_table = driver.find_element_by_class_name("modal-body")
with open('test_outputfile.json', 'w') as output:
    json.dump(full_table, output)

输出是“TypeError：‘WebElement’类型的对象不是 JSON 可序列化”，我现在正在尝试弄清楚。

更新5：尝试复制this https://stackoverflow.com/questions/30945212/how-to-parse-selenium-driver-elements方法，我补充道：

full_div = driver.find_element_by_css_selector('div.modal-body')
for element in full_div:
    new_element = element.find_element_by_css_selector('<li>Investigation type: metagenome</li>')
    print(new_element.text)

（我刚刚添加了 li 元素只是为了看看它是否有效），但我收到错误：

Traceback (most recent call last):
  File "scrape_mahmi.py", line 28, in <module>
    for element in full_div:
TypeError: 'WebElement' object is not iterable

更新 6：我尝试循环遍历 ul/li 元素，因为我看到我想要的是嵌入在 ul in a li in a ul in a div 中的 li 文本；所以我尝试了：

html_list = driver.find_elements_by_tag_name('ul')
for each_ul in html_list:
       items = each_ul.find_elements_by_tag_name('li')
       for item in items:
               next_ul = item.find_elements_by_tag_name('ul')
               for each_ul in next_ul:
                       next_li = each_ul.find_elements_by_tag_name('li')
                       for each_li in next_li:
                               print(each_li.text)

这没有错误，我只是没有得到输出。

您不必在文本可见的情况下单击。您可以生成通用 xpath，例如：

"(//table//td[1])//button[@data-target]"

这将检测表第一列中的所有按钮。所以你可以继续循环。

count= len(driver.find_elements_by_xpath("(//table//td[1])//button[@data-target]"))
for i in range(count):
    driver.find_element_by_xpath("((//table//td[1])//button[@data-target])[" + str(i+1) + "]").click()
    # to get text content from pop up window 
    text = driver.find_element_by_xpath("//div[@class='modal-content']").text
    # then click close 
    driver.find_element_by_xpath("//button[text()='Close']").click()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

selenium

webscraping

将div类中的信息提取到json对象（或数据框）的相关文章

量角器：向下滚动

我的页面上有一个按钮当用户向下滚动时可见因此量角器测试给了我一个错误 UnknownError 未知错误元素在点 94 188 处不可单击我尝试使用 browser executeScript window scrollTo 0
scipy.misc.imshow RuntimeError('无法执行图像视图')

我正在测试scipy misc imshow https docs scipy org doc scipy 0 15 1 reference generated scipy misc imshow html我得到了运行时错误无法执行图像查
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
Python grpc protobuf 存根生成问题：--grpc_out: protoc-gen-grpc: 插件失败，状态代码 1

正如问题所说我从源代码编译了 grpc 并且也做了sudo pip install grpcio 但是那which grpc python plugin不返回任何内容这是一个问题因为route guide的grpc python示例
我应该为 MySQL 使用什么 python 3 库？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案据我所知 MySQLdb 仍然没有移植到 Python 3 pypy 上似乎有另一个名为 PyMySQL
Django 未在 404 页面上应用应用程序中的 CSS 文件

姜戈3 0 8 Python 3 7 x 我有一个包含一些应用程序的 Django 项目我正在尝试为 400 403 404 500 错误制作一些默认错误页面我已经这样做了并显示了适当的模板但没有任何样式或 JS 在 404 错
turtle.Screen().screensize() 未输出正确的屏幕尺寸[重复]

这个问题在这里已经有答案了我编写了一些代码来在屏幕周围随机放置点但是它并没有覆盖整个屏幕 import turtle import random t turtle Turtle color red green blue pink ye
Windows Defender 检测 Python EXE 为木马

我制作了一个 Python 脚本将 Windows 目录以 zip 形式邮寄给我我使用 sched 模块添加了一个调度程序每小时重复一次我试图制作一个简单的同步应用程序供个人使用在 Windows 启动时启动我使用将其转换为 e
python 脚本中 os.system 的 256 和 512 响应代码是什么

当我在 python 中使用 os system ping 服务器时我得到多个响应代码使用的命令 os system ping q c 30 s SERVERANME 0 在线 256 离线 512 512 是什么意思 Per the
如何为 C 分配的 numpy 数组注册析构函数？

我想在 C C 中为 numpy 数组分配数字并将它们作为 numpy 数组传递给 python 我可以做的PyArray SimpleNewFromData http docs scipy org doc numpy reference
PyCharm - 如何挂起所有线程

我们使用 PyCharm 5 0 1 进行多线程调试当它在断点处停止时只有特定线程停止而所有其他线程继续这使得冻结时刻和检查参数值以及其他线程的当前状态变得困难当其中一个线程在断点处停止时是否可以挂起所有线程这在最新的 P
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
如何在 Sublime 2 REPL Mac 中运行 Python 3

我的问题如下我安装了 sublime 2 和 sublime repl 插件一切正常我唯一需要的是更改在控制台内置的 sublimerepl 上运行的 python 版本我的意思是我有 python 2 7 5 预先安装了 mav
如何加速 pandas 字符串函数？

我正在使用 pandas 矢量化 str split 方法来提取从上的拆分返回的第一个元素我还尝试使用 df apply 与 lambda 和 str split 来产生等效的结果使用 timeit 时我发现 df apply 的
Qcut Pandas：ValueError：Bin 边缘必须是唯一的

我使用 Pandas 中的 Qcut 将数据离散化为大小相等的存储桶我想要有价格桶这是我的数据框 productId sell prix categ popularity 11997 16758760 0 28 75 50 524137
如何使用 pygame.mixer 重复音乐？

我创建了以下使用 pygame mixer 播放 mp3 音乐的代码然而音乐不会重复有什么想法可以让音乐重复播放吗这是代码 playlist list playlist append put music here mp3 playl
Flask 扩展未在 app.extensions 中注册

我想访问在我的 Flask 应用程序上注册的一些扩展我尝试使用app extensions 但我初始化的一些扩展不在字典中 from flask import current app current app extensions get
Matplotlib 中的 TwoSlopeNorm 未按预期工作

我正在尝试创建一个具有发散颜色图的绘图该颜色图在零附近不对称 In this https stackoverflow com a 20146989 6288682例如 DivergingNorm函数被使用并产生我想要的然而我使用的是更
在至少 7 天内连续三天登录该产品的用户

我有一个用于用户参与的数据框 df 如下所示 time stamp user id 2013 01 01 10 05 23 1 2013 01 03 16 35 23 1 2013 01 06 11 06 35 1 2013 01 10 1
在Python中从CSV文件中获取随机行并找到相应的单词，就像测验一样

抱歉标题含糊不清想不出更好的表达方式我有一个包含德语英语单词的 CSV 文件如下所示 Ja Yes Nein No Katze Cat 我希望我的 python 脚本从 CSV 文件中打印一个随机的德语单词并要求他们输入英语单词

随机推荐

自动嵌入 YouTube 直播

如何使用 php 在网页中自动嵌入 YouTube 直播比如查询视频https youtube com user USERID live https youtube com user USERID live当传输正在播出时我是OP的作者
如果 x 是列表，为什么 x += "ha" 有效，而 x = x + "ha" 会抛出异常？

据我所知列表的 op 仅要求第二个操作数是可迭代的 ha 显然是可迭代的 In code gt gt gt x gt gt gt x ha gt gt gt x h a gt gt gt x x ha Traceback most rec
Reactjs：如何在生产应用程序的开发工具中隐藏节点模块和webconfig？

我创建了一个正在运行的 React js 应用程序npx create react app my app我不希望在生产模式下在开发工具中提供完整的项目如何在源选项卡 devtools 中禁用或隐藏节点模块和 webconfig 我检查了其
系统提供的呼叫屏幕上扬声器按钮行为异常

我们使用 CallKit 和 PortSIP 编写 VoIP 应用程序这里的问题仅在 iOS 11 2 x 上重现当用户点击 CallKit 提供的屏幕系统上的扬声器按钮时会启用扬声器但图标仍处于禁用状态如果用户再次点击系统也会
我的 For 循环不会迭代列表

我必须确定列表中的所有数字是否都是素数然后根据结果返回布尔 True 或 False 语句我在 for 循环中做了一些条件语句来查看该数字是否为素数这是代码 def all primes xs is prime None for i
根据 R 中的其他数据帧替换数据帧中的值

在下面的例子中 userids是我的参考数据框和userdata是应进行替换的数据框 gt userids lt data frame USER c Ann Jim Lee Bob ID c 1 2 3 4 gt userids USER
WPF - 使用样式为每个 TreeViewItem 根节点设置不同的 ToggleButton 图像

我不熟悉在 WPF 中使用样式资源和模板我需要做的是将 TreeView 中的 ToggleButton 重写为图像每个 TreeViewItem 根节点使用不同的图像例如我想要一张汽车图像作为汽车节点一张飞机图像作为飞机
在 url 中传递一个 php 变量的最简单方法[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我已经检查了有关如何在 url 中传
无法将 lambda 表达式转换为“string”类型，因为它不是委托类型 [重复]

这个问题在这里已经有答案了我正在使用 LINQ lambda 表达式如下所示 int Value 1 qryContent objContentLine using Entities db new Entities objContent
为什么使用隐式转换时会出现无限循环？

Context object Fibonacci final val Threshold 30 def fibonacci n Int implicit implementation Fibonacci Int implementation
python：从自定义概率函数中随机采样[重复]

这个问题在这里已经有答案了我有一个带有概率密度函数的分段四次分布 p x c x a 2 if 0 x
ASP.NET MVC - 如何在强类型文本区域中设置默认值？

我试图让 TextArea 具有默认值这可以正常工作在TextBoxFor但不适用于TextAreaFor 我错过了一些非常明显的东西吗您可以在创建模型时在控制器操作中指定 Description 属性的值并将该模型传递给视图 pub
iSeries AS400 ODBC 连接的文件 DSN

如何使用 iSeries ODBC 驱动程序创建文件 dsn 以连接到 AS400 系统 iSeries ODBC 驱动程序允许配置许多设置在哪里可以找到可在文件 DSN 中设置的所有属性的列表 Driver iSeries Access
HTML 文本框无法输入内容

我需要帮助我页面中的表单如下所示但是当我单击文本框时光标不会出现并且无法输入
使用“file.copy”通过网络复制文件比“system(mv ...)”慢得多

当我通过公司网络访问文件时 R 变得非常缓慢我遇到了一些问题所以我回去做了一些测试我惊讶地发现 Rfile copy 命令是much比使用等效文件复制慢system mv 这是一个已知问题还是我在这里做错了什么这是我的测试我有三个
Clang 构建非常慢并且中途挂起

我正在开始编写自己的 clang 工具这些是我到目前为止所遵循的步骤查看 llvm 7 0 发行版查看 clang 7 0 版本建造使用带有以下标志的 ninja 构建 clang 和 llvm 没有这些标志就一直挂在我身上 DL
产量有限制的子组合

我正在使用 python 3 我正在使用的函数如下 def sub combinations segment if len segment 1 yield segment else for j in sub combinations seg
在 Swift 包管理器中添加对二进制目标的依赖项

我想创建一个带有具有子依赖项的二进制目标的 Swift 包由于二进制目标不支持开箱即用的子依赖项因此我创建了一个包装器目标该目标既依赖于二进制框架又依赖于所述的其他依赖项here https stackoverflow com a 6
如何将 NSNumber 转换为 NSString

所以我有一个NSArray myArray 与NSNumbers and NSStrings 我需要它们在另一个UIView所以我就这样 void tableView UITableView tableView didSelectRowAt
将div类中的信息提取到json对象（或数据框）

对于表中的每一行页面我想单击 ID 例如第 1 行的 ID 是 270516746 并将信息每行没有相同的标题提取下载到某种形式的 python 对象中最好是 json 对象或数据框 json 可能更容易我已经到了可以到达我

将div类中的信息提取到json对象（或数据框）

将div类中的信息提取到json对象（或数据框） 的相关文章

随机推荐

热门标签

将div类中的信息提取到json对象（或数据框）的相关文章