如何从html页面中提取文本？

2023-12-07

例如网页是链接：

https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50

我必须知道公司名称及其地址和网站。我尝试了以下方法将 html 转换为文本：

import nltk   
from urllib import urlopen

url = "https://www.architecture.com/FindAnArchitect/FAAPractices.aspx display=50"    
html = urlopen(url).read()    
raw = nltk.clean_html(html)  
print(raw)

但它返回错误：

ImportError: cannot import name 'urlopen

彼得·伍德已经回答了你的问题（link).

import urllib.request

uf = urllib.request.urlopen(url)
html = uf.read()

但如果您想提取数据（例如公司名称、地址和网站），那么您将需要获取 HTML 源并使用 HTML 解析器对其进行解析。

我建议使用requests用于获取 HTML 源代码和BeautifulSoup解析生成的 HTML 并提取您需要的文本。

这是一个小片段，可以让您抢占先机。

import requests
from bs4 import BeautifulSoup

link = "https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50"

html = requests.get(link).text

"""If you do not want to use requests then you can use the following code below 
   with urllib (the snippet above). It should not cause any issue."""
soup = BeautifulSoup(html, "lxml")
res = soup.findAll("article", {"class": "listingItem"})
for r in res:
    print("Company Name: " + r.find('a').text)
    print("Address: " + r.find("div", {'class': 'address'}).text)
    print("Website: " + r.find_all("div", {'class': 'pageMeta-item'})[3].text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

python3x

Text

如何从html页面中提取文本？的相关文章

使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
为什么我无法在 Mac OS X Terminal.app 上的 Python 解释器中显示 unicode 字符？

如果我尝试粘贴 unicode 字符例如中间的点在我的 python 解释器中它什么也不做我在 Mac OS X 上使用 Terminal app 当我只是在 bash 中时我没有遇到任何问题但在解释器中 python Pytho
在Python中计算内存碎片

我有一个长时间运行的进程不断分配和释放对象尽管正在释放对象但 RSS 内存使用量会随着时间的推移而增加如何计算发生了多少碎片一种可能性是计算 RSS sum of allocations 并将其作为指标即便如此我该如何计算分母
Python多处理错误“ForkAwareLocal”对象没有属性“连接”

下面是我的代码我面临着多处理问题我看到这个问题之前已经被问过我已经尝试过这些解决方案但它似乎不起作用有人可以帮我吗 from multiprocessing import Pool Manager Class X def init
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
从链接打开本地文件夹

如何通过单击任何链接打开本地文件夹视图我尝试了很多选择例如 a href Open folder a or a Open folder a or a Open folder a 解决方案启动可下载链接以下内容适用于所有浏览器但一如
如何在html中定义条件换行符？

我希望这根绳子断在如果需要的话没有地方可以写了 7 380 Ft 159 Ft term kd jjal like 7 380 000 Ft 159 125 Ft term kd jjal 如何在html中实现这一点 nbsp 产生错
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
禁用复选框上的输入

需要在取消选中该复选框时禁用输入并在选中该复选框时启用它我的代码是这样的 div class y div
Python 声音（“铃声”）

我想让一个 python 程序在完成任务时通过发出嘟嘟声来提醒我目前我使用import os然后使用命令行语音程序说进程完成我更愿意它是一个简单的铃我知道有一个函数可以用于Cocoa apps NSBeep 但我认为这与此没有太
如何将MathJax公式转换为img

Mathjax 现在在我的项目中运行良好但有一个问题有没有办法将MathJax的公式纯html和css 转换成img文件我可以保存 MathJax 可以配置为生成 SVG 看http docs mathjax org en late
使用flex-basis控制行上显示的项目数

我想在使用 Flex 时将元素推出以隐藏它们例如如果flex basis为 50 仅显示两个项目弯曲到给定空间而其他元素则在overflow hidden 领土 Or if flex basis为 25 则仅显示 4 个 Flex 元
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame

随机推荐

DataTable.Load() 抛出错误：表达式中未定义函数“CountWeekDays”

我正在使用 Access 数据库并尝试加载 DataTable 对象但收到了错误我的查询在标准访问模块中调用名为 CountWeekDays 的公共函数当通过 Access 本身运行时会返回正确的结果为什么在通过 NET 应用程序
为什么这个 JavaScript 调用不会破坏“同源策略”

我正在使用 jQuery 显示外部 JavaScript 文件同源策略没有被破坏的原因是因为它不是 AJAX 请求吗 http jsfiddle net m7q3H 52 小提琴代码 HTML 这里绝对没问题哦您可以从任何您想要的地方
如何在 Eclipse 编辑器中将 IFile 处理程序获取到活动文件

我正在准备一个 Eclipse 插件它检查测试套件中的代码质量编译器错误警告语法检查由默认编译器完成如果测试代码中出现问题我们想通知测试套件的开发人员例如 GOTO 跳转到标签上这可能会导致无限循环测试套件非常旧它们不是
如何使用 QuickCheck 为 StateT 编写测试

StateT 处于Control Monad Trans State Lazy 里面的函数和m变得更善良使得事情变得困难 LANGUAGE FlexibleContexts import Test QuickCheck newtype St
取消 applicationWillTerminate 中的所有本地通知？

当我的应用程序终止时通过操作系统或双击主页按钮并终止应用程序我想 cancelAllLocalNotifications 并将 setApplicationIconBadgeNumber 设置为 0 我只是将这两个调用添加到我的主要应用
Pandas `to_sql` 通过 `if_exists = 'append'` 给出了 `表已存在` 错误

我正在尝试使用 Pandas v1 3 4 SQLAlchemy v1 4 26 和 PyMySQL v1 0 2 写入 MySQL 数据库我可以使用 pandas 创建一个新表称为 test table to sql方法但随后尝试写
在 PHP 准备好的语句中插入日期

我正在尝试将准备好的语句中的当前日期以 d m Y 为单位插入 mysql 表中我无法正确获取代码我在 php 中调用当前日期 dat date d m Y 然后包括在这样的准备好的声明中 stmt mysqli gt prepar
Tkinter 初始屏幕和主循环之外的多处理

我已经实现了一个启动屏幕当我的应用程序在启动时从远程云存储加载数据库时会显示该启动屏幕启动屏幕通过调用 update 保持活动状态上面有一个进度条并在单独的加载过程结束后被销毁之后主循环启动应用程序正常运行下面的代码在我的
如何从本地结帐恢复 svn 服务器

我们的 svn 服务器意外丢失了所有数据并且我们的 svn 存储库文件也丢失了目前我们只有 svn 存储库的本地签出有什么方法可以恢复 svn 存储库吗整个 svn 历史记录都在服务器中因此您无法从结账中恢复它您唯一能做的就是创
ASP.NET 文本框 LostFocus 事件

我需要在文本框失去焦点时触发服务器端的代码我知道有 onblur 客户端事件并且没有 LostFocus 事件那么当我的 TextBox 失去焦点时如何导致回发发生 Update 我找到了一个blog这似乎为此提供了一个相当不错的解决
Python：分析输入以查看其是否为整数、浮点数或字符串

我已经为此工作了一两天以便判断输入是整数浮点数还是字符串简而言之该程序旨在将每个输入转换为字符串循环遍历每个字符串并检查列表数字如果字符串包含所有数字则它是整数如果它包含它是一个浮点数如果没有它就不是一个数字明显的缺
Sqlite3、SQLSTATE[HY000]：一般错误：5 数据库已锁定

我有这个小测试脚本 session start session write close error reporting 1 register shutdown function function echo shutdown MAX 120
Iphone钥匙串访问下导出/导入证书、私钥的问题

我想将证书和私钥从一台计算机导出到另一台计算机以便可以重复使用配置文件钥匙串访问中的证书下有一个私钥 1 我将证书导出为 certifcate cer 文件然后从另一台计算机导入该文件然而它的任务是私钥新机器上的 xcode 抱
Godaddy - Codeigniter - 服务器上未指定输入文件

我刚刚将我的演示项目上传到 godaddy 的子文件夹中当我打开网站网址时example com demo主页工作正常但当我尝试打开内页时我的网址看起来像example com demo index php home overview
tinyMCE - 获取光标位置处的内容

我正在为tinyMCE制作一个小单词预测插件需要提取一些文本然后从预测单词列表中插入文本插入应该没有问题因为我知道光标在哪里并且可以使用mceInsertContent命令然而获取预测文本我需要提取以光标位置之前的字母结尾并从
重写 Angularjs 应用程序以消除延迟的 Bootstrapper

我正在尝试对应用程序进行逆向工程并以摆脱 deferredBootstrapper 的方式重新编写它我遇到了模块加载问题等我是否在标准意义上正确调用了多个模块当前的任务是在没有引导程序的情况下简化应用程序这是最初的 deferre
逐行读取流

Delphi中有没有办法逐行读取流有没有办法设置流的编码我知道 TEncoding getEncodingPage 1250 如何从流中获取它我想你正在寻找TStreamReader 您在构造函数中设置编码然后调用ReadLine
Facebook Graph API 和 FQL 之类的照片计数都不正确？

Hey all 我为竞赛制作了一个 Facebook 应用程序允许用户上传他们的照片上传后照片将发布到其个人资料上的专用相册中一旦照片出现用户应该收集尽可能多的喜欢目前我已尝试使用 Facebook Graph API 和 F
.Net 中的图形错误图像插值

我有一个简单的测试当它解决时我的问题也解决了当处理小图像时图形插值的效果很差请检查您是否知道如何解决以下代码中的结果图像忽略要绘制的图像的后半部分的问题使用 JPG 中的 loadimage 或任何你想要的东西在图像上绘制一些东
如何从html页面中提取文本？

例如网页是链接 https www architecture com FindAnArchitect FAAPractices aspx display 50 我必须知道公司名称及其地址和网站我尝试了以下方法将 html 转换为文本 im

如何从html页面中提取文本？

如何从html页面中提取文本？ 的相关文章

随机推荐

热门标签

如何从html页面中提取文本？的相关文章