如何从html页面中提取文本?

2023-12-07

例如网页是链接:

https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50

我必须知道公司名称及其地址和网站。我尝试了以下方法将 html 转换为文本:

import nltk   
from urllib import urlopen

url = "https://www.architecture.com/FindAnArchitect/FAAPractices.aspx display=50"    
html = urlopen(url).read()    
raw = nltk.clean_html(html)  
print(raw)

但它返回错误:

ImportError: cannot import name 'urlopen

彼得·伍德已经回答了你的问题(link).

import urllib.request

uf = urllib.request.urlopen(url)
html = uf.read()

但如果您想提取数据(例如公司名称、地址和网站),那么您将需要获取 HTML 源并使用 HTML 解析器对其进行解析。

我建议使用requests用于获取 HTML 源代码和BeautifulSoup解析生成的 HTML 并提取您需要的文本。

这是一个小片段,可以让您抢占先机。

import requests
from bs4 import BeautifulSoup

link = "https://www.architecture.com/FindAnArchitect/FAAPractices.aspx?display=50"

html = requests.get(link).text

"""If you do not want to use requests then you can use the following code below 
   with urllib (the snippet above). It should not cause any issue."""
soup = BeautifulSoup(html, "lxml")
res = soup.findAll("article", {"class": "listingItem"})
for r in res:
    print("Company Name: " + r.find('a').text)
    print("Address: " + r.find("div", {'class': 'address'}).text)
    print("Website: " + r.find_all("div", {'class': 'pageMeta-item'})[3].text)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

如何从html页面中提取文本? 的相关文章

随机推荐

  • DataTable.Load() 抛出错误:表达式中未定义函数“CountWeekDays”

    我正在使用 Access 数据库并尝试加载 DataTable 对象 但收到了错误 我的查询在标准访问模块中调用名为 CountWeekDays 的公共函数 当通过 Access 本身运行时 会返回正确的结果 为什么在通过 NET 应用程序
  • 为什么这个 JavaScript 调用不会破坏“同源策略”

    我正在使用 jQuery 显示外部 JavaScript 文件 同源策略 没有被破坏的原因是因为它不是 AJAX 请求吗 http jsfiddle net m7q3H 52 小提琴代码 HTML 这里绝对没问题哦 您可以从任何您想要的地方
  • 如何在 Eclipse 编辑器中将 IFile 处理程序获取到活动文件

    我正在准备一个 Eclipse 插件 它检查测试套件中的代码质量 编译器错误 警告 语法检查由默认编译器完成 如果测试代码中出现问题 我们想通知测试套件的开发人员 例如 GOTO 跳转到标签上 这可能会导致无限循环 测试套件非常旧 它们不是
  • 如何使用 QuickCheck 为 StateT 编写测试

    StateT 处于Control Monad Trans State Lazy 里面的函数和m变得更善良使得事情变得困难 LANGUAGE FlexibleContexts import Test QuickCheck newtype St
  • 取消 applicationWillTerminate 中的所有本地通知?

    当我的应用程序终止时 通过操作系统或双击主页按钮并终止应用程序 我想 cancelAllLocalNotifications 并将 setApplicationIconBadgeNumber 设置为 0 我只是将这两个调用添加到我的主要应用
  • Pandas `to_sql` 通过 `if_exists = 'append'` 给出了 `表已存在` 错误

    我正在尝试使用 Pandas v1 3 4 SQLAlchemy v1 4 26 和 PyMySQL v1 0 2 写入 MySQL 数据库 我可以使用 pandas 创建一个新表 称为 test table to sql方法 但随后尝试写
  • 在 PHP 准备好的语句中插入日期

    我正在尝试将准备好的语句中的当前日期 以 d m Y 为单位 插入 mysql 表中 我无法正确获取代码 我在 php 中调用当前日期 dat date d m Y 然后包括在这样的准备好的声明中 stmt mysqli gt prepar
  • Tkinter 初始屏幕和主循环之外的多处理

    我已经实现了一个启动屏幕 当我的应用程序在启动时从远程云存储加载数据库时会显示该启动屏幕 启动屏幕通过调用 update 保持活动状态 上面有一个进度条 并在单独的加载过程结束后被销毁 之后 主循环启动 应用程序正常运行 下面的代码在我的
  • 如何从本地结帐恢复 svn 服务器

    我们的 svn 服务器意外丢失了所有数据 并且我们的 svn 存储库文件也丢失了 目前我们只有 svn 存储库的本地签出 有什么方法可以恢复 svn 存储库吗 整个 svn 历史记录都在服务器中 因此您无法从结账中恢复它 您唯一能做的就是创
  • ASP.NET 文本框 LostFocus 事件

    我需要在文本框失去焦点时触发服务器端的代码 我知道有 onblur 客户端事件 并且没有 LostFocus 事件 那么当我的 TextBox 失去焦点时如何导致回发发生 Update 我找到了一个blog这似乎为此提供了一个相当不错的解决
  • Python:分析输入以查看其是否为整数、浮点数或字符串

    我已经为此工作了一两天 以便判断输入是整数 浮点数还是字符串 简而言之 该程序旨在将每个输入转换为字符串 循环遍历每个字符串并检查列表数字 如果字符串包含所有数字 则它是整数 如果它包含 它是一个浮点数 如果没有 它就不是一个数字 明显的缺
  • Sqlite3、SQLSTATE[HY000]:一般错误:5 数据库已锁定

    我有这个小测试脚本 session start session write close error reporting 1 register shutdown function function echo shutdown MAX 120
  • Iphone钥匙串访问下导出/导入证书、私钥的问题

    我想将证书和私钥从一台计算机导出到另一台计算机 以便可以重复使用配置文件 钥匙串访问中的证书下有一个私钥 1 我将证书导出为 certifcate cer 文件 然后从另一台计算机导入该文件 然而 它的任务是私钥 新机器上的 xcode 抱
  • Godaddy - Codeigniter - 服务器上未指定输入文件

    我刚刚将我的演示项目上传到 godaddy 的子文件夹中 当我打开网站网址时example com demo主页工作正常 但当我尝试打开内页时 我的网址看起来像example com demo index php home overview
  • tinyMCE - 获取光标位置处的内容

    我正在为tinyMCE制作一个小单词预测插件 需要提取一些文本 然后从预测单词列表中插入文本 插入应该没有问题 因为我知道光标在哪里并且可以使用mceInsertContent命令 然而 获取预测文本 我需要提取以光标位置之前的字母结尾并从
  • 重写 Angularjs 应用程序以消除延迟的 Bootstrapper

    我正在尝试对应用程序进行逆向工程 并以摆脱 deferredBootstrapper 的方式重新编写它 我遇到了模块加载问题等 我是否在标准意义上正确调用了多个模块 当前的任务是在没有引导程序的情况下简化应用程序 这是最初的 deferre
  • 逐行读取流

    Delphi中有没有办法逐行读取流 有没有办法设置流的编码 我知道 TEncoding getEncodingPage 1250 如何从流中获取它 我想你正在寻找TStreamReader 您在构造函数中设置编码 然后调用ReadLine
  • Facebook Graph API 和 FQL 之类的照片计数都不正确?

    Hey all 我为竞赛制作了一个 Facebook 应用程序 允许用户上传他们的照片 上传后 照片将发布到其个人资料上的专用相册中 一旦照片出现 用户应该收集尽可能多的喜欢 目前 我已尝试使用 Facebook Graph API 和 F
  • .Net 中的图形错误图像插值

    我有一个简单的测试 当它解决时 我的问题也解决了 当处理小图像时 图形插值的效果很差 请检查您是否知道如何解决以下代码中的结果图像忽略要绘制的图像的后半部分的问题 使用 JPG 中的 loadimage 或任何你想要的东西在图像上绘制一些东
  • 如何从html页面中提取文本?

    例如网页是链接 https www architecture com FindAnArchitect FAAPractices aspx display 50 我必须知道公司名称及其地址和网站 我尝试了以下方法将 html 转换为文本 im