如何使用 Python 解码 Angular 的自定义 HTML 编码

2024-02-06

我想抓取并解析伦敦证券交易所新闻文章 https://www.londonstockexchange.com/news-article/ESNT/date-for-fy-2020-results-announcement/14850033.

网站的全部内容几乎都来自于JSON消耗的JavaScript。然而，这可以很容易地提取出来BeautifulSoup并解析为JSON module.

但脚本的编码有点奇怪。

The <script>标签有一个id of "ng-lseg-state"，这意味着这是 Angular 的自定义 HTML 编码。

例如：

&l;div class=\"news-body-content\"&g;&l;html xmlns=\"http://www.w3.org/1999/xhtml\"&g;\n&l;head&g;\n&l;meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\" /&g;\n&l;title&g;&l;/title&g;\n&l;meta name=\"generator\"

我用一个来处理这个.replace() chain:

import json

import requests
from bs4 import BeautifulSoup

url = "https://www.londonstockexchange.com/news-article/ESNT/date-for-fy-2020-results-announcement/14850033"
script = BeautifulSoup(requests.get(url).text, "lxml").find("script", {"id": "ng-lseg-state"})
article = json.loads(script.string.replace("&q;", '"'))
main_key = "G.{{api_endpoint}}/api/v1/pages?parameters=newsId%3D14850033&a;path=news-article"
article_body = article[main_key]["body"]["components"][1]["content"]["newsArticle"]["value"]
decoded_body = (
    article_body
    .replace('&l;', '<')
    .replace('&g;', '>')
    .replace('&q;', '"')
)
print(BeautifulSoup(decoded_body, "lxml").find_all("p"))

但仍然有一些字符我不知道如何处理：

&a;#160;
&a;amp;
&s;

仅举几个。

那么，问题是，我该如何处理其余的字符？或者也许有一个我不知道的解析器或可靠的字符映射？

角度编码转移状态 https://angular.io/api/platform-browser/TransferState使用位于的特殊转义函数here https://github.com/angular/angular/blob/61bfa3d9dfc7c9daecde098aca595b731c3312a0/packages/platform-browser/src/browser/transfer_state.ts#L12-L32:

export function escapeHtml(text: string): string {
  const escapedText: {[k: string]: string} = {
    '&': '&a;',
    '"': '&q;',
    '\'': '&s;',
    '<': '&l;',
    '>': '&g;',
  };
  return text.replace(/[&"'<>]/g, s => escapedText[s]);
}

export function unescapeHtml(text: string): string {
  const unescapedText: {[k: string]: string} = {
    '&a;': '&',
    '&q;': '"',
    '&s;': '\'',
    '&l;': '<',
    '&g;': '>',
  };
  return text.replace(/&[^;]+;/g, s => unescapedText[s]);
}

您可以重现unescapeHtmlpython 中的函数，并添加html.unescape解析额外的 html 实体：

import json
import requests
from bs4 import BeautifulSoup
import html

unescapedText = {
    '&a;': '&',
    '&q;': '"',
    '&s;': '\'',
    '&l;': '<',
    '&g;': '>',
}

def unescape(str):
    for key, value in unescapedText.items():
        str = str.replace(key, value)
    return html.unescape(str)

url = "https://www.londonstockexchange.com/news-article/ESNT/date-for-fy-2020-results-announcement/14850033"
script = BeautifulSoup(requests.get(url).text, "lxml").find("script", {
    "id": "ng-lseg-state"
})
payload = json.loads(unescape(script.string))
main_key = "G.{{api_endpoint}}/api/v1/pages?parameters=newsId%3D14850033&path=news-article"
article_body = payload[main_key]["body"]["components"][1]["content"]["newsArticle"]["value"]
print(BeautifulSoup(article_body, "lxml").find_all("p"))

你失踪了&s; and &a;

复制它：https://replit.com/@bertrandmartel/AngularTransferStateDecode https://replit.com/@bertrandmartel/AngularTransferStateDecode

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Python 解码 Angular 的自定义 HTML 编码的相关文章

python的_random是什么？

如果你打开random py看看它是如何工作的它的类Random子类 random Random import random class Random random Random Random number generator base
获取 pdf 第 1 页（共 2 页）的图像

我正在使用 html2canvas 和 jsPDF 以及 Angular4 创建图像我想将此图像放置在 2 页生成的 pdf 的第 1 页上但似乎这条线 doc save test pdf 需要在函数内部htm2canvas 因为如果我
计算温度的偏导数（温度的水平平流）

我想知道哪种方法计算x和y方向温度的偏导数温度的水平平流最正确第二个代码使用温度纬向风和经向风的数据矩阵提取温度 T 纬向风分量 u 和经向风分量 v 的数据 import matplotlib pyplot as plt imp
如何在 Linux 中显示进程状态（阻塞、非阻塞）

有没有办法查询 Linux 进程表中进程的状态以便能够演示执行查询时进程是正在运行还是被阻止我的目标是从进程或程序的外部执行此操作因为我希望从操作系统进程的角度来理解这一点但欢迎任何想法这是Python代码阻塞的过程 impo
Python中使用cv2获取当前视频播放位置

我正在尝试使用 CV2 和 Python 从播放视频中获取当前播放时间位置如果可能以毫秒为单位目前我正在使用此示例代码来播放视频文件 import cv2 import numpy as np file name 2 mp4 wind
SMTPAuthenticationError: (535, b'5.7.8 用户名和密码在 Django 生产中不被接受？

我在 Heroku 上部署了一个 Django 应用程序在其中一节中我使用 SMTP Gmail 设置向用户发送电子邮件当我在本地运行项目时电子邮件发送成功但在 Heroku 上部署的项目上却发送失败我在 Stackoverfl
将列表传递给 PyCrypto 中的 AES 密钥生成器

我尝试使用 Pycrypto 生成 AES 密钥但收到以下错误类型错误列表不支持缓冲区接口对于以下声明 aescipher AES new mykey AES MODE ECB mykey 属于类型list并包含 18854347
如何使用泛型类型的构造函数

如何使用 python 泛型类型的构造函数 T typing TypeVar T class MyClass typing Generic T def init self initialValue typing Iterable self
使用子图绘制 pandas 数据框 (subplots=True)：放置图例并使用紧凑的布局

我真的很喜欢 pandas 来处理和分析大数据集到目前为止我主要使用 matplotlib 进行绘图但现在想使用 pandas 自己的绘图功能基于 matplotlib 因为它需要更少的代码并且在大多数情况下对我来说似乎足够了尤
在 Windows 上将 NumPy 与 BLAS 链接

我正在尝试在 Windows 系统上安装 Theano 并且需要安装 BLAS 和 LAPACK 我的 System32 文件夹中有这些的 dll 文件当我运行 numpy config来自 Anaconda 的 show 库的路径正确显
Python 函数可能会引发哪些异常？ [复制]

这个问题在这里已经有答案了 Python 中有什么方法可以确定内置函数可能引发哪些异常例如文档 http docs python org lib built in funcs html http docs python org li
按字段名称对命名元组列表进行排序的 Pythonic 方法

我想对命名元组列表进行排序而不必记住字段名的索引我的解决方案看起来相当尴尬希望有人能有一个更优雅的解决方案 from operator import itemgetter from collections import namedtu
在 Ubuntu 上使用 Python 获取显示器分辨率

对于 Ubuntu win32api 中是否有与 GetSystemMetrics 相当的代码我需要获取显示器的宽度和高度以像素为单位我可以建议一些可以使用的方法不过我还没有使用过 xlib 版本 1 xlib Python 程序的
图像堆栈的最大强度投影

我正在尝试重新创建该功能 max array 3 来自 MatLab 它可以获取 N 个图像的 300x300px 图像堆栈我在这里说图像因为我正在处理图像实际上这只是一个大的双数组 300x300xN 并创建一个 300x300
对于 pygtk 应用程序来说，什么是好的嵌入式浏览器？

我计划在我的 pygtk 应用程序中使用嵌入式浏览器并且我正在 gtkmozembed 和 pywebkitgtk 之间进行辩论两者之间有什么引人注目的区别吗还有我不知道的第三种选择吗应该注意的是我不会使用它来访问网络上的内容我
在 Django/python 中，如何将内存缓存设置为无限时间？

cache set key value 9999999 但这并不是无限的时间 def get memcache timeout self timeout Memcached deals with long gt 30 days timeou
仅对某些行的不同大小的两个 pandas 数据帧的列进行求和

我有两个 pandas 数据框如下所示 df1 n column1 0 5 0 0 0 1 6 0 0 0 2 7 0 0 0 3 8 0 0 0 4 9 0 0 0 5 10 0 0 0 df2 n column2 0 6 0 1 0
Tornado websocket handler ， self.close() 正在关闭连接而不触发 on_close() 方法

我是 python stackoverflow tornado 的新手所以请耐心等待纠正我我正在使用龙卷风开发实时应用程序当我在 Websocket 处理程序类中调用 self close 时 on close 方法不会启动这次我
sklearn 中带有词袋和附加情感特征的文本分类器

我正在尝试构建一个分类器除了词袋之外还使用情绪或主题 LDA 结果等特征我有一个包含文本和标签的 pandas DataFrame 并且想添加情感值 5 到 5 之间的数字和 LDA 分析结果带有句子主题的字符串我有一个工作词
用于桌面数据库应用程序的 Python 框架

是否有一个框架可以为Python开发桌面数据库应用程序一些带有CRUD屏幕的屏幕我正在寻找类似于 Windows 窗体的东西能够将 TextField Combos 和其他 UI 隐喻与datasets连接到关系数据库例如 MySQL

随机推荐

有什么好的理由不使用 jQuery 而不是使用普通的旧式 JavaScript？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
显示pushviewcontroller动画看起来像presentModalViewController

是否可以显示pushViewController动画看起来像presentModalViewController但这有后台功能pushViewController 如果您想要淡入淡出动画此方法有效 CATransition transit
shell_exec 不在后台运行，还有其他解决方案吗？

我在 CentOS 上的 apache 中使用 php 我需要为用户提供服务他们可以通过点击删除大文件尝试使用 shell exec 但它不在后台运行它运行并让用户等待我的命令 D command rm rf 视频 Mdelete
查找 Pandas 数据框中所有模式的索引

我正在使用按日期时间索引的 Pandas 数据框如下所示 TimeSys Index 2014 08 29 00 00 18 0 2014 08 29 00 00 19 0 2014 08 29 00 00 20 1 2014 08 29
滑动加载到 SimpleTarget 中，不遵守指定的宽度和高度

我正在使用 Glide 加载图像调整其大小并通过SimpleTarget
在 Objective C (Mac OS X) 中检测 CPU 架构（32 位/64 位）运行时

我目前正在拧一个Cocoa http en wikipedia org wiki Cocoa 28API 29需要执行一些针对 32 位和 64 位优化的控制台应用程序的应用程序因此我想检测应用程序正在运行的 CPU 架构以便我可
使用 python paramiko 进行 SSH 密钥转发

目前我们在桌面上运行一个脚本使用 paramiko 来 ssh 到远程 Linux 主机一旦我们进入远程 Linux 主机我们就执行另一个命令来登录另一台远程计算机我们想要做的是从 paramiko 将密钥传递到远程服务器这样我
Orchard CMS 完整指南 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我目前正在 Orchard 中开发一个非常简单的网站但这需要我用主题和内容类型小部件来扩展它现在这就是我所了解的内容类型和小部件
QGridLayout，3 个窗格，无法正确扩展

我正在尝试使用以下内容布局一个窗口全部用代码表示 QGridLayout 我可以将小部件添加到布局中并将它们显示在我的窗口中但我不知道如何正确调整它们的大小这就是我想要的 Leftmost Center Rightmost 这些是我窗
具有 Facebook 身份验证的 Azure 移动服务：获取用户信息

我刚开始使用 Azure 移动服务或任何移动开发人员我已按照本教程为 Android 应用程序启用 Facebook 身份验证 http azure microsoft com en us documentation articles
如何绕过java.nio.file.DirectoryNotEmptyException？ [复制]

这个问题在这里已经有答案了有没有办法绕过java nio file DirectoryNotEmptyException 我希望能够删除其中包含内容的文件夹有没有办法绕过java nio file DirectoryNotEmptyEx
PHP 类。如何构建将数据保存到数据库的方法

我正在构建一个类来将数据保存到数据库但我不知道如何处理这个问题我的项目文件夹是这样的 Lib Models Uddt person php uris php Main class php Example usage php Models
具有最大并发数的异步并发队列

我遇到了一个自定义异步队列的错误该队列一次调用 10 个异步函数我正在启动包含 50 个作业的队列一旦前 10 个作业完成队列就会移动到后面的 10 个作业直到完成所有作业我遇到的错误是一旦完成 50 个作业它就会重新启动前
Linux 删除超过 1 年的文件夹和超过 3 个文件

我正在编写一个 ant 脚本来清理存档文件夹以下是我需要清理的方法我需要删除超过一定天数的旧文件夹并且其中包含超过 3 个文件例如如果某个文件夹已有 300 天的历史但只有 3 个文件则该文件夹不会被删除我知道我可以通过 s
使用记录 Haskell 进行泛型派生

我基本上是想看看是否可以在 Haskell 中模拟 ORM 框架这样如果用户想要创建数据库模型他们会做这样的事情 data Car Car company String model String year Int deriving Mo
从小部件启动/停止服务

我想从小部件内部启动一项服务我知道我可以使用 PendingIntent 来做到这一点例如 PendingIntent intent PendingIntent getService context 0 new Intent conte
npm install 不能与 --prefix 一起使用

看起来npm install prefix server 没有参数不适用于 prefix旗帜我只想安装 package json 中的所有软件包该命令后我得到的只是 npm WARN enoent ENOENT 没有这样的文件或目录
HttpClient的默认最大连接数是多少

HttpClient 是否使用与 HttpWebRequest 相同的 ServicePoint 连接限制 Thanks 答案并不完整这取决于实施在 net核心中ServicePointManager DefaultConnection
在单独的程序集中使用 View 组件进行 ASP NET 5 本地化

我有一个类库项目上面有一些 ViewComponents 我已经让它们在我的 MVC 6 Web 应用程序上工作感谢这个问题 https stackoverflow com questions 34236850 asp net m
如何使用 Python 解码 Angular 的自定义 HTML 编码

我想抓取并解析伦敦证券交易所新闻文章 https www londonstockexchange com news article ESNT date for fy 2020 results announcement 14850033 网站

如何使用 Python 解码 Angular 的自定义 HTML 编码

如何使用 Python 解码 Angular 的自定义 HTML 编码 的相关文章

随机推荐

热门标签

如何使用 Python 解码 Angular 的自定义 HTML 编码的相关文章