尝试从网页Python和BeautifulSoup获取编码

2024-05-16

我试图从网页检索字符集（这会一直改变）。目前我使用 beautifulSoup 来解析页面，然后从标题中提取字符集。这工作正常，直到我遇到一个网站......

    <meta http-equiv="Content-Type" content="text/html; charset=utf-8">

到目前为止，我的代码以及与其他页面一起使用的代码是：

    def get_encoding(soup):
        encod = soup.meta.get('charset')
        if encod == None:
            encod = soup.meta.get('content-type')
            if encod == None:
                encod = soup.meta.get('content')
    return encod

任何人都知道如何添加到此代码以从上面的示例中检索字符集。将其标记化并尝试以这种方式检索字符集是一个想法吗？在不改变整个功能的情况下，你会如何做呢？现在，上面的代码返回“text/html; charset=utf-8”，这会导致 LookupError，因为这是未知的编码。

Thanks

我最终使用的最终代码：

    def get_encoding(soup):
        encod = soup.meta.get('charset')
        if encod == None:
            encod = soup.meta.get('content-type')
            if encod == None:
                content = soup.meta.get('content')
                match = re.search('charset=(.*)', content)
                if match:
                    encod = match.group(1)
                else:
                    dic_of_possible_encodings = chardet.detect(unicode(soup))
                    encod = dic_of_possible_encodings['encoding'] 
    return encod

import re
def get_encoding(soup):
    if soup and soup.meta:
        encod = soup.meta.get('charset')
        if encod == None:
            encod = soup.meta.get('content-type')
            if encod == None:
                content = soup.meta.get('content')
                match = re.search('charset=(.*)', content)
                if match:
                    encod = match.group(1)
                else:
                    raise ValueError('unable to find encoding')
    else:
        raise ValueError('unable to find encoding')
    return encod

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

characterencoding

beautifulsoup

html

尝试从网页Python和BeautifulSoup获取编码的相关文章

Firefox 忽略 CSS 中的最小高度

由于某些原因最小高度在 Firefox 上不起作用我尝试在 body 上设置 min height 但 Firefox 完全忽略了它由于我的页面是动态的我不能只将高度设置为 100 我应该怎么办 body border 1px so
Jupyter Notebooks 不显示进度条

我正在尝试在 Jupyter 笔记本中显示进度条这是一台新电脑我通常做的事情似乎不起作用 from tqdm import tqdm notebook example iter 1 2 3 4 5 for rec in tqdm not
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
TF map_fn 或 while_loop 用于不同形状的张量列表

我想处理不同形状的张量序列列表并输出另一个张量列表考虑每个时间戳上具有不同隐藏状态大小的 RNN 就像是输入 tf ones 1 2 2 tf ones 2 2 3 tf ones 3 2 1 输出 tf zeros 1 2 4 t
Bootstrap 4 Beta 0 网格系统上的 Rowspan

您好我正在开发一个使用 Bootstrap 4 Beta 的电子商务模板我让它在移动设备上工作但在桌面设备上我不知道如何让购买按钮保持在标题下在我的方法中它出现在图库部分下 Desired Desktop Desired Mo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
如何将 self 传递给装饰器？

我该如何通过self key下面进入装饰器 class CacheMix object def init self args kwargs super CacheMix self init args kwargs key func Cons
使用 scipy curve_fit 拟合噪声指数的建议？

我正在尝试拟合通常按以下方式建模的数据 def fit eq x a b c d e return a 1 np exp x b c np exp x d e x np arange 0 100 0 001 y fit eq x 1 1 1
PySide6.1 与 matplotlib 3.4 不兼容

当我只安装PySide6时 GUI程序运行良好但是一旦我安装了matplotlib及其依赖包包括pyqt5 则GUI程序将无法运行并输出以下错误消息 This application failed to start because no
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
在 Sphinx 中，有没有办法在声明参数的同时记录参数？

我更喜欢在声明参数的同一行记录每个参数根据需要以便应用D R Y http en wikipedia org wiki Don t repeat yourself 如果我有这样的代码 def foo flab nickers a ser
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
禁用复选框上的输入

需要在取消选中该复选框时禁用输入并在选中该复选框时启用它我的代码是这样的 div class y div
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
将 html 文本框的值分配给 div 的标题

line 1
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014

随机推荐

从 Zendframework 2 中的布局调用模型中的方法

我尝试在 Zendframework 2 中调用模型表单布局中的方法来显示一些用户特定的内容我尝试在 Module php 的 init 和 onBootstrap 中执行此操作并尝试声明一些将在 layout phtml 中可用的变量
将 uint32_t 转换为 int32_t 并随后比较它们

我无法理解如何比较两个 int 其中一个是 unsigned int32 另一个是signed int32 让我们考虑这个简单的程序 include
KeyValuePair - 没有无参数构造函数？

我有一个具有 KeyValuePair 类型属性的对象我想从数据库读取一些数据并将结果存储在这个 KeyValuePair 类型字段中 myObject KeyValuePairs ctx ExecuteQuery
将父控件的属性传递给子控件

我正在为特定应用程序开发一组自定义控件我想定义对于外观目的的控件集通用的属性为了论证让我们这样做CustomCtrl AccentColor 我想为我的 Windows 窗体定义相同的属性即Form1 AccentColor当我更改
如何正确使用“mvn release:prepare”？

我尝试了这个命令用dryrun在我的 Maven 项目上进行测试 mvn release clean release prepare DdryRun true DgenerateBackupPoms false Dtag solocal
WCF WebHttp 混合身份验证（基本和匿名）

所有这些都与 WebHttp 绑定有关托管在自定义服务主机中 IIS 目前不是一个选项我已经实现了自定义 UserNamePasswordValidator 和自定义 IAuthorizationPolicy 当我将端点的绑定配置为使用
如何在python中附加两个字节？

说你有b x04 and b x00 你如何将它们组合起来b x0400 使用Python 3 gt gt gt a b x04 gt gt gt b b x00 gt gt gt a b b x04 x00
如何在create-react-app中注入没有REACT_APP前缀的dotenv变量？

我有一个项目要从旧版 React 应用程序迁移到标准版create react app一个未弹出在遗留项目中它手动加载 env文件与dotenv and dotenv expand并通过webpack注入DefinePlugin cr
使用 Flutter 基础类型而不使用 Flutter

我需要在没有 Flutter 的环境中使用 lib package flutter foundation dart 中存在三种类型他们是 ByteData ReadBuffer and WriteBuffer 是否可以在不依赖整个 Flu
a：悬停颜色不起作用

一件很奇怪的事情我想在悬停时更改链接的文本颜色和背景颜色这是代码 css link menu a color white display block height 100 width 100 text decoration none t
当没有引用时，一个值会永远存在吗？

假设以下最小代码 include
在Google电子表格中划分整列

我是 Google 电子表格的一个相对较新的用户我希望 B 列中的每个单元格都是 A 列同一行中内容除以 5 的结果 B1 B2 B3 等商应为 A1 A2 A3 等被除数除以 5 除数在示例中 B1 A1 5 我知道一项一
空间数据xyz到矩阵

我有一个大数据框 100 000 行其中包含 LON LAT VALUE 我想将其转换为矩阵 EPSG 中的坐标 3035 我使用以下命令尝试了 reshape2 包 acast df lon lat value var value 效果
Flutter Spotify Api 身份验证

我需要在使用 Spotify api 的 Flutter 应用程序中对用户进行身份验证我使用 flutter web auth 打开 WebView 并让用户在那里登录我无法返回应用程序在 Spotify 仪表板中我将回调 Uri
Google 地图 - 删除滑雪道？

滑雪道可以拆除吗我已经使用了该向导但由于在制作向导后添加了滑雪道因此我认为该向导没有更新以显示如何关闭滑雪道我已经阅读了文档也许这是一个疏忽更新滑雪道和缆车现在被归类为 POI https issuetracker googl
如何调整 matplotlib 单选按钮的大小和纵横比？

我已经尝试了几个小时来使简单的单选按钮列表的大小和纵横比正确但没有成功首先导入模块 import matplotlib pyplot as plt from matplotlib widgets import RadioButtons
异步尝试（blah）模式[重复]

这个问题在这里已经有答案了我正在寻找有关如何处理以下情况的建议我正在创建尝试获取某些数据的方法遵循以下模式 Typical pattern public bool TryBlah string key out object value
返回主要活动（意图）时传递数据我做错了什么？

我是安卓新手这可能是最简单的问题但我不明白这里出了什么问题我试图创建一个通过意图传递值的基本示例因此当我关闭第二个活动时我需要将数据传递到主活动这是代码意图测试1 主要活动 public void onClick View
将单独的月、日和年值转换为时间戳

我有月份值 1 12 日期值 1 31 和年份值 2010 2011 2012 我还有一个小时值和一个分钟值我怎样才能把这个给strtotime 它可以以某种方式将其转换为时间戳吗当您已经知道年月和日期时为什么将字符串转换为日期 us
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup

尝试从网页Python和BeautifulSoup获取编码

尝试从网页Python和BeautifulSoup获取编码 的相关文章

随机推荐

热门标签

尝试从网页Python和BeautifulSoup获取编码的相关文章