从 Python 中的 Unicode Web Scrape 输出 ascii 文件

2024-03-11

我是 Python 编程新手。我在 Python 文件中使用以下代码：

import gethtml
import articletext
url = "http://www.thehindu.com/news/national/india-calls-for-resultoriented-steps-at-asem/article5339414.ece"
result = articletext.getArticle(url)
text_file = open("Output.txt", "w")

text_file.write(result)

text_file.close()

文件articletext.py包含以下代码：

from bs4 import BeautifulSoup
import gethtml
def getArticleText(webtext):
    articletext = ""
    soup = BeautifulSoup(webtext)
    for tag in soup.findAll('p'):
        articletext += tag.contents[0]
    return articletext

def getArticle(url):
    htmltext = gethtml.getHtmlText(url)
    return getArticleText(htmltext)

但我收到以下错误：

UnicodeEncodeError: 'ascii' codec can't encode character u'\u201c' in position 473: ordinal not in range(128)
To print the result into the output file, what proper code should I write ?

The output `result` is text in the form of a paragraph.

为了解决 unicode 错误，我们需要将文本编码为 unicode（准确地说是 UTF-8）而不是 ascii。为了确保在出现编码错误时不会抛出错误，我们将忽略没有映射的任何字符。（您还可以使用“替换”或 str.encode 提供的其他选项。请参阅此处有关 Unicode 的 Python 文档。 http://docs.python.org/2/howto/unicode.html#the-unicode-type)

打开文件的最佳实践是使用 Python 上下文管理器，即使出现错误，它也会关闭文件。我在路径中使用斜杠而不是反斜杠，以确保它可以在 Windows 或 Unix/Linux 中工作。

text = text.encode('UTF-8', 'ignore')
with open('/temp/Out.txt', 'w') as file:
    file.write(text)

这相当于

text = text.encode('UTF-8', 'ignore')
try:
    file = open('/temp/Out.txt', 'w')
    file.write(text)
finally:
    file.close()

但上下文管理器的冗长程度要低得多，并且不太可能导致您在错误期间锁定文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

Unicode

从 Python 中的 Unicode Web Scrape 输出 ascii 文件的相关文章

2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
为什么我的混淆矩阵只返回一个数字？

我正在做二元分类每当我的预测等于事实时我发现sklearn metrics confusion matrix返回单个值难道没有问题吗 from sklearn metrics import confusion matrix print
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
python array(10,1) 和 array(10,) 之间的区别

我正在尝试将 MNIST 数据集加载到数组中当我使用 X train y train X test y test mnist load data 我得到一个数组 y test 10000 但我希望它的形状为 10000 1 数组 1000
将 pandas 剪切操作转换为常规字符串

我明白了 pandas cut 操作的输出 0 0 20 1 0 20 2 0 20 3 0 20 4 0 20 5 0 20 6 0 20 7 0 20 8 0 20 9 0 20 如何将 0 20 转换为 0 20 我正在这样做 str
是否有一个包可以维护所有带有符号的货币列表？

是否有一个 python 包提供所有或相当完整货币的列表与符号如美元的有优秀的pycountry 贪财的 https github com limist py moneyed and ccy http code google com
python celery -A 的无效值无法加载应用程序

我有一个以下项目目录 azima init py main py tasks py task py from main import app app task def add x y return x y app task def mul
如何使用 Homebrew 在 Mac 上安装 Python 2 和 3？

我需要能够在 Python 2 和 3 之间来回切换我如何使用 Homebrew 来做到这一点因为我不想弄乱路径并陷入麻烦现在我已经通过 Homebrew 安装了 2 7 我会用pyenv https github com yyuu
如何使用 opencv python 计算乐高积木上的孔数？

我正在开发我的 python 项目我需要计算每个乐高积木组件中有多少个孔我将从输入 json 文件中获取有关需要计算哪个程序集的信息如下所示 img 001 red 0 blue 2 white 1 grey 1 yellow 1 r
验证假名输入

我正在开发一个允许用户输入日语字符的应用程序我试图想出一种方法来确定用户的输入是否是日语假名平假名片假名或汉字应用程序中的某些字段不适合输入拉丁文文本我需要一种方法将某些字段限制为仅限汉字或仅限片假名等该项目使用UTF 8编码
如何在 Django Rest 框架中编写“删除”操作的测试

我正在为 Django Rest Framework API 编写测试我一直在测试删除我对创建的测试工作正常这是我的测试代码 import json from django urls import reverse from re
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
Discord.py 嵌入中禁用按钮/冻结按钮

I m trying to make a replica of this bot in which when I press any of the buttons below it shows a dropdown menu and you
numpy polyfit 中使用的权重值是多少以及拟合误差是多少

我正在尝试对 numpy 中的某些数据进行线性拟合 Ex 其中 w 是该值的样本数即对于点 x 0 y 0 我只有 1 个测量值该测量值是2 2 但对于这一点 1 1 我有 2 个测量值值为3 5 x np array 0 1 2 3
根据多个阈值将 SciPy 分层树状图切割成簇

我想将 SciPy 的树状图切割成多个具有多个阈值的簇我尝试过使用 fcluster 但它只能削减一个阈值例如这是我从另一个问题中摘取的一段代码 import pandas data pandas DataFrame total ru
非法指令：MacOS High Sierra 上有 4 条指令

我正在尝试在 pygame 3 6 中制作一个看起来像聊天的窗口我刚刚将我的 MacBook 更新到版本 10 13 6 在我这样做之前它工作得很好但在我收到消息之后非法指令 4 Code import pygame from pyg
高效创建抗锯齿圆形蒙版

我正在尝试创建抗锯齿加权而不是布尔圆形掩模以制作用于卷积的圆形内核 radius 3 no of pixels to be 1 on either side of the center pixel shall be decimal a
如何绘制更大的边界框和仅裁剪边界框文本 Python Opencv

我正在使用 easyocr 来检测图像中的文本该方法给出输出边界框输入图像如下所示 Image 1 Image 2 使用下面的代码获得输出图像 But I want to draw a Single Bigger bounding bo
Python 中的 Unix cat 函数 (cat * > merged.txt)？ [复制]

这个问题在这里已经有答案了一旦建立了目录有没有办法在Python中使用Unix中的cat函数或类似的函数我想将 files 1 3 合并到 merged txt 我通常会在 Unix 中找到该目录然后运行 cat gt merged
使用 paramiko 运行 Sudo 命令

我正在尝试执行sudo使用 python paramiko 在远程计算机上运行命令我尝试了这段代码 import paramiko ssh paramiko SSHClient ssh set missing host key polic

随机推荐

SplashScreen java 更改 alpha

我正在循环遍历一些 png 来为 java 启动画面创建动画我用这个开始动画 java splash images anim png SplashDemo 并在类中使用 png 您可以在这里找到该课程 http pastebin com
使用 javascript 设置隐藏字段的值，然后从服务器端 C# 代码访问值

我正在使用一个嵌套的 html 无序列表样式为下拉列表当单击内部列表列表项中的 a 标记时它会触发一些 JavaScript 该 JavaScript 应该将隐藏字段的值设置为所单击链接的文本 javascript 似乎可以工作我使
在没有 Spring Security 的情况下保留 Spring 会话

我正在寻求帮助来配置 Spring Boot 以在不使用 Spring Security 的情况下保留 Spring 会话我从HttpSession JDBC Spring Boot 示例应用程序 https github com spr
在 SQL Server 中，如何使用系统表/视图识别特定表的*所有*依赖关系？

我正在编写一个 DDL 脚本来删除多个表但需要首先确定这些表的所有依赖项这些依赖项包括外键约束存储过程视图等最好我想在删除依赖表之前使用系统表视图以编程方式编写脚本来删除这些依赖项从头开始编写这非常混乱您是否考虑过像这样的
枚举值“”对于类型>“EnumType”无效并且无法序列化

当使用 DataContractSerializer 编写具有如下成员的 DataContract 时 DataMember public PropertyId PropId get set 它报告序列化错误 SerializationEx
Angular2 是否有相当于 $document 的东西

我已经开始研究 Angular2 并拥有 3 个嵌套组件的基本功能但是我无法弄清楚如何将按键处理程序添加到文档中如果没有我将如何监听文档上的按键并做出反应需要明确的是我需要响应文档本身的 kepyress 而不是输入在 Angu
Bootstrap 侧边栏滚动、附加和滚动监视

NEWER 所以滚动现在正在工作但它固定在页面顶部我需要它位于正确的位置内容旁边然后开始在内容的当前位置滚动我正在尝试让我的侧边栏像这里一样滚动 gt http getbootstrap com 2 3 2 components
为什么 JavaScript 中的数组显示错误长度

我正在学习 JavaScript 作为学习的一部分我遇到了以下场景我期望 a1 length 代码的最后一行显示 201 但它显示 101 有什么想法吗 var a1 new Array for var i 100 i lt 100
NativeScript：如何禁用 WebView 中的缩放控件？

我从以下问题中找到了在 Android WebView 中启用禁用缩放控件的方法如何删除Android webview上的缩放按钮 https stackoverflow com questions 10766669 how to re
在 R/igraph 中可视化具有 3 层（三方）的图/网络

我有一个分层网络有 3 层比如说父母 P 孩子 C 孙子 G 边缘总是指向年轻一代专利 gt 子代子代 gt 孙子或父代 gt 孙子同一代中的顶点之间没有边该图由 3 个边列表 P C C G P C 表示下面给出一个简短
无法在 gdal 中加载“gcs.csv”文件

这个问题可能会重复但我没有得到答案我已经在 python ide 中编写了流动代码 out srs osr SpatialReference self out srs ImportFromEPSG 4326 它运行良好但是当我从应用程
Corda：在一个流程中创建和使用相同的状态？

是否可以在一个流中创建和使用相同的 corda 状态或者在不同的子流中创建和使用它我收到以下错误 Caused by net corda core flows NotaryException Unable to notarise tra
在jquery中获取ruby值[重复]

这个问题在这里已经有答案了我有一个文本区域在其中填充数据库记录我想在 jquery 的 textarea 中访问相同的值
xml序列化c#

无法理解我做错了什么结果集是空的我的代码 class Class1 public static object DeSerialize object resultObject XmlSerializer serializer new Xm
Android 推送通知状态检查

用户可以在更高版本的 Android 中为应用程序禁用推送通知应用程序有什么方法可以知道用户在设置中禁用了推送通知看这里 http developer android com google gcm adv html unreg http
如何在两个 docker 容器之间进行 nginx 反向代理负载平衡？

我尝试使用相同的 Nodejs 应用程序在两个容器之间建立 nginx 反向代理负载平衡目录结构 docker compose yml nginx nodejs index js php docker compose yml versio
Angular 2 - 将文件发布到 Web API

我试图从 Angular 2 应用程序将文件传递到 Web API 但实际的文件数据未发送这是我的 Angular 2 服务代码 var headers new Headers headers append Content Type mu
OpenFileDialog() 锁定文件夹

I use OpenFileDialog 在我的 Silverlight 应用程序中当我使用选择文件时ShowDialog 它只是锁定文件直到我关闭我的应用程序应用程序运行时我无法重命名或删除文件夹浏览器中的 silverlight
批量变量赋值

这个问题似乎非常愚蠢我无法处理它当我尝试这个批处理代码时 if 1 i set is 2 echo is shift 使用 2 个或更多参数调用它不起作用它实际上打印出一个空白 shift 命令也没有完成当我观看执行的代码
从 Python 中的 Unicode Web Scrape 输出 ascii 文件

我是 Python 编程新手我在 Python 文件中使用以下代码 import gethtml import articletext url http www thehindu com news national india calls

从 Python 中的 Unicode Web Scrape 输出 ascii 文件

从 Python 中的 Unicode Web Scrape 输出 ascii 文件 的相关文章

随机推荐

热门标签

从 Python 中的 Unicode Web Scrape 输出 ascii 文件的相关文章