从字符串中删除所有非 utf-8 符号

2024-01-09

我有大量的文件和解析器。我要做的就是去掉所有非 utf-8 符号并将数据放入 mongodb 中。目前我有这样的代码。

with open(fname, "r") as fp:
    for line in fp:
        line = line.strip()
        line = line.decode('utf-8', 'ignore')
        line = line.encode('utf-8', 'ignore')

不知何故我仍然收到错误

bson.errors.InvalidStringData: strings in documents must be valid UTF-8: 
1/b62010montecassianomcir\xe2\x86\x90ta0\xe2\x86\x90008923304320733/290066010401040101506055soccorin

我不明白。有一些简单的方法可以做到吗？

UPD：似乎 Python 和 Mongo 不同意 Utf-8 有效字符串的定义。

尝试下面的代码行而不是最后两行。希望能帮助到你：

line=line.decode('utf-8','ignore').encode("utf-8")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

MongoDB

encode

从字符串中删除所有非 utf-8 符号的相关文章

使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
在 MongoDB 和 Apache Solr 之间同步数据的简单方法

我最近开始使用 MongoDB 和 Apache Solr 我使用 MongoDB 作为数据存储并且希望 Apache Solr 为我的数据创建索引以实现应用程序中的搜索功能经过一些研究我发现基本上有两种方法可以在 MongoDB
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
MongoDB：与基本查找相比，管道查找性能较慢

我有两个收藏 matches date 2020 02 15T17 00 00Z players id 5efd9485aba4e3d01942a2ce id 5efd9485aba4e3d01942a2cf and players id
Python Tkinter 模块不显示输出

我正在尝试学习 Python 并尝试使用 Python 中的 GUI 并遇到了这个 Tkinter 模块我的代码运行但运行时窗口没有出现我的代码如下 from Tkinter import to create a root windo
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
使用 Python 将连续日期分组在一起

Given dates datetime 2014 10 11 datetime 2014 10 1 datetime 2014 10 2 datetime 2014 10 3 datetime 2014 10 5 datetime 201
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01
如何编写一个接受 int 或 float 的 C 函数？

我想用 C 语言创建一个扩展 Python 的函数该函数可以接受 float 或 int 类型的输入所以基本上我想要f 5 and f 5 5 成为可接受的输入我认为我不能使用if PyArg ParseTuple args i v
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发

随机推荐

使用OpenMP计算PI值

我正在尝试通过并行化蒙特卡罗代码来学习如何使用 OpenMP 该代码通过给定的迭代次数计算 PI 的值代码的核心内容是这样的 int chunk CHUNKSIZE count 0 pragma omp parallel shared c
Simplecov gem 在 Rails 中缺少未经测试的文件

Using simple covRails 应用程序中的 gem 我们可以将未测试的文件包含在报告中吗如果是怎么办如果不是该文件应该计入覆盖率对吧尝试编辑您的config environments test rb并设置这一行 c
PhpStorm 中有选择当前行的键盘快捷键吗？

在 PhpStorm 中有扩展选择的快捷方式ctrl w 有没有选择当前所有行的快捷方式我正在寻找类似的东西ctrl l在崇高这样的操作是可用的但分配的快捷键如果有取决于实际使用的键盘映射任何状况之下 Settings Pref
确认第一条消息后发送第二条消息。 RabbitMQ 保证顺序吗？

假设多个生产者发布到同一个交易所 E 扇出每个生产商都有自己的渠道队列 Q 绑定到交换机 E 生产者 P1 向 E 发布消息 M1 并从 E 接收确认 A1 只有在确认 A1 后第二个生产者 P2 才发布第二条消息 M2 Rabbit
矩阵和向量的逐元素点积[重复]

这个问题在这里已经有答案了确实有类似的问题here https stackoverflow com questions 26168363 elegant expression for row wise dot product of two
我可以在套件中运行单个测试吗？

我已经为我的结构设置了一个测试套件 https github com stretchr testify suite package https github com stretchr testify suite package 在我能够通过
在 iOS 中同时管理文本转语音和语音识别

我想要我的iOS我正在开发一个应用程序使用文本转语音功能向用户朗读从服务器接收到的一些信息并且我还想允许用户通过语音命令停止此类语音我尝试过 iOS 的语音识别框架例如OpenEars我发现问题在于它正在监听和检测应用程序本身说
在 mouseenter 上旋转 div 元素并在 mouseleave 上停止旋转

我搜索了很多但我无法理解其实现我是初学者所以请帮助我 div style height 100 width 100 background color blue div javascript var x 0 var y function
为什么我的开发团队应该拥有构建服务器？

我们知道这是好事但我发现自己向我的雇主证明了这一点请说明为什么开发团队需要构建服务器使用构建服务器有多种原因没有特定的顺序但我的脑海中浮现出以下内容您可以简化开发人员的工作流程并减少出错的机会您的构建服务器可以处理多个步骤例
仅在使用 jquery 最后一个键后进行 Keyup

我正在编写一个简单的脚本来提取输入 keyup 事件的数据库信息我遇到的问题是每次用户按下一个键时总是重复 keyup 事件如何才能使其仅在按下最后一个键后才起作用我想我应该在每次按键后使用像 setTimeOut 这样的函数但我不
Java 中的虚拟（派生）属性是什么？

我应该创建一个派生属性该属性将具有处理 Mark E Brown 等值的访问器和修改器我不明白这个词这对我来说是新的帮助 public String getFullName return fullName getFirstName
如何增加雷达图 MPAndoid Chart 的大小？

I want to increase size of MPAndroid Radar Chart I observed that the size increases gradually when i increase size of th
使用mockito“无法解析方法”

I use org springframework security core Authentication其中有一个方法 Collection
字符串格式正值和负值以及条件颜色格式 XAML

我正在寻找一种简单的方法来使用以下标准格式化结果如果为正则添加加号并将其显示为绿色如果为负则添加减号并将其显示为红色我已经完成了一半我只是不知道获得颜色格式的最简单方法是什么有没有一种不使用值转换器的方法
cpp文件中的C++变量可以定义为特殊符号β吗

我们可以使用特殊字符在 C C 中定义变量吗例如 double 如果是如何实现这一目标根据CPP标准工作草案 N4713 5 10 标识符 lex name 标识符是任意长的字母和数字序列标识符中的每个通用字符名应指定一个字符该字
iOS：如何获取安装引用源

我想了解用户如何使用什么来源归因安装应用程序对于 Android 可以获取引用者的 URL 但我还没有找到针对 iOS 的明显方法有外部服务例如 AppsFlyer http support appsflyer com entri
将 QString 转换为 std::string

我看过其他几篇关于将 QString 转换为 std string 的帖子它应该很简单但不知怎的我收到了一个错误我的代码使用cmake编译成VS项目我使用的是VS Express 所以QT库没有问题而且我编写的GUI除了这部分之
ionic-item 颜色和 href 不起作用

我开始了一个基于侧菜单模板的离子项目我试图更改侧面菜单中每个元素的背景颜色我希望每个项目都有不同的颜色我尝试添加离子颜色类
重塑数据（更快的方法）

我发现了一张频率表今天计数我必须扩展到原始值的数据框架我能够做到这一点但想知道是否有更快的方法使用 reshape 包 r data table 原来的表是这样的 i1 i2 i3 i4 m f 1 0 0 0 0 22 29 2
从字符串中删除所有非 utf-8 符号

我有大量的文件和解析器我要做的就是去掉所有非 utf 8 符号并将数据放入 mongodb 中目前我有这样的代码 with open fname r as fp for line in fp line line strip line l

从字符串中删除所有非 utf-8 符号

从字符串中删除所有非 utf-8 符号 的相关文章

随机推荐

热门标签

从字符串中删除所有非 utf-8 符号的相关文章