Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
UnicodeEncodeError:在 UTF-8 语言环境中打印时,“ascii”编解码器无法对字符“\xe9”进行编码
我正在清理 Europarl 的法语单语语料库 http data statmt org wmt19 translation task fr de monolingual europarl v7 fr gz http data statmt
python
python3x
characterencoding
datacleaning
french
在 R 中将完整年龄从字符转换为数字
我有一个数据集 其中人们的完整年龄为 R 中的字符串 例如 10 年 8 个月 23 天 我需要将其转换为有意义的数字变量 我正在考虑将其转换为有多少天人的年龄 这很困难 因为月份有不同的天数 因此 最好的解决方案可能是创建一个双变量 将年
r
datacleaning
lubridate
stringr
datawrangling
R - 根据多个条件匹配来自 2 个数据帧的值(当查找 ID 的顺序是随机时)
嗨我有两个数据框 df1 data frame PersonId1 c 1 2 3 4 5 6 7 8 9 10 1 PersonId2 c 11 12 13 14 15 16 17 18 19 20 11 Played together
r
datamanipulation
datacleaning
R - 识别哪些列包含货币数据 $
我有一个非常大的数据集 其中一些列格式为货币 一些数字 一些字符 读取数据时 所有货币列都被识别为因子 我需要将它们转换为数字 数据集太宽 无法手动识别列 我试图找到一种编程方法来识别列是否包含货币数据 例如以 开头 然后传递要清理的列列表
r
Currency
datacleaning
如何使用R检查数据一致性(确保大小写和值不矛盾)?
假设我有 Person Movie Rating Sally Titanic 4 Bill Titanic 4 Rob Titanic 4 Sue Cars 8 Alex Cars 9 Bob Cars 8 正如你所看到的 亚历克斯有一个矛
r
datacleaning
Python - Pandas 删除 Excel 中的特定行/列
我有以下 Excel 文件 我想清理特定的行 列 以便我可以进一步处理该文件 我已经尝试过这个 但我没有设法删除任何空白行 我只能设法从包含数据的行中修剪掉 在这里 我试图只保存第三行及以后的数据 xl pd ExcelFile MRD x
python
pandas
row
datacleaning
是否有 R 函数用于检查指定的 GeoJSON 对象(多边形或多多边形)是否包含指定点?
我有一系列点 Sheet1 CoM ID 1040614 Genus Washingtonia Year Planted 1998 Latitude 37 81387927 Longitude 144 9817733 CoM ID 1663
r
json
GeoJson
datacleaning
从数据框中删除特殊字符和字母数字的简单方法
我有一个大型数据集 其中有 x 行和 y 列 其中一列为单词和一些不需要的数据 不需要的数据没有特定的模式 因此我发现很难将其从数据框中删除 nonhashtag want better than Dhabi United Arab Emi
python
regex
pandas
DataFrame
datacleaning
检查 pandas 数据框中的列值是否为数字
我有一个想要清理的数据集 该数据集由 54 列和 315 行组成 对于其中一列 我想知道该列中的所有值是否都是数字 我做了以下事情 work sheet pd read excel 2006 sale xlsx sheet name She
python
pandas
datacleaning
颜色必须是 aRGB 十六进制值?
所以我之前为污染数据集运行了一些代码 并且代码运行得很好 现在 我收到此错误 颜色必须是 aRGB 十六进制值 我唯一的代码行如下 pollution jawn pd read excel ObservationData irkfioc c
python
pandas
datacleaning
ARGB
旋转数据框以保留 R 中的列标题和子标题
我正在尝试旋转一个包含标题和副标题的表格 以便标题进入 日期 列 并且副标题是两列而不是重复 这是我的数据的示例 这是使用制作的dput 因此在原始 Excel 文件中 每个日期都跨越两个子标题 蓝色 和 绿色 在 R 中 这些空白单元格被
r
Pivot
pivottable
tidyr
datacleaning
R - 简单记录链接 - 下一步?
我正在尝试与library RecordLinkage 所以我只有一个向量 tv3 c TOURDEFRANCE TOURDEFRANCE TOURDE FRANCE TOURDE FRANZ GET FRESH 我需要的功能是compar
r
record
Linkage
datacleaning
删除字符串中的所有“H”,除了包含“CH”的字符串
我试图删除字符串中的所有 H 除了以下示例中包含 CH 的字符串 strings lt c Cash Wishes Chain Chip Check 我发现下面的代码只删除了 H data lt gsub H strings 您可以通过消极
r
regex
textmining
datacleaning
如果前五列中为 NaN,则删除行
我有一个 pandas 数据框 尺寸为 89 行 x 13 列 我想删除一个entire row if NaN出现在前五列中 这是一个例子 LotName C15 C16 C17 C18 C19 Spots15 Spots16 Cherry
python
python3x
pandas
NaN
datacleaning
如何在Python中从字符串中提取表情符号和标志?
import emoji def emoji lis string entities for pos c in enumerate string if c in emoji UNICODE EMOJI print Matched c c e
python
string
emoji
datacleaning
删除字符串末尾的下划线和数字
我正在使用一个包含带有一些下划线的列的数据集 有一个图案 但它们是不同的图案 如下所示 ID Col1 1029 ap analog 2334 critical 1 mm 1 2334 transpose 2 mm 2 9877 publi
r
regex
string
datacleaning
如何清理和重新编码 R 调查数据中的检查所有适用的响应?
我有一些调查数据 其中包含一些多重响应问题 如下所示 HS18 为什么在南非看病难 选择所有符合条件的 1 Too expensive 2 No transportation to the hospital clinic 3 Hospita
r
Survey
datacleaning
如何删除pandas数据框中的索引名称?
In my dataframe I get a 2 written over my index column s name when I check for the columns name it doesn t show up there
python
pandas
DataFrame
Indexing
datacleaning
将 2010 Q1 转换为日期时间 2010-3-31
如何找到将 Year Q 转换为日期时间的智能解决方案 我尝试使用 pd to datetime working visa nationality Year Q 但出现错误说无法识别 所以我尝试了一个愚蠢的方法 working visa n
python
pandas
TimeSeries
datacleaning
将基于另一列的列中的值替换为 R [重复]
这个问题在这里已经有答案了 我试图根据不同列中的数据替换列的值 但它不起作用 这是一些示例数据 df lt data frame Col1 1 10 Col2 c a a a b b c c d d d Col3 c 11 12 13 14
r
datamanipulation
datacleaning
1
2
»