Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 Python 从文本中删除非英语单词
我正在 python 上进行数据清理练习 我正在清理的文本包含我想删除的意大利语单词 我一直在网上搜索是否可以使用像 nltk 这样的工具包在 Python 上执行此操作 例如给出一些文本 Io andiamo to the beach w
python
datascience
datacleaning
删除缺失的数据值
我删除了原始帖子 以便能够发布更大版本的数据集 实际上总共有 418 行 这是我正在进行的生存分析的数据 第一列是 ID 号 其他列标记为 V2 V20 有很多缺失的数据 用 表示 我用coxph 函数来获取以下内容 Saves survi
r
datacleaning
survivalanalysis
coxregression
将字段重新格式化为列,其他字段(与先前结构中成为列的字段配对)成为新列中的字段
我的任务是清理慈善机构设计的移动应用程序中的数据 在一个部分中 用户问答应用程序使用会话由一行表示 该部分由重复的问题答案字段对组成 其中一个字段代表所提出的问题 然后它旁边的字段代表相应的答案 每个问题 字段和答案列对一起代表一个独特的问
python
Excel
database
datacleaning
datamunging
UnicodeEncodeError:在 UTF-8 语言环境中打印时,“ascii”编解码器无法对字符“\xe9”进行编码
我正在清理 Europarl 的法语单语语料库 http data statmt org wmt19 translation task fr de monolingual europarl v7 fr gz http data statmt
python
python3x
characterencoding
datacleaning
french
在 R 中将完整年龄从字符转换为数字
我有一个数据集 其中人们的完整年龄为 R 中的字符串 例如 10 年 8 个月 23 天 我需要将其转换为有意义的数字变量 我正在考虑将其转换为有多少天人的年龄 这很困难 因为月份有不同的天数 因此 最好的解决方案可能是创建一个双变量 将年
r
datacleaning
lubridate
stringr
datawrangling
R - 根据多个条件匹配来自 2 个数据帧的值(当查找 ID 的顺序是随机时)
嗨我有两个数据框 df1 data frame PersonId1 c 1 2 3 4 5 6 7 8 9 10 1 PersonId2 c 11 12 13 14 15 16 17 18 19 20 11 Played together
r
datamanipulation
datacleaning
R - 识别哪些列包含货币数据 $
我有一个非常大的数据集 其中一些列格式为货币 一些数字 一些字符 读取数据时 所有货币列都被识别为因子 我需要将它们转换为数字 数据集太宽 无法手动识别列 我试图找到一种编程方法来识别列是否包含货币数据 例如以 开头 然后传递要清理的列列表
r
Currency
datacleaning
如何使用R检查数据一致性(确保大小写和值不矛盾)?
假设我有 Person Movie Rating Sally Titanic 4 Bill Titanic 4 Rob Titanic 4 Sue Cars 8 Alex Cars 9 Bob Cars 8 正如你所看到的 亚历克斯有一个矛
r
datacleaning
Python - Pandas 删除 Excel 中的特定行/列
我有以下 Excel 文件 我想清理特定的行 列 以便我可以进一步处理该文件 我已经尝试过这个 但我没有设法删除任何空白行 我只能设法从包含数据的行中修剪掉 在这里 我试图只保存第三行及以后的数据 xl pd ExcelFile MRD x
python
pandas
row
datacleaning
是否有 R 函数用于检查指定的 GeoJSON 对象(多边形或多多边形)是否包含指定点?
我有一系列点 Sheet1 CoM ID 1040614 Genus Washingtonia Year Planted 1998 Latitude 37 81387927 Longitude 144 9817733 CoM ID 1663
r
json
GeoJson
datacleaning
从数据框中删除特殊字符和字母数字的简单方法
我有一个大型数据集 其中有 x 行和 y 列 其中一列为单词和一些不需要的数据 不需要的数据没有特定的模式 因此我发现很难将其从数据框中删除 nonhashtag want better than Dhabi United Arab Emi
python
regex
pandas
DataFrame
datacleaning
检查 pandas 数据框中的列值是否为数字
我有一个想要清理的数据集 该数据集由 54 列和 315 行组成 对于其中一列 我想知道该列中的所有值是否都是数字 我做了以下事情 work sheet pd read excel 2006 sale xlsx sheet name She
python
pandas
datacleaning
颜色必须是 aRGB 十六进制值?
所以我之前为污染数据集运行了一些代码 并且代码运行得很好 现在 我收到此错误 颜色必须是 aRGB 十六进制值 我唯一的代码行如下 pollution jawn pd read excel ObservationData irkfioc c
python
pandas
datacleaning
ARGB
旋转数据框以保留 R 中的列标题和子标题
我正在尝试旋转一个包含标题和副标题的表格 以便标题进入 日期 列 并且副标题是两列而不是重复 这是我的数据的示例 这是使用制作的dput 因此在原始 Excel 文件中 每个日期都跨越两个子标题 蓝色 和 绿色 在 R 中 这些空白单元格被
r
Pivot
pivottable
tidyr
datacleaning
R - 简单记录链接 - 下一步?
我正在尝试与library RecordLinkage 所以我只有一个向量 tv3 c TOURDEFRANCE TOURDEFRANCE TOURDE FRANCE TOURDE FRANZ GET FRESH 我需要的功能是compar
r
record
Linkage
datacleaning
删除字符串中的所有“H”,除了包含“CH”的字符串
我试图删除字符串中的所有 H 除了以下示例中包含 CH 的字符串 strings lt c Cash Wishes Chain Chip Check 我发现下面的代码只删除了 H data lt gsub H strings 您可以通过消极
r
regex
textmining
datacleaning
如果前五列中为 NaN,则删除行
我有一个 pandas 数据框 尺寸为 89 行 x 13 列 我想删除一个entire row if NaN出现在前五列中 这是一个例子 LotName C15 C16 C17 C18 C19 Spots15 Spots16 Cherry
python
python3x
pandas
NaN
datacleaning
如何在Python中从字符串中提取表情符号和标志?
import emoji def emoji lis string entities for pos c in enumerate string if c in emoji UNICODE EMOJI print Matched c c e
python
string
emoji
datacleaning
删除字符串末尾的下划线和数字
我正在使用一个包含带有一些下划线的列的数据集 有一个图案 但它们是不同的图案 如下所示 ID Col1 1029 ap analog 2334 critical 1 mm 1 2334 transpose 2 mm 2 9877 publi
r
regex
string
datacleaning
如何清理和重新编码 R 调查数据中的检查所有适用的响应?
我有一些调查数据 其中包含一些多重响应问题 如下所示 HS18 为什么在南非看病难 选择所有符合条件的 1 Too expensive 2 No transportation to the hospital clinic 3 Hospita
r
Survey
datacleaning
1
2
»