从数据框中删除特殊字符和字母数字的简单方法

2024-03-10

我有一个大型数据集，其中有 x 行和 y 列。其中一列为单词和一些不需要的数据。不需要的数据没有特定的模式，因此我发现很难将其从数据框中删除。

nonhashtag
['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
['Just', 'posted', 'photo', 'Rasim', 'Villa']
['Dhabi', 'International', 'Airport', '(AUH)', '\xd9\x85\xd8\xb7\xd8\xa7\xd8\xb1', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', '\xd8\xa7\xd9\x84\xd8\xaf\xd9\x88\xd9\x84\xd9\x8a', 'Dhabi']
['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
['Buona', 'notte', '\xd1\x81\xd0\xbf\xd0\xbe\xd0\xba\xd0\xbe\xd0\xb9\xd0\xbd\xd0\xbe\xd0\xb9', '\xd0\xbd\xd0\xbe\xd1\x87\xd0\xb8', '\xd9\x84\xd9\x8a\xd9\x84\xd8\xa9', '\xd8\xb3\xd8\xb9\xd9\x8a\xd8\xaf\xd8\xa9!', '\xd8\xa3\xd8\xa8\xd9\x88', '\xd8\xb8\xd8\xa8\xd9\x8a', 'Viceroy', 'Hotel,', 'Yas\xe2\x80\xa6']

每个不是单词的字符都将被删除，这只是大型数据集中的一列。列名称是nonhashtag

清洗色谱柱的简单方法是什么？立即删除它们或替换为NAN

预期产出

nonhashtag
    ['want', 'better', 'than', 'Dhabi,', 'United', 'Arab', 'Emirates']
    ['Just', 'posted', 'photo', 'Rasim', 'Villa']
    ['Dhabi', 'International', 'Airport', '(AUH)', 'Dhabi']
    ['just', 'shrug', 'off!', 'Dubai', 'Mall', 'Burj', 'Khalifa']
    ['out!', 'Cowboy', 'steppin', 'Notorious', 'going', 'sleep!', 'Make', 'happen']
    ['Buona', 'notte', 'Viceroy', 'Hotel,']

Every []是该特定列中的一行，因此仅删除\x and remaining characters需要空的[]应该留在行中。保留该行很重要，因为该行的其他列填充了所需的信息。

为了编写正确的代码，我无法通过读取的输入，因为我无法在数据集中找到模式来编写正则表达式。

先谢谢您的帮助

那是你要的吗？

In [71]: df.nonhashtag.apply(' '.join).str.replace('[^A-Za-z\s]+', '') \
           .str.split(expand=False)
Out[71]:
0    [want, better, than, Dhabi, United, Arab, Emir...
1                  [Just, posted, photo, Rasim, Villa]
2          [Dhabi, International, Airport, AUH, Dhabi]
3       [just, shrug, off, Dubai, Mall, Burj, Khalifa]
4    [out, Cowboy, steppin, Notorious, going, sleep...
5                  [Buona, notte, Viceroy, Hotel, Yas]
Name: nonhashtag, dtype: object

'[^A-Za-z\s]+'- 是一个正则表达式，意思是获取所有字符except those:

ASCII 代码来自A to Z
from a to z
空格和制表符

So .str.replace('[^A-Za-z\s]+', '')将删除除属于英文字母、空格和制表符的字母之外的所有字符

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

pandas

DataFrame

datacleaning

从数据框中删除特殊字符和字母数字的简单方法的相关文章

按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
Mypy 无法从文字列表推断项目的类型

我有一个变量x和一个文字列表例如 0 1 2 我想转换x这些文字之一如果x在列表中我将其退回否则我返回一个后备值 from typing import Literal Set Foo Literal 0 1 2 foos Set F
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Series.sort() 和 Series.order() 有什么区别？

s pd Series nr randint 0 10 5 index nr randint 0 10 5 s Output 1 3 7 6 2 0 9 7 1 6 order 按值排序并返回一个新系列 s order Output 2 0
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
Arcpy 模数在 Pycharm 中不显示

如何将 Arcpy 集成到 Pycharm 中我尝试通过导入模块但它没有显示我确实知道该模块仅适用于 2 x python arcpy 在 PyPi Python 包索引上不可用因此无法通过 pip 安装要使用 arcpy 您需要
如何使用 Rrank() 函数创建新的ties.method？ [复制]

这个问题在这里已经有答案了我试图按人口和日期排序这个数据框所以我使用order and rank 功能 gt df lt data frame idgeoville c 5 8 4 3 4 5 8 8 date c rep 1950 4
python 中的 <> 运算符有什么作用？

我刚刚遇到这个here http www feedparser org feedparser py 总是这样使用 if string1 find string2 lt gt 1 pass 什么是 lt gt 运算符这样做为什么不使用通常的
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
运行 Python 单元测试，以便成功时不打印任何内容，失败时仅打印 AssertionError()

我有一个标准单元测试格式的测试模块 class my test unittest TestCase def test 1 self tests def test 2 self tests etc 我的公司有一个专有的测试工具它将作为命令行
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
根据其他单元格值更改多个单元格值

我想更改包含的单元格moving to movingToOpenor movingToClose基于下一个单元格中给出的状态有时循环会被中断并且不会从open to close or close to open 这是我当前的数据框 Dat
使用 for 循环创建一系列元组

我已经搜索过但找不到答案尽管我确信它已经存在了我对 python 很陌生但我以前用其他语言做过这种事情我正在以行形式读取数据文件我想将每行数据存储在它自己的元组中以便在 for 循环之外访问 tup i inLine wher
python中basestring和types.StringType之间的区别？

有什么区别 isinstance foo types StringType and isinstance foo basestring 对于Python2 basestring是两者的基类str and unicode while type
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
匹配没有周围字符列表的单词列表

我有这个正则表达式 one common word or another 除非这两个单词相邻否则它匹配得很好 One one s more word word common word or another word more anothe
XPath：通过当前节点属性选择当前和下一个节点的文本

首先这是从我之前的问题 https stackoverflow com questions 5202187 xpath select current and next nodes text by current node attribut
检测是否从psycopg2游标获取？

假设我执行以下命令 insert into hello username values me 我跑起来就像 cursor fetchall 我收到以下错误 psycopg2 ProgrammingError no results to fe
带 Flask 的 RPI dht22：无法将第 4 行设置为输入 - 等待 PulseIn 消息超时

我正在尝试制作一个 Raspberry Pi 3 REST API 使用 DHT22 提供温度和湿度整个代码 from flask import Flask jsonify request from sds011 import SDS01

随机推荐

如何将一个模板插入到另一个模板中？

我有一个非常基本的模板 basic template html 并且想要填充使用另一个部分模板格式化的数据 basic template html 可能包含使用部分模板格式化的一些内容我应该如何构建views py中的代码我这样做的原因
Carbon.php 第 425 行中的 Laravel InvalidArgumentException：使用 SQL 数据库跟踪数据

我正在更新我的laravel 5 2从 MYSQL 到 SQL 数据库的应用程序我一直面临着这个异常之后的碳日期格式问题 InvalidArgumentException in Carbon php line 425 Trailing d
如何从 Intellij IDEA 访问内存中的 h2 数据库

在 Spring Boot 项目中我尝试从 IDE 查看内存中的表如何从 Intellij IDEA 访问内存中的 h2 数据库这是我的一个片段应用程序 yml h2 datasource url jdbc h2 mem mydb u
使用 Mockito 检查多个参数的一致性

我正在使用 Mockito 来模拟一个类该类的方法如下所示 setFoo int offset float floats 我希望能够验证数组中的值 floats 等于在给定容差范围内预期值数组中的值问题是我想检查的内容floats从
如何对 Matlab 语言进行写保护？

Matlab 允许您覆盖内置函数而无需发出警告例如我重写了该函数max 有一个变量但 Matlab 没有提醒我这一点仅在稍后调用该函数时才会抛出错误并且不能帮助您查看实际问题 min 0 max 10 x linspace min
表示 DAG（有向无环图）

我需要将依赖项存储在 DAG 中我们正在非常细粒度地制定新的学校课程我们使用的是 Rails 3 注意事项宽大于深很大我估计每个节点有 5 10 个链接随着系统的增长这个值将会增加读多写少 most common are
如何在 XNA 中暂停重绘？

我制作了一个 XNA 图像查看器但它总是重新绘制场景即使它没有改变而且它让我的上网本烧得很厉害所以我希望它在没有任何变化时暂停绘制将帧速率降低到 1 是保持凉爽的一种方法但会导致输出滞后如何在没有输入的情况下防止重绘这个问题
如何更改 JFreeChart 的大小

我添加了一个JFreeChart to a JPanel 用一个BorderLayout 并且它是huge 我可以做些什么来让它变小吗 public void generateChart DefaultCategoryDataset dat
这个Handler类应该是静态的，否则可能会发生泄漏：AsyncQueryHandler

处理程序引用泄漏由于此处理程序被声明为内部类因此可能会阻止外部类被垃圾收集如果 Handler 在主线程以外的线程中使用 Looper 或 MessageQueue 则没有问题如果 Handler 使用主线程的 Looper 或 M
如何对具有多个值的多个列求和

我正在寻找以下问题的解决方案进入用户表并查找在网站上列出了项目的用户在这个用户表中没有关于拍卖的列相反它通过键连接到帐户表在帐户中此列称为用户从这些 ID 已列出拍卖物品的用户中我需要找到他们的帐户余额这也在账户表中
将 jdouble 转换为 c 类型的 double

我怎样才能转换jdoublejava类型变量为doublec 类型的变量你不必这样做它只是一个 typedef 如下所示 typedef double jdouble 所以一旦你有了一个就不需要转换jdouble你可以把它当作doub
是否使用drawRect（什么时候应该使用drawRect/Core Graphics vs 子视图/图像，为什么？）

为了澄清这个问题的目的我知道如何使用子视图和使用drawRect创建复杂的视图我试图完全理解何时以及为何使用其中一种而不是另一种我也明白提前优化那么多并在进行任何分析之前以更困难的方式做一些事情是没有意义的考虑到我对这两种方法都很满
为什么CSS3中有-moz-XXX和-webkit-XXX？

我在 CSS3 中最讨厌的一点是你总是应该使用两个属性来实现一种效果我觉得这样不专业加大CSS大小例如他们为什么不团结起来 webkit border radius and moz border radius in border
ValueTypes 如何从 Object (ReferenceType) 派生并且仍然是 ValueTypes？

C 不允许从类派生结构但所有 ValueType 都从 Object 派生这种区别是在哪里做出的呢 CLR 如何处理这个问题 C 不允许从类派生结构你的说法不正确因此你感到困惑 C does允许结构从类派生所有结构都派生自同一个类
VS 2015中的类库（包）在哪里？

我正在尝试将类库包添加到我的 ASP NET MVC 5 项目中但由于某种原因我找不到该选项我是否必须安装其他依赖项才能获得该选项它现在称为类库 NET Core
重命名文件源

我一直在从平面文件源开发 SSIS 包该文件每天都会出现文件名具有日期时间指示如下所示文件名 20190509042908 txt 我想知道如何才能度过约会部分我希望包动态读取文件但它应该在没有最后 6 位数字的情况下通过我只
使用 MinGW-w64 编译 32 位架构

我已经安装了 MinGW w64 来编译为 64 位但看来我必须安装两个单独版本的 MinGW w64 才能获得对 32 位的支持我尝试过使用批处理文件和 powershell 脚本等等但最终效果不是很好似乎有 multilib
Gradle 构建中 dexOptions 中 jumboMode 的用途是什么？

根据这个帖子 https stackoverflow com a 24224385 1176435它允许 dex 文件中包含更多数量的字符串但我不太明白它的含义以及对构建的影响 Jumbo 模式与可以引用的字符串数量有关一个 DEX 文
从 IndexedSeq[DataFrame] 转换为 DataFrame？

新手问题我尝试向现有 DataFrame 添加列我正在使用 Spark 1 4 1 import sqlContext implicits case class Test rule Int val test sc parallelize
从数据框中删除特殊字符和字母数字的简单方法

我有一个大型数据集其中有 x 行和 y 列其中一列为单词和一些不需要的数据不需要的数据没有特定的模式因此我发现很难将其从数据框中删除 nonhashtag want better than Dhabi United Arab Emi

从数据框中删除特殊字符和字母数字的简单方法

从数据框中删除特殊字符和字母数字的简单方法 的相关文章

随机推荐

热门标签

从数据框中删除特殊字符和字母数字的简单方法的相关文章