根据标点符号列表替换数据框中的标点符号[重复]

2024-06-19

使用 Canopy 和 Pandas，我有数据框 a ，其定义如下：

a=pd.read_csv('text.txt')

df=pd.DataFrame(a)

df.columns=["test"]

test.txt 是一个单列文件，其中包含包含文本、数字和标点符号的字符串列表。

假设 df 看起来像：

test

%hgh&12

abc123!!!

猪肉薯条

我希望我的结果是：

test

hgh12

abc123

猪肉薯条

迄今为止的努力：

from string import punctuation /-- import punctuation list from python itself

a=pd.read_csv('text.txt')

df=pd.DataFrame(a)

df.columns=["test"] /-- define the dataframe


for p in list(punctuation):

     ...:     df2=df.med.str.replace(p,'')

     ...:     df2=pd.DataFrame(df2);

     ...:     df2

上面的命令基本上只是返回相同的数据集。感谢任何线索。

编辑：我使用 Pandas 的原因是因为数据很大，大约有 1M 行，并且未来编码的使用将应用于最多 30M 行的列表。长话短说，我需要以非常有效的方式清理大数据集的数据。

Use replace使用正确的正则表达式会更容易：

In [41]:

import pandas as pd
pd.set_option('display.notebook_repr_html', False)
df = pd.DataFrame({'text':['test','%hgh&12','abc123!!!','porkyfries']})
df
Out[41]:
         text
0        test
1     %hgh&12
2   abc123!!!
3  porkyfries

[4 rows x 1 columns]

将正则表达式与模式一起使用，这意味着不是字母数字/空格

In [49]:

df['text'] = df['text'].str.replace('[^\w\s]','')
df
Out[49]:
         text
0        test
1       hgh12
2      abc123
3  porkyfries

[4 rows x 1 columns]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

largedata

根据标点符号列表替换数据框中的标点符号[重复] 的相关文章

pygame中物体的速度？

我正在编写一个简单的 pygame 程序仅包含在屏幕上移动一个框盒子移动得很快我想知道如何控制速度在我的代码中更新后的位置移动了 1 而不是更小因为如果数字不是整数就会使事情变得更加复杂 import os sys impor
在 Pycharm 中使用 scikit-learn 未解析的属性引用“predict()”

当使用 scikit learn 中的决策树分类器时 docs http scikit learn org stable modules tree html展示您将存储分类器的变量重新分配给其自身的输出调用fit method clf t
如何使用 pywin32 在 Python 中获取特定应用程序窗口的句柄？

我正在尝试修改一些在 Windows 10 中截取特定应用程序窗口屏幕截图的 Python 代码我正在尝试使用win32ui win32guipywin32 包中的模块用于此目的这是损坏的代码 def getWindow name Wi
使用python，自动确定用户当前时区的最准确方法是什么

我已经验证 dateutils tz tzlocal 在heroku上不起作用即使它起作用它不是只是从计算机的操作系统中获取tz 而不是用户吗如果没有存储用户时区有什么方法可以确定请求来自哪里我用的是烧瓶 Twitter 确实有一
输入到列表并找到同一输入python的最长条纹

我正在编写一个程序其中用户将值输入到列表中直到想要结束为止该程序将告诉用户他们输入的最长连续数字例如如果用户输入 7 7 7 6 6 4 end 则会得到输出您的最长连胜次数为 3 因为 7 已连续输入 3 次到目前为止我有
没有实例的 Django Formset

In this http docs djangoproject com en dev topics forms modelforms inline formsetsDjango Doc 解释了如何创建一个表单集该表单集允许您编辑属于特定作
使用索引作为循环变量连接多个数据帧

我通过 for 循环创建多个数据帧并将它们连接起来效果很好但我需要包含循环变量作为索引我找不到将循环变量设置为索引的方法 maindf pd DataFrame for i in 20170724 20170725 20170726
为什么 argparse 给我一个列表中的列表？

我刚刚注意到 argparse 中的一个行为让我困惑我猜我以前从未将它用于愚蠢的文件列表 import argparse parser argparse ArgumentParser parser add argument multi a
如何计算 pandas 系列中到前一个零的距离？

我有以下 pandas 系列以列表形式表示 7 2 0 3 4 2 5 0 3 4 我想定义一个新的系列返回到最后一个零的距离这意味着我想要以下输出 1 2 0 1 2 3 4 0 1 2 如何以最有效的方式在 pandas 中做到这
为什么 python 的 __init__ 函数没有 return 语句，即使它是一个函数

这可能是一个愚蠢的问题但我很想知道答案根据官方文件 init 不需要return语句有什么特殊原因会这样吗 gt gt gt class Complex def init self realpart imagpart self r r
与正在运行的进程通信

We have 基于Python的服务器 A 正在运行的命令行应用程序在同一台 Linux 机器上能够读取stdin 计算一些东西并将输出提供给stdout B 将输入从 A 发送到的最佳最优雅方式是什么 stdin B 的并等待
致命Python错误：init_import_size：无法在Anaconda Prompt中导入站点模块

当我启动 Anaconda Prompt 时收到以下错误消息致命 Python 错误 init import size 无法导入站点模块 Python运行时状态已初始化回溯最近一次调用最后一次文件 C Users blue App
python pandas 将两行或多行文本合并为一行

我有包含文本数据的数据框如下所示 name address number 1 Bob bob No 56 2 gmail com 3 Carly email protected cdn cgi l email protection No
TensorFlow 的 Print 或 K.print_tensor 不会在损失函数中打印中间张量

我为 Keras 模型编写了一个相当复杂的损失函数并且它不断返回nan训练时因此我需要在训练时打印中间张量我知道你不能在损失函数中执行 K eval 因为张量未初始化不过我都尝试过K print tensor and tf Pr
python 中是否可以有受保护的类变量或方法？ [复制]

这个问题在这里已经有答案了 python 中是否可以有受保护的类变量或方法我可以看一下这种用法的示例吗最简洁的答案是不有一些约定和良好的风格允许您指示某人不应修改这些变量或从类外部调用这些方法但没有办法严格执行这一点 Python
聚类算法采用哪种编程结构

我正在尝试实现以下分裂聚类算法下面是该算法的简短形式完整的描述可用here https dl dropboxusercontent com u 540963 diana pdf 从样本 x i 1 n 开始将其视为由 n 个数据点
numpy.genfromtxt 生成看起来像元组的数组，而不是二维数组 - 为什么？

我在跑genfromtxt像下面这样 date conv lambda x str x replace time conv lambda x str x a np genfromtxt input txt delimiter skip he
单元测试期间的 Python 日志捕获

我正在尝试捕获在 python 单元测试过程中创建的日志并在此处看到了代码 https stackoverflow com a 1049375 576333 https stackoverflow com a 1049375 576333
“from-import”是否执行整个模块？

好的所以我知道from import与完全相同import 但这显然不是因为命名空间的填充方式不同我的问题主要是因为我有一个utils我的应用程序中的每个其他模块都使用一个或两个函数的模块我正在努力合并标准库logging模块据
Django 类视图未返回 HttpResponse 对象。它返回 None 相反

urls py from housepost views import ListingPost url r house post ListingPost as view name post house views py from djang

随机推荐

获得一次性绑定以适用于 ng-if

这个问题已经被之前问过 https stackoverflow com questions 23969926 angular lazy one time binding for expressions 但我无法让该解决方案发挥作用所以我想
有没有办法在 html 图像标签中显示位图数据？ [复制]

这个问题在这里已经有答案了有没有办法在 HTML 元素中显示位图图像数据例如您有一个指向源文件的常规图像如下所示 img src myImage png width 100 height 100 有没有这样的事情 img width
删除 Laravel Mix 中的临时文件

我想在 laravel mix 构建期间或之后删除临时构建文件这是我目前拥有的一些代码但是del不工作 const mix require laravel mix const del require del compile sass i
JavaScript：预期的赋值或函数调用，却看到了一个表达式

我正在使用 JSHint 来确保我的 JavaScript 是严格的但我收到以下错误预期是赋值或函数调用但看到的是表达式关于以下代码 var str A B C D var data var strArr str split fo
在 ActionScript 中刷新数据网格时保持选择

我正在使用 flashbuilder 开发我的第一个 AIR 应用程序只是让您知道我已经绑定了一个mx DataGrid组件到一个DataProvider这是一个mx HTTPService获取包含项目的 xml 文件为了使数据保持最
NSCFData isRessized 崩溃？

我目前在控制台中收到此崩溃日志 2011 08 23 19 18 40 064 App 1697 707 NSCFData isResizable unrecognized selector sent to instance 0x11f1c
使用 Protobuf-net，我收到有关 List 未知线路类型的异常

我已经开始将 Unity iOS 游戏转换为使用 Protobuf net 保存状态看起来一切正常直到我将此实例变量添加到GameState ProtoMember 10 public List
如何创建增量加载网页

我正在编写一个处理大量数据的页面它会永远持续到我的结果页面加载几乎无限因为返回的数据太大了因此我需要实现一个增量加载页面例如 url 中的页面 http docs python org http docs python org
Symfony 2 使用 CSS 设置背景图片

I want to put a background image for a menu in symfony But I can t figure out how to do it I managed to style a lot of t
在VB6中等待进程退出后恢复窗口

我在win7 64位操作系统中使用VB6 此应用程序是从 xp 迁移的 Me WindowState vbMinimized WaitForProcess Shell launchapp vbNormalFocus Me WindowSta
当每个记录都是一个段落并且某些记录有 4 个字段而其他记录有 6 个字段时，如何将文本文件读入 R

如何读取文本文件其中每条记录都是一个段落每个换行符表示单独的字段复杂的是有些记录有 4 行有些记录有 6 行当字段数量的差异为 1 时 DWin 解决了我的问题但当字段数量差异为 2 时一切都崩溃了你可以有一个在这里看看他
是否可以为 azure blob 存储中的给定目录生成具有写入权限的 SAS（共享访问签名）

我们的 blob 存储帐户结构容器名称 simple 在这个容器内我们有 blob aa one zip aa two zip bb ss zip bb dd zip 是否可以生成对aa 目录有写权限但对bb 目录没有访问权限的SA
在 Intellij IDEA 12 中创建 Maven 项目，但始终位于“加载原型列表”页面

我在IntelliJ IDEA 12中创建了一个Maven项目完成项目名称并按下一步现在它显示了GroupId ArtifactId和Version 但 Maven 原型并没有出现它说正在加载原型列表我可以按完成但创建的项目
无法从 rollupOptions 自动确定入口点

我正在尝试对使用 vite 和 vue3 创建的前端应用程序进行 dockerize 它不作为容器工作这是错误响应无法从 rollupOptions 或 html 文件自动确定入口点并且没有显式的 OptimizeDeps inclu
Google 再营销标签 - iframe 高度问题

我注意到 Google 的再营销代码会在我的页面底部插入一个 iframe 问题是 iframe 弄乱了我的布局它的高度为 13 像素并且在底部留下了空白的白色垂直空间我尝试用 css 隐藏它但它在 IE9 中仍然可见 iframe
同一索引操作上的不同估计行？

简介和背景我必须优化一个简单的查询下面的示例重写几次后我认识到同一个索引操作的估计行数会根据查询的编写方式而有所不同最初该查询执行了聚集索引扫描因为生产中的表包含二进制列该表相当大大约 100 GB 并且全表扫描执行起来需
无法在 phantomjs 中延迟加载

我正在尝试从链接中抓取一些信息 http www myntra com women sarees nav id 606 http www myntra com women sarees nav id 606 涉及延迟加载下面是我的代码片段
点击当前选项卡刷新页面时的 Xamarin.Forms TabbedPage 事件

我正在使用 Xamarin Forms 构建 iOS Android 应用程序并有一个 TabbedPage 如果用户已经在选项卡 2 上并且单击了选项卡 2 并且我希望刷新选项卡 2 或者运行我自己的函数以便我可以自己刷新它有没有
在种子项目上构建时如何组织 git 存储库

我正在基于从 github 克隆的种子项目 MEAN io 构建一个网站如何将这些文件与我自己的文件分开由于该种子提供了广泛的文件框架因此我自己的文件分布在整个项目中我希望能够从种子中提取更新但不能将其与我添加的文件混合我知道我
根据标点符号列表替换数据框中的标点符号[重复]

这个问题在这里已经有答案了使用 Canopy 和 Pandas 我有数据框 a 其定义如下 a pd read csv text txt df pd DataFrame a df columns test test txt 是一个单列文件

根据标点符号列表替换数据框中的标点符号[重复]

根据标点符号列表替换数据框中的标点符号[重复] 的相关文章

随机推荐

热门标签