附加数据框中所有行中的单词或字符列表

2024-03-18

有没有一种方法可以在不使用“for”循环的情况下附加数据框中不同行中存在的列表？

我可以通过使用“for”循环来实现这一点，但我想以更有效的方式实现这一点，可能不使用“for”循环

d = {'col1': [1,2,3,4,5], 'col2': [['a'],['a','b','c'],['d'],['e'],['a','e','d']]}
df = pd.DataFrame(data=d)
word_list = []
for i in df['col2']:
  word_list = word_list + i

我想要得到这样的输出列表： ['a', 'a', 'b', 'c', 'd', 'e', 'a', 'e', 'd']

一种方法是使用panda's sum功能：

In [1]: import pandas as pd
   ...: d = {'col1': [1,2,3,4,5], 'col2': [['a'],['a','b','c'],['d'],['e'],['a','e','d']]}
   ...: df = pd.DataFrame(data=d)

In [2]: df['col2'].sum()
Out[2]: ['a', 'a', 'b', 'c', 'd', 'e', 'a', 'e', 'd']

然而，itertools.chain.from_iterable更快：

In [3]: import itertools
   ...: list(itertools.chain.from_iterable(df['col2']))
Out[3]: ['a', 'a', 'b', 'c', 'd', 'e', 'a', 'e', 'd']

In [4]: %timeit df['col2'].sum()
92.7 µs ± 1.03 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)

In [5]: %timeit list(itertools.chain.from_iterable(df['col2']))
20.4 µs ± 2.62 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)

在我的测试中，itertools.chain.from_iterable对于较大的数据帧（约 1000 行），速度可提高 30 倍。另一种选择是

import functools
import operator

functools.reduce(operator.iadd, df['col2'], [])

这几乎与itertools.chain.from_iterable。我为所有发布的答案制作了一个图表：

（x轴是数据帧的长度）

正如你所看到的，一切都使用sum or functools.reduce with operators.add无法使用，与np.concat稍微好一点。不过，目前为止的三位获胜者是itertools.chain, itertool.chain.from_iterable, and functools.reduce with operators.iadd。他们几乎不需要时间。这是用于生成该图的代码：

import functools
import itertools
import operator
import random
import string

import numpy as np
import pandas as pd
import perfplot # see https://github.com/nschloe/perfplot for this awesome library


def gen_data(n):
    return pd.DataFrame(data={0: [
        [random.choice(string.ascii_lowercase) for _ in range(random.randint(10, 20))]
        for _ in range(n)
    ]})

def pd_sum(df):
    return df[0].sum()

def np_sum(df):
    return np.sum(df[0].values)

def np_concat(df):
    return np.concatenate(df[0]).tolist()

def functools_reduce_add(df):
    return functools.reduce(operator.add, df[0].values)

def functools_reduce_iadd(df):
    return functools.reduce(operator.iadd, df[0], [])

def itertools_chain(df):
    return list(itertools.chain(*(df[0])))

def itertools_chain_from_iterable(df):
    return list(itertools.chain.from_iterable(df[0]))

perfplot.show(
    setup=gen_data,
    kernels=[
        pd_sum,
        np_sum,
        np_concat,
        functools_reduce_add,
        functools_reduce_iadd,
        itertools_chain,
        itertools_chain_from_iterable
    ],
    n_range=[10, 50, 100, 500, 1000, 1500, 2000, 2500, 3000, 4000, 5000],
    equality_check=None
)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

附加数据框中所有行中的单词或字符列表的相关文章

如何更改充当按钮的范围的文本

我正在为自定义 Web 应用程序编写自动化测试我遇到了无法更改跨度文本的问题我尝试过使用 driver execute script 但没有运气如果我更好地了解 javascript 这确实会有帮助据我所知您无法单击跨度并且列表
使用正则表达式解析 Snort 警报文件

我正在尝试使用 Python 中的正则表达式从 snort 警报文件中解析出源目标 IP 和端口和时间戳示例如下 03 09 14 10 43 323717 1 2008015 9 ET MALWARE User Agent Win9
Python：当前目录是否自动包含在路径中？

Python 3 4 通过阅读其他一些 SO 问题似乎如果moduleName py文件位于当前目录之外如果要导入它必须将其添加到路径中sys path insert 0 path to application app folder
Python：随时接受用户输入

我正在创建一个可以做很多事情的单元其中之一是计算机器的周期虽然我将把它转移到梯形逻辑 CoDeSys 但我首先将我的想法放入 Python 中我将进行计数只需一个简单的操作 counter 1 print counter 跟踪我处于
行为：如何从另一个文件导入步骤？

我刚刚开始使用behave http pythonhosted org behave 一个Pythonic BDD框架使用小黄瓜语法 http docs behat org guides 1 gherkin html 行为需要一个特征例
使用 genfromtxt 导入 numpy 中缺失值的 csv 数据

我有一个 csv 文件看起来像这样实际文件有更多的列和行 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 假设文件的名称是info csv如果我尝试使用导入它 data numpy genfromtxt i
在 Windows 上使用 IPython 笔记本时出现 500 服务器错误

我刚刚在 Windows 7 Professional 64 位上全新安装了 IPython 笔记本我采取的步骤是从以下位置安装 Python 3 4 1http python org http python org gt pip in
ValueError：无法插入 ID，已存在

我有这个数据 ID TIME 1 2 1 4 1 2 2 3 我想按以下方式对数据进行分组ID并计算每组的平均时间和规模 ID MEAN TIME COUNT 1 2 67 3 2 3 00 1 如果我运行此代码则会收到错误 ValueE
python中的sys.stdin.fileno()是什么

如果这是非常基本的或之前已经问过的我很抱歉我用谷歌搜索但找不到简单且令人满意的解释我想知道什么sys stdin fileno is 我在代码中看到了它但不明白它的作用这是实际的代码块 fileno sys stdin filen
Python 矩阵每一行的总和

lista 1 2 3 4 5 6 7 8 9 print lista def filas lista res for elemento in lista x sum lista elemento res append x print re
Plotly：如何避免巨大的 html 文件大小

我有一个 3D 装箱模型它使用绘图来绘制输出图我注意到绘制了 600 个项目生成 html 文件需要很长时间文件大小为 89M 这太疯狂了我怀疑可能存在一些巨大的重复或者是由单个项目的 add trace 方法引起的阴谋为
Python模块单元测试的最佳文件结构组织？

遗憾的是我发现有太多方法可以在 Python 中保存单元测试而且它们通常没有很好的文档记录我正在寻找一种终极结构它可以满足以下大部分要求 be discoverable by test frameworks including
CSV 在列中查找最大值并附加新数据

大约两个小时前我问了一个关于从网站读取和写入数据的问题从那时起我花了最后两个小时试图找到一种方法来从输出的 A 列读取最大日期值将该值与刷新的网站数据进行比较并将任何新数据附加到 csv 文件而不覆盖旧的或创建重复项目前 100
如何在单独的文件中使用 FastAPI Depends 作为端点/路由？

我在单独的文件中定义了一个 Websocket 端点例如 from starlette endpoints import WebSocketEndpoint from connection service import Connectio
从 dask 数据框中的日期时间序列获取年份和星期？

如果我有一个 Pandas 数据框和一个日期时间类型的列我可以按如下方式获取年份 df year df date dt year 对于 dask 数据框这是行不通的如果我先计算像这样 df year df date compute
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
使用 Keras 和 fit_generator 绘制 TensorBoard 分布和直方图

我正在使用 Keras 使用 fit generator 函数训练 CNN 这似乎是一个已知问题 https github com fchollet keras issues 3358TensorBoard 在此设置中不显示直方图和分布有
从时间序列生成日期特征

我有一个数据框其中包含如下列 Date temp data holiday day 01 01 2000 10000 0 1 02 01 2000 0 1 2 03 01 2000 2000 0 3 30 01 2000 200 0 30
将此 MATLAB 代码转换为 Python 时我做错了什么？

我正在努力将生成波形的 MATLAB 代码转换为 Python 就上下文而言这是原子力显微镜带激发响应的模拟与代码错误无关在 MATLAB 中从 r vec 生成的图形与我在 Python 中生成的图形不同我是否正确地将 MATLA
使用 numpy 加速 for 循环

下一个 for 循环如何使用 numpy 获得加速我想这里可以使用一些奇特的索引技巧但我不知道是哪一个这里可以使用 einsum 吗 a 0 for i in range len b a numpy mean C d e f b i

随机推荐

python中全局变量的频率？

Stack Overflow 有很多关于 python 中的全局变量的问题它似乎给来自其他语言的人们带来了一些困惑范围界定规则并不完全按照许多来自其他背景的人所期望的方式发挥作用同时代码不应该在类级别上组织而是在模块级别上组织因
在 Visual Studio 中构建完成后压缩文件

我有一个要求在构建解决方案文件后需要压缩一些文件一旦我在发布调试模式下构建项目这可以自动实现吗仅在进行 Release 构建时使用 powershell if ConfigurationName Release powershel
Keras 不在具有 python 3.5 和 Tensorflow 1.4 的 Pycharm 上使用 GPU [重复]

这个问题在这里已经有答案了 from tensorflow python client import device lib def get available gpus local device protos device lib list
使用 Retrofit observable 处理网络错误

当将 Observables 与 Retrofit 结合使用时如何处理网络故障鉴于此代码 Observable
获取字距调整信息

如何获取 GDI 的字距调整信息以供使用获取字距对 http msdn microsoft com en us library dd144895 28v vs 85 29 aspx The 文档 http msdn microsoft co
在 Python Pandas 中查找每日最大值及其时间戳 (yyyy:mm:dd hh:mm:ss)

事实上我有两年来每天每分钟测量的 150 MB 数据我在这里给出了示例数据我想创建一个新的数据框其中包含每天的最大值及其时间戳我的样本数据是 DateTime Power 01 Aug 16 10 43 00 000 229 96
使用 Devart dotConnect 提供程序进行代码优先上下文初始化期间，PostgreSQL 日志中出现错误“列 c.CreatedOn 不存在...”

每当我的上下文初始化时我都会在 PostgresSQL 日志中收到以下错误 2014 06 03 09 51 25 PDT ERROR column c CreatedOn does not exist at character 10 2
hql 加入@CollectionTable

我有一个域名Service有收藏tags如下 Entity public class Service extends AbstractEntity
在 Visual Studio 中刷新自动完成 (IntelliSense) 数据库

我注意到自动完成功能视觉工作室 http en wikipedia org wiki Microsoft Visual Studio一旦我的项目达到一定规模在我的例子中约为 4 100 行代码就不再正常工作我还注意到一旦第三方库的数
C套接字从accept返回的文件描述符中获取IP地址

我知道这个问题看起来很典型并多次回答但我认为如果您阅读详细信息它并不那么常见我没有找到重点是我正在开发一个c 中的 unix 服务打开套接字并等待连接当我有连接时我创建一个新流程来处理它所以可以有同时打开多个连接 int new
如何在 Spring Data 中使用 OrderBy 和 findAll

我正在使用 spring 数据我的 DAO 看起来像 public interface StudentDAO extends JpaRepository
Python 中字典的分组依据和聚合列表

我有一个需要在 Python 中聚合的字典列表 data startDate 123 endDate 456 campaignName abc campaignCfid 789 budgetImpressions 10 startDate
如何解决 java.lang.IllegalStateException: 将图像上传到 Firebase 存储时出现任务尚未完成错误？

将 firebase storage 更新到最新版本 16 0 1 后我开始出现此错误我没有更改代码中的任何内容只是在升级 gradle 构建依赖项后出现此错误询问 Firebase uploadTask addOnComplete
按钮中的文本和图标垂直对齐

我无法将字体精美的图标与 Bootstrap 框架下按钮内的文本垂直对齐我尝试了很多方法包括设置行高但没有任何效果
模板参数、#define 和代码重复

我有很多这样的代码 define WITH FEATURE X struct A ifdef WITH FEATURE X declare some variables Y endif void f void A f do somethin
Perlin Noise 2D：将静态变成云

我正试图将注意力集中在柏林噪音上本文 https web archive org web 20160529013225 http freespace virgin net hugo elias models m perlin htm有所帮
每次添加消息时AWS死信队列Cloudwatch警报

我想触发一个AWS cloudwatch每次有消息添加到我的 DLQ 时都会发出警报我正在使用云形成来部署我的 sqs dlq 资源但我不知道如何配置此类警报配置警报时需要使用 NumberOfMessagesSent 请参阅Clou
以 Grid 作为模板的 ItemsControl ：向 Grid 添加控件

Windows Phone 7 1 项目 XAML 我有一个以网格为模板的项目控件绑定到数据元素的集合一切正常但是我必须向网格添加一张额外的图像该图像不会绑定到集合某种标题图像我有这个代码
每个构建类型的 resConfigs

我怎样才能覆盖resConfigs每个构建类型我读到口味允许这样做但我不使用它们我只想为我的调试构建另一组受支持的语言这是我尝试过的 buildTypes debug resConfigs de en allow also germ
附加数据框中所有行中的单词或字符列表

有没有一种方法可以在不使用 for 循环的情况下附加数据框中不同行中存在的列表我可以通过使用 for 循环来实现这一点但我想以更有效的方式实现这一点可能不使用 for 循环 d col1 1 2 3 4 5 col2 a a b c

附加数据框中所有行中的单词或字符列表

附加数据框中所有行中的单词或字符列表 的相关文章

随机推荐

热门标签

附加数据框中所有行中的单词或字符列表的相关文章