将 2 列与 pandas 中的列表值连接起来（避免重复和 NaN）

2024-04-08

我的 pandas 数据框如下，

loc_1                               loc_2                             

[mumbai, gujarat, sri lanka]        [chennai, UP]
[Goa, telangana]                    [Kashmir, Goa, Rajkot]
NaN                                 [Bihar, Orissa]

我想创建一个新列，它是上述两列的组合，我确实搜索了其他类似的问题，但我面临的问题是，

当我做，

data['locations'] = data['loc_1'] + data['loc_2']

Output
--------
loc_1                               loc_2                       locations

[mumbai, gujarat, sri lanka]        [chennai, UP]                [mumbai, gujarat, sri lanka,chennai, UP]   
[Goa, telangana]                    [Kashmir, Goa, Rajkot]       [Goa, telangana,Kashmir, Goa, Rajkot]
NaN                                 [Bihar, Orissa]              NaN

Issue

正如您在上面看到的，存在重复值以及形成的 NaN 值。如何避免它们？

Remember

原始数据集包含列表、str 和 NaN 格式的值。

Dataset:


loc = pd.DataFrame({
'loc_1': [['mumbai', 'gujarat', 'sri lanka'],['Goa', 'telangana'],np.nan],
'loc_2':[['chennai','UP'],['kashmir','goa','rajkot'],['bihar','orissa']],
'loc_3':['Chennai','Bangalore','Vizag']

})

首先用替换连接值NaNs（浮动）到空列表：

data['locations'] = data['loc_1'].apply(lambda x: [] if isinstance(x, float) else x) + data['loc_2']

然后通过转换为字典来删除与原始顺序相同的重复项dict.fromkeys:

data['locations'] = data['locations'].apply(lambda x: list(dict.fromkeys(x)))

如果顺序不重要，您可以使用一组：

data['locations'] = data['locations'].apply(lambda x: list(set(x)))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

list

DataFrame

将 2 列与 pandas 中的列表值连接起来（避免重复和 NaN）的相关文章

如何使用 opencv.omnidir 模块对鱼眼图像进行去扭曲

我正在尝试使用全向模块 http docs opencv org trunk db dd2 namespacecv 1 1omnidir html用于对鱼眼图像进行扭曲处理Python 我正在尝试适应这一点C 教程 http docs op
处理 Python 行为测试框架中的异常

我一直在考虑从鼻子转向行为测试摩卡柴等已经宠坏了我到目前为止一切都很好但除了以下之外我似乎无法找出任何测试异常的方法 then It throws a KeyError exception def step impl contex
需要在python中找到print或printf的源代码[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我正在做一些我不能完全谈论的事情我
删除flask中的一对一关系

我目前正在使用 Flask 开发一个应用程序并且在删除一对一关系中的项目时遇到了一个大问题我的模型中有以下结构 class User db Model tablename user user id db Column db String
您可以格式化 pandas 整数以进行显示，例如浮点数的“pd.options.display.float_format”？

我见过this https stackoverflow com questions 18404946 py pandas formatdataframe and this https stackoverflow com questions
Python beautifulsoup 仅限 1 级文本

我看过其他 beautifulsoup 得到相同级别类型的问题看来我的有点不同这是网站我正试图拿到右边那张桌子请注意表的第一行如何展开为该数据的详细细分我不想要那个数据我只想要最顶层的数据您还可以看到其他行也可以展开但在本例
从Python中的字典列表中查找特定值

我的字典列表中有以下数据 data I versicolor 0 Sepal Length 7 9 I setosa 0 I virginica 1 I versicolor 0 I setosa 1 I virginica 0 Sepal
如何在不丢失注释和格式的情况下更新 YAML 文件 / Python 中的 YAML 自动重构

我想在 Python 中更新 YAML 文件值而不丢失 Python 中的格式和注释例如我想改造 YAML 文件 value 456 nice value to value 6 nice value 界面类似于 y yaml load
“隐藏”内置类对象、函数、代码等的名称和性质[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我很好奇模块中存在的类builtins无法直接访问的例如 type lambda 0 name function of module
在Python中检索PostgreSQL数据库的新记录

在数据库表中第二列和第三列有数字将会不断添加新行每次每当数据库表中添加新行时 python 都需要不断检查它们当 sql 表中收到的新行数低于 105 时 python 应打印一条通知消息警告数量已降至 105 以下另一方面
Docker 中的 Python 日志记录

我正在 Ubuntu Web 服务器上的 Docker 容器中测试运行 python 脚本我正在尝试查找由 Python Logger 模块生成的日志文件下面是我的Python脚本 import time import logging
Jupyter Notebook 找不到 Python 模块

不知道发生了什么但每当我使用 ipython 氢原子或 jupyter 笔记本时都找不到任何已安装的模块我知道我安装了 pandas 但笔记本说找不到我应该补充一点当我正常运行脚本时 python script py 它确实导入
不同编程语言中的浮点数学

我知道浮点数学充其量可能是丑陋的但我想知道是否有人可以解释以下怪癖在大多数编程语言中我测试了 0 4 到 0 2 的加法会产生轻微的错误而 0 4 0 1 0 1 则不会产生错误两者计算不平等的原因是什么在各自的编程语言中可以采
根据列 value_counts 过滤数据框（pandas）

我是第一次尝试熊猫我有一个包含两列的数据框 user id and string 每个 user id 可能有多个字符串因此会多次出现在数据帧中我想从中导出另一个数据框一个只有那些user ids列出至少有 2 个或更多string
在本地网络上运行 Bokeh 服务器

我有一个简单的 Bokeh 应用程序名为app py如下 contents of app py from bokeh client import push session from bokeh embed import server do
将 Python 中的日期与日期时间进行比较

所以我有一个日期列表 datetime date 2013 7 9 datetime date 2013 7 12 datetime date 2013 7 15 datetime date 2013 7 18 datetime date
模拟pytest中的异常终止

我的多线程应用程序遇到了一个错误主线程的任何异常终止例如未捕获的异常或某些信号都会导致其他线程之一死锁并阻止进程干净退出我解决了这个问题但我想添加一个测试来防止回归但是我不知道如何在 pytest 中模拟异常终止如果我只
如何应用一个函数 n 次？ [关闭]

Closed 这个问题需要细节或清晰度 help closed questions 目前不接受答案假设我有一个函数它接受一个参数并返回相同类型的结果 def increment x return x 1 如何制作高阶函数repeat可以
如何计算Python中字典中最常见的前10个值

我对 python 和一般编程都很陌生所以请友善我正在尝试分析包含音乐信息的 csv 文件并返回最常听的前 n 个乐队从下面的代码中每听一首歌曲都是一个列表中的字典条目格式如下 album Exile on Main Street
使用随机放置的 NaN 创建示例 numpy 数组

出于测试目的我想创建一个M by Nnumpy 数组与c随机放置的 NaN import numpy as np M 10 N 5 c 15 A np random randn M N A mask np nan 我在创建时遇到问题mas

随机推荐

重命名 R 中因子的标签

我有按年龄组组织的男性和女性人口的人口普查数据 library tidyverse url lt https www2 census gov programs surveys popest datasets 2010 2018 counti
自定义号码选择器？

有没有一种简单的方法可以为Windows Phone 7制作一个类似于timepicker控件的数字选择器我想要自定义范围 0 99 0 59 0 9 Google bing 和 msdn 似乎对这个主题的信息非常模糊我发现一篇文章准确
检查模型是否存在多对多关系的最佳方法

我有一些数据被发布到服务器并正在检索Player基于该数据 id 我正在使用以下代码 player Player findOrFail player data id 但是我想检查一下Player属于特定的Team a belongsToM
如何修复解决 Homebrew doctor 警告的路径

又一个新手提问我一直在努力为 Python 项目安装 matplotlib 因此阅读周围建议的 Homebrew 是包管理和依赖项的可靠解决方案但是当我运行 Homebrew 诊断时我收到以下错误 brew doctor Warni
StreamReader 到文件？

我有一个包含在 System IO StreamReader 中的输入流我希望将流的内容写入文件即 StreamWriter 输入流的长度未知长度可能是几个字节也可能是千兆字节如何做到这一点最简单且不占用太多内存像这样的事情 p
状态未立即更新时的 ReactJS 表单验证

我正在尝试在注册表单上使用 ReactJS 创建客户端验证我在用http validatejs org http validatejs org 用于验证的库以及https github com jhudson8 react semanti
使用第一行作为列名？熊猫 read_html

我有这个简单的一行脚本 from pandas import read html print read html http money cnn com data hotstocks flavor bs4 哪个有效很好但是列名丢失了它们
如何让 UIDocumentInteractionController 将日历显示为打开 .ics 文件的选项？

我正在我的应用程序中使用的 Web 视图中拦截一种 URL 以便下载它链接到的文件而不是仅仅尝试在 Web 视图中打开它该链接指向 ics 文件因此我将该文件下载到临时目录中然后在 UIDocumentInteractionCon
如何获取给定表的索引列列表

给定一个 SQLite 数据库我需要获取给定表中哪些列被索引的列表以及排序顺序我需要从代码 C 尽管这不重要执行此操作所以我真正需要的是一条 SQL 语句如果存在它可以执行此操作我知道我可以这样做 SELECT sql FRO
如何将 SQL Server 时间戳列转换为日期时间格式

当 SQL Server 返回时间戳时 Nov 14 2011 03 12 12 947PM 是否有一些简单的方法可以将字符串转换为日期格式例如 Y m d H i s 到目前为止我使用 date Y m d H i s strtotim
Android TaskStackBuilder 丑陋的过渡

TaskStackBuilder 到底出了什么问题它在开始新活动时使用了这种丑陋的转换 TaskStackBuilder taskStackBuilder TaskStackBuilder create this addParentSta
如何在 ngx bootstrap datepicker 中更改消息“无效日期”而不位于节点模块中

我更改了日期选择器的语言但显示的消息仍然是英语我知道它在 ngx bootstrap chronos locale locale defaults ts 里面它带来了以下信息 export declare const defaultI
如何在 Heroku 上托管 cython Web 应用程序？

目前我正在使用 Cython 并试图弄清楚如何在 heroku 上托管 Cython Flask 应用程序例如假设我的项目如下所示在 cython 编译之后 cythonheroku requirements txt run py
在控制台应用程序下找不到 System.drawing 命名空间

我选择控制台应用程序作为我的 C 项目但似乎在 Windows Form 项目下工作的导入在这里似乎不起作用它说绘图命名空间不存在 using System Drawing using System Drawing Imaging 我的
Python正则表达式分割不带空字符串

我有以下表现出这种模式的文件名 000014 L 20111007T084734 20111008T023142 txt 000014 U 20111007T084734 20111008T023142 txt 我想提取第二个下划线之后的中
按子数组计数降序对多维数组进行排序并保留第一级键

我有一个数组例如 array DEF gt type gt 1 id gt 1212 name gt Jane Doe current gt 1 type gt 1 id gt 3123121 name gt Door current g
警报管理器：缓存清理器停止应用程序

我正在制作一个简单的闹钟应用程序我想在给定时间过去后显示一个活动这是我正在尝试的代码 public void onReceive Context c Intent i Log v XXXX S Toast makeText c S mi
角度材质多选

我正在寻求一些有关使用 Angular Material 7 多重选择的建议该文档对我想做的事情没有多大帮助关于我正在尝试做的事情的一些背景因此我们正在创建一个记录对象作为其中的一部分我们需要知道哪些计划资助了他们 Progra
iframe 内容未在 iOs5 iPad/iPhone 中的滚动下呈现

我正在开发 iPad html5 网页需要显示来自其他来源不同域的页面我正在将这些页面加载到iframe 然后滚动iframe使用iOs5新的滚动能力如下面的代码所示 div style height 1185px width 1
将 2 列与 pandas 中的列表值连接起来（避免重复和 NaN）

我的 pandas 数据框如下 loc 1 loc 2 mumbai gujarat sri lanka chennai UP Goa telangana Kashmir Goa Rajkot NaN Bihar Orissa 我想创建一个