Pandas 将列添加到非引用数据框中

2024-05-11

这件事让我心潮澎湃好几个小时了。也许我遗漏了一些神秘的“陷阱”，但它一定是非常违反直觉的。

“Trial_unq”是一个两列数据帧，“Trial_unq2”是一个相同的副本，for 循环遍历“unique_in”中的所有字符串。如果“unique_in”在 Trial_unq 文本中出现少于 250 次，则将布尔列插入到 Trial_unq 末尾。如果unqiue_in在Trial_unq的文本中出现超过10000次，则将布尔列n插入到Trial_unq2的末尾。

trial_unq2 = trial_unq

for i in range(len(unique_in)):#for each individual word
    unq_count = trial_unq.brief_title.str.contains(unique_in[i]).sum()#count trial occurances
    print(unique_in[i], ' ', unq_count)
    if unq_count < 280 and unq_count > 0:
        colname = unique_in[i]
        colpos = len(trial_unq.columns)
        boolcol = trial_unq.brief_title.str.contains(unique_in[i])
        trial_unq.insert(colpos, colname, boolcol) 
    if unq_count > 10000:
        colname2 = unique_in[i]
        colpos2 = len(trial_unq2.columns)
        boolcol2 = trial_unq2.brief_title.str.contains(unique_in[i])
        trial_unq2.insert(colpos2, colname2, boolcol2) 

print(trial_unq.columns)
print(trial_unq2.columns)

Output

['depressive', 'disorder', 'depressive disorder', 'therapy']
depressive   257
disorder   2190
depressive disorder   167
therapy   12236
Index(['NCT', 'brief_title', 'depressive', 'depressive disorder', 'therapy'], dtype='object')
Index(['NCT', 'brief_title', 'depressive', 'depressive disorder', 'therapy'], dtype='object')

从输出中可以清楚地看出，小计数 Trial_unq 数据帧和较大计数 Trial_unq2 数据帧都添加了所有三列。

在Python中，多个名称可以引用同一个对象，例如

l1 = [1, 2, 3]
l2 = l1  # now both, l1 and l2 refer to the same object!
l2[1] = 100

现在两者，l1 and l2看起来像这样：

[1, 100, 3]

您的两个数据框也会发生同样的情况。

在这种情况下，您可以简单地使用.copy()

l3 = l1.copy()
l3[1] = 0

l1
[1, 100, 3]

l3
[1, 0, 3]

因此，要解决您的问题，您需要做的是：

trial_unq2 = trial_unq.copy()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

Pandas 将列添加到非引用数据框中的相关文章

使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
将非常大的Python列表输出保存到mysql表中

我想将 python 生成的列表的输出保存在 mysql 数据库的表中该表如下所示 mysql 中的 myapc8 表 https i stack imgur com 4B4Hz png这是Python代码在此输入图像描述 https
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
多处理中的动态池大小？

有没有办法动态调整multiprocessing Pool尺寸我正在编写一个简单的服务器进程它会产生工作人员来处理新任务使用multiprocessing Process对于这种情况可能更适合因为工作人员的数量不应该是固定的但我需
按边距（“全部”）值列对 Pandas 数据透视表进行排序

我试图根据 pandas 数据透视表中的行总和对最后一列边距 aggrfunc 进行降序排序我知道我在这里错过了一些简单的东西但我无法弄清楚数据框数据透视表 WIDGETS DATE 2 1 16 2 2 16 2 3 16 Al
在Python中从大文件中搜索单词列表

我是新蟒蛇我有一个单词列表和一个非常大的文件我想删除文件中包含单词列表中的单词的行单词列表按排序给出并且可以在初始化期间输入我正在努力寻找解决这个问题的最佳方法我现在正在进行线性搜索这花费了太多时间有什么建议么您可以使用i
使用 Django 将文件异步上传到 Amazon S3

我使用此文件存储引擎在上传文件时将文件存储到 Amazon S3 http code welldev org django storages wiki Home http code welldev org django storages w
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
在Python上获取字典的前x个元素

我是Python的新手所以我尝试用Python获取字典的前50个元素我有一本字典它按值降序排列 k 0 l 0 for k in len dict d l 1 if l lt 51 print dict 举个小例子 dict d m
AttributeError：“模块”对象没有属性[重复]

这个问题在这里已经有答案了我有两个 python 模块 a py import b def hello print hello print a py print hello print b hi b py import a def hi
Paste.httpserver 并通过 HTTP/1.1 Keep-alive 减慢速度；使用 httperf 和 ab 进行测试

我有一个基于paste httpserver 的Web 服务器作为HTTP 和WSGI 之间的适配器当我使用 httperf 进行性能测量时如果每次使用 num conn 启动一个新请求我每秒可以执行超过 1 000 个请求如果我使
Plotly：如何检查基本图形结构（版本 4）

对于旧版本的plotly 例如在 Jupyterlab 中您可以简单地运行figure像这样检查你的图形的基础知识 Ouput data marker color red size 10 symbol 104 mode markers l
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
pandas 相当于 np.where

np where具有向量化 if else 的语义类似于 Apache Spark 的when otherwise数据帧方法我知道我可以使用np where on pandas Series but pandas通常定义自己的 API
Airflow 1.9 - 无法将日志写入 s3

我在 aws 的 kubernetes 中运行气流 1 9 我希望将日志发送到 s3 因为气流容器本身的寿命并不长我已经阅读了描述该过程的各种线程和文档但我仍然无法让它工作首先是一个测试向我证明 s3 配置和权限是有效的这是在我们
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
无法通过 Python 子进程进行 SSH

我需要通过堡垒 ssh 进入机器因此该命令相当长 ssh i
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
用于插入或替换 URL 参数的 Django 模板标签

有人知道 Django 模板标签可以获取当前路径和查询字符串并插入或替换查询字符串值吗例如向 some custom path q how now brown cow page 3 filter person 发出请求电话 urlpar

随机推荐

我想要 TS 中完全不可变的对象

我有一些大物体比如 const a b 33 c 78 99 d e f g true h boom selecta well even deeper than this 还有我想要TSnot让我做 a d e f h boom resp
如何用 unicode 图像替换字符？

我怎样才能更换一个来自数据库到碧玉字段的文本中的字符带有图像目标如下图所示就像是 F KN Zusatzinfo DV Einleitungstext replaceAll x254 哪里的x254是红色方块的ascii 代码但上
程序集比较标志理解

我正在努力理解汇编程序中的以下代码片段 if EAX gt 5 EBX 1 else EBX 2 在汇编程序中可以写如下根据我的书模拟jge操作说明 https www felixcloutier com x86 jcc您通常会使用
数值在 firestore 中保存为字符串

我使用这个函数将数据发送到firestore exports professional functions https onRequest request response gt const db admin firestore const
按间隔排列的汉明数

这是生成汉明数序列又名常规数字 https en wikipedia org wiki Regular number 5 平滑数 https en wikipedia org wiki Smooth number 基于序列中一个数字到下一
C 中的菱形数组排序

我有以下 C 语言作业我基本上需要一种方法而不是解决方案我们有一个 13 x 13 的数组在数组中我们有一个需要考虑的菱形形状该菱形之外的所有内容都初始化为 1 不重要下面的 5 x 5 数组示例 x x 1 x x x 2 2
Google 如何计算我在桌面上的位置？

是的这让我很困惑我不确定你们中是否有人注意到或使用过使用桌面或没有 GPS 没有移动设备的谷歌地图上的我的位置功能如果您有一个带有 google gears 的浏览器最容易使用的是 Google Chrome 那么当使用我个
Gradle 1.3：build.gradle 不构建类

这里有一个新问题我有一个 build gradle 文件apply plugin java在其中并与 java 项目包关联当我跑步时gradle build从命令行我得到 compileJava UP TO DATE process
在 XmlReader 中解析 XML 元素

我正在构建一个需要通过 XML 提要运行的应用程序但在获取某些元素时遇到了一些问题我正在使用推特提要 http twitter com statuses public timeline rss并想贯穿所有
使用 Jaxb 和 JDK 9 的小程序中的非法反射访问[重复]

这个问题在这里已经有答案了我有一个 Java 小程序它提供了一个 GUI 来调用 Web 服务它使用 Jaxb 解析 XML 数据并将其解组为对象它可以在 Java 1 5 到 1 8 上正确运行对于 Java 9 情况就不那么严
将 mmap 内核启动参数保留的内存映射到用户空间

正如中所讨论的this https stackoverflow com q 1911473 143897问题我在启动时使用内核启动参数保留一个内存块memmap 8G 64G 我写了一个字符驱动程序 http pete akeo ie 2
如何检测来自 QNX 中 ncurses 的屏幕调整大小事件？

我无法配置为接收有关使用 ncurses QNX Momentics 更改终端大小的事件我使用Putyy作为终端通过COM端口传输数据我的问题是如何实现使用远程终端时接收屏幕变化事件 FILE fcons fopen dev ser1
Rails 4 和thoughtbot/clearance - 将字段添加到用户模型

我是一个相对新手所以非常感谢任何帮助我正在使用 Rails 4 2 并使用 Clearance gem 进行身份验证我希望有人可以描述覆盖控制器以在注册表单上包含自定义属性的最佳实践我读过很多不同的建议其中许多来自不使用 Stro
R tm 包创建 N 个最常见术语的矩阵

我有一个termDocumentMatrix使用创建的tmR 中的包我正在尝试创建一个包含 50 个最常出现的术语的矩阵数据框当我尝试转换为矩阵时出现此错误 gt ap m lt as matrix mydata dtm Error
获取pandas数据框列中值的长度

我试图获取下面提到的数据框中每个 zipCd 值的长度当我运行下面的代码时每条记录都得到 958 我期待得到更像 4 的东西有人看出问题是什么吗 Code zipDfCopy zipCd str len Data print zipD
来自连接到远程机器的相机的 Opencv 流

我正在用 python 开发一个 wx 应用程序用于流式传输和显示来自两个不同网络摄像头的视频这工作正常但现在我需要在不同的场景中执行此操作其中两个摄像头连接在通过网络连接的 Windows 上运行的单独计算机中我的应用程序将在机
在 aws-cdk 上的 aws-rds 上，使数据库可公开访问的设置在哪里？

使用 AWS RDS 控制台和 CLI API 都有一个开关可以使数据库可公开访问但我找不到使用提供的构造使用新的 aws cdk 来实现此目的的方法 Cloud Formation 类例如 CfnDBInstance 中有一个布尔值
Android 中的 SSL 会话重用问题（J2SE 工作正常）

我一直在 iOS Java 桌面和 Android 上尝试 SSL 会话重用 iOS 似乎尝试重用 SSL 会话但并非总是如此只要您在创建 SSLEngine 时传递主机名端口 Java 似乎总是会重用会话当我使用 Android
找不到 NGINX brew 安装命令

I do brew install nginx and get gt Downloading http nginx org download nginx 1 2 2 tar gz Already downloaded Library Cac
Pandas 将列添加到非引用数据框中

这件事让我心潮澎湃好几个小时了也许我遗漏了一些神秘的陷阱但它一定是非常违反直觉的 Trial unq 是一个两列数据帧 Trial unq2 是一个相同的副本 for 循环遍历 unique in 中的所有字符串如果 unique

Pandas 将列添加到非引用数据框中

Pandas 将列添加到非引用数据框中 的相关文章

随机推荐

热门标签

Pandas 将列添加到非引用数据框中的相关文章