python中根据变量类型处理数据子集

2024-04-29

我将以下数据存储在 csv (df_sample.csv) 中。我将列名放在名为 cols_list 的列表中。

df_数据_样本：

df_data_sample = pd.DataFrame({
                    'new_video':['BASE','SHIVER','PREFER','BASE+','BASE+','EVAL','EVAL','PREFER','ECON','EVAL'],
                    'ord_m1':[0,1,1,0,0,0,1,0,1,0],
                    'rev_m1':[0,0,25.26,0,0,9.91,'NA',0,0,0],
                    'equip_m1':[0,0,0,'NA',24.9,20,76.71,57.21,0,12.86],
                    'oev_m1':[3.75,8.81,9.95,9.8,0,0,'NA',10,56.79,30],
                    'irev_m1':['NA',19.95,0,0,4.95,0,0,29.95,'NA',13.95]
                    })

attribute_dict = {
        'new_video': 'CAT',
        'ord_m1':'NUM',
        'rev_m1':'NUM',
        'equip_m1':'NUM',
        'oev_m1':'NUM',
        'irev_m1':'NUM'
        }

然后我阅读每一列并进行一些数据处理，如下所示：

cols_list = df_data_sample.columns
# Write to csv.
df_data_sample.to_csv("df_seg_sample.csv",index = False)
#df_data_sample = pd.read_csv("df_seg_sample.csv")
#Create empty dataframe to hold final processed data for each income level.
df_final = pd.DataFrame()
# Read in each column, process, and write to a csv - using csv module
for column in cols_list:
    df_column = pd.read_csv('df_seg_sample.csv', usecols = [column],delimiter = ',')
    if (((attribute_dict[column] == 'CAT') & (df_column[column].unique().size <= 100))==True):
        df_target_attribute = pd.get_dummies(df_column[column], dummy_na=True,prefix=column)
        # Check and remove duplicate columns if any:
        df_target_attribute = df_target_attribute.loc[:,~df_target_attribute.columns.duplicated()]

        for target_column in list(df_target_attribute.columns):
            # If variance of the dummy created is zero : append it to a list and print to log file.
            if ((np.var(df_target_attribute[[target_column]])[0] != 0)==True):
                df_final[target_column] = df_target_attribute[[target_column]]


    elif (attribute_dict[column] == 'NUM'):
        #Let's impute with 0 for numeric variables:
        df_target_attribute = df_column
        df_target_attribute.fillna(value=0,inplace=True)
        df_final[column] = df_target_attribute

attribute_dict 是一个字典，其中包含变量名称：变量类型的映射：

{
'new_video': 'CAT'
'ord_m1':'NUM'
'rev_m1':'NUM'
'equip_m1':'NUM'
'oev_m1':'NUM'
'irev_m1':'NUM'
}

但是，这种逐列操作需要很长时间才能在大小**（500 万行 * 3400 列）**的数据集上运行。目前运行时间约为 12 小时以上。我想尽可能减少这种情况，我能想到的方法之一是一次对所有 NUM 列进行处理，然后逐列进行处理为 CAT 变量。然而，我既不确定 Python 中的代码可以实现这一点，也不确定这是否会真正加快该过程。有人可以帮我吗！

对于数字列来说很简单：

num_cols = [k for k, v in attribute_dict.items() if v == 'NUM']
print (num_cols)
['ord_m1', 'rev_m1', 'equip_m1', 'oev_m1', 'irev_m1']

df1 = pd.read_csv('df_seg_sample.csv', usecols = [num_cols]).fillna(0)

但第一部分代码是性能问题，特别是在get_dummies http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html呼吁5 million rows:

df_target_attribute = pd.get_dummies(df_column[column], dummy_na=True, prefix=column)

不幸的是，流程有问题get_dummies分块。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python中根据变量类型处理数据子集的相关文章

如何合并多个Excel文件，每个Excel文件中有多个相同数量的工作表

我目前可以将多个 Excel 文件合并到一张表中我想合并每个 Excel 文件中具有两个不同工作表的多个工作表并为每个工作表指定名称我怎样才能实现这个目标下面是我当前的代码用于将多个 Excel 文件中的单个工作表组合在一起而无需
为什么不使用均方误差来解决分类问题？

我正在尝试使用 LSTM 解决一个简单的二元分类问题我正在尝试找出网络的正确损失函数问题是当我使用二元交叉熵作为损失函数时与使用均方误差 MSE 函数相比训练和测试的损失值相对较高经过研究我发现二元交叉熵应该用于分类问题 MS
为什么我的 Pygame 窗口在为对象设置动画时会闪烁？

所以我的 pygame 窗口不会停止闪烁我知道只要one项目在snake snakearray 不会闪烁 class for the array class snake snakearray ScreenConfigs width 2 S
py2neo 引发完成（自我）错误

使用 py2neo 时我在尝试附加事务时收到以下错误 statement MERGE a Person name actorName n MERGE b Series title actorsFields 3 year actorsFie
Django 子应用程序和模块结构

我正在开发一个 Django 应用程序这是一个大型系统需要多个子应用程序来保持整洁因此我有一个顶级目录它是 Django 应用程序因为它有一个空的models py文件和多个子目录它们本身也是应用程序我以这种方式布局应用程
python 中的 exec 关键字有什么作用？

code compile a 1 2
如何通过 Mturk API 从沙箱上的 HIT 中获取结果

我创建了一个 XML 文件来向 MTurk 发布问题并且 HIT 在工作沙箱中可见我的几个朋友甚至提交了对 HIT 的回复但我无法查看此 HIT 的结果这是我用来发布 HIT 的代码 import boto3 MTURK SANDB
如何表示未使用的函数参数？

当解构元组时我可以使用表示我不感兴趣的元组元素例如 gt gt gt a 1 2 3 gt gt gt a 1 使用 Python 2 x 如何用函数参数表达相同的内容我尝试使用下划线 gt gt gt def f a retu
使用 python 生成器高效创建 scipy.lil_matrix

我有一个生成单一维度的生成器numpy arrays 的长度相同我想要一个包含该数据的稀疏矩阵行的生成顺序与我希望它们出现在最终矩阵中的顺序相同 csr矩阵优于lil矩阵但我认为后者在我描述的场景中更容易构建假设row gen是一个
ssl.SSLError：[SSL：CERTIFICATE_VERIFY_FAILED]证书验证失败（_ssl.c：852）

Django 项目检查博客上单词的出现频率项目还没有完成但是之前的scraper没有给出任何错误切换到另一个电脑后出现错误但我不确定这是否重要当我尝试运行抓取脚本时出现以下错误 ssl SSLError SSL CERTIFIC
Python - 不使用复制模块的深度复制

本质上问题是创建一个函数 deepcopy L 它将返回列表 L 的深层副本但是我们被告知不要使用 copy 模块或其中的任何函数我是入门课程的初学者老实说我在这方面很挣扎我们真正被告知的唯一一件事是我们应该使用递归来解决问题
如何在 Prolog 中解决这个算术表达式难题？

我有一个编程问题 https blog svpino com 2015 05 08 solution to problem 5 and some other thoughts about this type of questions htt
KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用
是否可以更新动画中的箭袋位置坐标？

我想用 matplotlib 绘制一些粒子并为其设置动画每个点都有一个位置和速度我可以使用 matplotlib 绘制单帧quiver 但是如何更新每一帧的箭袋数据呢我正在使用 matplotlib 动画类我读到了有关未记录 qu
pip3：错误的解释器：没有这样的文件或目录

我正在尝试使用安装依赖项pip3 command 当前场景 Dev which python Users Dev anaconda bin python Dev which python3 usr local bin python3 Dev
如何在保留图标的同时删除最小化/最大化按钮？

是否可以显示我的图标toplevel and root删除最小化和最大化按钮后的窗口我尝试使用 toolwindow但之后图标就无法显示了有没有其他方法可以从窗口中删除最小和最大尺寸按钮同时仍显示图标 from tkinter imp
分段错误：当我运行 Pygame 时为 11

有人问过类似的问题here https stackoverflow com questions 34278488 pygame display causing segmentation fault 11 但没有得到答复我有 Python
使用一次递归调用实现递归

给定一个函数如下 f n f n 1 f n 3 f n 4 f 0 1 f 1 2 f 2 3 f 3 4 我知道使用递归来实现它并在一个函数内进行三个递归调用但我想在函数内仅使用一次递归调用来完成此操作怎样才能做到呢要实现使用
如何在 JavaFX 中连接可观察列表？

我所说的串联是指获得一个新列表该列表侦听所有串联部分的更改方法的目的是什么FXCollections concat ObservableList
Python：使用 string.format() 将单词大写

是否可以使用字符串格式将单词大写例如 user did such and such format user foobar 应该返回 Foobar 做了这样那样的事情请注意我很清楚 capitalize 但是这是我正在使用的代码非常

随机推荐

消费者关闭了输入通道或发生错误。事件=0x8

D AndroidRuntime 11752 D AndroidRuntime 11752 gt gt gt gt gt gt AndroidRuntime START com android internal os RuntimeInit
C# 检查闰年

我想将输入日期 1 年添加到名为完成日期的列中如果输入日期是闰年我需要添加 364 天如果不是 365 天的话有没有办法在 c 中检查这一点使用当前日期时间年份并操作闰年不操作然后添加天数 Thanks 您可以使用日期时间 I
getUserMedia 在 chrome 版本 48.0.2560.0 中无法工作，而在 46.0 中工作

我的困惑是我在我的页面中使用了 gerUSerMedia 该页面无法在我们的服务器上工作而在某些机器上在那些 chrome 浏览器中具有版本为 48 0 2560 0 的 chrome 时它将给出以下警告 getUserMedia
从脚本加载调用 Angular 控制器

我试图在从 onload 回调加载脚本后更新控制器的状态我加载 Google 客户端 API 然后在 OnLoadCallback 中我尝试手动引导 AngularJS 并将设置状态设置到我的控制器上 function OnLoadCa
Cypress Vue 组件测试从已挂载发出的事件

我有一个 vue2 组件它在其安装的生命周期挂钩中发出一个事件该事件被发出并且可以由使用该组件的页面处理但是我还想测试该事件是否在我的组件测试中发出该测试使用赛普拉斯组件测试运行程序这是一个精简版本组件 TheCompone
Rails Heroku 应用程序错误

我的项目在本地运行良好我将它部署到 Heroku 我遇到了一些错误应用程序无法在那里运行我正在使用 Rails 4 和 postgresql 无法理解为什么会发生这种情况在我看来数据库没有创建我应该在我的database yml
从 C 调用带有字符串参数的 Go 函数？

我可以从 C 调用一个没有参数的 Go 函数按照下面的 https github com joeprivacy crefgo hello world 这通过编译go build和打印 Hello from Golang main func
找不到全局类型 CallableFunction

这是一个基本汇编脚本项目但我在 tsconfig json 文件中遇到此错误消息 extends assemblyscript std assembly json include ts 这是我的 package json devDepen
如何在 C++/CLI 中转发声明委托？

How 以下内容无效 delegate MyDelegate ref class MyDelegate delegate void MyDelegate 申报工作如下 public delegate void MyDelegate Obje
Intent.ACTION_DIAL 号码以 # 结尾

所以我尝试通过以下方式发送号码Intent ACTION DIAL以结尾例如 123 但是当Android Dialer应用程序启动时只有 123 不见了我正在使用以下代码来触发 Android 的拨号应用程序 Uri number
如果文本框不为空，如何添加并显示工具提示文本框 WPF

需要显示提示其中包含文本字段中的数据文本框有数据时出现提示只需使用绑定到 ToolTipService 附加属性即可 XAML
API 27 中 startActivityForResult 后崩溃

更新到 API 27 和支持库 27 0 2 后我突然在 Crashlytics 中得到了很多这样的堆栈跟踪 Fatal Exception java lang IllegalArgumentException at android os
pip 安装与本地包具有相同命名空间的包

我使用的是 Python 3 6 5 通过 miniconda 安装我的问题是由于我正在安装一个与本地包具有相同命名空间的包 pip 安装此包后我无法再从本地包导入我收到一个ModuleNotFoundError错误如果可能的话命
强制预先加载原本延迟加载的属性

我有一个 Hibernate 对象它的属性都是惰性加载的大多数这些属性是其他 Hibernate 对象或 PersistentSet 现在我想强制 Hibernate 一次性加载这些属性当然我可以触摸这些属性中的每一个objec
从 codeigniter 调用存储过程

我正在使用将 mysqli 作为数据库驱动程序的 codeigniter 我试图从我的模型中调用一个简单的存储过程但出现错误我究竟做错了什么 Error Number 1064 You have an error in your SQL
BLE：使用 Android / iOS 读取长特征值

对于正常的特征读取仅读取 MTU 大小 20 字节的数据我的客户将提供更大尺寸超过 100 字节的特征我看到 BLE 提供了长读取功能可以读取直到达到特征的大小 https bluegiga zendesk com ent
如何更新 certifi 的根证书？

我正在使用 certifi python 模块来验证 ssl 连接我查看了 certifi python2 7 site packages certifi cacert pem 中包含的根证书其中一些证书已过期我如何更新这些证书我尝
RegEx 从 CSS 背景样式中提取 URL

我有一个这种形式的字符串 url http www example com imgs backgrounds bg80 jpg repeat scroll 10 0 transparent 这是来自某个元素的 CSS 样式该元素目前在页面
在 Clojure 中递归反转序列

我想在 Clojure 中反转序列而不使用reverse函数并递归地执行此操作这是我想出的 defn reverse recursively coll loop r rest coll acc conj first coll if co
python中根据变量类型处理数据子集

我将以下数据存储在 csv df sample csv 中我将列名放在名为 cols list 的列表中 df 数据样本 df data sample pd DataFrame new video BASE SHIVER PREFER

python中根据变量类型处理数据子集

python中根据变量类型处理数据子集 的相关文章

随机推荐

热门标签

python中根据变量类型处理数据子集的相关文章