检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？

2024-03-20

我一直在开发一个工具，可以自动预处理 pandas.DataFrame 格式的数据。在此预处理步骤中，我想以不同的方式处理连续数据和分类数据。特别是，我希望能够应用 OneHotEncoder 等only分类数据。

现在，假设我们提供了一个 pandas.DataFrame 并且没有有关 DataFrame 中数据的其他信息。用于确定 pandas.DataFrame 中的列是否是分类的好的启发式是什么？

我最初的想法是：

1）如果列中有字符串（例如列数据类型为object），那么该列很可能包含分类数据

2) 如果列中某些百分比的值是唯一的（例如，>=20%），则该列很可能包含连续数据

我找到了1)工作正常，但是2)效果不太好。我需要更好的启发法。你会如何解决这个问题？

Edit:有人要求我解释原因2)效果不好。在一些测试用例中，我们的列中仍然有连续值，但列中没有很多唯一值。启发式在2)在那种情况下显然失败了。还有一个问题是，我们的分类列有很多很多唯一值，例如泰坦尼克号数据集中的乘客姓名。存在相同列类型错误分类问题。

这里有几种方法：

求唯一值的数量与唯一值总数的比率。像下面这样的东西

likely_cat = {}
for var in df.columns:
    likely_cat[var] = 1.*df[var].nunique()/df[var].count() < 0.05 #or some other threshold

检查前n个唯一值是否占所有值的一定比例

top_n = 10 
likely_cat = {}
for var in df.columns:
    likely_cat[var] = 1.*df[var].value_counts(normalize=True).head(top_n).sum() > 0.8 #or some other threshold

方法 1) 对我来说通常比方法 2) 更有效。但如果存在“长尾分布”，即少数类别变量具有较高频率，而大量类别变量具有较低频率，则方法 2) 会更好。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？的相关文章

Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
如何在Python中同时运行两只乌龟？

我试图让两只乌龟一起移动而不是一只接着另一只移动例如 a turtle Turtle b turtle Turtle a forward 100 b forward 100 但这只能让他们一前一后地移动有没有办法让它们同时移动有没有
pyspark 数据框中的自定义排序

是否有推荐的方法在 pyspark 中实现分类数据的自定义排序我理想地寻找 pandas 分类数据类型提供的功能因此给定一个数据集Speed列可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
工作日重新订购 Pandas 系列

使用 Pandas 我提取了一个 CSV 文件然后创建了一系列数据来找出一周中哪几天崩溃最多 crashes by day bc DAY OF WEEK value counts 然后我将其绘制出来但当然它按照与该系列相同的排名顺序绘制
Python3.0 - 标记化和取消标记化

我正在使用类似于以下简化脚本的内容来解析较大文件中的 python 片段 import io import tokenize src foo bar src bytes src encode src io BytesIO src src l
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
没有名为 StringIO 的模块

我有Python 3 6 我想从另一个名为 run py 的 python 文件执行名为 operation py 的 python 文件 In operation py I do from cStringIO import StringI
如何使用文本相似性删除 pandas 数据框中相似（不重复）的行？

我有数千个数据这些数据可能相似也可能不相似使用 python 的默认函数 drop duplicates 并没有真正的帮助因为它们只检测相似的数据例如如果我的数据包含类似以下内容怎么办嗨早上好嗨早上好 Python 不会将
Emacs 24.x 上的 IPython 支持

我对 IPython 与 Emacs 的集成感到困惑从 Emacs 24 开始 Emacs 附带了自己的python el 该文件是否支持 IPython 还是仅支持 Python 另外维基百科 http emacswiki org e
结构差异 sudo() run('sudo 命令')

我想知道函数之间有什么区别sudo 和函数run sudo u user smth 文档上有 sudo 在所有运行方式上都是相同的除了它总是换行调用 sudo 程序中的给定命令以提供超级用户特权但有几次 sudo cmd 提示我输入
如何在 pandas 中使用 read_fwf 跳过空行？

I use pandas read fwf http pandas pydata org pandas docs stable generated pandas read fwf htmlPython pandas 0 19 2 中的函数读
用 python 编写的数学语法检查器

我需要的只是使用 python 检查字符串是否是有效的数学表达式为了简单起见假设我只需要运算符也作为一元带有数字和嵌套括号为了完整性我还添加了简单的变量名称所以我可以这样测试 test 3 2 1 valid test 3
ANTLR 获取并拆分词法分析器内容

首先对我的英语感到抱歉我还在学习我为我的框架编写 Python 模块用于解析 CSS 文件我尝试了 regex ply python 词法分析器和解析器但我发现自己在 ANTLR 中第一次尝试我需要解析 CSS 文件中的注释
返回表示每组内最大值的索引的一系列数字位置

考虑一下这个系列 np random seed 3 1415 s pd Series np random rand 100 pd MultiIndex from product list ABDCE list abcde One Two T
当数据库不是 Django 模型时，是否可以使用数据库中的表？

是否可以从应用程序数据库中的表获取查询集该表不是应用程序中的模型如果我有一个不是名为 cartable 的模型的表从概念上讲我想这样做 myqueryset cartable objects all 有没有相对简单的方法来做到这一点
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
双击打开 ipython 笔记本

相关文章通过双击 osx 打开 ipython 笔记本 https stackoverflow com questions 16158893 open an ipython notebook via double click on osx
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

basic_ostringstream::str 悬空指针

最近我发现了以下代码中的错误 ostringstream o o lt lt some string const char s o str c str empty string instead of expected some string
librosa.effect.Split的返回值很奇怪

正如标题所示这个函数的结果不符合逻辑我不明白这个函数在做什么例如这里是一些可重现的代码 load sample audio filename librosa util example audio file audio sr libr
推送到远程分支（无法更新引用）

我有一个带有功能初始更改分支的远程存储库现在我想将一些文件从本地功能初始更改分支推送到此远程分支我浏览了一些关于推送到远程分支的帖子并尝试了一些方法但我仍然遇到相同的错误添加并提交后我得到以下 git 状态 Sakibs Ma
Azure WebJobs SDK 服务总线死信队列

使用 WebJobs SDK 时将 BrokeredMessage 移动到死信队列的正确方法是什么通常我只会调用 msg DeadLetter 但是 SDK 负责管理代理消息的生命周期如果方法返回成功它将调用 msg Complet
如何在按下按钮后以动画方式显示 UIPickerView？

我想在按下按钮后为 UIPickerView 制作动画我已经将 UIPickerView 编码为隐藏在 viewDidLoad 上并且在按下按钮后不会隐藏但它的动画效果不像 ModalViewController 默认情况下的动画效果
包更新到 Angular 5 最新版本，但 npm 未使用 Angular 模板在 Visual Studio 2017 中更新

我已将 Visual Studio 2017 模板中的 Angular 4 更新为 Angular 5 我按照链接中的说明进行操作http www talkingdotnet com upgrade Angular 4 app Angula
如何计算滚动 idxmax

考虑pd Series s import pandas as pd import numpy as np np random seed 3 1415 s pd Series np random randint 0 10 10 list ab
函数对象的好处？

我知道STL中使用的函数对象只是简单的对象我们可以像函数一样操作它我可以说函数和函数对象的工作原理是相同的如果这是真的那么为什么我们应该使用函数对象而不是函数呢主要好处是对函数对象函子的调用通常是可内联的而对函数指针的调用通
AngularStrap 选项卡加载 html 片段

我目前正在使用 Twitter Bootstrap 开发 AngularJS 项目并尝试将我的 Bootstrap 指令转换为 Angular 我决定使用 AngularStrap 因为它提供了对 Bootstrap Select 的支持
如果 c =a,b，c 的值是多少；

int a 0 int b 1 int c a b int d a b 在初始化之外逗号 ina b is the 逗号运算符并评估为b 涉及行中的括号d造成这样的情况所以该行实际上相当于 int d b 然而在涉及c 这不是逗号运
如何解决 Java Swing 登录窗口中的这些可视化问题？

我是 Java Swing 的新手但我遇到了一个问题我必须创建一个登录窗口灵感来自这样的图像像这样 scilicet 窗口必须显示 2 个文本字段用户在其中插入用户名和密码以及一个按钮来执行登录操作好的我认为这非常简单我已经
bind_param 中的参数数量未知[重复]

这个问题在这里已经有答案了当您不知道要接收的参数数量时你们会怎么做例如 if a 1 filter AND u name if b 1 filter AND u address if c 1 filter AND u age if d
将布尔值序列化为“1”和“0”而不是“true”和“false”

我在上面找不到任何方法Boolean类将布尔值序列化为 1 和 0 而不是 true 和 false 有没有本地函数可以做到这一点如果不是最好的方法最优化的方法是什么更新我确实想制作一个String出于一个Boolean If你
将上下文变量与 IBM Watson Conversation 中的实体进行比较

在 Watson 对话对话框中我创建了一个条件就像是 if stored state states Florida AND preferred joint joint KFC then some response where store
安卓。如何沿对象面向的方向移动对象（使用 Vector3 和四元数）

我正在使用 libGDX 事实上对它来说相当新和 Android 我想沿 3d 对象所面向的方向移动使用一定的速度我认为这是一个基本问题但找不到直接答案我有一个代表对象旋转方向的四元数有一个代表对象位置的 Vector3 问
FreeTDS - tsql 连接，isql 失败

我正在尝试连接到我的主机 Windows XP SQL Server 05 上的数据库我的客户机器是 Ubuntu 10 04 我可以使用 tsql 连接并执行命令但 isql 失败以下是我的配置文件和错误消息 freetds con
UITableView 部分未按预期排序

我正在使用带有自定义部分标题的 tableView 核心数据对象根据称为 sectionIdentifier 的瞬态属性的值显示在精确的部分上一切都按预期工作但各部分的顺序没有按我的预期响应这应该是部分顺序 1 OVERDUE sec
匿名函数和内存消耗

就内存消耗而言这些是否等效或者我们是否为后者中的每个对象获得一个新的函数实例 var f function alert this animal var items for var i 0 i lt 10 i var item anima
如何重置 Apache Archiva 密码

我正在使用 apache archiva 2 2 0 版本我丢失了管理员密码因此我想重置管理员用户的密码我尝试通过删除下面提到的文件来重置密码 apache archiva 2 2 0 data databases users dbe
检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？

我一直在开发一个工具可以自动预处理 pandas DataFrame 格式的数据在此预处理步骤中我想以不同的方式处理连续数据和分类数据特别是我希望能够应用 OneHotEncoder 等only分类数据现在假设我们提供了一个

检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？

检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？ 的相关文章

随机推荐

热门标签

检测 pandas.DataFrame 中的列是否是分类的好的启发式是什么？的相关文章