接收 KeyError：“[Int64Index([ ... dtype='int64', length=1323)] 均不在 [列] 中”

2023-11-23

SUMMARY

当将测试和训练数据输入 ROC 曲线图中时，我收到以下错误：

KeyError：“[Int64Index([ 0, 1, 2, ... dtype='int64', length=1323)] 都不在 [列] 中”

该错误似乎是说它不喜欢我的数据格式，但它在第一次运行时有效，而且我无法让它再次运行。

我是否错误地分割了数据或将格式不正确的数据发送到我的函数中？

我尝试过的

通读多个具有相同 KeyError 的 StackOverflow 帖子
重读一遍scikit-learn 示例我跟着
检查了我的代码的早期版本以进行故障排除

我正在 CoLab 文档中运行它，并且可以查看它here

CODE

我正在使用标准数据框来提取我的 X 和 Y 集：

X = df_full.drop(['Attrition'], axis=1)
y = df_full['Attrition'].as_matrix()

KeyError 可以追溯到第 8 行：

def roc_plot(X, Y, Model):
    tprs = []
    aucs = []
    mean_fpr = np.linspace(0, 1, 100)
    plt.figure(figsize=(12,8))
    i = 0
    for train, test in kf.split(X, Y):
        probas_ = model.fit(X[train], Y[train]).predict_proba(X[test])
        # Compute ROC curve and area the curve
        fpr, tpr, thresholds = roc_curve(Y[test], probas_[:, 1])
        tprs.append(np.interp(mean_fpr, fpr, tpr))
        tprs[-1][0] = 0.0
        roc_auc = auc(fpr, tpr)
        aucs.append(roc_auc)
        plt.plot(fpr, tpr, lw=1, alpha=0.3,
                 label='ROC fold %d (AUC = %0.2f)' % (i, roc_auc))

        i += 1
    plt.plot([0, 1], [0, 1], linestyle='--', lw=2, color='r',
             label='Chance', alpha=.8)

    mean_tpr = np.mean(tprs, axis=0)
    mean_tpr[-1] = 1.0
    mean_auc = auc(mean_fpr, mean_tpr)
    std_auc = np.std(aucs)
    plt.plot(mean_fpr, mean_tpr, color='b',
             label=r'Mean ROC (AUC = %0.2f $\pm$ %0.2f)' % (mean_auc, std_auc),
             lw=2, alpha=.8)

    std_tpr = np.std(tprs, axis=0)
    tprs_upper = np.minimum(mean_tpr + std_tpr, 1)
    tprs_lower = np.maximum(mean_tpr - std_tpr, 0)
    plt.fill_between(mean_fpr, tprs_lower, tprs_upper, color='grey', alpha=.2,
                     label=r'$\pm$ 1 std. dev.')

    plt.xlim([-0.05, 1.05])
    plt.ylim([-0.05, 1.05])
    plt.xlabel('False Positive Rate')
    plt.ylabel('True Positive Rate')
    plt.title('Receiver operating characteristic example')
    plt.legend(loc="lower right")
    plt.show()

当我使用该函数运行以下命令时会发生这种情况：

model = XGBClassifier() # Create the Model
roc_plot(X, Y, Model)

预期结果

我应该能够将数据 X 和 Y 输入到我的函数中。

在这段代码中train, test是索引数组，当您从 DataFrame 中选择时将其用作列：

for train, test in kf.split(X, Y):
    probas_ = model.fit(X[train], Y[train]).predict_proba(X[test])

你应该使用iloc反而：

    probas_ = model.fit(X.iloc[train], Y.iloc[train]).predict_proba(X.iloc[test])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

NumPy

scikitlearn

接收 KeyError：“[Int64Index([ ... dtype='int64', length=1323)] 均不在 [列] 中” 的相关文章

如何在 Ubuntu 16.04 上的 Python 3 / Matplotlib 2 中安装底图？

I tried pip3 install basemap but Basemap https sourceforge net projects matplotlib files matplotlib toolkits 好像不在 PyPI 上
如何创建一个语句来打印以特定单词开头的单词？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案如何在 python 中打印从特定字母开始的单词而不使用函数而是使用方法或循环 1 我有一个字符串想要打印以 m 开头的单词 S
Pandas 数据帧到 numpy 数组 [重复]

这个问题在这里已经有答案了我对 Python 很陌生经验也很少我已经设法通过复制粘贴和替换我拥有的数据来使一些代码正常工作但是我一直在寻找如何从数据框中选择数据但无法理解这些示例并替换我自己的数据总体目标如果有人真的可以帮助
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
在Python中调整图像大小

我有一张尺寸为 288 352 的图像我想将其大小调整为 160 240 我尝试了以下代码 im imread abc png img im resize 160 240 Image ANTIALIAS 但它给出了一个错误TypeErro
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
在flatpak项目中使用scrapy脚本

我正在构建一个 flatpak 构建的项目我有一个按钮当单击它时我希望它运行 scrapy 脚本来抓取数据窗口用户界面
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
将 matplotlib 颜色图集中在特定值上

我正在使用 matplotlib 颜色图 seismic 绘制绘图并且希望白色以 0 为中心当我在不进行任何更改的情况下运行脚本时白色从 0 下降到 10 我尝试设置 vmin 50 vmax 50 但在这种情况下我完全失去了白色关
如何使用列表作为pandas数据框中的值？

我有一个数据框需要列的子集包含具有多个值的条目下面是一个带有运行时列的数据框其中包含程序在各种条件下的运行时 df condition a runtimes 1 1 5 2 condition b runtimes 0 5 0 7
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
创建嵌套字典单行

您好我有三个列表我想使用一行创建一个三级嵌套字典 i e l1 a b l2 1 2 3 l3 d e 我想创建以下嵌套字典 nd a 1 d 0 e 0 2 d 0 e 0 3 d 0 e 0 b a 1 d 0 e 0 2 d 0
使用 Firefox 绕过弹出窗口下载文件：Selenium Python

我正在使用 selenium 和 python 来从中下载某些文件web page http www oceanenergyireland com testfacility corkharbour observations 我之前一直使用设
如何为每个屏幕添加自己的 .py 和 .kv 文件？

我想为每个屏幕都有一个单独的 py 和 kv 文件应通过 main py main kv 中的 ScreenManager 选择屏幕设计应从文件 screen X kv 加载类等应从文件 screen X py 加载 Screens
当鼠标悬停在上面时，intellisense vscode 不显示参数或文档

我正在尝试将整个工作流程从 Eclipse 和 Jupyter Notebook 迁移到 VS Code 我安装了 python 扩展它应该带有 Intellisense 但它只是部分更糟糕我在输入句点后收到建议但当将鼠标悬停在其上方
Ubuntu 上的 Python 2.7

我是 Python 新手正在 Linux 机器 Ubuntu 10 10 上工作它正在运行 python 2 6 但我想运行 2 7 因为它有我想使用的功能有人敦促我不要安装 2 7 并将其设置为我的默认 python 我的问题是如
限制 django 应用程序模型中的单个记录？

我想使用模型来保存 django 应用程序的系统设置因此我想限制该模型使其只能有一条记录极限怎么办尝试这个 class MyModel models Model onefield models CharField The fiel
在Python中按属性获取对象列表中的索引

我有具有属性 id 的对象列表我想找到具有特定 id 的对象的索引我写了这样的东西 index 1 for i in range len my list if my list i id specific id index i break
从 Twitter API 2.0 获取 user.fields 时出现问题

我想从 Twitter API 2 0 端点加载推文并尝试获取标准字段作者文本和一些扩展字段尤其是用户字段端点和参数的定义工作没有错误在生成的 json 中我只找到标准字段但没有找到所需的 user fields 用户

随机推荐

使用 Hibernate API 进行 Java 字符串日期验证

我正在尝试验证字符串日期 using javax validation 休眠验证我需要检查给定的字符串日期应该是过去的并且它应该是正确的yyyyMMdd具有所有限制的格式例如闰年 30th 31st day public class U
如何捕获鼠标移动事件

我想在我的主窗体中捕获鼠标移动事件虽然我能够连接MouseEventHandler对于主窗体当光标位于 UserControl 或任何其他控件上时该事件不再触发如何确保我始终掌握鼠标位置您可以使用低级鼠标钩看this示例并检查
使用 ctypes 传递数组

我有一个C函数 void read FIFO AI0 int16 t input size t size NiFpga Session session NiFpga Status status input int16 t malloc si
如何使用 SWIG 扩展 python 中的模板化 C++ 类以允许 [] 运算符

我有一个模板化的 C 数组类它使用标准向量类 include
向量点积计算的时间和空间复杂度

计算两个长度为 n 的向量之间的点积的算法的时间和空间复杂度是多少如果这 2 个向量是a a1 a2 an and b b1 b2 bn then 点积由下式给出a b a1 b1 a2 b2 an bn 为了计算这个我们必须执行n乘法
设置 tk.Frame 宽度和高度

所以我正在创建一个 GUI 并尝试使其一切都适合屏幕我已经画出了我希望 GUI 的每个部分的外观及其大小的粗略草图因此我知道所有内容的粗略尺寸然而我遇到的第一个问题是设置屏幕的左半部分所以左半部分由一个框架组成我们称之为Main
如何替换已弃用的 ggplot2 函数 aes_string：接受任意数量的命名字符串来指定美学映射？

aes string我在使用 ggplot2 编程时使用了一些方便的行为但aes string已被弃用我相信是从 ggplot2 版本 3 4 0 开始我正在努力思考如何很好地替换它具体来说我之前创建了通过省略号接受任意字符串参数
错误 403：scrapy 中未处理或不允许 HTTP 状态代码

这是我为抓取 justdial 网站而编写的代码 import scrapy from scrapy http request import Request class JustdialSpider scrapy Spider name j
WebRTC - 在通信过程中更改视频流

我的目标是使用 webrtc Web 应用程序在视频或音频通话中启用屏幕共享好吧我发现我可以使用MediaStreamTrack applyConstraints 更改视频属性但是否可以更改视频源进一步说明如何将视频添加到现有音频流
从 C++ 调用 C# 方法而不使用 COM

有没有办法创建 C 对象并从非托管 C 调用方法但不使用 COM Iterop 我正在寻找类似 JNI 但适用于 Net 的东西您可以在其中手动创建 VM 创建对象等如果您使用 C CLI 那么您可以直接与托管世界和非托管代码交互因
Python Selenium“WebDriver”对象没有属性错误

我正在尝试从中文网站上抓取一些由 javascript 生成的内容我正在使用 Selenium 和 Python 因为我无法直接抓取 javascript 内容 coding utf 8 from selenium import webd
Pandas：按满足条件的列进行分组

我有一个包含三列的数据集评级品种和狗 import pandas as pd dogs breed Chihuahua Chihuahua Dalmatian Sphynx dog True True True False rating
获取 Chrome 浏览器的最新发布版本号

我正在尝试找出一种相当稳定的方法来以编程方式确定 chrome 浏览器的最新发行版本号它不必是万无一失的因为它只是一个很好的功能每当结果看起来可疑时我就可以混合出来似乎没有 API 有吗我不想依赖第三方手动处理这些事情我不想
“按 NULL 排序”是什么意思

我使用 oracle 11g 下面的 line order by null 意味着什么 select f value row number over order by null as id from tableName The OVER 条
如何使用 Python 以 Gmail 作为提供商发送电子邮件？

我正在尝试使用 python 发送电子邮件 Gmail 但出现以下错误 Traceback most recent call last File emailSend py line 14 in
通过 MySQL 数据库更改发送 WebSocket 更新哪个更有效

我目前正在尝试使用 WebSockets 以减少消除在潜在的低带宽环境中对持续 AJAX 请求的需求所有设备都兼容 WebSocket 所以没有问题我试图将其保留为原生 PHP WebSocket 没有 Node js 或其他框架库
什么是智能指针？何时应该使用智能指针？

什么是智能指针何时应该使用智能指针 UPDATE 这个答案相当古老因此描述了当时好的即 Boost 库提供的智能指针从 C 11 开始标准库已经提供了足够的智能指针类型因此您应该倾向于使用std unique ptr std
对话框后面显示的垫选择选项

我将表单输入带有选项的垫选择和带有选项的自动完成字段也包含到垫对话框中问题是选项显示在对话框后面我已经遇到过这些解决方案解决方案1但并没有解决这个问题这是我的代码
CMake - 如何使库的私有标头可供其测试使用？

因此我正在将项目的一部分制作为一个库其中一些标头是该库的接口其余部分是库本身私有的因此对于我的库 CMAKE 部分如下所示 add library PROJECT NAME PROJECT SOURCES PROJECT BINA
接收 KeyError：“[Int64Index([ ... dtype='int64', length=1323)] 均不在 [列] 中”

SUMMARY 当将测试和训练数据输入 ROC 曲线图中时我收到以下错误 KeyError Int64Index 0 1 2 dtype int64 length 1323 都不在列中该错误似乎是说它不喜欢我的数据格式但它在第一次