玩转ChatGPT:Code interpreter (vol. 1)

2023-10-27

一、写在前面

喜大普奔,GPT-4传说中的Code interpreter插件已经可以用了!!!

二、什么是Code interpreter

代码解释器(Code Interpreter)是一个工具,它能够读取和执行编程代码。这里有几个主要的功能和用法:

(1)执行代码:您可以在会话中提供任何有效的Python代码,代码解释器会执行这段代码并返回结果。例如,如果您输入print("Hello, world!"),代码解释器会输出"Hello, world!"。

(2)状态维持:代码解释器能够保持一定的状态,这意味着在一段时间内,之前的变量和函数定义都会被保存。例如,如果您先定义了一个变量x = 10,然后在稍后的会话中使用这个变量(比如计算x * 2),代码解释器会正确地返回结果20。

(3)文件操作:代码解释器能够读取和写入文件。例如,您可以上传一个.csv文件,并使用pandas库来处理数据。同样,您也可以将数据保存为文件,然后下载到您的设备上。

(4)数学公式渲染:代码解释器支持LaTeX渲染,这意味着您可以输入数学公式,并看到美观的渲染结果。请注意,应使用\(...\)来包围行内公式,使用\[...\]来包围块级公式。

需要注意的是,代码解释器不具有网络访问权限,因此不能执行需要网络的操作,例如从互联网上下载文件或数据。此外,代码解释器的知识库只更新到2021年9月,因此可能无法识别在这之后新出现的库或API。

有人说像是不带有pip功能的python,但那也是让人兴奋的GPT-4插件。

话不多说,开始尝鲜!!!

二、开始对线

随意拿一个案例数据做机器学习分类模型试一试,数据格式如下:

(1)数据上传和概况描述

点击聊天输入框最左边的“+”按钮,选中你的数据集,上传。

 

输入咒语:请描述这个数据集的大致情况。

GPT-4输出:

这个数据集包含1927行和14列。每一行代表一个观察值,每一列代表一个特征。

这些特征的类型主要有两种:整数(int64)和浮点数(float64)。列'A'到'F'是整数类型,列'G'到'M'以及最后一列'Unnamed: 13'是浮点数类型。

需要注意的是,这个数据集存在缺失值。例如,列'G'只有1727个非空值,列'H'有1822个非空值,列'I'有1337个非空值,等等。最后一列'Unnamed: 13'全是空值,可能这一列是在数据收集或处理过程中误导入的,我们可能需要删除这一列。

在进行进一步的分析之前,我们需要对这些缺失值进行处理,方法可以有很多种,比如删除含有缺失值的行,或者使用某种策略(如平均值、中位数、最常见的值等)来填补缺失值

评论:可以看到,GPT-4对整个数据集进行了描述,还指出了数据存在缺失值。此外,由于我的失误,多了一列空列(也就是他说的'Unnamed: 13')。

(2)数据清洗

咒语:删除最后一列,对整个数据集进行缺失值处理(采用中位数填充),并输出处理后的数据集为“jet-01.csv”。

GPT回复:

我已经删除了数据集中的最后一列,并使用每列的中位数填充了缺失值。处理后的数据集已经保存为"jet-01.csv"文件。

您可以通过这个链接下载处理后的数据集。

评论:点击下载文件,如下:

 处理得很好啊~

(3)初步统计分析

咒语:请对每一列数据都进行简单的统计分析,用表格的形式展示。注意:分类变量和连续变量的数据集请分开描述;分类变量要展示出各个赋值的频数的数值。

GPT回复:

 评论:突然觉得SPSS不香了啊!

(4)特征可视化

咒语:请用合适的图可视化每一列特征,要求能直观地展示数据分布。

GPT回复:

 评论:这数据分析的效率,有点可怕。

(5)单因素分析

咒语:本例数据中,A列为应变量(分为两组0和1),其余列为自变量。请对每一列的自变量进行单因素分析,判断两组之间的自变量是否存在统计学差异。

GPT回复:

 评论:看来SPSS可以卸载了。

(6)建立随机森林分类模型

咒语:本例数据中,A列为应变量(分为两组0和1),其余列为自变量。请以A为应变量,其余为自变量建立随机森林模型(你自己自行进行特征工程)。并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。

GPT回复:

 咒语:画出训练集和验证集的混淆矩阵、ROC曲线和PR曲线。

 评论:跪了。

(7)优化随机森林分类模型

咒语:改善模型,优化验证集的过拟合,并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。同时给出优化方案。

GPT回复:

我通过网格搜索方法优化了随机森林模型的参数,以改善模型在验证集上的过拟合问题。优化后的模型参数如下:

最大深度(max_depth): 10

最小样本分割(min_samples_split): 10

最小样本叶片(min_samples_leaf): 4

树的数量(n_estimators): 100

优化后的模型在训练集和验证集上的灵敏度、特异度和AUC值如下:

 可以看出,优化后的模型在验证集上的性能有所提升,过拟合现象得到一定程度的缓解。然而,由于数据的不平衡性和模型的复杂性,模型的灵敏度仍然不高。在这种情况下,我们可以尝试其他的方法来进一步优化模型,例如使用更复杂的模型(如梯度提升树或神经网络)、进行更多的特征工程(如创建新的特征或进行特征选择)、使用过采样或欠采样等方法来处理数据的不平衡性,或者调整模型的决策阈值来改变模型的灵敏度和特异度。

(8)优化随机森林分类模型

咒语:请帮我更换其他模型进行测试,并以表格的形式展示训练集和验证集的灵敏度、特异度和AUC值。同时给出优化方案。

GPT回复:

我已经使用了逻辑回归、支持向量机、K近邻和决策树四种模型对数据进行了训练,并计算了训练集和验证集的灵敏度、特异度和AUC值。结果如下:

可以看出,逻辑回归和支持向量机在验证集上的表现比随机森林模型稍好一些。K近邻模型的表现相似,但略低一些。决策树模型在训练集上的表现完美,但在验证集上的表现明显下降,这是典型的过拟合现象。

四、写在最后

也不要惊慌,还是有缺陷的

(1)不能联网很多新的算法不能用,例如Xgboost;

(2)专业性强首先你得知道怎么数据分析,才能驾驭TA。因此,本底知识还得学习。

(3)对咒语要求较高老生常谈了,得说清楚你的需求和目的;

(4)结果需要核对:毕竟是在后台算的,正确率有多高,需要谨慎对待。

然而,还是惊艳到了很多人啊。这个还是测试版,被限制了太多,谁知道给与TA足够多的权限,会发生什么哦,细思极恐。

初步尝鲜到此为止,后续我还会慢慢测试。。。。。。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

玩转ChatGPT:Code interpreter (vol. 1) 的相关文章

随机推荐

  • vue2知识点梳理

    Vue梳理 对于Vue 我们并不陌生 现在我们来梳理一下关于它的东西吧 知识点 1 生命周期 最基本的就是它的生命周期 beforeCreate 在 beforeCreate 生命周期函数执行时 data 和 methods 中的数据都还没
  • Open3D (C++) 点云按坐标值大小进行排序

    目录 一 概述 二 点云排序 三 结果展示 一 概述 如题 点云按坐标大小进行排序 二 点云排序 代码以按照Z坐标的大小按照从小到大进行排序为例 include
  • java输出1~100之间的全部素数的5种方法

    文章目录 一 前言 二 需求分析 2 1 什么是素数 2 2 分析 三 代码实现 3 1 方法一 根据素数的定义来遍历检查 3 2 方法二 根据判断条件2进行遍历检查 减少遍历次数 3 3 方法三 根据判断条件3进行遍历检查 减少遍历次数
  • 达梦数据库调优组合索引的使用

    调优工程中对组合索引的使用的一个小总结 一 组合索引的执行计划 首先关于几个概念 等值条件和范围条件 1 等值条件 C1 X C1 X OR C1 Y 会被优化成C1 IN X Y C1 IN X Y 这种形式的我们都叫做等值条件 2 范围
  • Linux 安装Xrdp,实现RDP连接

    linux 安装xrdp RDP 连接 安装前提 root 权限 root server 76 conf yum install xrdp root 权限 安装 yum install xrdp Loaded plugins fastest
  • Eigen不同的方法来求矩阵的逆的效率

    背景 不同尺寸的矩阵 求逆使用不同的方法 会有不同的效率的 16x16矩阵的直接求逆与PartialPivLU的效率对比 本人亲测 1 实现代码 GetSystemTimeInMacroSecond的实现 boost posix time
  • 自适应卡尔曼滤波_【导师论坛】

    复杂噪声情况下的新型卡尔曼滤波器研究 主讲 黄玉龙 副教授 哈尔滨工程大学 时间 2019年1月17日 周四 14 30 16 30 地点 智能科学学院主楼401会议室 主讲人介绍 黄玉龙 博士 哈尔滨工程大学自动化学院副教授 2018年1
  • 远程代码执行漏洞的利用与防御

    什么是RCE漏洞 全称 remote command code execute 分为远程命令执行和远程代码执行 1 命令执行漏洞 直接调用操作系统命令 2 代码执行漏洞 靠执行脚本代码调用操作系统命令 一般出现这种漏洞 是因为应用系统从设计
  • 第十届蓝桥杯省赛Java B组 数的分解

    试题 D 数的分解 本题总分 10 分 问题描述 把 2019 分解成 3 个各不相同的正整数之和 并且要求每个正整数都不包 含数字 2 和 4 一共有多少种不同的分解方法 注意交换 3 个整数的顺序被视为同一种方法 例如 1000 100
  • mysql 数据恢复 binlog

    被删库勒索的一次记录 项目在云服务器运行了一年多了 中间迁移过一次 从阿里迁到华为了 迁移的时候把数据库文件 test sql 用完了之后就扔在了服务器上 最近访问系统的时候 忽然系统崩溃 表不存在了 数据库连接工具也连不上了 到服务器上的
  • torch.fx介绍

    Node Node类构造函数的各项参数如下 参考torch fx下的node py graph 指明实例化的Node属于哪个Graph op 节点的类型 一共有如下的几种类型 placeholder 占位符 一般代表输入 call meth
  • 【LeetCode刷题】169 多数元素

    给定一个大小为 n 的数组 找到其中的多数元素 多数元素是指在数组中出现次数 大于 n 2 的元素 你可以假设数组是非空的 并且给定的数组总是存在多数元素 方法一 HashMap 每个值初始value都为1 每重复一次 value 1 最后
  • 深度学习部署:Triton(Triton inference server)【旧称:TensorRT serving,专门针对TensorRT设计的服务器框架,后来变为Triton,支持其他推理后端】

    triton作为一个NVIDIA开源的商用级别的服务框架 个人认为很好用而且很稳定 API接口的变化也不大 我从2020年的20 06切换到2022年的22 06 两个大版本切换 一些涉及到代码的工程变动很少 稍微修改修改就可以直接复用 很
  • Java导出数据库查询结果为excel和csv的简易实现

    转载请注明来源 作者 loongshawn http blog csdn net loongshawn article details 53457953 建议读者阅读原文 确保获得完整的信息 1 背景 最近在应对一个数据查询导出模块 总体要
  • 使用ESP32开发LVGL

    基础概念 LVGL 在ESP32上使用版本差别是比较大的 主要有V7和V8的区别 具体应该是适配性以及一些比较高级的控件 相较而言感觉V7会更加稳定 在ESP32移植的话可以参考这个链接 但是其中也有一些小细节需要注意 具体注意点 首先如果
  • Python Selenium其他使用方法

    知识点 掌握selenium控制标签页的切换 掌握selenium控制iframe的切换 掌握 利用selenium获取cookie的方法 掌握 手动实现页面等待 掌握 selenium控制浏览器执行js代码的方法 掌握selenium开启
  • EDA笔记(1)--VHDL语言

    目的 摘录点自己容易忘的知识点 也可以供读者参考学习 EDA技术的概念 工作平台 计算机 开发环境 EDA软件 设计语言 硬件描述语言 HDL 试验载体 可编程逻辑器件 PLD 目标器件 ASIC芯片 应用方向 电子系统设计 EDA应用领域
  • LVM磁盘挂载&扩容

    磁盘不够了怎么使用逻辑卷的方式扩充磁盘呢 因为之前踩过坑 用混了fdisk和mount挂载 这次梳理下LVM挂盘和扩容方式 下载lvm2 预先下载程序包 若已下载则忽略 yum y install lvm2 离线下载可上腾讯软件源把rpm包
  • mysql数据库

    索引相当于字典的目录 用于查找数据 一般用B Tree索引 用该种数据结构来存储索引 InnoDB mysql的存储引擎 支持事务安全的引擎 支持外键 行锁 事务是他的最大特点 如果有大量的update和insert 转载于 https w
  • 玩转ChatGPT:Code interpreter (vol. 1)

    一 写在前面 喜大普奔 GPT 4传说中的Code interpreter插件已经可以用了 二 什么是Code interpreter 代码解释器 Code Interpreter 是一个工具 它能够读取和执行编程代码 这里有几个主要的功能