Kaggle 赛题解析 | AMP 帕金森进展预测

2023-05-16

文章目录

  • 一、前言
  • 二、比赛说明
    • 1. Evaluation
    • 2. Timeline
    • 3. Prize
    • 4. Code Requirements
  • 三、数据说明
  • 四、总结

🍉 CSDN 叶庭云https://yetingyun.blog.csdn.net/


一、前言

竞赛题目:AMP®-Parkinson’s Disease Progression Prediction

竞赛地址:https://www.kaggle.com/competitions/amp-parkinsons-disease-progression-prediction

竞赛目标:本次比赛的目标是预测 MDS-UPDR 评分,该评分用于测量帕金森患者的病情进展。运动障碍学会赞助的统一帕金森病评分量表修订版 (MDS-UPDRS) 是对与帕金森病相关的运动和非运动症状的全面评估。您将开发一个模型,该模型以帕金森患者和正常同龄对照组中的蛋白质和肽水平随时间变化的数据为基础进行训练。您的工作可能有助于提供关于哪些分子在帕金森疾病进展过程中发生变化的重要突破性信息。

竞赛背景:

  • 帕金森病是一种致残的脑部疾病,影响运动、认知、睡眠和其他正常功能。不幸的是,目前还没有治愈方法,而且病情会随着时间的推移而恶化。据估计,到 2037 年,美国将有 160 万人患上帕金森病,经济成本将接近 800 亿美元。研究表明,蛋白质或肽异常在该病的发病和恶化中起着关键作用。通过数据科学更好地理解这一点,可能为开发减缓帕金森病发展甚至实现治愈的新型药物提供重要线索
  • 目前的努力已经获得了 10000 名受试者的复杂的临床和神经生物学数据,以便与研究社区广泛共享。使用这些数据已经发现了一些重要的发现,但仍缺乏明确的生物标志或治愈方法
  • 竞赛主办方——加速药物合作伙伴关系®帕金森病 (AMP®PD) 是由政府、工业界和非营利组织组成的公私合作伙伴关系,通过美国国立卫生研究院基金会 (FNIH) 进行管理。该合作伙伴创建了 AMP®PD 知识平台,其中包括对帕金森病患者进行深度分子特征化和纵向临床分析,旨在确定和验证帕金森病的诊断、预后和 / {/} /或疾病进展生物标志物。
  • 您的工作可能有助于寻找治愈帕金森病的方法,从而减轻患者的巨大痛苦和医疗费用。

二、比赛说明

1. Evaluation

提交的作品将根据预测值和实际值之间的 SMAPE 进行评估。我们定义当实际值和预测值均为 0 时,SMAPE = 0。对于每次采集蛋白质/肽样本的病人就需要估算他们在该次访问时的 UPDRS 评分,并预测他们在可能的 6、12 和 24 个月后的任何访问中的评分。最终没有实现的访问的预测将被忽略。

您必须使用提供的 Python 时间序列 API 提交到这个竞赛,该 API 可以确保模型不向前窥视时间。要使用 API,请在 Kaggle Notebooks 中遵循此模板:

import amp_pd_peptide

env = amp_pd_peptide.make_env()             # initialize the environment
iter_test = env.iter_test()                 # an iterator which loops over the test files

for (test, test_peptides, test_proteins, sample_submission) in iter_test:
    sample_prediction_df['rating'] = np.arange(len(sample_prediction))       # make your predictions here
    env.predict(sample_prediction_df)       # register your predictions

2. Timeline

除非另有说明,所有截止日期均为当天 UTC 时间晚上 11:59。竞赛组织者保留更新比赛时间表的权利,如果他们认为有必要的话。

  • 2023 年 2 月 16 日 - 开始日期。
  • 2023 年 5 月 11 日 - 报名截止日期。您必须在此日期之前接受竞赛规则才能参加比赛。
  • 2023 年 5 月 11 日 - 团队合并截止日期。这是参与者加入或合并团队的最后一天。
  • 2023 年 5 月 18 日 - 最终提交截止日期。

3. Prize

  • 第 1 名 - 25,000 美元
  • 第 2 名 - 20,000 美元
  • 第 3 名 - 15,000 美元

4. Code Requirements

这是一场代码竞赛。竞赛作品必须通过 Notebooks 提交。为了使 “提交” 按钮在提交后处于活动状态,必须满足以下条件:

  • CPU Notebook <= 9小时运行时间。
  • GPU Notebook <= 9小时运行时间。
  • 禁用互联网访问。
  • 允许使用自由和公开可用的外部数据,包括预训练模型。
  • 提交文件必须命名为 submission.csv。API 将为您生成此提交文件。

请参阅 Code Competition FAQ 以获取有关如何提交的更多信息。如果遇到提交错误,请查看代码调试文档。


三、数据说明

本次竞赛的目标是利用蛋白质丰度数据预测帕金森病 (PD) 的病程。PD 涉及的完整蛋白质组仍然是一个开放的研究问题,任何具有预测价值的蛋白质都值得进一步研究。数据集的核心包括从数百名患者的脑脊液 (CSF) 样本中获得的质谱读数导出的蛋白质丰度值。每个病人在多年的时间内贡献了多个样本,同时还进行了 PD 严重程度的评估。

本次竞赛是一个时间序列的代码竞赛:您将收到测试集数据,并使用 Kaggle 的时间序列 API 进行预测。

train_peptides.csv 是蛋白质质谱数据在肽水平上的表现形式,肽是蛋白质的组成部分。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码,通常每个蛋白质有几个肽。
  • Peptide - 肽中所包含的氨基酸序列。请参考此表格中的相关代码。一些罕见的注释可能未包含在表格中。测试集可能包含在训练集中未发现的肽
  • PeptideAbundance - 样品中氨基酸的频率。

train_proteins.csv 是从肽水平数据聚合的蛋白质表达频率。

  • visit_id - 访问的ID代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • UniProt - 相关蛋白质的 UniProt ID 代码。通常每个蛋白质有几个肽。测试集可能包含在训练集中未发现的蛋白质。
  • NPX - 经过归一化的蛋白质表达。该蛋白质在样本中出现的频率。可能与组成肽的氨基酸并非一对一的关系,因为某些蛋白质包含重复的给定肽片段

train_clinical_data.csv 是临床相关的数据。

  • visit_id - 访问的 ID 代码。
  • visit_month - 访问月份,相对于该病人的第一次访问而言。
  • patient_id - 病人的 ID 代码。
  • updrs_[1-4] - 统一帕金森病评分量表 (UPDRS) 第 N 部分的病人得分。较高的分数表示症状更为严重。每个子部分涵盖不同的症状类别,例如第 1 部分涵盖情绪和行为,第 3 部分涵盖运动功能。
  • upd23b_clinical_state_on_medication - 病人在 UPDRS 评估期间是否服用 Levodopa 等药物。预计主要影响第 3 部分(运动功能)的得分。这些药物的效果相当快(约为一天),因此病人在一个月内常常会两次接受运动功能测试,一次在服用药物的情况下,一次在未服用药物的情况下。

supplemental_clinical_data.csv 是没有任何跟脑脊液样本相关的临床记录。该数据旨在提供关于帕金森病的典型进展的额外背景。与 train_clinical_data.csv 相同的列。

example_test_files/ 里的文件旨在说明 API 功能的数据,包括 API 提供的相同列(即没有 updrs 列)。

amp_pd_peptide/ 里的文件使 API 能够运行。预计 API 能够在不到五分钟的时间内提供所有数据(少于 1000 个额外病人),并保留少于 0.5 GB 的内存。这里提供了 API 提供的简短演示。

public_timeseries_testing_util.py 是一个可选文件,旨在使自定义离线 API 测试更容易运行。有关详细信息,请参阅脚本的 docstring。


四、总结

竞赛题目:使用帕金森病患者的蛋白质和肽数据测量来预测疾病的进展

竞赛类型:数据挖掘、时间序列、回归预测

关键词:时间序列、帕金森进展预测、生物信息、数据分析、机器学习

在这里插入图片描述

赛题是一个典型的结构化数据预测赛题,拥有多张表,且是以患者作为样本,多了解一些相关的专业知识更好。

在解决题目时,需要考虑:

  • 支持多维输入的时序预测模型。
  • 模型训练和预测速度,以及可解释性。
  • 模型泛化性和鲁棒性。
  • 根据样本个数,应该是树模型和基础时序模型为主要的预测模型。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kaggle 赛题解析 | AMP 帕金森进展预测 的相关文章

  • Python

    人机交互 1 input 是输入函数 xff0c 会将所有输入做一个字符串类型的处理 a 61 input 作用 xff1a 显示出括号内的东西 xff0c 并要求用户输入一个东西 xff0c 赋给a 如果要有输入提示 xff0c 要在括号
  • PHP学习笔记——wampserver安装步骤

    1 wampserver的安装 安装链接 xff1a wampserver安装链接 选择 64 exe为后缀的安装包 xff08 前提是64位系统机器 xff09 选择语言 xff1a English 同意协议 next 选择安装路径 ne
  • 微博粉丝走势监控

    前言 因为之前写过很多爬虫 xff0c 然后近期也是选秀节目比较多 xff0c 像创造营 xff0c 青春有你等 一般情况下微博粉丝的增长速度是节目组比较关注的数据之一 因此 xff0c 想做一个简单的粉丝监控平台 xff0c 话不多说 x
  • ubuntu系统下各个目录的一般作用

    1 这是根目录 xff0c 一个Ubuntu系统下只有一个根目录 2 root 系统管理员的目录 3 boot 系统启动文件 4 bin 存放系统程序 5 etc 存放系统配置方面的文件 6 dev 存放与设备有观点文件 xff0c 例如
  • C/C++中枚举类型enum使用

    1 说明 xff1a 枚举enum的出现 xff0c 主要是为了解决一些特定属性的赋值 xff0c 变量取值仅在一定有限范围内的问题 例如一年只有十二个月取值 xff0c 一个星期只有七天情况 xff0c 人的性别只有男女两种等 这些属性如
  • Matlab中save实现保存数据到mat文件的正确使用

    主要需要注意save savePath A 和 save savePath 39 KSD 39 两种写法的区别 1 普通保存在当前文件夹下 save matPath mat span class hljs literal A span B
  • C/C++笔试必须熟悉掌握的头文件系列(三)——stdlib.h/cstdlib

    1 说明 stdlib h 头文件即标准库头文件 xff08 standard library xff09 xff0c stdlib 头文件里包含了C语言的最常用的系统函数 而C 43 43 中有对应相同作用的 cstdlib 头文件 xf
  • matlab图像类型转换以及uint8、double、im2double、im2uint8和mat2gray等说明

    1 matlab图像保存说明 matlab中读取图片后保存的数据是uint8类型 8位无符号整数 xff0c 即1个字节 xff0c 以此方式存储的图像称作8位图像 xff0c 好处相比较默认matlab数据类型双精度浮点double xf
  • PyCharm安装第三方库如Requests

    PyCharm安装第三方库是十分方便的 xff0c 无需pip或其他工具 xff0c 平台就自带了这个功能而且操作十分简便 如下 xff1a 注 xff1a 本人PyCharm已汉化 xff0c 若是英文版按括号中英文指示操作即可 1 打开
  • 关于django的ORM查询出来的数据格式的转换:OrderedDict类型转换为list;serializers序列化器配置字段可以为null

    目录 一 django查询的结果的类型是 xff1a OrderedDict类型 xff0c 如下 xff1a 二 serializers序列化器配置字段可以为null 一 django查询的结果的类型是 xff1a OrderedDict
  • pyCharm上解决安装不上pandas库问题

    最近在PyCharm上安装pandas库的时候 xff0c 总是安装不上 xff0c 提示好像是pip除了错误 我使用的是python 3 4版本 最后判断应该是自己pip版本应该太旧了 xff0c 最后再cmd更新了pip之后就行了 如下
  • 详细图解哈夫曼Huffman编码树

    1 引言 哈夫曼 xff08 Huffman xff09 编码算法是基于二叉树构建编码压缩结构的 xff0c 它是数据压缩中经典的一种算法 算法根据文本字符出现的频率 xff0c 重新对字符进行编码 因为为了缩短编码的长度 xff0c 我们
  • matlab生成随机数的rand、randi和randn三种形式

    matlab中关于随机数的产生有3种库函数 xff0c 下面我们来看看它们的形式 xff1a 1 rand 它是生成0 1之间 xff08 开环 xff0c 不包含0和1两个数 xff09 均匀分布的伪随机数 xff0c 也就是无穷次试验其
  • Linux解压tar.gz和tar.bz2的命令

    两者的命令主要是参数的不同 xff0c 解压tar gz和tar bz2不同压缩文件的命令如下 xff1a 1 解压tar gz文件 tar zxvf span class hljs preprocessor tar span span c
  • C/C++枚举enum分别打印输出枚举子和枚举值的方法

    关于枚举枚举的基础概念我这里不再介绍 xff0c 感兴趣的同学可以查阅另一篇博文C C 43 43 中枚举类型enum使用 这里我主要提一下在调试一个大型程序中遇到日志打印中一个关于枚举输出的小错误 我们知道枚举分为枚举子和枚举值 xff0
  • C++程序抛出异常后执行顺序

    1 析构函数中是否可以抛出异常 首先我们看一个常见的问题 xff0c 析构函数中是否可以抛出异常 答案是C 43 43 标准指明析构函数不能 也不应该抛出异常 xff01 C 43 43 异常处理模型是为C 43 43 语言量身设计的 xf
  • Go语言变量的生命周期

    1 变量的生命周期 生命周期是指程序执行过程中变量存在的时间段 下面我们分别来看看包变量 xff08 全局变量 xff09 和局部变量两种变量的生命周期 包变量一直常驻在内存到程序的结束 xff0c 然后被系统垃圾回收器回收 也就是说包变量
  • Linux下修改gcc和g++的版本

    xff11 前言 最近 xff0c 自己在linux调试matlab的mex的时候 xff0c 突然发现matlab R2015版本对应的mex适配环境是gcc 4 7 xff0c 而自己ubuntu的Linux对应版本默认却是gcc 4
  • ubuntu配置安装Qt4.8.4 同时配置openssl和QtWebkit

    ubuntu配置安装Qt4 8 4 这里要说明的几点 xff0c 首先项目中要用到openssl支持的在配置Qt环境时首先要安装配置openssl xff1b 其次如果要用到Qt的QtWebkit的一定要主要在配置中一定要有配置这个模块 Q
  • error LNK1104: 无法打开文件“kernel32.lib”错误 Visual Studio 2017解决办法

    出现这种情况可能是在x86下或者x64下 解决办法 视图 gt 其他窗口 gt 属性管理器 xff08 这里默认所有项目都存在该问题 xff0c 对所有vs属性设置进行调整 xff09 可以看到其中有Win32 xff08 即为x86 xf

随机推荐