数据是训练大模型必不可少的“燃料”,但目前的数据集由不同的机构构建,存储分散,难以整合;高质量数据集的建设成本高昂。当前由于商业竞争等原因,导致数据上形成了各自为战的局面,大家无法将分散的数据整合到一起发挥更大的作用。
2 月底,智源研究院发布了“OpenLabel数据飞轮”计划,旨在打造一个开源数据平台,汇聚多方力量,打破数据壁垒,克服大模型创新过程中的数据难题,推动中国大模型创新进程。
“OpenLabel数据飞轮”第一期专注于中文对话指令集建设,号召来自不同专业领域、教育背景、年龄层次的志愿者参与数据贡献。在过去 3 个月时间内,276 位志愿者通过 openlabel.baai.ac.cn 开放平台,完成了以下任务:a) 扮演人类用户向AI助手发出指令,b) 扮演AI助手根据上文指令撰写回答。
智源现将志愿者的贡献整理成为首个以众包方式、人工生成的开源中文对话指令集:OpenLabel-Chinese Conversations dataset (OL-CC) 。
OL-CC 数据集已开放下载
https://data.baai.ac.cn/details/OL-CC
感谢所有276位志愿者的贡献!