OL-CC：首个众包形式、人工生成的开源中文对话指令集

2023-10-27

数据是训练大模型必不可少的“燃料”，但目前的数据集由不同的机构构建，存储分散，难以整合；高质量数据集的建设成本高昂。当前由于商业竞争等原因，导致数据上形成了各自为战的局面，大家无法将分散的数据整合到一起发挥更大的作用。

2 月底，智源研究院发布了“OpenLabel数据飞轮”计划，旨在打造一个开源数据平台，汇聚多方力量，打破数据壁垒，克服大模型创新过程中的数据难题，推动中国大模型创新进程。

“OpenLabel数据飞轮”第一期专注于中文对话指令集建设，号召来自不同专业领域、教育背景、年龄层次的志愿者参与数据贡献。在过去 3 个月时间内，276 位志愿者通过 openlabel.baai.ac.cn 开放平台，完成了以下任务：a) 扮演人类用户向AI助手发出指令，b) 扮演AI助手根据上文指令撰写回答。

智源现将志愿者的贡献整理成为首个以众包方式、人工生成的开源中文对话指令集：OpenLabel-Chinese Conversations dataset (OL-CC) 。

OL-CC 包含 10k+ “指令-回答”数据对和 1.6k+ 人工指令数据。指令类型丰富，包括问答任务、文本写作、文本抽取、编辑改写、分类选择、头脑风暴、闲聊对话、逻辑&数学等任务。
根据收集到的 63 份志愿者调研问卷，志愿者男女比例约为 2:1；年龄从“18岁以下”到“40-50岁”均有分布，主要集中在“19-24岁”区间；教育程度方面，硕士及以上学历占 59%。

OL-CC 数据集已开放下载

https://data.baai.ac.cn/details/OL-CC

感谢所有276位志愿者的贡献！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

OL-CC：首个众包形式、人工生成的开源中文对话指令集的相关文章

MYSQL中的CREATE TEMPORARY TABLE

Posted on 八月 19 2008 by arrowpig1979 记录一下今天的一个BUG FIXING 早上收到一个BUG 说有一个到模块A的调用B 多执行几次以后就会出错错误信息显示SQL ERROR 因为CDC SBE就我最
Parker - 最高效的自动标注工具

http www getmarkman com http www cutterman cn zh parker
vue3时间插件——Moment.js使用

在日期时间这一块在js中是有体现的但是用起来不是特别方便尤其是在vue框架中我们也不可能去那样使用显得很笨拙麻烦所以给大家这次带来一个好用的时间插件就是Moment时间插件很小巧使用也方便也兼容vue3 下面来详细介绍一下
网络层：IP协议

本博文分享的是网络层的IP协议从IP协议的基本概念协议格式开始分析并分享出来 IP协议的基本概念不同于讨论TCP UDP时只讨论通信主机之间的关系在讨论IP协议中会加上主机之间的网络来一起进行讨论分析主机一般配有IP地址路由
【vision transformer】LETR论文解读及代码实战（一）

LETR Line Segment Detection Using Transformers without Edges 基于vision transformer DETR 提取wireframe的网络框架截止日前实现了sota性能论文
C3P0连接池的断开自动重联功能

问题背景 Java后台日志发现Error updating database Cause com mysql jdbc exceptions jdbc4 CommunicationsException Communications link
跨域问题（CORS / Access-Control-Allow-Origin）

1 前言最近在项目中调用Eureka REST接口时出现了CORS跨越问题 Cross origin resource sharing 在此与大家进行分享避免多走些弯路项目前端 http localhost 9000 通过Ajax
python对Json文件的操作

深层嵌套的Json 使用方式传递的是json转成str后的json data finder JsonPathFinder json data 寻找所有的cursor字段 path list finder finder find all c
React:阻止默认事件

在html页面中直接通过return false即可阻止默认事件 a href 点击 a 而在react中需要使用e preventDefault function PreventDe return a href console log 阻
C++11 -- lambda表达式

文章目录 lamaba表达式的引入 lambda表达式语法 lamabda达式各部分说明捕获列表说明 lamaba表达式底层原理探索 lamaba表达式的引入在C 11之前如果我们想对自定义类型Goods排序可以根据姓名价格学号
git 代码不同版本的对比（IDEA）

一和远程文件进行对比开发过程中我们经常需要在版本的基础上对比和上个版本的代码的区别那使用IDEA工具如何对比提交的不同的版本代码呢打开我们项目的代码以GIT版本控制为例找到需要比较的类右键点击类会弹出如下的选项选择git
攻防世界ctf-misc-新手联系区-1

攻防世界ctf misc 新手联系区 1 签到题比较简单 Most flags are in the form flag xxx for example flag th1s s a d4m0 4la9 flag th1s s a d4m0
excel求方差和标准差的函数_Excel标准差_计算函数Stdev和StdevP的使用方法

Excel标准差计算函数Stdev和StdevP的使用方法 Excel标准差核算共有六个函数它们分别用于核算样本标准差和整体标准差其间一些函数只能核算数值另一些函数除能核算数值外还能核算文本和逻辑值另外假如要求核算满足指定条件的
STM32F1----TIM_GENERAL

1 通用定时器PWM模式初始化流程 lt 1 gt 建立GPIO 时基输出比较结构体 GPIO InitTypeDef GPIO InitStructure TIM TimeBaseInitTypeDef TIM TimeBaseStru
软件项目管理 3.5.敏捷生存期模型

前言大家好这节我们学习敏捷模型前面介绍的几种生存期模型在实际应用过程中遇到的一些挑战有时不能很好地适应需求的快速变化为此软件界比较流行敏捷生命期模型一敏捷模型敏捷宣言价值观原则和通用实践之间的关系敏捷模型符合敏捷宣言
CNN的重点整理

1 常用的非线性激活函数 sigmoid tanh relu等等前两者sigmoid tanh比较常见于全链接层后者relu常见于卷积层这里先简要介绍下最基础的sigmoid函数 btw 在本博客中SVM那篇文章开头有提过 sigmo
染色——差分数组板子题

问题描述有编号为0到M 的 M 1 个格子现在有N个操作 x y 表示将从x 到 y的格子染色问一共有多少个格子被染色输入第一行两个整数分别表示N和M 接下来有N行每行两个整数分别表示x和y 输出输出一个整数表示有多少个
[YOLO专题-12]：YOLO V5 - ultralytics支持的5种不同规模的模型类型比较

作者主页文火冰糖的硅基工坊文火冰糖王文兵的博客文火冰糖的硅基工坊 CSDN博客本文网址 https blog csdn net HiWangWenBing article details 122294915 目录 1 概述 2
VR引擎哪家强?主流VR开发引擎大起底

转载自 http www hiavr com news tech 22826 html ref myread 在VR浪潮面前 Unreal Unity CryENGINE各大游戏引擎纷纷跟进都决心抓住这个绝无仅有的机会一举奠定自己的江湖
AutoML-A survey of the state-of-the art翻译+总结

AutoML A Survey of the State of the Art Abstract 深度学习 DL 技术已经渗透到我们生活的各个方面给我们带来了极大的方便然而为特定任务构建高质量的DL系统高度依赖于人类的专业知识这阻碍

随机推荐

Docker 镜像基本命令操作

目录标题 Docker 镜像基本命令操作一 Docker 安装二镜像操作 Docker 镜像基本命令操作一 Docker 安装 Docker要求运行在Centos 7上要求系统为64位系统内核版本3 10以上 1 uname a
鸿蒙os更新名单,鸿蒙系统首批升级名单华为鸿蒙系统升级机型名单时间表

2021年6月2日在这天华为公布了一直津津乐道的鸿蒙系统并且推出了HarmonyOS2百机升级计划一共是分为四个阶段来进行升级很多朋友还不清楚升级的机型名单和时间都是多少下面就来为大家分享一下第一批升级名单 6月2日就可以升级
单电源运放滤波器设计

在很多情况中为了阻挡由于虚地引起的直流电平在运放的输入端串入了电容这个电容实际上是一个高通滤波器在某种意义上说像这样的单电源运放电路都有这样的电容设计者必须确定这个电容的容量必须要比电路中的其他电容器的容量大 100倍以上
模拟开关选型、多路复用器选型

只列举常用的芯片均出自TI ADI SGM Nexperia等国产只考虑CH 泌恒个人整理 tb均能买到如有纰漏欢迎纠错
残差网络、Dropout正则化、Batch Normalization浅了解

残差网络为什么需要残差网络残差网络的目的是为了解决深度神经网络在训练过程中遇到的退化问题即随着网络层数的增加训练集的误差反而增大而不是过拟合残差网络的优点有以下几点残差网络可以有效地缓解梯度消失或爆炸的问题因为跳跃连接可以提
Python中如何将浮点型数据转换成整型

在 Python 中可以使用内置函数 int 将浮点型数据转换为整型例如 a 3 14 b int a print b 输出结果为 3 注意转换为整型时会将浮点数四舍五入到最接近的整数
Android 创建淡入淡出动画的详解

博主前些天发现了一个巨牛的人工智能学习网站通俗易懂风趣幽默忍不住也分享一下给大家点击跳转到网站介绍淡入淡出动画也称为叠化逐渐淡出一个 View 或 ViewGroup 同时淡入另一个此动画适用于您希望在应用中切换内容或视
华为机考创建二叉树 javascript

请按下列描达构建一颗二叉树并返回该树的根节点 1 先创建值为 1的根结点根节点在第0层 2 然后根据operations依次添加节点 operations i height index 表示对第 height 层的第index 个节点n
适合小白入门Spark的全面教程

问题导读1 spark有哪些使用场景 2 spark有包含哪些组件 3 spark在哪些厂商已经应用 4 spark如何实现地震检测 Apache Spark是一个用于实时处理的开源集群计算框架它是Apache软件基金会中最成功的项目 S
python学习3. 无重复字符的最长子串(滑动窗口)

makcooo 2019 04 19 15 47 32 271 收藏分类专栏 python 版权给定一个字符串请你找出其中不含有重复字符的最长子串的长度示例 1 输入 abcabcbb 输出 3 解释因为无重复字符的最长子串是
impala对元数据的界面更新操作

执行 impala shell 即能进入界面操作sql 如果在hive更新了数据之后而在impala中却无法看到更新后的数据的话意味着impala里元数据信息还没有刷新此时在impala操作界面里执行 invalidate meta
随机数生成方法及其应用

目录一前言二伪随机数发生器介绍三均匀随机数发生器四任意概率分布的随机数发生器五产生特定要求的随机数六参考资料一前言最近公司的一个项目需要对一个功能模块进行性能验证具体什么模块就不说了验证过程中需要生成大量
2022 年 5 个新 sudo 功能

导读最近的 sudo 版本增加了新的功能使你能够观察和控制以前隐藏的问题当你想授予你的一些用户管理权限同时控制和检查他们在你的系统上做什么时你会使用 sudo 然而即使是 sudo 也有相当多不可控的地方想想给予 shell
G1收集器特质以及分代理论

特征被视为JDK1 7以上版本Java虚拟机的一个重要进化特征它具备以下特点并行与并发 G1能充分利用CPU 多核环境下的硬件优势使用多个CPU CPU或者CPU核心来缩短Stop The World停顿时间部分其他收集器原本需
3dsmax Node Event System

Node Event System 3dsmax 节点事件系统 https help autodesk com view MAXDEV 2022 ENU guid GUID 7C91D285 5683 4606 9F7C B8D3A7CA5
Linux网络——PXE高效批量网络装机

Linux网络 PXE高效批量网络装机一 PXE远程安装服务 1 PXE批量部署的优点 2 搭建PXE网络体系的安装条件二 PXE 安装进行前的配置 1 PXE装机所需的文件 2 搭建 PXE 过程中使用的服务和程序 DHCP服务 vs
Linux上安装JDK、mysql、tomcat，以及将springboot项目部署到Linux上

安装jdk 1下载jdk并放入linux系统 2解压 mkdir usr local java 创建文件夹等下就将jdk解压到这里 tar zxvf jdk 8u181 linux x64 tar gz C usr local java
最新模拟登录12306（破解12306验证码）

最新模拟登录12306 破解12306验证码重点对12306验证码的破解仅供学习交流请勿 1 找到验证码的图片信息 2 点开headers查看不难发现是经过base64加密的图片但是没有请求的url 3 再查看分析发现上面的一
时序预测

时序预测 Matlab实现CNN XGBoost卷积神经网络结合极限梯度提升树时间序列预测目录时序预测 Matlab实现CNN XGBoost卷积神经网络结合极限梯度提升树时间序列预测效果一览基本描述程序设计参考资料效果一览
OL-CC：首个众包形式、人工生成的开源中文对话指令集

数据是训练大模型必不可少的燃料但目前的数据集由不同的机构构建存储分散难以整合高质量数据集的建设成本高昂当前由于商业竞争等原因导致数据上形成了各自为战的局面大家无法将分散的数据整合到一起发挥更大的作用 2 月底智源研究院发布

OL-CC：首个众包形式、人工生成的开源中文对话指令集

OL-CC：首个众包形式、人工生成的开源中文对话指令集 的相关文章

随机推荐

热门标签

OL-CC：首个众包形式、人工生成的开源中文对话指令集的相关文章