Learn to Explain: Multimodal Reasoning viaThought Chains for Science Question Answering科学问答的思维链

2023-12-19

关于 ScienceQA

模仿回答 ScienceQA 问题时的多跳推理过程。 ScienceQA 展示了以下功能的实用性语言模型中的 CoT，因为 CoT 在少样本 GPT-3 中将问答性能提高了 1.20% 微调的 UnifiedQA 中为 3.99%。 思想链 (CoT) 。我们进一步设计语言模型学习生成讲座和解释作为解释和讲座主题和他们的答案注释以及相应的科学，这是一个新的基准由约 21k 多模态多项选择问题组成，其中包含一组不同的 科学问答 (ScienceQA)

ScienceQA 数据集

ScienceQA 是从小学和高中科学课程中收集的，包含 21,208 个多模态科学多项选择题。在 ScienceQA 的问题中，10,332 个 (48.7%) 有图像上下文，10,220 个 (48.2%) 有文本上下文，6,532 人 (30.8%) 两者都有。大多数问题都附有接地讲座（83.9%）和详细解释（90.5%）。讲座和解释提供分别得出正确答案的一般外部知识和具体原因。据我们所知，ScienceQA 是第一个大规模多模式数据集，用于注释讲座和答案解释。

等）。 ScienceQA 具有 26 个主题、127 个类别和 379 项技能，涵盖广泛的领域。 识别非洲国家 、 将水果和蔬菜分类为植物部分 、等），最后通过技能（动物、细胞、植物等），然后按类别（化学、 物理学 、 生物学 。每个主题中的问题首先按主题分类 ( 社会科学 ，以及 语言科学 ， 自然科学

。可视化并探索

。 github 存储库（Google 云端硬盘），或查看我们的科学质量保证执照。您可以从以下位置下载我们的数据集 CC BY-NC-SA（署名-非商业性-相同方式共享）

中提供！ HuggingFace 数据集

方法

我们通过思想链 (CoT) 构建一个小样本 GPT-3 模型，提示生成随后的答案通过讲座和解释。

少样本 GPT-3 模型 (CoT) 在 ScienceQA 上达到了 75.17% 的最先进准确率。一个预测示例如下所示。我们可以看到GPT-3（CoT）预测正确答案并生成合理的讲座和解释来模仿人类思考过程。

中报告页。 Leaderboard

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

LVLM幻觉

计算机视觉

人工智能

Learn to Explain: Multimodal Reasoning viaThought Chains for Science Question Answering科学问答的思维链的相关文章

【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【信道估计】【MIMO】【FBMC】未来移动通信的滤波器组多载波调制方案（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【多源数据融合】基于Dempster-Shafer理论的信念对数相似度测量及其在多源数据融合中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
【图像融合】基于联合双边滤波和局部梯度能量的多模态医学图像融合研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码图像文章
【路径规划】基于A*算法路径规划研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
蒙特卡洛在发电系统中的应用（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
基于java的ssh医院在线挂号系统设计与实现

基于java的ssh医院在线挂号系统设计与实现 I 引言 A 研究背景和动机基于Java的SSH医院在线挂号系统设计与实现的研究背景和动机随着信息技术的迅速发展和应用医院在线挂号系统已成为医院管理的重要组成部分传统的挂号方式存在许多
利用CHAT上传文件的操作

问CHAT autox js ui 上传框 CHAT回复上传文件的操作如果是在应用界面中的话由于Android对于文件权限的限制你可能不能直接模拟点击选择文件一般来说有两种常见的解决方案一种是使用intent来模拟发送一个文件路径
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
作物叶片病害识别系统

介绍由于植物疾病的检测在农业领域中起着重要作用因为植物疾病是相当自然的现象如果在这个领域不采取适当的护理措施就会对植物产生严重影响进而影响相关产品的质量数量或产量植物疾病会引起疾病的周期性爆发导致大规模死亡这些问题需要在初
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
史上最全自动驾驶岗位介绍

作者自动驾驶转型者编辑汽车人原文链接 https zhuanlan zhihu com p 353480028 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心求职交流技术交流群本
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
国产化率100%，北斗导航单日定位4500亿次，外媒：GPS将被淘汰

追赶30年的技术差距国产卫星导航系统北斗开始扬眉吐气数据显示北斗导航目前单日定位量达4500亿次已经获得100多个国家的合作意向甚至国际民航也摒弃以往独宠 GPS的惯例将北斗纳入参考标准对此有媒体直言 GPS多年来的技
深度学习(5)--Keras实战

一 Keras基础概念 Keras是深度学习中的一个神经网络框架是一个高级神经网络API 用Python编写可以在TensorFlow CNTK或Theano之上运行 Keras优点 1 允许简单快速的原型设计用户友好性模块化和可扩
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
对中国手机作恶的谷歌，印度CEO先后向三星和苹果低头求饶

日前苹果与谷歌宣布合作发布了 Find My Device Network 的草案旨在规范蓝牙追踪器的使用在以往苹果和谷歌的生态形成鲜明的壁垒各走各路如今双方竟然达成合作发生了什么事首先是谷歌安卓系统的市场份额显著下滑数年来

随机推荐

教学案例十二文件处理

第1关读取唐诗文件并根据诗人建立多个文件夹任务描述本关任务相关知识为了完成本关任务你需要掌握 1 如何判断文件夹是否存在 2 如何建立文件夹文件及文件夹的管理 os模块 os模块为系统内置模块提供了对系统环境文件目录等
解决虚拟机报错：当前硬件版本不支持设备“nvme”。

报错内容如下图所示当前硬件版本不支持设备 nvme 未能启动虚拟机我们首先在帮助里面查看VMware的版本我这里是16 打开报错的虚拟机文件夹找到镜像文件 vmx文件使用记事本文本编辑器打开找到 virtualhw vers
Moonbeam生态项目分析 — — 跨链借贷协议Orbiter One

概览 Orbiter One 是一个非托管的借贷协议和DeFi中心专注于跨链互操作性通过使用从借贷中赚取的ORB Token铸造的Intergactic Whiskers Brigade NFT 用户可以质押并获得额外奖励借贷和跨链存
办公软件将HTML批量转为PDF并一键修改PDF内容，PDF软件助力成为PDF编辑达人

在数字时代 HTML和PDF已经成为两种非常流行的文档格式 HTML是一种用于创建网页的标记语言而PDF则是一种用于创建可打印和可查看的文档的格式然而有时候我们需要将HTML文档转换为PDF格式或者需要修改PDF文档的内容这时首
思科认证 | CCNA网络工程师有必要考吗？

网络工程师这个职业也变得越来越炙手可热作为一名职场新人拥有一个思科认证无疑会让你在求职或升职的道路上更具竞争力那么 CCNA网络工程师有必要考吗下面我们就来了解一下吧 01 CCNA网络工程师有必要考吗 1 职业竞争力够吗在当今
LeetCode 1901. 寻找峰值 II

一题目 1 题目描述一个 2D 网格中的峰值是指那些严格大于其相邻格子上下左右的元素给你一个从 0 开始编号的 m x n 矩阵 mat 其中任意两个相邻格子的值都不相同找出任意一个峰值 mat i j
TaskDecatator用法

在Spring框架中 TaskDecorator 是一个接口它可以用来自定义由 ThreadPoolTaskExecutor 或其他任务执行器管理的任务的装饰行为这通常用于在执行任务之前和之后添加某些上下文相关的行为比如设置线程上下文
2023长三角（芜湖）人工智能数字生态峰会成功召开！

聚焦当下共议数字时代发展瞩目未来共谋数字生态蓝图 12月11日 2023长三角芜湖人工智能数字生态峰会暨2023长三角芜湖人工智能视觉算法大赛颁奖典礼在芜湖宜居国际博览中心盛大召开本次大会是由安徽省数据资源管理局安徽省科学
【学习】python字典排序

面临的任务是在字典的键key中存储文件地址在值value中存储图片是某物的概率之后找出概率最大的那一对儿输出地址 prices ACME 45 23 AAPL 612 78 IBM 205 55 HPQ 37 20 FB 10 75
百校保研数据解析会，助你打破保研信息差！

写在前面每年保研季我们总会发现有一些平常学业上很优秀的同学意外落榜或是没有拿到推免资格或是没有去到心仪的院校在这些落榜的同学中我们常常会听到这样的抱怨我都不知道xx院也可以报名原来xx项目直通夏令营显然这样的失误纯粹是
教师工作内容和职责

今天我们聊聊那些默默奉献为我们的成长保驾护航的老师们他们的工作内容和职责远不止于课堂上的教学还有许多不为人知的辛勤付出教师们的主要工作就是教授知识根据教材和课程大纲为学生们准备丰富的学习内容帮助大家掌握各种知识和技能无论是
一文了解Substrate

Substrate是用于构建特定类型区块链的工具箱它本身并不是一个区块链而是开发者用来创建独特而强大的区块链的一套工具 Substrate允许开发者可以自己创建所需所想功能的区块链无需受限于现有的设计 Substrate使用FRAME
k8s集群使用calico网络组件

一前言 k8s的网络组件可以使用flannel或者calico两种 flannel的配置比较简单但是性能还是calico会更高一点所以现在来介绍以下calico网络组件的部署二部署 k8s集群版本对calico的版本也有对应要求
开源音频处理代码 speex

Speex 是一套主要针对语音的开源免费无专利保护的音频压缩格式 speex是近年来开发出的一套功能强大的语音引擎能够实现高质量和低比特率的编码它不仅提供了基于码激励线性预测 CELP 算法的编解码模块而且在其最新发布的版本
格式转换和图片缩放的图片格式转换器推荐，在线图片处理达人让图片批量处理更轻松

在我们的日常工作中图片处理是一项非常常见的任务无论是设计营销还是其他行业都离不开对图片的处理为了满足广大用户对图片处理的需求我们推出了一款全新的软件首助编辑高手 1 它是一款功能强大操作便捷的图片编辑软件旨在帮助用户高效地
在职场中获得成就感的秘诀，分享关键因素

在职场中我们每个人都渴望获得成就感成就感可以来自于完成一个项目得到同事的认可或者实现自我价值然而如何在职场中获得成就感并不是一件容易的事情本文将探讨在职场中获得成就感的几个关键因素一明确的目标设定在职场中获得成就感的第一
7000字详解ERP管理系统！

在当今竞争激烈的商业世界中中小企业不仅需要保持灵活性更需要高效管理企业资源你可能听说过ERP系统但它究竟是什么它为何成为中小企业管理的不二选择又是如何助力中小企业整合资源提升效率并在激烈的市场竞争中脱颖而出的本文将为您
数说CS | 夏令营只针对外校，拟录取人数持续增长！保研上交电院难度有所降低？

写在前面 4个学科入选教育部双一流建设学科第四轮学科评估中 7 个学科进入A档招收哪些专业保研录取情况如何今天岛主就带你深度揭秘上海交通大学电子信息与电气工程学院 01 院校介绍上海交通大学电子信息与电气工程学院的前身可溯源至
上课助教老师的工作内容是什么

作为一名曾经的教育工作者我深知助教工作的重要性不仅涉及到辅助教师完成教学任务还承担着帮助学生理解掌握知识的重任那么上课助教老师的工作内容具体是什么呢以下是我的几点总结辅助教学助教老师首先要承担起辅助教学的责任他们需要与主
Learn to Explain: Multimodal Reasoning viaThought Chains for Science Question Answering科学问答的思维链

关于 ScienceQA 模仿回答 ScienceQA 问题时的多跳推理过程 ScienceQA 展示了以下功能的实用性语言模型中的 CoT 因为 CoT 在少样本 GPT 3 中将问答性能提高了 1 20 微调的 UnifiedQA

热门标签