近日,信息学院(人工智能学院)青年教师刘宁在人工智能科学问题解答多模态推理领域取得重要进展。研究成果以“T-SciQ: Teaching Multimodal Chain-of-Thought Reasoning via Large Language Model Signals for Science Question Answering”为题,发表在人工智能顶级会议AAAI-2024(CCF A类会议)上。
近年来,随着人工智能的快速发展,大语言模型(LLMs)在自然语言处理任务中表现出卓越的推理能力,尤其是链式推理(CoT)技术。然而,在科学问题解答领域,现有研究大多依赖人工标注的推理过程,这不仅耗费大量时间和资源,还可能因标注者知识有限而遗漏关键信息。为此,团队提出了一种创新框架——T-SciQ,旨在利用大语言模型生成的教学信号来提升小型多模态模型的推理能力,从而高效解决复杂的科学问题。
T-SciQ框架通过零样本推理技术,自动生成链式推理(CoT)和基于计划的链式推理(PCoT),解决了人工标注耗时费力且信息不完整的问题。针对问题的不同复杂程度,灵活选择最优的教学信号(CoT或PCoT),形成综合的教学数据集,从而提升模型对简单问题和复杂问题的适应能力。在ScienceQA这一权威科学问题解答基准上,T-SciQ模型以96.18%的准确率刷新现有最优成绩,相较于当前最强的多模态模型提升了4.5%,并超越了人类表现(88.4%)。
图1: T-SciQ的关键步骤:(i)生成教学数据;(ii)混合教学数据;(iii)微调。
如图1所示,T-SciQ以生成教学数据、混合教学数据及微调的方式,通过混合生成的教学信号,既能利用CoT信号扩展模型的开放知识获取能力,又能通过PCoT信号实现复杂问题的分解与推理,显著提高模型在多模态复杂任务中的表现。同时,与传统依赖人工标注的方法相比,T-SciQ显著降低了对人工资源的依赖,为多模态科学问题解答的研究提供了全新思路。研究团队还通过消融实验和案例分析,验证了T-SciQ信号在模型训练中提供更强指导作用的有效性。
上述论文第一完成单位及通讯作者单位为北京林业大学,由北京林业大学、新加坡管理大学、电子科技大学的多方研究人员合作完成。通讯作者为刘宁。
团队已将相关代码开源,供学术界和工业界进一步探索(开源链接:https://github.com/T-SciQ/T-SciQ)。