Insight-V是由南洋理工大学、腾讯公司和清华大学的研究团队联合开发的一款专注于多模态任务的大型语言模型,其核心目标是提升模型在长链视觉推理任务中的表现。该模型通过构建可扩展的数据生成流程,生产高质量的推理数据,并采用多智能体架构将视觉推理任务分解为推理与总结两个步骤。结合两阶段训练策略,即监督微调和直接偏好优化(DPO),显著增强了模型在视觉推理基准测试中的性能。此外,Insight-V的设计融入了渐进式数据生成、多粒度评估以及迭代DPO算法,使其在复杂视觉推理任务中表现出色。
Insight-V是由南洋理工大学、腾讯公司和清华大学的研究团队联合开发的一款专注于多模态任务的大型语言模型,其核心目标是提升模型在长链视觉推理任务中的表现。该模型通过构建可扩展的数据生成流程,生产高质量的推理数据,并采用多智能体架构将视觉推理任务分解为推理与总结两个步骤。结合两阶段训练策略,即监督微调和直接偏好优化(DPO),显著增强了模型在视觉推理基准测试中的性能。此外,Insight-V的设计融入了渐进式数据生成、多粒度评估以及迭代DPO算法,使其在复杂视觉推理任务中表现出色。
发表评论 取消回复