多模态
OlympicArena
OlympicArena是由多所高校与研究机构联合开发的多学科认知推理基准测试框架,包含11,163道国际奥赛双语题目,覆盖数学、物理、化学、生物、地理、天文学和计算机科学等7大领域。该平台通过答案级与过程级评估,全面衡量AI模型的逻辑与视觉推理能力,支持多模态输入并具备数据泄漏检测机制,适用于AI模型评估、训练优化、教育辅助及科研应用。
VideoRefer
VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统,基于增强型视频大型语言模型,实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准,支持对象识别、关系分析、推理预测及多模态交互等功能,适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。
Embodied Reasoner
Embodied Reasoner是由多家科研机构联合开发的具身交互推理模型,通过视觉搜索、推理与行动协同完成复杂任务。采用模仿学习、自我探索和自我修正三阶段训练方法,生成多样化思考过程,提升任务规划效率。在长时序任务中表现优异,减少重复搜索和逻辑错误。适用于智能家居、仓储物流、医疗辅助等多个场景,具备多模态交互和强推理能力。
Agent TARS
Agent TARS 是字节跳动推出的开源多模态 AI 代理工具,支持浏览器、命令行和文件系统的集成,实现复杂任务的自动化执行。其核心功能包括代理工作流、数据处理、代码生成与解释等。基于事件流和模型上下文协议(MCP),Agent TARS 能高效分解任务并实时反馈结果,适用于网页自动化、任务管理、数据分析和代码辅助等多种场景。目前支持 macOS 平台,处于技术预览阶段。