语言模型

MobileLLM

MobileLLM是一款针对移动设备优化的大型语言模型,具有语言理解与生成、零样本常识推理、聊天交互、API调用、文本重写与摘要生成以及数学问题解决等功能。它通过深度薄型架构、SwiGLU激活函数、嵌入共享和分组查询注意力机制等技术,在低参数环境下实现高效性能,适用于移动聊天、语音助手、内容推荐、教育辅助和移动搜索等多种应用场景。

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

MMBench

MMBench-Video是一个由多家高校和机构联合开发的长视频多题问答基准测试平台,旨在全面评估大型视觉语言模型(LVLMs)在视频理解方面的能力。平台包含约600个YouTube视频片段,覆盖16个类别,并配备高质量的人工标注问答对。通过自动化评估机制,MMBench-Video能够有效提升评估的精度和效率,为模型优化和学术研究提供重要支持。

GTA

GTA是一项由上海交通大学与上海AI实验室合作研发的基准测试,专注于评估大型语言模型在真实世界环境中的工具调用能力。它包含229个精心设计的问题,涉及多个领域,并通过多模态输入输出和细粒度评估指标,全面衡量模型的工具使用效率与准确性。GTA可应用于智能助理开发、多模态交互、自动化客户服务、教育及科研等多个领域,助力提升人工智能系统的综合性能。

AgentSquare

AgentSquare是一款由清华大学团队研发的模块化设计工具,专注于在大型语言模型代理的设计空间内实现高效搜索。其核心功能包括模块化设计、模块重组与进化、性能预测及自动化搜索等,通过标准化接口支持模块间无缝集成,广泛应用于客户服务、个人助理、教育、医疗及金融等多个领域,旨在提升智能体性能并降低推理成本。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

AgentReview

AgentReview是一款基于大型语言模型构建的学术同行评审模拟工具,通过模拟评审者、作者和领域主席的角色,研究评审偏见和决策机制对评审结果的影响。它支持隐私保护,无需真实敏感数据,同时验证了多种社会学理论在评审中的应用,为优化学术评审流程提供了重要参考。

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架,旨在提升模型对未知视觉内容的理解能力。它通过网络检索,使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色,支持图像描述生成、网络知识搜索、协作生成等功能,可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。

JanusFlow

JanusFlow是一款集成了自回归语言模型与校正流技术的多模态AI模型,能够在单一框架内高效完成图像理解和生成任务。它通过解耦视觉编码器和表示对齐策略,显著提升了模型在视觉理解与图像生成上的表现,广泛应用于图像生成、多模态内容创作、视觉问答、图像理解和辅助设计等多个领域。