模型

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用,帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的模型。这些模型能够处理长文本内容,提供准确的问答服务,并附带可追溯的引用,增强信息的透明度和可靠性。

WarriorCoder

WarriorCoder是由华南理工大学与微软联合开发的代码生成大语言模型,采用专家对抗机制生成高质量训练数据,无需依赖专有模型或数据集。它具备代码生成、优化、调试、推理及多语言支持等功能,在代码生成、库使用等任务中达到SOTA性能,适用于自动化开发、教育辅助及跨语言转换等场景。模型通过Elo评分系统和裁判评估确保训练数据质量,提升泛化能力与多样性。

腾讯混元T1

T1(Thinker)是腾讯混元推出的深度思考模型,支持逻辑推理与联网搜索,具备高速响应和长文本处理能力。采用Hybrid-Mamba-Transformer架构,提升推理效率与准确性。适用于教育、医疗、市场分析等多个领域,输出简洁、幻觉低,适合复杂指令处理和多任务场景。

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型,擅长处理图像与文本信息,具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异,支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术,提升推理准确性与可解释性,适用于科研、教育、医疗及自动驾驶等场景。

ERA

ERA-42是一款由北京星动纪元开发的端到端原生机器人大模型,结合五指灵巧手星动XHAND1,可执行超过100种复杂灵巧操作任务。ERA-42无需预编程,具有快速学习能力,能在短时间内掌握新技能。该模型融合多模态信息,具备强大的跨模态能力和泛化能力,适用于工业自动化、医疗辅助、家庭服务、灾难救援和物流配送等多种场景。

SocioVerse

SocioVerse是由复旦大学等机构联合开发的社会模拟平台,基于大语言模型和1000万真实用户数据构建与现实对齐的模拟环境。系统包含社会环境、用户引擎、场景引擎和行为引擎四大模块,支持多场景应用,如政治选举预测、新闻传播分析、经济调查和政策评估。它能够模拟群体行为,预测事件趋势,为社会科学研究提供高效工具。

Perception

Perception-as-Control是由阿里巴巴通义实验室开发的图像动画框架,支持对相机和物体运动的细粒度控制。它基于3D感知运动表示,结合U-Net架构的扩散模型,实现多种运动相关的视频合成任务,如运动生成、运动克隆、转移和编辑。通过三阶段训练策略,提升运动控制精度和稳定性,适用于影视、游戏、VR/AR、广告及教育等多个领域。

HybridRAG

HybridRAG是一种结合了检索增强生成模型的混合架构,通过检索系统和生成模型的协同工作,生成更准确和丰富的输出。其主要功能包括信息检索、上下文理解、知识融合和生成能力。HybridRAG适用于多种自然语言处理任务,如问答系统、文本摘要和对话生成,能够利用大量外部知识提高生成内容的质量和相关性。

AnyStory

AnyStory是阿里巴巴通义实验室开发的文本到图像生成工具,支持单个或多个主体的高保真图像生成。其核心在于“编码-路由”架构,结合ReferenceNet和CLIP视觉编码器实现主体特征的精准建模与定位。通过解耦路由机制,有效避免多主体混淆,确保图像与文本描述高度一致。适用于创意设计、角色生成、广告制作等多个场景,提供高质量、个性化的图像生成能力。

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型,专注于将美国手语(ASL)实时翻译成英语文本。通过多模态训练方法,结合视觉和文本数据,实现高准确率和低延迟的翻译,响应时间低于0.5秒。支持端侧部署,保护用户隐私,适用于教育、医疗和公共服务等场景。