推理

APB

APB是一种由清华大学等机构开发的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block,结合查询感知的上下文压缩技术,减少计算开销并精准传递关键信息。在128K长度文本上,APB推理速度比Flash Attention快10倍,比Star Attention快1.6倍,适用于多种分布式环境和模型规模,广泛

Kimina

Kimina-Prover是由月之暗面与Numina团队联合开发的大型数学定理证明模型,采用强化学习技术,在Lean 4语言中实现类人逻辑推理与严谨证明。其“形式化推理模式”结合非形式化推理与代码片段,提升解题效率。在miniF2F基准测试中达到80.7%准确率,显著优于现有模型。具备高样本效率与良好可扩展性,适用于科研、软件测试、算法验证等多个领域。1.5B和7B参数版本已开源。

Spatial

Spatial-RAG是一种用于增强大型语言模型空间推理能力的框架,融合了稀疏空间检索与密集语义检索技术。它通过多目标优化策略平衡空间约束与语义相关性,生成准确、连贯的自然语言回答。该工具可应用于旅游推荐、智能导航、城市规划、地理问答和物流配送等多个领域,提升了空间数据处理的智能化水平。

Vid2World

Vid2World是由清华大学和重庆大学联合开发的创新框架,能够将全序列、非因果的被动视频扩散模型(VDM)转换为自回归、交互式、动作条件化的世界模型。该模型基于视频扩散因果化和因果动作引导两大核心技术,解决了传统VDM在因果生成和动作条件化方面的不足。Vid2World支持高保真视频生成、动作条件化、自回归生成和因果推理,适用于机器人操作、游戏模拟等复杂环境,具有广泛的应用前景。

START

START是由阿里巴巴集团与中科大联合研发的工具增强型推理模型,通过集成外部工具(如Python代码执行器)提升大型语言模型的推理能力。其核心在于“Hint-infer”和“Hint-RFT”技术,结合长链推理与工具调用,显著提高复杂数学、科学问题及编程任务的准确性和效率。该模型具备自我调试、多策略探索和自学习能力,适用于科研、教育、编程等多个领域,是首个开源的长链推理与工具集成模型。

Gemini 2.5 Flash

Gemini 2.5 Flash 是 Google 推出的高性能 AI 模型,具备低延迟、高效率及推理能力,适用于代码生成、智能代理和复杂任务处理。其优化设计降低了计算成本,适合大规模部署。该模型基于 Transformer 架构,结合推理机制和模型压缩技术,提升了响应速度与准确性,广泛应用于智能开发、内容生成和实时交互等领域。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。

OpenAI o4

OpenAI o4-mini 是一款高性能、低成本的小型推理模型,专为快速处理数学、编程和视觉任务优化。它具备多模态能力,可结合图像与文本进行推理,并支持工具调用以提高准确性。在多项基准测试中表现优异,尤其在数学和编程领域接近完整版模型。适用于教育、数据分析、软件开发及内容创作等多个场景,是高效率与性价比兼备的AI工具。

rStar

rStar-Math是由微软亚洲研究院研发的数学推理工具,采用蒙特卡洛树搜索(MCTS)驱动的深度思考机制,使小型语言模型在数学推理方面达到或超越大型模型水平。通过代码增强的推理轨迹生成、过程偏好模型(PPM)训练和四轮自我进化策略,显著提升了模型的准确率与自我反思能力。该工具已在多个数学基准测试中取得优异成绩,适用于教育、科研、金融、工程和数据分析等多个领域。

o3

o3-pro 是 OpenAI 开发的高级推理模型,继承并优化了 o3 的功能,在复杂问题解决和精确答案提供上表现出色。它集成了 ChatGPT 的多种工具,如网页搜索、文件分析、图像推理和编程等,适合科学研究、编程、教育和写作等领域。尽管响应速度稍慢,但在表达清晰度、逻辑准确性和答案完整性方面表现优异,并在数学、科学和编程等领域的性能上超越了前代模型。