长上下文

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

DeepSeek R1

DeepSeek R1-Zero 是一款基于纯强化学习训练的推理模型,无需监督微调即可实现高效推理。在 AIME 2024 竞赛中 Pass@1 分数达到 71.0%,展现强大逻辑与数学推理能力。支持长上下文处理,具备自我进化、多任务泛化等特性,并通过开源和蒸馏技术推动模型应用与优化。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking 是谷歌发布的一款推理增强型AI模型,具有高达百万tokens的长上下文窗口、可解释的推理过程、代码执行功能及多模态处理能力。它能够有效减少推理矛盾,提升输出结果的可靠性和一致性,广泛适用于教育、科研、内容创作、客户服务以及数据分析等多个领域。

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型,具备高效计算能力和紧凑结构,支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构,结合高效与精准优势,支持无位置编码(NoPE)处理128K tokens上下文。内存需求降低72%,推理时仅激活1B参数,适用于边缘设备部署、长文本分析及企业级应用开发,适合资源受限环境下的AI研究与

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。