Granite 4.0 Tiny Preview

简介：Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型，具备高效计算能力和紧凑结构，支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构，结合高效与精准优势，支持无位置编码（NoPE）处理128K tokens上下文。内存需求降低72%，推理时仅激活1B参数，适用于边缘设备部署、长文本分析及企业级应用开发，适合资源受限环境下的AI研究与

AI小编 554 阅读 0 评论 42 点赞

官网地址

Granite 4.0 Tiny Preview简介

Granite 4.0 Tiny Preview是IBM推出的Granite 4.0语言模型家族中最小的预览版本。该模型以高计算效率和紧凑结构为特点，能够在消费级GPU上运行多个长上下文（128K tokens）任务，性能接近Granite 3.3 2B Instruct，同时内存需求降低约72%。其创新性地采用混合Mamba-2/Transformer架构，结合了Mamba的高效性和Transformer的精确性，并支持无位置编码（NoPE），能够处理极长的上下文长度。

Granite 4.0 Tiny Preview的核心功能

高效运行：在消费级GPU上可并行执行多个长上下文任务，适用于资源受限环境。
低内存占用：内存需求减少约72%，推理时仅激活1B参数，显著降低硬件要求。
长上下文处理：支持无位置编码技术，验证可处理至少128K tokens的上下文。
推理优化：通过部分专家激活机制提升推理效率，降低延迟。

Granite 4.0 Tiny Preview的技术特点

混合架构设计：融合Mamba的线性复杂度与Transformer的精确自注意力机制，9个Mamba块对应1个Transformer块，分别用于全局与局部上下文处理。
混合专家（MoE）：包含7B参数，分为64个专家，推理时仅激活1B参数，有效降低计算负载。
无位置编码（NoPE）：不依赖传统位置编码，减少计算负担并提升长序列处理能力。
长上下文优化：基于Mamba的线性扩展能力，支持超长上下文处理，理论上限由硬件决定。

Granite 4.0 Tiny Preview的获取方式

项目官网：https://www.ibm.com/new/announcements/ibm-granite-4-0-tiny-preview
HuggingFace模型库：https://huggingface.co/ibm-granite/granite-4.0-tiny-preview

Granite 4.0 Tiny Preview的应用场景

边缘设备部署：适合在资源有限的边缘设备或消费级硬件上运行，用于轻量级文本处理。
长文本分析：支持128K tokens上下文处理，适用于长文本生成、摘要等任务。
多任务并行：可在同一硬件上运行多个实例，满足批量处理或多用户需求。
企业应用开发：可用于智能客服、文档处理等场景，提供高效的模型支持。
低成本研发：开源且兼容消费级硬件，便于开发者进行实验和创新。

本文分类：AI项目与工具
本文标签：AI模型轻量级模型长上下文处理混合架构无位置编码边缘计算企业应用开源工具 AI推理优化消费级硬件
浏览次数：554 次浏览
发布日期：2025-06-11 00:00:00
本文链接：https://sihangdaima.com/AIxiangmuyugongju/7946.html

上一篇 > Gemini 2.5 Pro (I/O 版)
下一篇 > NoteLLM

评论列表共有 0 条评论

暂无评论