长上下文处理

猎户星空大模型

百亿级模型SOTA，支持 32万 tokens 的上下文能够一次性接受并处理约 45 万汉字的输入内容准确提取关键信息。

创作工具 1970年01月01日 0 点赞 0 评论 697 浏览

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型，具备高效计算能力和紧凑结构，支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构，结合高效与精准优势，支持无位置编码（NoPE）处理128K tokens上下文。内存需求降低72%，推理时仅激活1B参数，适用于边缘设备部署、长文本分析及企业级应用开发，适合资源受限环境下的AI研究与

AI项目与工具 2025年06月11日 42 点赞 0 评论 457 浏览

ChatDLM

ChatDLM是由Qafind Labs开发的高效扩散语言模型，结合区块扩散与专家混合技术，具备7B参数规模，推理速度达2800 tokens/s，支持131,072 tokens的超长上下文处理。其核心优势包括高效文本生成、可控生成与局部修复、资源高效性及动态优化能力。适用于多轮对话、实时情绪监测、长文档创作及学术研究等场景，支持垂直领域知识召回率提升至95.6%。

AI项目与工具 2025年06月11日 92 点赞 0 评论 712 浏览

Command A

Command A 是 Cohere 推出的企业级生成式 AI 模型，具备高性能和低硬件需求，支持 256k 上下文长度及 23 种语言。集成 RAG 技术，提升信息准确性。适用于文档分析、多语言处理、智能客服和数据分析等场景，适合企业部署使用。

AI项目与工具 2025年06月12日 48 点赞 0 评论 739 浏览

APB

APB是一种由清华大学等机构开发的分布式长上下文推理框架，通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block，结合查询感知的上下文压缩技术，减少计算开销并精准传递关键信息。在128K长度文本上，APB推理速度比Flash Attention快10倍，比Star Attention快1.6倍，适用于多种分布式环境和模型规模，广泛

AI项目与工具 2025年06月12日 64 点赞 0 评论 811 浏览

Qwen

Qwen-Agent 是基于通义千问模型的开源 Agent 开发框架，支持指令遵循、工具使用、记忆能力、函数调用、代码解释器和 RAG 等功能，能够处理大规模上下文并快速开发复杂 AI 应用。其技术优势包括大语言模型、工具集成、智能代理架构和 RAG 算法，适用于客户服务、个人助理、教育学习、内容创作和技术支持等多个场景。

AI项目与工具 2025年06月12日 67 点赞 0 评论 670 浏览

ModernBERT

ModernBERT是一种基于Transformer架构的新型编码器-only模型，是对经典BERT模型的深度优化版本。它通过在大规模数据集上的训练，提升了对长上下文的理解能力，并在信息检索、文本分类、实体识别等多个自然语言处理任务中展现出卓越性能。此外，ModernBERT在速度和资源效率方面均有显著改进，适合应用于多个领域。

AI项目与工具 2025年06月12日 36 点赞 0 评论 707 浏览

Gemini 2.0 Flash Thinking

Gemini 2.0 Flash Thinking 是谷歌发布的一款推理增强型AI模型，具有高达百万tokens的长上下文窗口、可解释的推理过程、代码执行功能及多模态处理能力。它能够有效减少推理矛盾，提升输出结果的可靠性和一致性，广泛适用于教育、科研、内容创作、客户服务以及数据分析等多个领域。

AI项目与工具 2025年06月12日 33 点赞 0 评论 428 浏览

Fox

Fox-1是一系列由TensorOpera开发的小型语言模型，基于大规模预训练和微调数据，具备强大的文本生成、指令遵循、多轮对话和长上下文处理能力。该模型在多个基准测试中表现出色，适用于聊天机器人、内容创作、语言翻译、教育辅助和信息检索等多种应用场景。

AI项目与工具 2025年06月12日 60 点赞 0 评论 577 浏览

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构，由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段，有效利用GPU集群的其他资源，显著提升推理吞吐量，降低算力消耗，同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理，适用于多种应用场景，包括自然语言处理、语音识别、搜索引擎优化等，推动大模型技术的高效应用。

AI项目与工具 2025年06月12日 57 点赞 0 评论 507 浏览

长上下文处理

首页

长上下文处理

列表

默认

浏览次数

发布日期