语言模型
WhisperFusion
一个基于WhisperLive把声音转文字和WhisperSpeech理解这些文字的能力构建。能够与AI聊天机器人进行超低延迟对话。
DuoAttention
DuoAttention是由MIT韩松团队提出的新型框架,通过区分“检索头”和“流式头”两种注意力机制,显著提升了大型语言模型在处理长上下文时的推理效率。该框架有效减少了内存占用,加速了解码和预填充过程,并保持了模型的准确性。它适用于多轮对话、长文档处理、学术研究以及内容推荐等多个领域。