学习

星火语音同传大模型

星火语音同传大模型是科大讯飞推出的国内首个端到端语音同传AI系统,支持37种语言,具备高精度翻译、流式处理、语境理解和语音合成优化等功能。模型可在5秒内完成同传,准确度高,适用于国际会议、商务交流、教育等场景,支持译文长度调节和设备兼容,提升跨语言沟通效率。

Llama 4

Llama 4 是 Meta 推出的多模态 AI 模型系列,采用混合专家(MoE)架构,提升计算效率。包含 Scout 和 Maverick 两个版本,分别适用于不同场景。Scout 支持 1000 万 token 上下文,Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言,具备强大的语言生成与多模态处理能力,适用于对话系统、文本生成、代码辅助、图像分析等多个

OutofFocus

OutofFocus是一款基于AI的图像编辑工具,支持文本提示驱动的图像生成与编辑。其核心功能包括风格转换、内容填充、图像修复和增强等,通过自然语言处理与扩散逆过程重建技术实现高效编辑。该工具具有易用性和灵活性,广泛适用于艺术创作、内容营销、教育研究等多个领域。

FaceSwap

FaceSwap是一款开源AI换脸软件,利用深度学习技术实现人脸检测、提取及替换。它支持跨平台操作,包括Windows、macOS和Linux,并可借助GPU加速提升处理效率。FaceSwap还允许用户自定义模型训练以优化换脸效果,广泛应用于影视制作、教育、游戏开发以及虚拟现实等领域。

Wisdolia AI

Wisdolia一个Chrome扩展程序,它使用 AI 为任何文章/PDF 生成抽认卡,以便您可以更好地记住您阅读的内容。

APB

APB是一种由清华大学等机构开发的分布式长上下文推理框架,通过稀疏注意力机制和序列并行推理提升大模型处理长文本的效率。采用更小的Anchor Block和Passing Block,结合查询感知的上下文压缩技术,减少计算开销并精准传递关键信息。在128K长度文本上,APB推理速度比Flash Attention快10倍,比Star Attention快1.6倍,适用于多种分布式环境和模型规模,广泛

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型,拥有十亿参数量,可自主完成复杂任务,如调酒和遛狗。该模型基于模仿学习,具备强大的泛化能力和操作精度,支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景,推动机器人技术发展。

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。

HUGWBC

HUGWBC是由上海交通大学与上海AI Lab联合开发的人形机器人全身控制器,支持多种自然步态和精细参数调整,具备高鲁棒性和实时外部干预能力。基于强化学习和不对称训练框架,实现从模拟到现实的高效迁移,适用于复杂地形导航、动态任务执行及人机协作等多种场景。

TITAN

TITAN是一款由哈佛医学院研究团队开发的多模态全切片病理基础模型,通过视觉自监督学习和视觉-语言对齐预训练,能够在无需微调或临床标签的情况下提取通用切片表示并生成病理报告。它在多种临床任务中表现出色,包括线性探测、少样本和零样本分类、罕见癌症检索、跨模态检索和病理报告生成,尤其适用于资源有限的临床场景。