清华 - 智狐AI导航

RDT

RDT是清华大学AI研究院推出的一款双臂机器人操作任务扩散基础模型，拥有十亿参数量，可自主完成复杂任务，如调酒和遛狗。该模型基于模仿学习，具备强大的泛化能力和操作精度，支持多种模态输入和少样本学习。RDT已在餐饮、家庭、医疗、工业及救援等领域展现广泛应用前景，推动机器人技术发展。

AI项目与工具 2025年06月12日 83 点赞 0 评论 870 浏览

Dolphin

Dolphin是由清华大学与海天瑞声联合开发的面向东方语言的语音识别大模型，支持40种语言及22种中文方言，具备高精度语音转文字能力。采用CTC-Attention架构，结合E-Branchformer和Transformer技术，提升识别效率与准确性。模型开源，支持自定义语言与地区设置，适用于会议记录、语音输入、智能助手等多种场景。

AI项目与工具 2025年06月12日 20 点赞 0 评论 866 浏览

TIGER

TIGER是由清华大学研发的轻量级语音分离模型，采用时频交叉建模策略与多尺度注意力机制，有效提升语音分离性能，同时显著降低计算和参数开销。模型通过频带切分优化资源利用，适应复杂声学环境，广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 854 浏览

新畅元 | 创视元数字人

创视元，一键孪生数字人，多模态驱动视频内容创作，生成快、场景多、易操作、质量高。

AI服务商 2025年06月05日 96 点赞 0 评论 834 浏览

CogView3

CogView3是一款基于中继扩散技术的开源AI图像生成模型，由清华大学与智谱AI联合研发。它通过分阶段生成图像，从低分辨率逐步提升至高分辨率，提高了生成效率并降低了运行成本。CogView3在生成质量和速度上超越了现有的开源模型SDXL，在保持图像细节的同时大幅减少推理时间。其核心特性包括高性能、多分辨率支持及多种优化技术，适用于艺术创作、数字娱乐、广告营销等多个领域。

AI项目与工具 2025年06月12日 47 点赞 0 评论 827 浏览

千影QianYing

巨人网络发布的有声游戏生成大模型，主要包括游戏视频生成大模型YingGame和视频配音大模型YingSound。

Ai平台模型 2025年06月05日 58 点赞 0 评论 825 浏览

爱校对

爱校对，免费高效的错别字检查工具，来自清华大学人机交互实验室，提供智能校对、

教育学习 2025年06月05日 80 点赞 0 评论 800 浏览

Sana

SANA是一个由NVIDIA、麻省理工学院和清华大学共同研发的文本到图像生成框架，支持生成高达4096×4096分辨率的高清图像。它采用了深度压缩自编码器、线性扩散变换器（Linear DiT）和小型语言模型作为文本编码器，并通过优化的训练和采样策略提升了生成效率。SANA在模型大小和运行速度上具备显著优势，适合多种应用场景，包括艺术创作、游戏开发、广告设计和科学研究等。

AI项目与工具 2025年06月12日 11 点赞 0 评论 787 浏览

紫荆AI医生

紫荆AI医生是一款由清华大学智能产业研究院开发的AI医疗平台，基于Agent Hospital模拟真实医院环境，支持AI医生诊断300多种疾病并覆盖21个科室，旨在通过虚拟诊疗实践、数据反馈等手段提升医疗服务质量和效率，同时计划未来开放更多功能如远程医疗、疾病管理及医学研究支持等。

AI项目与工具 2025年06月12日 86 点赞 0 评论 783 浏览

灵动音DeepMusic

灵动音DeepMusic致力于通过AI词曲编录混技术，全方位降低音乐创作制作门槛并提升效率，为音乐行业提供新的产品体验和解决方案。

AI服务商 2025年06月05日 87 点赞 0 评论 743 浏览

清华

首页

清华

列表

默认

浏览次数

发布日期

RDT