播报 - 智狐AI导航

VideoChat

VideoChat是一款开源的实时数字人对话系统，支持语音输入与实时对话功能。用户可自定义数字人形象与音色，实现音色克隆。系统集成多种技术，包括语音识别、大语言模型生成及文本转语音，支持流式视频输出，适用于客户服务、在线教育、新闻播报、直播互动及娱乐等多个领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 983 浏览

紫东太初 – 多模态大模型

“紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力，还通过自监督学习和跨模态语义关联技术，为广泛的AI应用提供了坚实的模...

Ai平台模型 2026年08月02日 0 点赞 0 评论 932 浏览

PocketPod

PocketPod是一款基于人工智能技术的个性化播客生成工具。它可以根据用户的兴趣和需求，自动创建包括每日新闻更新和特定主题深入探讨在内的播客内容。用户还可以将PDF文件等文档转换成播客形式，便于在多种场合下收听。该工具主要服务于忙碌人士、学生及播客爱好者，提供了个性化新闻播客、广泛话题覆盖、按需内容创建、文档转播客等功能，并支持与用户的日历和提醒系统集成。

AI项目与工具 2025年06月12日 80 点赞 0 评论 836 浏览

TANGO

TANGO是一个开源框架，利用分层音频运动嵌入和扩散插值网络，生成与目标语音同步的全身手势视频。其主要功能包括高保真视频制作、跨模态对齐、过渡帧生成及外观一致性保持，适用于新闻播报、虚拟YouTuber、在线教育等多个领域。该工具通过先进的技术解决了动作与语音匹配问题，并有效提升了视频内容制作效率。

AI项目与工具 2025年06月12日 78 点赞 0 评论 726 浏览

MetaHuman

MetaHuman-Stream 是一种先进的实时交互流式AI数字人技术，集成了多种尖端模型，支持声音克隆和深度学习算法，确保对话流畅自然。通过全身视频整合和低延迟通信技术，提供沉浸式的用户体验，适用于在线教育、客户服务、游戏和新闻等多个领域。其主要功能包括多模型支持、声音克隆、对话处理能力和全身视频整合。

AI项目与工具 2025年06月12日 91 点赞 0 评论 716 浏览

Hallo2

Hallo2是一款由复旦大学、百度公司和南京大学合作开发的音频驱动视频生成模型。它能够将单张图片与音频结合，并通过文本提示调节表情，生成高分辨率4K视频。Hallo2采用了补丁下降、高斯噪声等数据增强技术，提升了视频的视觉一致性和时间连贯性，同时通过语义文本标签提高了生成内容的可控性与多样性。该模型适用于电影、游戏、虚拟助手等多个领域，展现出强大的内容生成能力。

AI项目与工具 2025年06月12日 80 点赞 0 评论 630 浏览

Text To Speech

构建自然说话的应用和服务，从 147 种语言和变体中选择 456 种语音

创作工具 2026年08月02日 0 点赞 0 评论 546 浏览

播报

首页

播报

列表

默认

浏览次数

发布日期

VideoChat

紫东太初 – 多模态大模型

PocketPod

TANGO

MetaHuman

Hallo2

Text To Speech

播报 首页 播报

列表 默认 浏览次数 发布日期

VideoChat

紫东太初 &#8211; 多模态大模型

PocketPod

TANGO

MetaHuman

Hallo2

Text To Speech

播报

首页

播报

列表

默认

浏览次数

发布日期

紫东太初 – 多模态大模型