VideoChat VideoChat是一款开源的实时数字人对话系统,支持语音输入与实时对话功能。用户可自定义数字人形象与音色,实现音色克隆。系统集成多种技术,包括语音识别、大语言模型生成及文本转语音,支持流式视频输出,适用于客户服务、在线教育、新闻播报、直播互动及娱乐等多个领域。 AI项目与工具 2025年06月12日 35 点赞 0 评论 483 浏览
紫东太初 – 多模态大模型 “紫东太初”平台展现了中国科学院自动化研究所在人工智能领域的深厚实力。它不仅具备强大的多模态处理能力,还通过自监督学习和跨模态语义关联技术,为广泛的AI应用提供了坚实的模... Ai平台模型 1970年01月01日 0 点赞 0 评论 470 浏览
PocketPod PocketPod是一款基于人工智能技术的个性化播客生成工具。它可以根据用户的兴趣和需求,自动创建包括每日新闻更新和特定主题深入探讨在内的播客内容。用户还可以将PDF文件等文档转换成播客形式,便于在多种场合下收听。该工具主要服务于忙碌人士、学生及播客爱好者,提供了个性化新闻播客、广泛话题覆盖、按需内容创建、文档转播客等功能,并支持与用户的日历和提醒系统集成。 AI项目与工具 2025年06月12日 80 点赞 0 评论 416 浏览
TANGO TANGO是一个开源框架,利用分层音频运动嵌入和扩散插值网络,生成与目标语音同步的全身手势视频。其主要功能包括高保真视频制作、跨模态对齐、过渡帧生成及外观一致性保持,适用于新闻播报、虚拟YouTuber、在线教育等多个领域。该工具通过先进的技术解决了动作与语音匹配问题,并有效提升了视频内容制作效率。 AI项目与工具 2025年06月12日 78 点赞 0 评论 273 浏览
MetaHuman MetaHuman-Stream 是一种先进的实时交互流式AI数字人技术,集成了多种尖端模型,支持声音克隆和深度学习算法,确保对话流畅自然。通过全身视频整合和低延迟通信技术,提供沉浸式的用户体验,适用于在线教育、客户服务、游戏和新闻等多个领域。其主要功能包括多模型支持、声音克隆、对话处理能力和全身视频整合。 AI项目与工具 2025年06月12日 91 点赞 0 评论 250 浏览
Hallo2 Hallo2是一款由复旦大学、百度公司和南京大学合作开发的音频驱动视频生成模型。它能够将单张图片与音频结合,并通过文本提示调节表情,生成高分辨率4K视频。Hallo2采用了补丁下降、高斯噪声等数据增强技术,提升了视频的视觉一致性和时间连贯性,同时通过语义文本标签提高了生成内容的可控性与多样性。该模型适用于电影、游戏、虚拟助手等多个领域,展现出强大的内容生成能力。 AI项目与工具 2025年06月12日 80 点赞 0 评论 151 浏览