音视频 - 智狐AI导航

CogSound

CogSound是一款基于AI的音效生成工具，能够为无声视频添加与内容匹配的高质量音效，涵盖多种复杂场景。该工具通过先进的音视频特征匹配技术和优化的生成算法，提升了视频的沉浸感和真实感，广泛应用于视频创作、广告制作及影视后期等多个领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 644 浏览

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型，具备快速处理文本、音频和图像的能力，支持多语言输出和实时音视频流输入。通过Agent技术和工具调用，Gemini 2.0 能够自主理解任务并提供解决方案，已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用，计划逐步开放更多功能。

AI项目与工具 2025年06月12日 63 点赞 0 评论 518 浏览

Ai好记

[Ai好记是一款利用人工智能技术实现音视频转图文的专业工具，主要功能包括精准转录、思维导图生成、多语言翻译及个性化总结。它支持多种格式导出，并兼容主流音视频平台，广泛应用于知识管理、学术研究、内容创作等领域。]

AI项目与工具 2025年06月12日 70 点赞 0 评论 570 浏览

星火纪要

星火纪要是科大讯飞推出的音视频处理平台，支持语音转录、内容总结、多语言翻译、数据分析等功能，适用于会议、访谈、销售、培训等场景。系统可快速生成会议纪要，角色分离准确率超95%，支持12种场景模板，提升工作效率与信息管理能力。

AI项目与工具 2025年06月12日 49 点赞 0 评论 748 浏览

MM

MM-StoryAgent是由上海交通大学X-LANCE实验室与阿里巴巴集团联合开发的开源多模态、多智能体框架，用于生成沉浸式有声故事绘本视频。它结合大型语言模型与多模态生成技术，通过多阶段写作流程和模态对齐优化，提升故事内容的质量与连贯性。支持灵活模块化设计，适用于儿童教育、数字内容创作、在线教育等多个场景，为故事创作提供高效、可定制的解决方案。

AI项目与工具 2025年06月12日 67 点赞 0 评论 823 浏览