音频

CapCut

CapCut是一款由抖音开发的免费视频编辑软件,支持视频剪辑、音频编辑、字幕生成、滤镜应用及转场效果等多种功能。该软件界面友好,易于学习,适用于初学者和专业人士。它不仅可以在移动设备上使用,还支持PC端,便于用户跨平台编辑和分享视频。CapCut广泛应用于社交媒体内容创作、商业宣传、教育和培训以及个人项目。

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

MacWhisper

MacWhisper是一款基于OpenAI Whisper技术的AI音频转文字工具。它能够在本地设备上将音频文件快速转录成文本,并支持多种语言。该工具具有多种音频和视频格式兼容性,提供不同的转录模型选择,支持字幕导出,且具备视频播放功能。最新版本增加了基于Apple芯片的硬件加速,提升了实时语音识别效率,并集成了OpenAI语言模型以提高转录和翻译的准确性。MacWhisper适用于记者、媒体工作

Loopy

Loopy是一款由字节跳动开发的音频驱动的AI视频生成模型。该模型能够将静态照片转化为具有面部表情和头部动作的动态视频,与给定的音频文件同步。Loopy利用先进的扩散模型技术,无需额外的空间信号或条件,捕捉并学习长期运动信息,从而生成自然流畅的动作。其主要功能包括音频驱动、面部动作生成、无需额外条件以及长期运动信息捕捉。Loopy适用于娱乐、教育、影视制作等多种场景。

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型,能够整合文本、音频、视觉、温度和运动数据等多种模态的信息,并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐,支持跨模态检索和零样本学习。它在增强现实(AR)、虚拟现实(VR)、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

M2UGen

M2UGen是由腾讯PCG ARC实验室与新加坡国立大学共同研发的一款多模态音乐理解和生成框架,支持从文本、图像、视频等多种模态输入生成相应音乐。它具有强大的音乐理解能力、灵活的音乐编辑功能以及多样化的应用场景,适用于音乐制作、影视配乐、音乐教育等多个领域。凭借其创新的技术架构和卓越的表现力,M2UGen已成为当前最优秀的多模态音乐生成工具之一。

PoseTalk

PoseTalk 是一款基于文本和音频驱动的开源工具,专注于生成自然且逼真的头部动画视频。它通过 Pose Latent Diffusion (PLD) 模型和级联网络实现唇部同步与运动细化,广泛应用于虚拟助手、在线教育和娱乐等领域,提供多样化的动画生成能力和高度精准的唇形同步效果。

通义万相AI视频

通义万相AI视频是一款基于人工智能的视频生成工具,支持文生视频和图生视频两种模式。用户可输入文字描述或上传图片生成高质量视频,支持多语言、多种艺术风格及音频生成功能,优化中式元素表现,广泛应用于影视、广告、动画设计等多个领域。

OpenMusic

OpenMusic是一款基于QA-MDT技术的文生音乐工具,支持从文本生成高质量音乐作品,具备质量感知训练、多样化风格生成及复杂推理能力。它广泛应用于音乐制作、多媒体内容创作、音乐教育等领域,同时提供音频编辑与处理功能,旨在提升音乐创作效率和质量。