视频

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

STIV

STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。

Fish Audio

Fish Audio是一款生成式AI文本转语音(TTS)和声音克隆平台,支持多种语言和声音风格,可将文本转换为自然流畅的语音。用户可上传音频样本克隆特定人物的声音,并通过API接口集成到应用程序中。Fish Audio适用于视频制作、有声读物、语音助手、教育与培训以及娱乐创意等领域,满足个性化语音内容生成需求。

Coco视频解析下载

Coco视频解析下载功能多样,支持单个视频提取、视频主页提取、多链接批量提取、提取音频等,全网视频解析下载可以解析各种视频网站上的视频。

易媒助手

易媒助手是一款新自媒体高管理工具,可以将图文、视频一键分发上传至30+自媒体、短视频平台,支持1000+账号管理、爆文采集、团队管理等八大特色功能,类似火星云分发平台、一帧平台

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。

StreamLake虚拟人

基于自研的虚拟人全链路AI技术,提供集虚拟形象建模、绑定驱动、实时渲染、内容运营于一体的虚拟人解决方案。

自得语音

自得语音技术可通过简单的步骤创造出属于你的角色。类似GPT,可生成与真人无异的语音片段,在情感、音色和语速等方面与真人一致。

MusicMint

MusicMint 是一款基于人工智能的音乐创作工具,支持多种音乐风格并提供高度自定义选项,如乐器、情绪、主题和结构等。用户可通过简单描述或选择参数快速生成原创音乐,并支持下载与分享。适用于个人创作、视频配乐、MV 制作及艺术项目等多种场景,是音乐爱好者和创作者的理想工具。