视频

Pollo AI

Pollo AI是一款由HIX.AI推出的AI视频创作平台,支持文本、图像及视频风格转换等多种功能,能将文字或图片快速生成高质量视频。平台具备角色一致性保障、多风格转换、高清输出等特性,适用于短视频制作、品牌推广、教学视频等领域,为用户提供高效的AI视频生成体验。

S2V.Ai

海螺AI推出的一款基于S2V-01模型的AI视频生成工具,只需输入一张图片即可生成具有高保真度、灵活性和可组合性的视频。

SketchVideo

SketchVideo是一款基于草图和文本提示的视频生成与编辑框架,由多所高校与企业联合研发。它利用DiT模型和草图控制网络,实现对视频内容的精细控制,支持动态调整与细节保留。该工具适用于多种场景,如影视制作、教育、游戏开发等,具备高效生成与高质量输出能力。

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。

Sendspark

一种基于AI的个性化视频录制和分享,使企业能够与受众建立真正的联系。Sendspark帮助企业通过使用视频消息预订更多会议、达成更多交易并加快销售周期。

Valley

Valley是一款由字节跳动开发的多模态大语言模型,擅长处理文本、图像和视频数据,广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能,支持灵活调整令牌数量,实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色,尤其在参数规模较小的情况下依然保持优异的成绩。

Motion Prompting

Motion Prompting 是一种利用点轨迹表示的视频生成技术,支持对象控制、相机控制及物理现象模拟等功能。它通过将用户输入转化为详细的运动轨迹,结合预训练的视频扩散模型与控制网络,在保持灵活性的同时提高生成质量。这项技术广泛应用于电影制作、游戏开发、虚拟现实等领域,为用户提供了强大的交互式视频生成工具。 ---

Gemini Live

Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。