视频

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。

AdZis

AdZis是一个由人工智能驱动的电子商务内容引擎。有了这个AI写作工具,你可以很容易地生成产品描述、社交媒体帖子、文章、SEO标题,甚至alt标签。

Addsubtitle

Addsubtitle 是一款基于AI的在线视频编辑工具,支持多语言视频翻译、自动字幕生成与自定义样式设置,适用于全球市场推广和内容本地化。用户可实时编辑字幕并实现精准的唇音同步,同时提供语音克隆和水印去除功能,提升视频的国际化传播能力。

Targum Video

嗨,在几秒钟内将任何视频从任何语言翻译成任何语言!

Pexels

一个免费可商用的图片和无水印视频下载的大型素材网站

万相2.1

通义万相2.1是一款基于自研VAE和DiT架构的AI视频生成工具,支持高精度视频编解码与中文文字生成,具备复杂动作展现、物理规律还原、中英文特效生成及艺术风格转换等功能。同时支持图像生成,适用于影视制作、广告视频、教学辅助、文化创作等多个领域,提供高效的创作体验与高质量输出。

VideoAgent

VideoAgent是一款基于自改进机制的视频生成系统,结合图像观察与语言指令生成机器人控制视频计划。它采用自我条件一致性方法优化视频质量,通过预训练视觉-语言模型反馈和实际执行数据的收集,持续提升生成效果,减少幻觉内容并提高任务成功率。VideoAgent在模拟环境中有优异表现,并已应用于机器人控制、模拟训练、教育研究、游戏开发以及电影制作等领域,展现出广泛的应用潜力。

牛学长

牛学长是一款以AI技术为核心的多媒体处理平台,提供视频修复、图片修复、智能抠像及图片消除笔等功能。其核心优势在于通过AI算法提升视频和图片质量,适用于自媒体、电商、教育培训等领域,帮助用户优化内容创作效率与质量。 ---

AIShowX

AIShowX是一款多功能AI工具平台,支持文本转视频、图片转视频、视频增强、图像生成与风格转换等功能。用户可通过简单操作生成高质量视频和图像,适用于创作、影视、营销、教育及社交等多个领域。平台提供图像锐化、动画添加及音频处理等辅助功能,提升内容表现力与专业度。

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型,具备强大的文本与图像理解能力,包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法,实现了从1B到30B参数规模的性能提升,并推出了视频和移动UI专用版本,为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。