视频 - 智狐AI导航

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 752 浏览

TalkingAvatar.ai

TalkingAvatar.ai 是一款集 AI 技术与虚拟形象创作于一体的平台，支持视频内容的重写、重配音以及多语言适配。其核心功能包括语音克隆、唇形同步、文本编辑语音等，可满足视频内容创作、广告定制、多语言电商、教育视频制作等多种应用场景。平台提供灵活的订阅方案，支持多种语言和语音模型，帮助用户轻松实现视频内容的个性化和全球化。

AI项目与工具 2025年06月12日 56 点赞 0 评论 743 浏览

Speechelo

Speechelo是一款基于先进AI技术的文本转语音工具，支持超过30种性别和语言的声音选择，用户可通过调整语调、速度和音高来自定义语音效果。它兼容主流视频编辑软件，适用于产品演示、教育培训、营销推广等多种场景，助力高效生成高质量语音内容。

AI项目与工具 2025年06月12日 52 点赞 0 评论 697 浏览

Ruyi

Ruyi是一款基于DiT架构的图生视频大模型，支持多分辨率和多时长的视频生成，具有首帧、首尾帧控制、运动幅度调整及镜头方向控制等功能。它通过Casual VAE模块和Diffusion Transformer实现视频数据的压缩与生成，旨在降低动漫和游戏内容的开发周期和成本。目前，Ruyi-Mini-7B版本已开源。

AI项目与工具 2025年06月12日 17 点赞 0 评论 599 浏览

豆包视觉理解模型

豆包视觉理解模型是一款集视觉识别、理解推理和复杂逻辑计算于一体的先进AI工具。它具备强大的视觉定位能力，支持多目标、小目标和3D定位，并能识别物体的类别、形状、纹理等属性，理解物体间的关系和场景含义。此外，模型在视频理解方面表现出色，能够进行记忆、总结、速度感知和长视频分析。凭借其高效性和成本优势，该模型广泛应用于图片问答、医疗影像分析、教育科研、电商零售及内容审核等领域。

AI项目与工具 2025年06月12日 86 点赞 0 评论 708 浏览

UniReal

UniReal是一款由香港大学与Adobe研究院合作开发的多功能图像处理框架，能够实现图像生成、编辑、定制和合成等任务。它通过视频生成模型的设计理念，利用大规模视频数据作为监督源，学习图像间的连贯性与变化性，生成高质量的逼真图像。该框架特别擅长处理复杂的场景，支持多种应用场景，包括数字内容创作、媒体娱乐、广告营销、电子商务及教育等领域。

AI项目与工具 2025年06月12日 36 点赞 0 评论 751 浏览