视频 - 智狐AI导航

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 939 浏览

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型，专注于长上下文多模态学习，具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B，但性能接近更大模型。采用信息优先采样和渐进式后训练策略，提升模型稳定性与适应性。支持多样任务，适用于视频分析、图像处理、内容创作及教育等多个领域。

AI项目与工具 2025年06月11日 59 点赞 0 评论 553 浏览

灵格AI英语

灵格AI英语是一款基于AI技术的英语学习工具，提供视频学习、AI导师互动、发音纠正、场景对话练习等功能，帮助用户提升听说能力。平台支持个性化学习路径，涵盖日常口语、知识学习、考试备考等多场景应用，适合不同需求的学习者使用。

AI项目与工具 2025年06月11日 82 点赞 0 评论 778 浏览

AvatarFX

AvatarFX是由Character.AI开发的AI视频生成工具，通过上传图片和选择语音，可生成角色说话、唱歌和表达情感的动态视频。支持多角色、多轮对话及长视频生成，具备高时间一致性。采用扩散模型与音频条件化技术，确保动作与语音同步。适用于互动故事、虚拟直播、娱乐表演及教育内容创作，提供高效、高质量的视频生成体验。

AI项目与工具 2025年06月11日 12 点赞 0 评论 960 浏览

MAGI

MAGI-1是一款由Sand AI开发的开源视频生成大模型，采用自回归架构，支持高效、高质量的视频生成，具备高分辨率输出、无限扩展能力和可控生成特性。适用于内容创作、影视制作、游戏开发等多个领域，技术上融合了自回归去噪、Transformer VAE、扩散模型等创新方法，提升生成效率与稳定性。

AI项目与工具 2025年06月11日 37 点赞 0 评论 594 浏览

必火AI

必火AI是一款面向短视频创作的国产AI数字人工具，支持数字人形象生成、语音合成与视频制作等功能。用户上传3分钟真人视频即可生成高精度数字人形象，搭配丰富的音色库实现自然语音交互。平台提供多场景模板，适用于营销、教育、娱乐等多种用途，助力内容创作者高效生成高质量视频内容。

AI项目与工具 2025年06月11日 61 点赞 0 评论 673 浏览

VeoGo AI

VeoGo AI 是一款基于深度学习的短视频流量预测工具，可提前分析视频表现并提供优化建议，帮助创作者提升曝光与点击率。支持多平台算法适配，涵盖内容结构、画面构图、剪辑节奏、BGM选择等全方位优化指导，预测准确率超92%，适用于短视频创作与效率提升场景。

AI项目与工具 2025年06月11日 33 点赞 0 评论 872 浏览

FramePack

FramePack 是斯坦福大学推出的开源 AI 视频生成模型，通过帧上下文打包和抗漂移采样技术，实现高效、稳定的视频生成。其仅需 6GB 显存即可运行，支持实时高清视频生成，具备灵活的调度策略，适用于多种应用场景，如短视频制作、游戏开发、教育与广告等，显著降低了视频生成的硬件门槛。

AI项目与工具 2025年06月11日 23 点赞 0 评论 968 浏览

万相首尾帧模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是一款开源视频生成工具，基于DiT架构和交叉注意力机制，可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效，适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能，且提供GitHub和HuggingFace开源资源供用户使用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 847 浏览

InternVL3

InternVL3是上海人工智能实验室推出的多模态大型语言模型，具备文本、图像、视频等多模态数据处理能力。采用原生多模态预训练方法，提升语言与视觉理解效率，并支持工具使用、3D视觉、工业图像分析等复杂任务。模型可通过API部署，适用于智能交互、图像识别、视频分析及客服系统等多种场景。

AI项目与工具 2025年06月11日 68 点赞 0 评论 632 浏览

视频

首页

视频

列表

默认

浏览次数

发布日期

DAM