视频处理 - 智狐AI导航

VMix

VMix是一款提升文本到图像生成美学质量的工具，通过解耦文本内容与美学描述，并引入细粒度美学标签，增强图像在色彩、光线、构图等方面的视觉表现。其核心技术为交叉注意力混合控制模块，可在不改变原有模型结构的情况下注入美学条件，保持图文一致性。VMix兼容多种扩散模型及社区模块，支持多源输入、高质量视频处理、实时直播与远程协作，广泛应用于电视直播、网络直播、现场活动及虚拟演播室等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 486 浏览

TimeSuite是一种由上海AI Lab开发的框架，专注于提升多模态大型语言模型在长视频理解任务中的表现。它通过引入高效的长视频处理框架、高质量的视频数据集TimePro和Temporal Grounded Caption任务，提升了模型对视频内容的时间感知能力，减少了幻觉风险，并显著提高了长视频问答和时间定位任务的性能。其核心技术包括视频令牌压缩、时间自适应位置编码、U-Net结构及多样化任务

AI项目与工具 2025年06月12日 78 点赞 0 评论 487 浏览

ReCapture

ReCapture是一种先进的视频处理技术，由谷歌与新加坡国立大学联合研发。它通过多视图扩散模型和点云渲染生成新视角视频，同时使用掩码视频微调技术优化视频质量，保留场景运动并补全不可见部分，广泛应用于电影制作、视频编辑、虚拟现实及新闻报道等领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 490 浏览

SVFR

SVFR是一款由腾讯优图实验室与厦门大学联合开发的视频人脸修复框架，能够统一处理视频中的人脸修复、着色和缺失区域补全任务。基于Stable Video Diffusion模型，结合任务嵌入、统一潜在正则化等技术，提升修复精度与时间稳定性。适用于影视后期、网络视频制作及数字档案修复等领域，具有广泛的应用价值。

AI项目与工具 2025年06月12日 81 点赞 0 评论 504 浏览

万兴天幕大模型

万兴天幕大模型是万兴科技AILab的创新成果，展现了其在多媒体领域的深厚技术积累和前瞻性布局。通过自研技术和多年行业经验，天幕大模型为全球创作者提供了一个强大的工具，以实现...

创作工具 1970年01月01日 0 点赞 0 评论 537 浏览

VideoGrain

VideoGrain是由悉尼科技大学与浙江大学联合研发的零样本多粒度视频编辑框架，支持类别级、实例级和部件级的精细化视频修改。它通过调节时空交叉注意力和自注意力机制，提升文本提示对目标区域的控制能力，确保时间一致性与特征分离，显著优于现有T2I和T2V方法。该工具无需额外参数调整，具备高效计算性能，适用于影视制作、广告营销、内容创作等多个领域。

AI项目与工具 2025年06月12日 99 点赞 0 评论 555 浏览

FaceFusion

FaceFusion是一款开源AI工具，支持图像和视频中的人脸交换与增强。其主要功能包括高质量的人脸交换、人脸增强、整体画面优化、唇形同步、多模型人脸检测及遮挡处理。通过深度学习技术，FaceFusion能够实现精准的人脸识别与对齐，广泛应用于电影制作、虚拟主播、广告营销及教育培训等领域。

AI项目与工具 2025年06月12日 80 点赞 0 评论 557 浏览

Gemma 3

Gemma 3 是谷歌推出的开源人工智能模型，支持多语言、多模态处理，具备文本、图像及短视频分析能力。提供多种模型尺寸，适配不同硬件环境，优化了单 GPU/TPU 性能，推理速度提升显著。内置图像安全分类器，增强内容安全性。支持多种开发工具和部署方式，适用于人脸识别、物体检测、智能助手、文本分析等场景。

AI项目与工具 2025年06月12日 20 点赞 0 评论 560 浏览

Linly

一款开源的多语言AI配音和视频翻译工具。Linly-Dubbing可以自动将视频翻译成其他语言并生成字幕、克隆视频中说话者的声音并自动配音、进行口型同步。

Ai开源项目 2025年06月05日 38 点赞 0 评论 568 浏览

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型，专为高效处理长视频设计。采用混合精度策略，支持在单张A100 GPU上处理长达3小时的视频，提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能，适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能，实现精准且高效的视频分析。

AI项目与工具 2025年06月11日 37 点赞 0 评论 579 浏览

视频处理

首页

视频处理

列表

默认

浏览次数

发布日期