编码 - 智狐AI导航

Eagle

Eagle是一个由英伟达开发的多模态大模型，专长于处理高分辨率图像，提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构，通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源，适用于多个行业，具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

AI项目与工具 2025年06月12日 38 点赞 0 评论 665 浏览

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型，主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构，集成了视觉和语言信息，通过Siglip视觉编码器和Qwen-2语言模型，实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 890 浏览

Video

Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积（STC）连接器和音频分支，显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。

AI项目与工具 2025年06月12日 50 点赞 0 评论 642 浏览

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型，专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性，采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能，并且其源代码和资源已公开，可供研究和应用。

AI项目与工具 2025年06月12日 73 点赞 0 评论 664 浏览

Wav2Lip是一款开源的唇形同步工具，能够将音频文件转换为与口型同步的视频。它支持多种语言，适用于视频编辑、游戏开发和虚拟现实等多个领域。Wav2Lip具备音频驱动口型生成、面部表情同步和多语言支持等功能，采用先进的技术原理，如数据预处理、音频特征提取、口型编码器、音频到口型映射及生成对抗网络（GAN）。该工具提升了电影和视频的后期制作质量，增强了虚拟现实中的交互体验，还用于游戏开发、语言学习和

AI项目与工具 2025年06月12日 80 点赞 0 评论 918 浏览

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制，在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑，实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性，支持实时编辑，并在文本引导下的图像编辑方面表现出色。

AI项目与工具 2025年06月12日 75 点赞 0 评论 889 浏览

CogVideoX

CogVideoX是由智谱AI开发的开源AI视频生成模型，支持英文提示词生成6秒长、每秒8帧、分辨率为720x480的视频。它具备低显存需求、视频参数定制、3D Causal VAE技术和推理与微调功能。该模型采用基于Transformer的架构和3D Causal Variational Autoencoder技术，支持多阶段训练和自动及人工评估，适用于创意视频制作、教育材料、广告、游戏、电影编

AI项目与工具 2025年06月12日 55 点赞 0 评论 586 浏览

混元DiT

混元DiT（Hunyuan-DiT）是腾讯混元团队开源的高性能文本到图像的扩散Transformer模型，具备细粒度的中英文理解能力，能够生成多分辨率的高质量图像。该模型结合了双语CLIP和多语言T5编码器，通过精心设计的数据管道进行训练和优化。混元DiT的主要功能包括双语文本到图像生成、细粒度中文元素理解、长文本处理能力、多尺寸图像生成、多轮对话和上下文理解、高一致性和艺术性。此外，混元DiT在

AI项目与工具 2024年01月01日 64 点赞 0 评论 713 浏览

IDM

IDM-VTON是一种基于改进扩散模型的先进AI虚拟试穿技术，由韩国科学技术院和OMNIOUS.AI的研究人员共同开发。该技术利用视觉编码器提取服装的高级语义信息，并通过GarmentNet捕捉服装的低级细节特征，从而生成逼真的人物穿戴图像。IDM-VTON支持文本提示理解，实现了个性化定制和逼真的试穿效果，广泛应用于电子商务、时尚零售、个性化推荐、社交媒体以及时尚设计等领域。

AI项目与工具 2024年01月01日 49 点赞 0 评论 744 浏览

Open

Open-Sora是一个开源视频生成模型，基于DiT架构，通过三个阶段的训练（大规模图像预训练、大规模视频预训练和高质量视频数据微调），生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT（Spatial-Temporal Diffusion Transformer）核心组件，利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程，供

AI项目与工具 2024年01月01日 97 点赞 0 评论 631 浏览

编码

首页

编码

列表

默认

浏览次数

发布日期