架构 - 智狐AI导航

SAM 2.1

SAM 2.1是一款由Meta开发的先进视觉分割模型，支持图像和视频的实时分割处理。其核心功能包括用户交互式分割、多对象跟踪、数据增强以及遮挡处理等。通过引入Transformer架构和流式记忆机制，SAM 2.1显著提升了对复杂场景的理解能力。该工具具有广泛的应用场景，涵盖内容创作、医疗影像分析、自动驾驶等多个领域。

AI项目与工具 2025年06月12日 49 点赞 0 评论 998 浏览

CogVideoX v1.5

CogVideoX v1.5是一款由智谱研发的开源AI视频生成工具，具备文本到视频生成、图像到视频转换等功能，支持高清视频输出及音效匹配。它通过三维变分自编码器（3D VAE）、Transformer架构等技术手段，提升了视频生成的质量与效率，适用于内容创作、广告营销、教育培训等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 947 浏览

Filmfotos

Filmfotos是一款基于Flux架构的LoRA模型，专注于模拟和还原胶片质感。其低饱和度的日系胶片风格适用于多种场景，包括人物、风景、静物、食物和动物等，能够提升照片的艺术感和复古氛围。Filmfotos利用LoRA技术、深度学习和图像处理算法，实现高精度的图像生成，适用于摄影爱好者、专业人士及创意工作者。

AI项目与工具 2025年06月12日 39 点赞 0 评论 923 浏览

Llama 4 是 Meta 推出的多模态 AI 模型系列，采用混合专家（MoE）架构，提升计算效率。包含 Scout 和 Maverick 两个版本，分别适用于不同场景。Scout 支持 1000 万 token 上下文，Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言，具备强大的语言生成与多模态处理能力，适用于对话系统、文本生成、代码辅助、图像分析等多个

AI项目与工具 2025年06月12日 46 点赞 0 评论 910 浏览

OmniEdit

OmniEdit是一款基于多专家模型监督训练的先进图像编辑工具，支持七种核心图像编辑任务，包括对象替换、移除、添加、属性修改、背景替换、环境变化和风格转换。它能够处理不同宽高比和分辨率的图像，采用EditNet架构，提升了编辑的成功率和图像保真度。OmniEdit在自动与人工评估中表现优异，适用于专业设计、社交媒体内容创作、电子商务、新闻媒体等多个领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 903 浏览

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 902 浏览

DeepSeek V3

DeepSeek V3是一款由幻方量化旗下的深度求索公司开源的AI模型，拥有6850亿参数，采用混合专家架构。它在多语言编程、长文本处理和对话交互方面表现出色，能够生成高质量代码、优化现有代码、协助调试、生成文本、分析文本、润色文本，并支持自然对话和多轮对话。此外，它在多个基准测试中表现出色，包括编程、数学、推理等领域。

AI项目与工具 2025年06月12日 53 点赞 0 评论 900 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 889 浏览

LalaEval

LalaEval是由香港中文大学与货拉拉数据科学团队联合开发的针对特定领域大语言模型的人类评估框架。它提供了一套完整的端到端评估流程，涵盖领域界定、能力指标构建、评测集生成、标准制定及结果分析。通过争议度与评分波动分析，有效减少主观误差，提升评估质量。该工具已在物流领域成功应用，并具备良好的跨领域扩展性，适用于企业内部模型优化与多场景评测。

AI项目与工具 2025年06月12日 29 点赞 0 评论 889 浏览

PixArt

PixArt-Σ是一款基于扩散Transformer架构（DiT）的文本生成图像模型，专为生成高达4K分辨率的高质量图像而设计。该模型通过整合高级元素并采用从弱到强的训练方法，不仅提升了生成图像的保真度，还增强了图像与文本提示之间的对齐效果。PixArt-Σ的生成图像在美学质量上可媲美当前顶级的文本到图像产品，并且在遵循文本提示方面表现出色。主要功能包括4K分辨率图像生成、高保真转换、高效率训练和

AI项目与工具 2024年01月01日 82 点赞 0 评论 887 浏览

架构

首页

架构

列表

默认

浏览次数

发布日期