图像描述 - 智狐AI导航

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型，参数量为968M。它基于LLaVA架构优化，能够处理视觉与文本输入，显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能，广泛应用于内容审核、智能助手、视觉搜索等领域。

AI项目与工具 2025年06月12日 37 点赞 0 评论 950 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 940 浏览

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。OmniCorpus不仅规模庞大，而且数据质量高，适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 938 浏览

Valley

Valley是一款由字节跳动开发的多模态大语言模型，擅长处理文本、图像和视频数据，广泛应用于内容分析、图像和视频描述、电子商务及短视频平台等领域。其Eagle版本通过引入VisionEncoder增强了模型性能，支持灵活调整令牌数量，实现了更高效的多模态数据处理。Valley在多项基准测试中表现出色，尤其在参数规模较小的情况下依然保持优异的成绩。

AI项目与工具 2025年06月12日 60 点赞 0 评论 920 浏览

Ivy

Ivy-VL是一款专为移动端和边缘设备设计的轻量级多模态AI模型，具备约30亿参数，专注于视觉问答、图像描述及复杂推理等任务，能够有效降低计算资源需求，同时在多模态任务中表现出色，尤其适用于增强现实、智能家居及移动学习等领域。

AI项目与工具 2025年06月12日 21 点赞 0 评论 760 浏览

Zamba2

Zamba2-7B是一款由Zyphra公司开发的小型语言模型，具有高效的推理速度和低内存占用的特点。它在图像描述任务中表现出色，适用于边缘设备和消费级GPU。Zamba2-7B通过创新的混合架构和技术优化，提供了卓越的语言理解和生成能力，同时支持多种应用场景，如移动应用开发、智能家居设备、在线客服系统、内容创作以及教育工具等。

AI项目与工具 2025年06月12日 46 点赞 0 评论 734 浏览

Bright Eye

Bright Eye是一款多功能的AI分析图像，可以生成文本、图像、代码、故事、诗歌的APP程序。

Ai图片处理 2025年06月05日 73 点赞 0 评论 721 浏览

Maya

Maya是一款开源多语言多模态模型，基于LLaVA框架开发，支持中文、法语、西班牙语等多种语言，专注于提升低资源语言的AI内容生成能力。它结合图像和文本数据，实现跨模态对齐和指令微调，广泛应用于跨语言内容理解、图像分析、教育和电子商务等领域。

AI项目与工具 2025年06月12日 26 点赞 0 评论 705 浏览

JoyCaption

JoyCaption是一款开源图像提示词生成工具，支持多种图像风格和内容类型，具备丰富的生成模式和灵活的提示控制功能。它适用于社交媒体、图像标注、内容创作、视觉辅助及教育等多个场景，能够生成高质量的描述性字幕和提示词，提升图像处理和创作效率。该工具性能优越，且完全免费开放。

AI项目与工具 2025年01月16日 91 点赞 0 评论 642 浏览

Jina Reader

Jina Reader是一款由Jina AI开发的开源工具，专注于将互联网上的HTML网页内容转换为适合大型语言模型处理的纯文本格式。它支持多种内容格式，具备流模式、JSON模式和Alt生成模式等功能，能够高效提取网页核心内容，去除冗余信息，并通过自然语言处理和动态内容处理技术提升文本质量和理解能力。Jina Reader适用于内容聚合、SEO优化、学术研究及个性化推荐等多个领域。

AI项目与工具 2025年06月12日 52 点赞 0 评论 639 浏览

图像描述

首页

图像描述

列表

默认

浏览次数

发布日期