图像 - 智狐AI导航

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型，具备强大的视觉链式推理能力，可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法，在多项基准测试中表现优异。模型开源，适用于教育、医疗、科研、内容审核等多个领域，推动多模态人工智能的发展。

AI项目与工具 2025年06月12日 80 点赞 0 评论 798 浏览

VQAScore

VQAScore是一种基于视觉问答（VQA）模型的评估工具，用于衡量文本提示生成图像的质量。它通过计算回答“是”概率的方式评估图像与文本提示的对齐程度，无需额外标注，提供更精确的结果。VQAScore支持多种生成任务，包括图像、视频及3D模型，并能作为多模态学习的研究工具，在自动化测试和质量控制中发挥重要作用。

AI项目与工具 2025年06月12日 86 点赞 0 评论 797 浏览

Inverse Painting

Inverse Painting 是一种基于 AI 的创新技术，能够逆向还原绘画过程，通过分析艺术家的绘画视频学习技巧与顺序，生成详细的绘画指令，逐步更新画布，模拟创作流程。该工具可应用于艺术教育、艺术创作辅助、文化遗产保护、艺术品鉴定、娱乐产业及交互式媒体等多个领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 797 浏览

DAM

DAM-3B是英伟达开发的多模态大语言模型，专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域，生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络，有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理，适用于动态场景。模型基于Transformer架构，支持多模态输入，广泛应用于内容创作、智能交互及无障碍工具等领域。

AI项目与工具 2025年06月11日 56 点赞 0 评论 797 浏览

Meissonic

Meissonic是一款由阿里巴巴集团与多家高校联合开发的文本到图像合成模型，基于掩蔽图像建模技术，结合多模态和单模态Transformer层、高级位置编码策略及优化采样条件，实现了高分辨率图像生成、文本到图像转换、零样本图像编辑等功能。其高效性能使其适用于多种场景，包括艺术创作、媒体娱乐、广告营销、教育及电子商务等领域。 ---

AI项目与工具 2025年06月12日 68 点赞 0 评论 796 浏览

Phraser

Phraser 是一款人工智能驱动的工具，专为 Midjourney、Dall-E、Stable Diffusion、Disco Diffusion 和 Craiyon 等领先艺术生成器的快速创作而设计。

Ai提示指令 2025年06月05日 28 点赞 0 评论 795 浏览

Nexa AI

Nexa AI致力于生成高质量的AI生成产品图像。它可以根据用户上传的产品图片，自动去除背景并生成符合不同行业的适用模板。

电商运营 2025年06月05日 74 点赞 0 评论 795 浏览

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架，能将单张风格图像的视觉特征（如几何结构、色彩和笔触）精准迁移到目标图像，同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型，结合超网络和时间感知注意力交换技术，实现高效且高质量的风格迁移。支持多种应用场景，如艺术创作、时尚设计、影视制作等，具备灵活性和广泛适用性。

AI项目与工具 2025年06月12日 63 点赞 0 评论 794 浏览

PhotoMaker

PhotoMaker V2是腾讯推出的一款AI图像生成框架，能够快速生成逼真的人物照片。它在角色的一致性和可控性上取得了显著进步，用户可以通过文本指令进行精准控制。该工具利用深度学习技术和生成对抗网络（GANs），能够将文本描述转化为图像，并通过集成脚本增强生成过程的个性化和可控性。PhotoMaker V2广泛应用于游戏开发、电影制作、广告、社交媒体、艺术创作和教育等领域。

AI项目与工具 2025年06月12日 34 点赞 0 评论 794 浏览

Hatch

Hatch是一款AI数字创意画布工具，提供无限的创作空间，能够根据用户的思考过程进行适应和调整。用户可以从一个提示、图像或问题开始，将想法以视觉化的方式进行组织和连接。它支持自由布局、无限扩展、智能生成、图像编辑、AI助手和实时协作等功能，帮助用户将创意转化为现实。适用于创意构思、项目规划和内容创作等场景。

AI项目与工具 2025年06月11日 83 点赞 0 评论 793 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期