图像 - 智狐AI导航

OmniAlign

OmniAlign-V是由多所高校联合开发的多模态大语言模型对齐数据集，包含约20万个多模态样本，涵盖自然图像和信息图表。其核心功能包括提供高质量训练数据、提升模型的开放式问答能力、增强推理与创造力，并支持模型持续优化。数据集通过图像筛选、任务设计及后处理优化确保数据质量，适用于多模态对话系统、图像辅助问答、创意生成等多个应用场景。

AI项目与工具 2025年06月12日 99 点赞 0 评论 619 浏览

ImgCreator AI

Imgcreator AI，一款强大而灵活的在线图片生成工具，您只需在输入框中输入您想要转化为图像的文本。

Ai图片处理 2025年06月05日 69 点赞 0 评论 619 浏览

Shot Rate

Shot Rate是一种用于电商的 AI 工具，可以生成无限变化的产品图像。它使用基于用户原始图像训练的自定义 AI 模型，为营销和宣传材料创建独特且高质量的产品视觉效果。

Ai绘画生成 2025年06月05日 41 点赞 0 评论 619 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 620 浏览

R1

R1-Onevision 是一款基于 Qwen2.5-VL 微调的开源多模态大语言模型，擅长处理图像与文本信息，具备强大的视觉推理能力。它在数学、科学、图像理解等领域表现优异，支持多模态融合与复杂逻辑推理。模型采用形式化语言和强化学习技术，提升推理准确性与可解释性，适用于科研、教育、医疗及自动驾驶等场景。

AI项目与工具 2025年06月12日 92 点赞 0 评论 620 浏览

摩笔天书

摩笔天书是一款由摩尔线程研发的AI辅助绘本创作工具，它结合了故事生成、图像生成、语音合成及音乐创作等多种AI技术，为用户提供从文字到完整绘本的全流程自动化创作服务。用户可轻松调整生成内容，满足个性化需求。该工具以其卓越的图文一致性、易读性及自动生成的音乐和旁白，成为无设计经验者快速产出高质量绘本的理想选择。

AI项目与工具 2025年06月12日 26 点赞 0 评论 621 浏览

insMind

insMind 是一款专业的商品图 AI 编辑工具，适用于提升产品图片质量。其主要功能包括快速背景去除、对象擦除、新背景生成、智能图像识别、创意滤镜与效果应用、批量处理及导出等。这款工具拥有直观的界面，适合各水平用户使用，支持广泛的设计需求，包括社交媒体内容创作。它能有效提高工作效率和创意表达。

AI项目与工具 2025年06月12日 41 点赞 0 评论 621 浏览

freeflo

FreeFlo 是一款面向创意工作者的 AI 工具，提供丰富的艺术风格提示词库，支持主流 AI 图像生成平台。其功能涵盖风格化提示词、SREF 参数代码及精选图片资源，适用于艺术创作、平面设计、游戏开发、影视制作及教育等多个领域，助力提升创意项目的效率与质量。

AI项目与工具 2025年06月12日 91 点赞 0 评论 621 浏览

Unique3D

Unique3D是一款由清华大学团队开发的开源框架，专注于单张图像到3D模型的转换。它利用多视图扩散模型和法线扩散模型，结合多级上采样策略和ISOMER算法，能够在短时间内生成高保真度且纹理丰富的3D网格模型。Unique3D能够从单个2D图像生成3D网格模型、多个正交视图图像和法线贴图，并通过多级上采样过程提高图像分辨率，最终实现颜色和几何细节的高度整合。

AI项目与工具 2025年06月12日 28 点赞 0 评论 622 浏览

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型，基于 Gemini Nano 架构，采用逐层嵌入技术，将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入，可生成结构化文本输出，并具备音频转录、情感分析等功能。可在本地设备运行，响应时间低至 50 毫秒，适用于语音助手、内容生成和学术任务定制。

AI项目与工具 2025年06月11日 87 点赞 0 评论 623 浏览

图像

首页

图像

列表

默认

浏览次数

发布日期