多模态 - 智狐AI导航

Awesome GPT

一个精选的GPT-4o生成图片集锦，收集了OpenAI 最新多模态模型 GPT‑4o 生成的精彩案例，展示其强大的文本‑图像理解与创作能力。

Ai学习资源 2025年06月05日 92 点赞 0 评论 603 浏览

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型，具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成，适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据，并从美学角度进行图像评价，适合需要高效图像处理和智能交互的应用场景。

AI项目与工具 2025年06月12日 52 点赞 0 评论 603 浏览

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型，专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐，支持Token级图文交互，提升了多模态任务性能。其基于自研的TokenIT数据集进行训练，涵盖2000万张图像和18亿高质量Token-Mask对，覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域，具有广泛的适用性和

AI项目与工具 2025年06月12日 90 点赞 0 评论 602 浏览

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具，专为多模态眼科图像生成设计。通过自然语言提示，EyeDiff能够捕捉常见及罕见眼病的关键特征，显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制，结合潜在扩散模型（LDM），生成高质量、与文本高度一致的图像，适用于数据增强、疾病筛查、数据共享及医学教育等场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 600 浏览

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型，结合自回归与扩散模型优势，实现高效图像理解和生成。基于CLIP语义特征，支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略，提升模型性能。完全开源，适用于创意设计、视觉问答、艺术生成等多种场景。

AI项目与工具 2025年06月11日 12 点赞 0 评论 600 浏览

GR00T N1

GR00T N1 是英伟达推出的开源人形机器人基础模型，支持多模态输入并具备复杂任务执行能力。采用双系统架构，结合视觉-语言模型与扩散变换器，实现精准动作控制。基于大规模数据训练，适应多种机器人形态和任务场景，广泛应用于物流、制造、医疗等领域，提升自动化水平与操作效率。

AI项目与工具 2025年06月12日 62 点赞 0 评论 600 浏览

GPTder

通过GPTder发现和使用GPTs插件。任何人都可以轻松构建自己的GPT。使用GPTs连接到世界。

GPTs应用 2025年06月05日 67 点赞 0 评论 598 浏览

Seed Music

一个强大的音乐生成工具，它通过先进的技术手段，如自回归模型和扩散模型，为用户提供了从音乐创作到编辑再到声音转换的全方位服务。这套系统不仅能够生成高质量的音乐作品，还能...

创作工具 1970年01月01日 0 点赞 0 评论 596 浏览

Project Mariner

Project Mariner是一款由谷歌DeepMind研发的浏览器助手工具，依托Gemini 2.0技术实现浏览器自动化。该工具能够解析并操作网页内容，涵盖像素、文本、图像及表单等多种形式的数据，支持复杂任务处理与自动化流程管理。此外，它强调用户体验与安全性，在执行关键操作时需获得用户授权。主要应用场景包括数据整理、在线购物、旅行规划及日常消费等领域。

AI项目与工具 2025年06月12日 90 点赞 0 评论 596 浏览

京点点

京点点是京东零售技术推出的AI内容生成平台，专为电商场景设计，支持商品图片、营销文案等多模态内容的高效生成。基于DiT框架、Flow Matching等先进技术，平台可精准提取商品信息并生成高质量素材，适用于多种电商场景。面向京东商家、合作伙伴及内部员工开放，助力提升内容生产效率与质量。

AI项目与工具 2025年06月12日 82 点赞 0 评论 595 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期