多模态 - 智狐AI导航

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具，专为多模态眼科图像生成设计。通过自然语言提示，EyeDiff能够捕捉常见及罕见眼病的关键特征，显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制，结合潜在扩散模型（LDM），生成高质量、与文本高度一致的图像，适用于数据增强、疾病筛查、数据共享及医学教育等场景。

AI项目与工具 2025年06月12日 89 点赞 0 评论 752 浏览

星河易创AI

全功能一站式AI创作平台，集成了行业领先的ChatGPT4.0和ChatGPT3.5对话系统，Midjourney的绘画能力，DALL-E的文本到图像创造力，以及GPT4-ALL的多模态能力。

AI写作对话 2025年06月05日 83 点赞 0 评论 752 浏览

Apollo

Apollo是一个由Meta和斯坦福大学合作研发的大型多模态模型，专注于视频内容的理解。其核心特性包括“Scaling Consistency”现象的应用、高效的视频理解评估基准ApolloBench、以及在处理长视频方面的卓越性能。Apollo模型家族涵盖多种规模，广泛应用于视频内容分析、搜索推荐、智能监控、自动驾驶及教育等领域。

AI项目与工具 2025年06月12日 16 点赞 0 评论 752 浏览

AutoGLM

AutoGLM-Web是一款基于大型语言模型开发的AI浏览器助手，具备网页浏览、信息检索、内容总结及邮件自动回复等功能。它通过自进化在线课程强化学习框架不断优化性能，支持多场景应用，适用于办公自动化、学术研究、电商运营及客户服务等领域。

AI项目与工具 2025年06月12日 74 点赞 0 评论 753 浏览

龙猫LongCat

龙猫LongCat是美团自主研发的生成式AI大模型，具备多模态处理能力，可支持文本、图像等内容生成任务。其核心功能涵盖智能编程、会议记录、文档编辑、图形设计与视频脚本生成等，适用于多种办公场景。通过大规模预训练与混合训练策略，龙猫在实际应用中展现出高效、精准的特点，有效提升工作效率与创新能力。

AI项目与工具 2025年06月12日 70 点赞 0 评论 753 浏览

Luma Ray2

Luma Ray2 是 Luma AI 推出的视频生成模型，基于多模态架构，支持文本和图像输入，生成高质量、连贯的视频内容。相较前代，视频时长从 5 秒提升至 1 分钟，支持电影级运镜和逼真特效，适用于影视制作、广告、游戏动画及教育等多个领域。

AI项目与工具 2025年06月12日 28 点赞 0 评论 753 浏览

AIMv2

AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型，通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练，支持多种参数规模，适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能，并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异，具备良好的可扩展性和零样本适应能力。

AI项目与工具 2025年06月12日 48 点赞 0 评论 753 浏览

ImageRAG

ImageRAG 是一种基于检索增强生成（RAG）技术的图像生成工具，通过动态检索相关图像提升文本到图像模型的生成能力。它能够增强对罕见概念的理解与生成，提升图像的真实度和相关性，支持多模态生成与个性化定制。无需额外训练即可适配多种 T2I 模型，广泛应用于创意设计、品牌推广、教育及影视等领域。

AI项目与工具 2025年06月12日 12 点赞 0 评论 753 浏览

MetaMorph

MetaMorph是一款基于多模态大模型的工具，通过Visual-Predictive Instruction Tuning（VPiT）技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异，能够克服其他生成模型的常见失败模式，同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势，支持多模态数据的高效处理，并在视觉生成与理解基准测试中取得竞争力表现。

AI项目与工具 2025年06月12日 53 点赞 0 评论 755 浏览

MobA

MobA是一种基于多模态大型语言模型的移动智能体，通过高级全局智能体（GA）和低级局部智能体（LA）的两级架构，实现任务规划、分解与执行，支持跨应用操作和自动化流程。其反思模块助力高效处理复杂任务，广泛应用于个人助理、智能家居控制、移动设备自动化及教育等领域。

AI项目与工具 2025年06月12日 35 点赞 0 评论 756 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期