多模态 - 智狐AI导航

Stable Diffusion 3.5

Stable Diffusion 3.5是一套由Stability AI开发的先进AI图像生成模型，包含多个版本以适应不同需求。它具备高定制性、高效的消费级硬件运行能力和开源许可，能够生成高质量、多样化的图像，支持多种风格和肤色表现。其核心技术基于多模态学习和优化的架构，适用于艺术创作、游戏开发、广告设计等多个领域。 ---

AI项目与工具 2025年06月12日 75 点赞 0 评论 614 浏览

ManusAI

全球首款通用型AI智能体，ManusAI通过自主任务执行、动态任务拆解、多模态交互和跨平台执行等能力，帮助用户高效完成复杂任务。

Ai平台模型 2025年06月05日 95 点赞 0 评论 614 浏览

DiffSensei是一款由北京大学、上海AI实验室及南洋理工大学联合开发的漫画生成框架，它结合了基于扩散的图像生成技术和多模态大型语言模型（MLLM）。该工具能够根据用户提供的文本提示和角色图像，生成具有高精度和视觉吸引力的黑白漫画面板，支持多角色场景下的互动与布局调整。其核心技术包括掩码交叉注意力机制、对话布局编码以及MLLM作为特征适配器等，广泛应用于漫画创作、个性化内容生成、教育和培训等领

AI项目与工具 2025年06月12日 47 点赞 0 评论 614 浏览

HunyuanCustom

HunyuanCustom是腾讯混元团队开发的多模态视频生成框架，支持图像、音频、视频和文本等多种输入条件，生成高质量定制化视频。采用文本-图像融合与图像ID增强技术，提升身份一致性和视频真实性。适用于虚拟人广告、虚拟试穿、视频编辑等场景，具备音频驱动和视频驱动两种生成方式，展现强大可控性与灵活性。

AI项目与工具 2025年06月11日 73 点赞 0 评论 614 浏览

元分身

元分身平台基于多模态AIGC与互动技术，打造媲美真人的的形象、声音、表情、动作、个性的AI数字人，应用于视频合成、直播、个性化交互等场景。

AI服务商 2025年06月05日 75 点赞 0 评论 615 浏览

MyShell

MyShell是一个全面的AI应用开发平台，提供了经典、开发和无代码三种模式，适合各种技能水平的用户。该平台支持创建AI原生应用，并通过AI代理商店提供多模态应用，涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制，鼓励创作者和用户参与，同时倡导使用开源模型，确保创作者和用户能够公平地分享收益。

AI项目与工具 2025年06月12日 97 点赞 0 评论 615 浏览

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 616 浏览

Sa2VA

Sa2VA是由字节跳动联合多所高校开发的多模态大语言模型，结合SAM2与LLaVA技术，实现对图像和视频的密集、细粒度理解。它支持指代分割、视觉对话、视觉提示理解等多种任务，具备零样本推理能力和复杂场景下的高精度分割效果。适用于视频编辑、智能监控、机器人交互、内容创作及自动驾驶等多个领域。

AI项目与工具 2025年06月12日 66 点赞 0 评论 616 浏览

DINO

DINO-X是一款由IDEA研究院开发的通用视觉大模型，具备开放世界对象检测与理解的能力。它支持多种提示类型，无需用户额外输入即可识别图像中的任意对象，并在多个基准测试中刷新了性能记录。DINO-X拥有Pro和Edge两个版本，分别针对高性能需求和边缘设备优化。其应用范围涵盖自动驾驶、智能安防、工业检测及机器人视觉等领域，助力行业创新与发展。

AI项目与工具 2025年06月12日 91 点赞 0 评论 617 浏览

千川AI

通过使用自然语言处理（NLP）技术，AI可以理解给定内容的上下文、语气和意图，并生成相关且吸引人的书面输出。

AI写作对话 2025年06月05日 27 点赞 0 评论 617 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期