多模态 - 智狐AI导航

Emu3

Emu3是一款由北京智源人工智能研究院开发的原生多模态世界模型，结合了多模态自回归技术和单一Transformer架构，能够在图像、视频和文本之间实现无缝转换。它不仅能够根据文本生成高质量图像，还能预测视频发展并理解图文内容，广泛应用于内容创作、广告营销、教育、娱乐等多个领域。

AI项目与工具 2025年06月12日 58 点赞 0 评论 765 浏览

UniFluid

UniFluid是由谷歌DeepMind与麻省理工学院联合开发的统一自回归框架，支持图像生成与视觉理解任务。它通过连续视觉标记处理多模态输入，结合Gemma模型和VAE技术，实现高质量图像生成与强大视觉理解能力。该框架在图像编辑、视觉问答和图像描述等任务中表现出色，具备良好的下游任务迁移能力，适用于创意设计、内容创作等多个领域。

AI项目与工具 2025年06月12日 54 点赞 0 评论 765 浏览

跃问

一款免费AI聊天机器人，个人效率助手，跃问支持多模态能力，能够理解图片物体、阅读总结文档信息和解析网页内容，支持连续的多轮对话等。

AI写作对话 2025年06月05日 47 点赞 0 评论 766 浏览

SUPIR

SUPIR是一种创新的图像修复和画质增强方法，基于大规模生成模型StableDiffusion-XL（SDXL）和模型扩展技术。它通过深度学习和多模态方法实现低质量图像的高质量恢复，支持通过文本提示进行图像恢复的精细控制。SUPIR适用于多种应用场景，如老照片修复、模糊图像增强、噪点去除和色彩校正与增强。

AI项目与工具 2024年01月01日 88 点赞 0 评论 766 浏览

DeepSeek服务器繁忙怎么解决？16个免费R1满血版平替

本文介绍了16款可替代DeepSeek R1满血版的AI工具，涵盖本地部署、API调用及多平台解决方案。这些工具支持深度思考、联网搜索、多模态交互等功能，部分平台还提供高速专线、文档解析、图片识别等增强特性，满足不同场景下的AI需求。

AI项目与工具 2025年06月12日 62 点赞 0 评论 767 浏览

OCTAVE

OCTAVE是一款由Hume AI研发的语音语言处理工具，融合了多种领先AI技术，具备强大的个性化语音生成能力，支持从文字到语音的即时转化，并能精准模仿不同说话者的声线与情感表达。其主要功能包括多角色对话生成、复杂指令理解与响应，以及实时语音处理等。此外，OCTAVE可应用于客户服务、虚拟助手、教育培训、娱乐游戏等多个领域，为用户带来更加自然、生动的交互体验。

AI项目与工具 2025年06月12日 14 点赞 0 评论 767 浏览

MultiBooth

MultiBooth是一种由多所高校和研究机构联合开发的多概念图像生成工具，能够根据文本提示生成包含多个指定概念的高质量图像。其核心技术包括单概念学习和多概念整合，采用多模态编码器、自适应归一化和区域定制化模块，实现高效、精准的图像生成。支持插件式架构，具备良好的扩展性和灵活性，适用于创意设计、广告、教育、电商及科研等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 767 浏览

VideoRefer

VideoRefer是由浙江大学与阿里达摩院联合开发的视频对象感知与推理系统，基于增强型视频大型语言模型，实现对视频中对象的细粒度理解与分析。其核心包括大规模视频数据集、多功能空间-时间编码器和全面评估基准，支持对象识别、关系分析、推理预测及多模态交互等功能，适用于视频剪辑、教育、安防、机器人控制和电商等多个领域。

AI项目与工具 2025年06月12日 19 点赞 0 评论 768 浏览

Instella

Instella是AMD推出的30亿参数开源语言模型，基于自回归Transformer架构，支持4096标记序列，具备强大的自然语言理解、指令跟随和多轮对话能力。通过多阶段训练和高效优化技术，Instella在多个任务中表现优异，适用于智能客服、内容创作、教育辅导、编程辅助和企业知识管理等多个场景。AMD全面开放了模型资源，促进AI技术发展与社区合作。

AI项目与工具 2025年06月12日 79 点赞 0 评论 768 浏览

悟道大模型

北京智源研究院开发的一系列超大规模智能模型系统，悟道大模型旨在在语言处理领域达到或超越国际先进水平。

Ai平台模型 2025年06月05日 62 点赞 0 评论 769 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期