多模态 - 智狐AI导航

RapiLearn AI

RapiLearn AI 是一款基于人工智能的教育工具，支持多种格式学习资料的整合与生成，包括视频、音频、笔记、测试和思维导图等。具备交互式学习功能，提供智能助教服务，可拓展知识点并推荐相关内容。支持多模态学习体验，适用于学生、教师及各类学习者，提升学习效率与知识掌握度。

AI项目与工具 2025年06月12日 99 点赞 0 评论 467 浏览

BGE

BGE-VL是由北京智源研究院联合高校开发的多模态向量模型，基于大规模合成数据MegaPairs训练，具备高效的多模态数据合成方法和强大的泛化能力。它支持图文检索、组合图像检索和多模态嵌入等功能，适用于智能搜索、内容推荐、图像编辑辅助等多个领域。模型在多种任务中表现优异，尤其在组合图像检索方面取得显著成果。

AI项目与工具 2025年06月12日 14 点赞 0 评论 467 浏览

OmniBooth

OmniBooth是一款由华为诺亚方舟实验室与香港科技大学联合开发的图像生成框架，支持基于文本或图像的多模态指令控制及实例级定制。它通过高维潜在控制信号实现对图像中对象位置和属性的精准操控，具备多模态嵌入提取、空间变形技术以及特征对齐网络等功能，广泛应用于数据集生成、内容创作、游戏开发、虚拟现实及广告营销等领域。

AI项目与工具 2025年06月12日 46 点赞 0 评论 465 浏览

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型，能够整合文本、音频、视觉、温度和运动数据等多种模态的信息，并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐，支持跨模态检索和零样本学习。它在增强现实（AR）、虚拟现实（VR）、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

AI项目与工具 2025年06月12日 16 点赞 0 评论 465 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 465 浏览

II

II-Agent 是一个开源的 Agent 框架，通过与大型语言模型（LLM）交互，简化和提升跨领域的工作流程。其核心功能包括研究与事实核查、内容生成、数据分析与可视化、软件开发、工作流自动化及问题解决等。具备动态上下文提示、智能 token 管理、规划与反思能力、多模态处理以及实时通信等功能。支持 CLI 和 WebSocket 接口，适用于智能客服、金融投顾、医疗诊断和教育辅导等多种场景。

AI项目与工具 2025年06月11日 67 点赞 0 评论 464 浏览

Firefly Image Model 4 是 Adobe 推出的图像生成模型，支持高分辨率（最高2K）图像生成，并提供对图像结构、风格、视角等的精细控制。其增强版 Firefly Image Model 4 Ultra 特别适用于复杂场景和细节处理。该模型基于深度学习技术，包括 GAN 和 Diffusion Model，能够根据文本描述或参考图像生成高质量图像。广泛应用于创意设计、广告、艺术、

AI项目与工具 2025年06月11日 27 点赞 0 评论 464 浏览

WeaveFox

WeaveFox 是一款基于 AI 技术的前端开发平台，通过百灵多模态大模型实现从设计图到前端源代码的自动化生成，支持多端适配及多种技术栈。它不仅提高了开发效率和代码质量，还提供了灵活的二次调整功能，确保设计意图的精准还原。未来，WeaveFox 将开放更多应用场景，如快速原型开发、中后台页面构建以及移动端界面生成等。

AI项目与工具 2025年06月12日 88 点赞 0 评论 464 浏览

智谱API-免费领取

新用户免费领1亿tokens，基于领先的千亿级多语言、多模态预训练模型，打造高效率、通用化的“模型即服务”AI开发新范式。

GPTs应用 1970年01月01日 0 点赞 0 评论 464 浏览

PP

PP-DocBee是百度飞桨推出的多模态文档理解模型，基于ViT+MLP+LLM架构，支持文字、表格、图表等多类型文档内容的精准识别与解析。具备高效的推理性能和高质量输出，适用于文档问答、信息提取等场景，支持灵活部署，为文档处理提供智能化解决方案。

AI项目与工具 2025年06月12日 56 点赞 0 评论 463 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期