跨模态 - 智狐AI导航

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 493 浏览

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 509 浏览

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统，融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合，实现了高效的数据对齐与处理，并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力，适用于工业设计、建筑设计、汽车制造等多个领域。

AI项目与工具 2025年02月07日 61 点赞 0 评论 522 浏览

Aya Vision

Aya Vision 是 Cohere 推出的多模态、多语言视觉模型，支持 23 种语言，具备图像描述生成、视觉问答、文本翻译和多语言摘要生成等能力。采用模块化架构与合成标注技术，确保在资源有限条件下仍具高效表现。适用于教育、内容创作、辅助工具开发及多语言交流等多个场景，具有广泛的实用价值。

AI项目与工具 2025年06月12日 70 点赞 0 评论 532 浏览

LDGen

LDGen是一款结合大型语言模型与扩散模型的文本到图像生成工具，支持零样本多语言生成，提升图像质量和语义一致性。通过分层字幕优化、LLM对齐模块和跨模态精炼器，实现文本与图像的高效交互。实验表明其性能优于现有方法，适用于艺术创作、广告设计、影视制作等多个领域，具备高效、灵活和高质量的生成能力。

AI项目与工具 2025年06月12日 59 点赞 0 评论 532 浏览

AudioX

AudioX 是一种基于多模态输入的音频生成模型，支持文本、视频、图像等多种输入方式，能够生成高质量的音频和音乐。其核心创新在于多模态掩码训练策略，提升了跨模态理解和生成能力。具备零样本生成、自然语言控制及强大的泛化能力，适用于视频配乐、动画音效、音乐创作等多个场景。

AI项目与工具 2025年06月12日 68 点赞 0 评论 537 浏览

VideoVAE+

VideoVAE+是一种由香港科技大学研发的跨模态视频变分自编码器，具备时空分离压缩和文本指导功能。它通过分离空间与时间信息处理，有效减少运动伪影，同时利用文本嵌入增强细节重建能力。VideoVAE+在视频重建质量上超越现有模型，支持高保真与跨模态重建，适用于视频压缩、影视后期制作及在线教育等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 544 浏览

ImageBind

ImageBind是由Meta公司开发的开源多模态AI模型，能够整合文本、音频、视觉、温度和运动数据等多种模态的信息，并将其统一到一个嵌入空间中。该模型通过图像模态实现其他模态数据的隐式对齐，支持跨模态检索和零样本学习。它在增强现实（AR）、虚拟现实（VR）、内容推荐系统、自动标注和元数据生成等领域有广泛应用。

AI项目与工具 2025年06月12日 16 点赞 0 评论 547 浏览

XMusic

XMusic是腾讯多媒体实验室开发的AI作曲框架，支持多模态输入（如图片、文字、视频等）生成情绪、风格、节奏可控的高质量音乐。其核心技术包括多模态解析、符号音乐表示与生成优化，具备商用级音乐生成能力。适用于视频配乐、互动娱乐、音乐教育、辅助创作及音乐治疗等多个场景，有效降低音乐创作门槛，提升创作效率与个性化体验。

AI项目与工具 2025年06月12日 77 点赞 0 评论 551 浏览

BioMedGPT

BioMedGPT-R1是由清华大学AI产业研究院与北京水木分子生物科技联合开发的多模态生物医药开源大模型。基于DeepSeek R1技术，实现生物模态（如分子、蛋白质）与自然语言的统一融合，支持跨模态问答与深度推理。该模型在药物分子理解、靶点挖掘等领域表现优异，适用于药物设计、临床前研究及医学文本分析等多种场景，具备较高的文本推理能力和多模态处理能力。

AI项目与工具 2025年06月12日 95 点赞 0 评论 556 浏览

跨模态

首页

跨模态

列表

默认

浏览次数

发布日期