跨模态 - 智狐AI导航

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统，融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合，实现了高效的数据对齐与处理，并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力，适用于工业设计、建筑设计、汽车制造等多个领域。

AI项目与工具 2025年02月07日 61 点赞 0 评论 443 浏览

百度智能漫画

百度文库推出的一项AI漫画生成功能，它利用人工智能技术，让用户能够轻松创作漫画。用户只需输入一句话，即可在几分钟内生成完整的漫画故事分镜和脚本。

Ai绘画生成 2025年06月05日 66 点赞 0 评论 622 浏览

书生通用大模型

上海人工智能实验室发布的大型预训练模型。

Ai平台模型 2025年06月05日 68 点赞 0 评论 748 浏览

蜜小豆

蜜小豆(蜜度Midu)-AI 绘画（以文生图）、AI图像修复、AI图像超分、AI图像增强。

AI服务商 2025年06月05日 21 点赞 0 评论 467 浏览

CoGenAV

CoGenAV是一种先进的多模态学习模型，专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练，利用同步音频、视频和文本数据，学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能，适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

AI项目与工具 2025年06月11日 80 点赞 0 评论 570 浏览

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 648 浏览

BAGEL

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 431 浏览

Mogao

Mogao是由字节跳动开发的多模态生成基础模型，结合双视觉编码器和先进位置嵌入技术，实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域，具备强大的跨模态处理能力和生成稳定性。

AI项目与工具 2025年06月11日 97 点赞 0 评论 665 浏览

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 422 浏览

万相首尾帧模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是一款开源视频生成工具，基于DiT架构和交叉注意力机制，可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效，适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能，且提供GitHub和HuggingFace开源资源供用户使用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 724 浏览

跨模态

首页

跨模态

列表

默认

浏览次数

发布日期

CAD