多模态 - 智狐AI导航

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型，具备快速处理文本、音频和图像的能力，支持多语言输出和实时音视频流输入。通过Agent技术和工具调用，Gemini 2.0 能够自主理解任务并提供解决方案，已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用，计划逐步开放更多功能。

AI项目与工具 2025年06月12日 63 点赞 0 评论 438 浏览

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型，专注于长上下文多模态学习，具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B，但性能接近更大模型。采用信息优先采样和渐进式后训练策略，提升模型稳定性与适应性。支持多样任务，适用于视频分析、图像处理、内容创作及教育等多个领域。

AI项目与工具 2025年06月11日 59 点赞 0 评论 439 浏览

LongLLaVA是由香港中文大学（深圳）研究团队开发的多模态大型语言模型，结合Mamba和Transformer模块，利用2D池化技术压缩图像token，大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异，特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化，支持多种多模态输入处理，广泛应用于视频分析、医学影像诊断、环境监测等领域。

AI项目与工具 2025年06月12日 67 点赞 0 评论 439 浏览

心影大模型

心影大模型是一款专注于游戏领域的AI工具，基于超百万条游戏数据训练，支持《原神》《艾尔登法环》等主流游戏，提供精准攻略查询、情感化角色互动、多模态交互等功能。其响应速度快，准确率高，适用于游戏辅导、情绪支持、心理陪伴等多种场景，提升用户体验与互动性。

AI项目与工具 2025年06月11日 88 点赞 0 评论 439 浏览

Aya Vision

Aya Vision 是 Cohere 推出的多模态、多语言视觉模型，支持 23 种语言，具备图像描述生成、视觉问答、文本翻译和多语言摘要生成等能力。采用模块化架构与合成标注技术，确保在资源有限条件下仍具高效表现。适用于教育、内容创作、辅助工具开发及多语言交流等多个场景，具有广泛的实用价值。

AI项目与工具 2025年06月12日 70 点赞 0 评论 440 浏览

V-JEPA

创新的自监督学习模型，它通过预测视频帧的特征表示来学习视频的视觉表示。这种方法不仅能够处理视频内容，还能在图像任务上表现出色，具有广泛的应用潜力。

Ai平台模型 1970年01月01日 0 点赞 0 评论 440 浏览

生成时代

AIGC 多模态 API 平台，提供 AIGC 图像生成、图像编辑、视频生成、视频编辑、音频生成、训推一体等 API，免去 GPU 和模型维护成本，帮助开发者快速搭建 AIGC 应用。

Ai平台模型 2025年06月05日 88 点赞 0 评论 442 浏览

CAD

CAD-MLLM 是一款基于多模态输入生成参数化 CAD 模型的系统，融合了文本、图像和点云等多种数据形式。它通过命令序列与大型语言模型的结合，实现了高效的数据对齐与处理，并提出了创新的评估指标。CAD-MLLM 具备强大的鲁棒性和交互式设计能力，适用于工业设计、建筑设计、汽车制造等多个领域。

AI项目与工具 2025年02月07日 61 点赞 0 评论 443 浏览

CreatiLayout

CreatiLayout 是一种先进的布局到图像生成技术，由复旦大学与字节跳动联合开发。它基于大规模布局数据集 LayoutSAM，结合 SiamLayout 框架和 MM-DiT 架构，实现高质量、细粒度可控的图像生成。同时，其 LayoutDesigner 工具支持多种输入方式，帮助用户优化布局设计。适用于海报制作、室内设计、视觉创作及教学等多个领域。

AI项目与工具 2025年06月12日 56 点赞 0 评论 443 浏览

BuboGPT | 字节大模型

BuboGPT是由字节跳动开发的大型语言模型,能够处理多模态输入,包括文本、图像和音频,并具有将其响应与视觉对象相对应的独特能力。

Ai平台模型 2025年06月05日 99 点赞 0 评论 443 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期