多模态 - 智狐AI导航

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型，由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性，能在大量GPU上高效训练，无需梯度检查点。LongVILA通过五阶段训练流程，结合大规模数据集构建和高性能推理，显著提升了长视频字幕的准确性和处理效率。此外，它还支持多种应用场景，包括视频字幕生成、内容分析、视频问答系统等。

AI项目与工具 2025年06月12日 52 点赞 0 评论 470 浏览

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目，旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境，支持模仿学习和强化学习，适用于多种机器人硬件。该项目具有多用途、可扩展的特点，通过提供预训练模型、数据集共享、模拟环境和多功能库等功能，帮助用户加速机器人项目的开发进程。

AI项目与工具 2025年06月12日 57 点赞 0 评论 729 浏览

MyShell

MyShell是一个全面的AI应用开发平台，提供了经典、开发和无代码三种模式，适合各种技能水平的用户。该平台支持创建AI原生应用，并通过AI代理商店提供多模态应用，涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制，鼓励创作者和用户参与，同时倡导使用开源模型，确保创作者和用户能够公平地分享收益。

AI项目与工具 2025年06月12日 97 点赞 0 评论 612 浏览

OmniCorpus

OmniCorpus是上海人工智能实验室联合多家知名高校和研究机构共同创建的一个大规模多模态数据集，包含86亿张图像和16960亿个文本标记，支持中英双语。它通过整合来自网站和视频平台的文本和视觉内容，提供了丰富的数据多样性。OmniCorpus不仅规模庞大，而且数据质量高，适合多模态机器学习模型的训练和研究。它广泛应用于图像识别、视觉问答、图像描述生成和内容推荐系统等领域。

AI项目与工具 2025年06月12日 75 点赞 0 评论 770 浏览

Eagle

Eagle是一个由英伟达开发的多模态大模型，专长于处理高分辨率图像，提高视觉问答和文档理解能力。该模型采用多专家视觉编码器架构，通过简单的特征融合策略实现图像内容的深入理解。Eagle模型已开源，适用于多个行业，具有高分辨率图像处理、多模态理解、多专家视觉编码器、特征融合策略和预对齐训练等特点。

AI项目与工具 2025年06月12日 38 点赞 0 评论 532 浏览

Dola

Dola是一款基于人工智能的日历助手，它允许用户通过多种方式（包括文字、语音和图片）与主要的即时通讯软件交互，以高效地创建和管理日程事件。Dola具备自然语言理解和日历同步功能，能够自动识别并添加日程，支持跨平台同步，并在事件开始前发送提醒。此外，它还提供群组管理功能，适合团队和组织使用。Dola简化了日程管理流程，提升了个人和团队的工作效率。

AI项目与工具 2025年06月12日 93 点赞 0 评论 644 浏览

FluxMusic

FluxMusic 是一个开源的音乐生成工具，能够将文本描述转化为音乐。它采用先进的扩散模型和Transformer架构，通过修正流技术提高音乐的自然度和质量。该工具支持多种规模的模型，具备文本到音乐生成、语义理解、多模态融合等功能，适用于音乐创作、影视配乐、游戏音乐生成等多种场景。

AI项目与工具 2025年06月12日 66 点赞 0 评论 621 浏览

Deepfake Defenders 是一个由中国科学院自动化研究所的 VisionRush 团队开发的开源 AI 模型，主要用于检测和防御 Deepfake 技术生成的伪造图像和视频。它通过分析媒体内容中的细微像素变化来识别伪造内容，并提供像素级分析、实时检测等功能。该模型采用卷积神经网络（CNN）、生成对抗网络（GAN）等技术，支持多模态分析，具备开源协作特性，广泛应用于社交媒体监控、新闻验证

AI项目与工具 2025年06月12日 20 点赞 0 评论 635 浏览

蓝心大模型

蓝心大模型是由vivo研发的通用大模型矩阵，包括语言、端侧、语音、图像及多模态模型。该模型在内容创作、知识问答、逻辑推理、代码生成、信息提取、多语言翻译等方面表现出色。蓝心端侧大模型3B在移动设备上表现出色，蓝心语音大模型支持多语言，蓝心图像大模型融合了中国特色和东方美学，蓝心多模态大模型则提供了流畅的视频对话体验。

AI项目与工具 2025年06月12日 76 点赞 0 评论 729 浏览

Pixtral 12B

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 742 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期