多模态 - 智狐AI导航

TinyVLA

TinyVLA是一种轻量级的视觉-语言-动作（VLA）模型，专为机器人操控设计。它通过结合多模态模型和扩散策略解码器，实现了快速推理、数据高效和多任务学习的能力，并在泛化性能上表现优异。TinyVLA可应用于家庭、工业、服务等多个领域，具有广泛的实用价值。

AI项目与工具 2025年06月12日 91 点赞 0 评论 847 浏览

EMOVA

EMOVA是一款由多所高校与企业联合研发的多模态全能型AI助手，具备处理图像、文本和语音的能力，支持情感化语音对话，并通过轻量级情感控制模块增强了人机交互的自然性。其核心技术包括连续视觉编码器、语义-声学分离的语音分词器及全模态对齐机制，广泛应用于客户服务、教育辅助、智能家居控制等多个领域。

AI项目与工具 2025年06月12日 55 点赞 0 评论 847 浏览

华藏通用大模型

华藏通用大模型是一个多功能的人工智能平台，它通过集成先进的算法和大量数据训练，为用户提供了一个强大的工具，以支持各种应用场景，从客户服务到专业咨询，再到数据分析和自动...

创作工具 2026年07月28日 0 点赞 0 评论 848 浏览

ChatWise

ChatWise 是一款支持多种语言模型的 AI 聊天工具，提供多模态交互功能，支持音频、PDF、图片和文本文件处理。其桌面优化设计提升体验，数据本地存储保障隐私。内置网页搜索功能，支持连接 Notion、Google Sheets 等外部工具，适用于学习、办公、内容创作等场景。

AI项目与工具 2025年06月11日 100 点赞 0 评论 850 浏览

WorldDreamer

WorldDreamer 是一种基于 Transformer 的通用世界模型，具备理解与预测物理世界动态变化的能力，专注于视频生成任务。它支持多种应用场景，包括文本到视频、图像到视频、视频编辑和动作序列生成，利用视觉 Token 化、Transformer 架构和多模态提示技术，实现了高效且高质量的视频生成。

AI项目与工具 2025年06月12日 16 点赞 0 评论 851 浏览

LazyLLM

LazyLLM 是一款开源的低代码平台，用于高效构建多智能体大语言模型应用。它支持低代码开发、多智能体架构、模型微调、一键部署、跨平台运行及多模态扩展等功能，适用于聊天机器人、RAG、故事创作和AI绘画等多种场景。其核心采用数据流驱动和模块化设计，提升开发效率和灵活性。

AI项目与工具 2025年06月12日 30 点赞 0 评论 855 浏览

LeRobot

LeRobot是一个由HuggingFace开发的开源AI聊天机器人项目，旨在简化机器人技术的学习过程。它提供了预训练模型、数据集和模拟环境，支持模仿学习和强化学习，适用于多种机器人硬件。该项目具有多用途、可扩展的特点，通过提供预训练模型、数据集共享、模拟环境和多功能库等功能，帮助用户加速机器人项目的开发进程。

AI项目与工具 2025年06月12日 57 点赞 0 评论 855 浏览

阿里翻译

阿里翻译是由阿里巴巴提供的多语种在线实时AI翻译网站，由阿里巴巴达摩院机器智能技术实验室提供技术支持，多语言多场景覆盖的智能翻译解决方案。

Ai办公效率 2025年06月05日 77 点赞 0 评论 857 浏览

Flame

Flame是一款开源的多模态AI模型，能够将UI设计截图转换为高质量的现代前端代码。它支持React等主流框架，具备动态交互、组件化开发和高代码质量的特点。Flame通过创新的数据合成方法提升代码多样性与准确性，适用于快速原型开发、提升开发效率及辅助学习等多种场景。其训练数据、模型和测试集均已开源，为前端开发提供了高效的工具支持。

AI项目与工具 2025年06月12日 87 点赞 0 评论 858 浏览

Pixtral 12B是一款由法国初创企业Mistral开发的多模态AI模型，能够同时处理图像和文本数据。该模型包含120亿参数，大小约为24GB，基于Nemo 12B文本模型构建。它具备强大的图像和文本处理能力，能够执行图像描述生成、统计照片中的物体数量等任务，并在多个基准测试中表现出色。Pixtral 12B将根据Apache 2.0许可证开源，用户可以自由下载和微调该模型。应用场景广泛，包括

AI项目与工具 2025年06月12日 69 点赞 0 评论 858 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期