多模态 - 智狐AI导航

孟子大模型

孟子大模型作为澜舟科技的核心产品之一，展现了公司在认知智能领域的技术实力和创新能力。通过其强大的语言处理和多模态数据处理能力，孟子大模型为不同行业提供了灵活、高效的解...

创作工具 1970年01月01日 0 点赞 0 评论 662 浏览

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 662 浏览

童语故事iMageStoryAi

一个基于数字分身和故事模型的AI儿童故事生成类Al产品，童语故事iMageStoryAi通过Al能力创造无限的潜能，让每个孩子健康快乐成长。

Ai绘画生成 2025年06月05日 93 点赞 0 评论 663 浏览

FlexRAG

FlexRAG 是一个高效的检索增强生成（RAG）框架，通过压缩编码器和选择性压缩机制优化长上下文处理，提升计算效率与生成质量。支持多模态数据、多种检索器和多数据类型，适用于开放域问答、对话系统、文档摘要等知识密集型任务，具备灵活配置和可扩展性。

AI项目与工具 2025年06月12日 69 点赞 0 评论 664 浏览

InternVL

InternVL是由上海人工智能实验室开发的多模态大模型，融合视觉与语言处理能力，支持图像、视频、文本等多种输入。其基于ViT-MLP-LLM架构，具备多模态理解、多语言处理、文档解析、科学推理等能力，广泛应用于视觉问答、智能客服、图像分析等领域。模型采用动态高分辨率与渐进式训练策略，提升处理效率与准确性。

AI项目与工具 2025年06月12日 78 点赞 0 评论 664 浏览

华为盘古AI大模型

华为的盘古ai大模型是华为云推出的一项人工智能技术。该大模型包含了多个领域的大型模型，包括自然语言处理（NLP）大模型、计算机视觉（CV）大模型、多模态大模型、预测大模型和科学计算大模型。

Ai平台模型 2025年06月05日 26 点赞 0 评论 664 浏览

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架，集成了文本和图像模态操作环境，提供标准化的基准测试任务。它通过支持多种模型类型（LLMs 和 LMMs），覆盖九个应用场景的 138 项任务，有效提升了开源模型的性能。此外，AndroidLab 提供了丰富的评估指标和操作模式，助力研究者优化模型表现并推动开源解决方案的发展。

AI项目与工具 2025年06月12日 38 点赞 0 评论 665 浏览

OmniAudio

OmniAudio-2.6B是一款专为边缘设备设计的高性能音频语言模型，具备语音识别、转录、问答、对话生成及内容创作等核心功能。其技术优势在于多模态架构的高效集成、稀疏性利用以及三阶段训练流程，支持FP16和Q4_K_M量化版本，确保在资源受限的环境下仍能稳定运行。OmniAudio-2.6B可应用于智能助手、车载系统、会议记录、教育和医疗等多个领域，为用户提供便捷、高效的语音交互体验。

AI项目与工具 2025年06月12日 95 点赞 0 评论 665 浏览

Gemini 2.0 Pro

Gemini 2.0 Pro是Google推出的高性能AI模型，具备200万tokens的上下文窗口，支持复杂任务处理、多语言理解和代码生成。它能调用外部工具如Google搜索和代码执行环境，提升信息获取与问题解决能力。适用于编程辅助、数据分析、学术研究、教育及创意内容生成等多个领域，是当前Google系列模型中的佼佼者。

AI项目与工具 2025年06月12日 94 点赞 0 评论 665 浏览

讯飞智能交互机

讯飞智能交互机是一款基于AI技术的交互设备，支持多模态感知与多维表达，提供沉浸式虚拟人交互体验。用户可自定义虚拟人形象和语音，接入讯飞星火大模型以增强交互能力。广泛应用于智能客服、导览讲解、政务服务等领域，提升服务效率与用户体验。

AI项目与工具 2025年06月12日 10 点赞 0 评论 666 浏览

多模态

首页

多模态

列表

默认

浏览次数

发布日期