cpmGO cpmGO是面壁智能推出的端侧智能助手,专为汽车座舱设计,支持多模态交互与本地化处理,保障隐私并适应弱网环境。其基于MiniCPM模型优化,具备智能任务处理、快速响应及灵活定制能力,适用于多种智能汽车场景,提升人车交互的便捷性与安全性。 AI项目与工具 2025年06月12日 94 点赞 0 评论 378 浏览
心绪云脑AI 一款专注于情绪健康管理的AI智能工具,提供情绪记录、实时情绪识别与疏导、心理健康课程等服务,帮助用户更好地管理情绪,提升心理健康。 生活创意 2025年06月05日 31 点赞 0 评论 378 浏览
LMMs LMMs-Eval 是一个用于多模态AI模型的统一评估框架,提供标准化、广泛覆盖且成本效益高的性能评估解决方案。它支持超过50个任务和10多个模型,并通过透明和可复现的评估流程帮助研究者和开发者全面了解模型能力。LMMs-Eval 还引入了 LMMs-Eval Lite 和 LiveBench,分别通过精简数据集降低评估成本并动态更新评估数据集,以确保模型泛化能力的有效评估。 AI项目与工具 2025年06月12日 86 点赞 0 评论 378 浏览
NEXUS NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。 AI项目与工具 2025年06月12日 84 点赞 0 评论 377 浏览
GO GO-1是智元机器人推出的首个通用具身基座模型,采用ViLLA架构,结合多模态大模型与混合专家系统,具备场景感知、动作理解和精细执行能力。支持小样本快速泛化、跨本体部署与持续进化,广泛应用于零售、制造、家庭及科研等领域,推动具身智能技术发展。 AI项目与工具 2025年06月12日 74 点赞 0 评论 376 浏览
Insight Insight-V是一款由南洋理工大学、腾讯和清华大学联合研发的多模态大型语言模型,专为提升长链视觉推理能力而设计。该模型通过多智能体系统将任务分解为推理与总结两步,并采用两阶段训练流程优化性能。其渐进式数据生成和多粒度评估方法进一步提升了模型的推理精度,在多个视觉推理基准测试中表现出色。 AI项目与工具 2025年06月12日 98 点赞 0 评论 375 浏览
Multimodal Live API Multimodal Live API是谷歌推出的一种支持文本、音频和视频交互的AI接口,具备低延迟、实时双向通信和自然语言处理能力。它允许用户通过多种输入方式与AI互动,并支持会话记忆和外部功能调用,广泛应用于客户服务、在线教育、远程医疗、视频会议和娱乐等领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 374 浏览
MUMU MUMU是一种多模态图像生成模型,通过结合文本提示和参考图像来生成目标图像,提高生成的准确性和质量。该模型基于SDXL的预训练卷积UNet,并融合了视觉语言模型Idefics2的隐藏状态。MUMU能够在风格转换和角色一致性方面展现强大的泛化能力,同时在生成图像时能够很好地保留细节。主要功能包括多模态输入处理、风格转换、角色一致性、细节保留以及条件图像生成。 AI项目与工具 2025年06月12日 58 点赞 0 评论 374 浏览
Video Video-LLaVA2是一款由北京大学ChatLaw课题组开发的开源多模态智能理解系统。该系统通过时空卷积(STC)连接器和音频分支,显著提升了视频和音频的理解能力。其主要功能包括视频理解、音频理解、多模态交互、视频问答和视频字幕生成。时空建模和双分支框架是其核心技术原理。Video-LLaVA2广泛应用于视频内容分析、视频字幕生成、视频问答系统、视频搜索和检索、视频监控分析及自动驾驶等领域。 AI项目与工具 2025年06月12日 50 点赞 0 评论 374 浏览