SmolVLA SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。 AI项目与工具 2025年06月11日 34 点赞 0 评论 276 浏览
Grok 3 Grok 3是由马斯克旗下xAI推出的最新AI模型,具备强大的推理能力和多模态处理功能。采用“思维链”技术,支持复杂任务的逐步分析,提升逻辑准确性。模型参数量达1.2万亿,基于10万块H100 GPU训练,性能在多个基准测试中超越同类产品。适用于自动驾驶、医疗、教育、客服及营销等多个领域,提供高效智能解决方案。 AI项目与工具 2025年06月12日 66 点赞 0 评论 273 浏览
Morphik Morphik是一款开源的多模态检索增强生成(RAG)工具,专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索,采用ColPali技术理解文档中的视觉内容,具备快速元数据提取功能,可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成,适用于技术文档处理、企业知识管理和智能应用开发等场景。 AI项目与工具 2025年06月11日 27 点赞 0 评论 272 浏览
腾讯混元 腾讯混元大模型是由腾讯研发的大语言模型,具备跨领域知识和自然语言理解能力,实现基于人机自然语言对话的方式,理解用户指令并执行任务,帮助用户实现人获取信息,知识和灵感。 Ai平台模型 1970年01月01日 0 点赞 0 评论 272 浏览
VSI VSI-Bench是一种用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准测试工具,包含超过5000个问题-答案对,覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务,可全面评估模型的空间认知、理解和记忆能力,并提供标准化的测试集用于模型性能对比。 --- AI项目与工具 2025年06月12日 10 点赞 0 评论 271 浏览
MMSearch MMSearch 是一款用于评估大型多模态模型(LMMs)搜索能力的基准测试工具,包含 MMSearch-Engine 框架和 MMSearch 测试集。其核心功能包括问题重构、网页排序和答案总结,通过多模态搜索能力评估提升 LMMs 的性能。实验结果显示 GPT-4o 在该测试中表现优异,且增加计算量比扩大模型规模更具优势。 AI项目与工具 2025年06月12日 44 点赞 0 评论 271 浏览
WebLI WebLI-100B是由Google DeepMind推出的超大规模视觉语言数据集,包含1000亿个图像与文本配对数据,是目前最大的视觉语言数据集之一。其设计旨在提升模型对长尾概念、文化多样性和多语言内容的理解能力。数据集通过网络爬取构建,保留了丰富的语言和文化多样性,支持多模态任务如图像分类、图像描述生成和视觉问答,广泛应用于人工智能研究、工程开发及教育领域。 AI项目与工具 2025年06月12日 51 点赞 0 评论 271 浏览
Gemma 3 QAT Gemma 3 QAT 是谷歌推出的开源 AI 模型,采用量化感知训练技术,在降低显存需求的同时保持高性能。它支持多模态任务,具备 128,000-token 长上下文处理能力,并可在消费级 GPU 和边缘设备上运行。适用于视觉问答、文档分析、长文本生成等场景,同时兼容多种推理框架,便于部署。 AI项目与工具 2025年06月11日 44 点赞 0 评论 270 浏览
MyShell MyShell是一个全面的AI应用开发平台,提供了经典、开发和无代码三种模式,适合各种技能水平的用户。该平台支持创建AI原生应用,并通过AI代理商店提供多模态应用,涵盖效率工具、教育应用、游戏和客户服务等多个领域。平台还设有激励机制,鼓励创作者和用户参与,同时倡导使用开源模型,确保创作者和用户能够公平地分享收益。 AI项目与工具 2025年06月12日 97 点赞 0 评论 270 浏览
RMBG RMBG-2.0是一款基于先进AI技术的开源图像背景移除模型,通过深度学习和多模态数据处理实现了高达90.14%的准确率。该模型在高分辨率图像上经过大量训练,支持电子商务、广告、游戏开发等领域,具备高精度背景移除、多模态数据处理及云服务器无关架构等特点,为用户提供了高效、灵活的解决方案。 AI项目与工具 2025年06月12日 91 点赞 0 评论 267 浏览