Universal Universal-1是一款由AssemblyAI开发的多语言语音识别和转录模型,经过大量多语种音频数据训练,支持英语、西班牙语、法语和德语等。该模型在各种复杂环境中提供高精度的语音转文字服务,具备快速响应能力和改进的时间戳准确性。Universal-1在准确率、响应时间、时间戳估计和用户偏好等方面表现优异,适用于对话智能平台、AI记事本、创作者工具和远程医疗平台等多个应用场景。 AI项目与工具 2024年01月01日 88 点赞 0 评论 462 浏览
TrackVLA TrackVLA是银河通用推出的端到端导航大模型,具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障,并根据自然语言指令识别和跟踪目标对象。无需提前建图,适用于多种场景,如陪伴服务、安防巡逻、物流配送等,为具身智能商业化提供支撑,推动机器人走向日常生活。 AI项目与工具 2025年06月11日 79 点赞 0 评论 467 浏览
Manus Slides Manu发布的新功能。它可以通过单个提示快速生成结构化的PPT,通过 Manus 强大的AI代理能力,可自动生成与主题匹配的PPT结构,并优化内容布局。 PPT资源 2025年06月05日 71 点赞 0 评论 472 浏览
通义千问AI大模型 通义千问大模型AI开放平台,覆盖语言、听觉、多模态等领域;致力于实现接近人类智慧的通用智能,让AI从“单一感官”到“五官全开” Ai平台模型 2025年06月05日 18 点赞 0 评论 482 浏览
腾讯元宝电脑版 腾讯公司推出的一款基于混元大模型的AI助手,拥有AI搜索、AI总结、AI写作等功能,并提供了多个特色AI应用,如AI头像、口语陪练、超能翻译等。 AI写作对话 2025年06月05日 69 点赞 0 评论 485 浏览
VRAG VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。 AI项目与工具 2025年06月11日 84 点赞 0 评论 485 浏览