导航

Agent Q

Agent Q是一种自监督代理推理和搜索框架,结合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评及直接偏好优化(DPO)等技术。该框架通过迭代微调和基于人类反馈的强化学习进行自我改进,在网页导航和多步任务执行中表现优异。Agent Q的主要功能包括引导式搜索、自我批评、迭代微调、多步推理任务和零样本学习。它在电子商务、在线预订服务、软件开发、客户服务、数据分析和个性化推荐等领域具有广泛应用前景。

Chatbit

Chatbit 是一款专为网站设计的 AI 聊天机器人平台,旨在增强用户互动、自动应答问题并收集潜在客户信息。该平台支持自定义数据源,允许用户上传大量文本和文件来优化机器人的响应能力。Chatbit 提供多种个性化设置选项,包括外观和交流风格,同时具备自动收集潜在客户信息的功能。用户能够快速创建并部署聊天机器人,从而显著提升网站用户体验和运营效率。

VoxInstruct

VoxInstruct是清华大学开源的语音合成技术,能够根据人类语言指令生成高质量的语音。该系统采用统一的多语言编解码器语言建模框架,将传统的文本到语音任务扩展到了更广泛的人类指令到语音任务。VoxInstruct通过引入语音语义标记和多种无分类器指导策略,提升了语音合成的自然度和表现力。它支持多语言和跨语言合成,适用于智能语音助手、有声读物、教育培训等多个领域。

olly.bot

Olly.bot 是一款基于 OpenAI 技术的多合一 AI 助手,集成于 iMessage 和 SMS 平台,支持网络搜索、文档分析、图片生成等功能。它无需注册或下载,保护用户隐私,适用于多个操作系统。其核心功能包括任务管理、信息查询、文档分析及创意辅助,广泛应用于日常信息查询、学术研究、工作效率提升及创意工作等领域。

MSQA

MSQA是一个包含251,000个问答对的大规模多模态情境推理数据集,支持文本、图像和点云等多种数据形式,旨在提升具身AI在三维场景中的理解与推理能力。通过设计MSQA和MSNN两个基准测试任务,该工具不仅能够评估模型性能,还能促进具身AI和3D场景理解领域的研究进展。同时,它为开发更强大的情境推理模型提供了丰富的预训练资源。

桐小乌

桐小乌是一款由桐乡市政府与支付宝合作开发的AI智能助手,专为2024年世界互联网大会参会者及乌镇游客设计。它集成了会议日程查询、展区导航、景点讲解、餐饮住宿推荐等功能,并支持租借服务和AI伴游体验。通过支付宝“碰一下”、首页下拉或支小宝APP访问,用户可享受个性化服务和实时信息推送,助力高效便捷的会务与旅行体验。

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

Ranger

Ranger是一款基于AI的自动化测试平台,支持用户通过自然语言生成测试用例,并通过HTML代码执行测试,无需依赖屏幕截图。平台提供实时监控、详细测试报告及安全分析功能,适用于企业质量保证、CI/CD流程、生产环境监控及跨平台测试,具备良好的集成性和审计能力,提升软件开发效率与安全性。

Magma

Magma是微软研究院开发的多模态AI基础模型,具备理解与执行多模态任务的能力,覆盖数字与物理环境。它融合语言、空间与时间智能,支持从UI导航到机器人操作的复杂任务。基于大规模视觉-语言和动作数据预训练,Magma在零样本和微调设置下表现优异,适用于网页操作、机器人控制、视频理解及智能助手等多个领域。