Agent Agent-S 是一款基于图形用户界面(GUI)的人机交互自动化框架,通过经验增强的分层规划和代理-计算机接口(ACI),实现了复杂任务的自动化分解与执行。它结合多模态大型语言模型(MLLMs)进行推理和控制,并具备持续学习和跨操作系统通用性的特点,适用于办公自动化、网页交互、个人助理、客户服务和教育等多个场景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 462 浏览
Sapiens Sapiens是由Meta实验室开发的AI视觉模型,主要用于解析图片和视频中的人类动作。它支持2D姿态估计、身体部位分割、深度估计和表面法线预测等功能,采用视觉变换器架构。Sapiens具有强大的泛化能力,适用于虚拟现实、增强现实、3D人体数字化、人机交互、视频监控分析、运动捕捉及医学成像与康复等多个领域。 AI项目与工具 2025年06月12日 73 点赞 0 评论 462 浏览
腾讯混元游戏 腾讯发布的混元游戏视觉生成平台,这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎,可以优化游戏资产生成与游戏制作流程。 3D&游戏 2025年06月05日 38 点赞 0 评论 464 浏览
Migician Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。 AI项目与工具 2025年06月12日 90 点赞 0 评论 465 浏览
Mogao Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。 AI项目与工具 2025年06月11日 97 点赞 0 评论 465 浏览
FunGPT FunGPT 是一款基于 InternLM2.5 大模型开发的开源工具,专注于情感互动与情绪调节。它包含“甜言蜜语模式”和“犀利怼语模式”,分别用于提升用户情绪和释放压力。项目采用轻量化模型与 AWQ 量化技术,兼顾性能与效率。适用于创意启发、娱乐互动等多种场景,适合对情感交互感兴趣的开发者和用户。 AI项目与工具 2025年06月11日 86 点赞 0 评论 465 浏览
EVI 3 EVI 3是Hume AI推出的全新语音语言模型,能够同时处理文本和语音标记,实现自然、富有表现力的语音交互。它支持高度个性化,根据用户提示生成任何声音和个性,并实时调节情感和说话风格。在与GPT-4o等模型的对比中,EVI 3在情感理解、表现力、自然度和响应速度等方面表现更优,具备低延迟响应能力,可在300毫秒内生成语音回答。EVI 3适用于智能客服、语音助手、教育辅导、情感支持和内容创作等多个 AI项目与工具 2025年06月11日 45 点赞 0 评论 465 浏览
OpenBioMed OpenBioMed是由清华大学智能产业研究院与水木分子联合开发的开源平台,专注于AI在生物医学中的应用。它支持多模态数据处理,涵盖分子、蛋白质、单细胞等多种类型,并提供20多个深度学习模型和计算工具,适用于药物研发、精准医疗、知识图谱构建等领域。平台具备统一的数据处理框架和预训练模型,支持快速迁移和智能体设计,助力科研人员提升研究效率。 AI项目与工具 2025年06月12日 45 点赞 0 评论 466 浏览