学习

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型,具备强大的文本与图像理解能力,包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法,实现了从1B到30B参数规模的性能提升,并推出了视频和移动UI专用版本,为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

Photomath

Photomath是一款基于人工智能技术的数学学习应用,通过手机摄像头扫描数学题目,提供详细的解题步骤和解释。它支持从基础算术到复杂代数、几何和微积分问题的解答,拥有多种解题方法、动画和视觉辅助等功能,适合学生、家长和教师使用,旨在通过互动式学习提升数学能力,并为教学提供辅助支持。

ClassPoint AI

ClassPoint AI 是一种由 AI 驱动,可从 PowerPoint 幻灯片生成测验问题。它使用先进的人工智能技术来分析幻灯片内容,只需单击一下即可创建发人深省的问题。

Optimus

Optimus-1是一款由哈尔滨工业大学(深圳)和鹏城实验室联合开发的智能体框架,专为开放世界环境中的长期任务设计。它结合结构化知识与多模态经验,通过混合多模态记忆模块(HDKG与AMEP)提升任务规划与执行能力。主要功能包括知识引导规划、经验驱动反思、行动控制及自我进化,已在游戏、虚拟助理、工业自动化等领域得到验证。

Gemini Robotics

Gemini Robotics 是谷歌 DeepMind 基于 Gemini 2.0 开发的机器人系统,融合视觉-语言-动作模型,支持复杂任务执行与环境适应。具备三维空间理解、物体检测、轨迹预测和开放词汇指令执行能力,适用于工业制造、物流仓储、家庭服务、医疗健康等多个领域。系统通过数据驱动训练,结合真实操作与多模态信息,实现高效、灵活的机器人控制。

SignLLM

SignLLM是一款支持多语言手语生成的AI模型,能将文本转换为自然流畅的手语视频,覆盖包括ASL、GSL、LSA、KSL在内的八种手语。其核心技术包括离散化与层次化表示、自监督学习、符号-文本对齐等。该工具可用于教育、医疗、法律、媒体等多个场景,提升听障人群的沟通便利性与信息获取能力。

SumBuddy

一款浏览器AI阅读助手,能快速总结网页内容并基于此进行对话。你还可以使用自己的AI模型,打造真正属于你的浏览器AI助手。

EasyControl

EasyControl是基于扩散变换器(DiT)架构的高效控制框架,采用轻量级LoRA模块实现多条件控制,支持图像生成、风格转换、动画制作等任务。其具备位置感知训练范式和因果注意力机制,优化计算效率,提升生成质量与灵活性,适用于多种图像处理场景。

MCP Course

MCP Course是Hugging Face推出的免费开源课程,专注于教授如何利用模型上下文协议(MCP)构建具有上下文感知能力的AI应用。课程涵盖理论学习、实践操作、用例训练和行业合作等内容,适合不同层次的开发者。学员可获得认证,提升在AI系统集成方面的专业能力。课程内容结构清晰,注重实际应用,助力开发者掌握MCP技术并应用于真实场景。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。