The Language of Motion The Language of Motion The Language of Motion是一款由斯坦福大学李飞飞团队开发的多模态语言模型,能够处理文本、语音和动作数据,生成对应的输出模态。该模型在共同语音手势生成任务上表现出色,且支持情感预测等创新任务。它采用编码器-解码器架构,并通过端到端训练实现跨模态信息对齐。The Language of Motion广泛应用于游戏开发、电影制作、虚拟现实、增强现实及社交机器人等领域,推动了虚拟角色自 AI项目与工具 2025年06月12日 100 点赞 0 评论 237 浏览
OpenVision OpenVision OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。 AI项目与工具 2025年06月11日 58 点赞 0 评论 236 浏览
MDM MDM Matryoshka Diffusion Models (MDM) 是一种由苹果公司开发的新型扩散模型框架,通过嵌套UNet架构实现多分辨率联合去噪,支持从低分辨率到高分辨率的渐进式训练,显著提升高分辨率图像生成效率,适用于多种应用场景,如数字艺术创作、游戏开发、电影制作等,并具备出色的零样本泛化能力。 AI项目与工具 2025年06月12日 28 点赞 0 评论 235 浏览
HOVER HOVER HOVER是一款由英伟达研发的1.5M参数量的小型模型,专注于人形机器人复杂动作的控制。其核心功能涵盖多模式控制、运动学位置跟踪、关节角度跟踪及统一命令空间设计,通过策略蒸馏与模拟训练实现高效技能迁移,广泛应用于导航、桌面操作、移动操作及远程操控等场景。 AI项目与工具 2025年06月12日 90 点赞 0 评论 234 浏览
VtripGPT VtripGPT VtripGPT是一款专为旅游领域设计的AI大模型,采用Transformer架构,结合增量预训练和微调技术,可生成高质量的旅游相关文本回复。它具备对话生成、个性化旅游攻略提供、行程定制、商品推荐以及智能问答等功能,旨在提升旅游规划效率并优化用户体验。VtripGPT已成功应用于多个国家和地区,覆盖了从旅游攻略生成到商品推荐的多种应用场景。 AI项目与工具 2025年06月12日 50 点赞 0 评论 233 浏览
Photo AI Photo AI Photo AI 是一种革命性的人工智能工具,使用ai为您提供专业水准的照片拍摄,用于在各种设置中生成逼真的图像。 Ai图片处理 2025年06月05日 38 点赞 0 评论 231 浏览
Video Diffusion Models Video Diffusion Models Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。 Ai绘画生成 1970年01月01日 0 点赞 0 评论 230 浏览
Mistral Medium 3 Mistral Medium 3 Mistral Medium 3是Mistral AI推出的一款多模态语言模型,兼具高性能与低成本优势,适用于企业级应用。支持混合云部署、定制化微调及多模态任务处理,可广泛应用于编程辅助、智能客服、数据分析及知识管理等领域,具备良好的扩展性和系统集成能力。 AI项目与工具 2025年06月11日 76 点赞 0 评论 230 浏览