机器学习 - 智狐AI导航

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用，支持在 Android 设备上本地运行机器学习和生成式人工智能模型，无需联网。用户可切换不同模型，进行图像问答、文本生成、多轮对话等操作，并实时查看性能指标。应用支持自带模型测试，提供丰富的开发者资源，助力探索设备端 AI 的强大功能。

AI项目与工具 2025年06月11日 75 点赞 0 评论 740 浏览

HumanOmni

HumanOmni 是一款面向人类中心场景的多模态大模型，融合视觉与听觉信息，具备情感识别、面部描述、语音理解等功能。基于大量视频与指令数据训练，采用动态权重调整机制，支持多模态交互与场景理解。适用于影视分析、教育、广告及内容创作等领域，具备良好的可扩展性和灵活性。

AI项目与工具 2025年06月12日 92 点赞 0 评论 742 浏览

DanceGRPO

DanceGRPO 是由字节跳动与香港大学联合开发的视觉生成强化学习框架，支持文本到图像、文本到视频、图像到视频等多种任务，兼容多种生成模型与奖励机制。其通过强化学习优化生成过程，提升视觉内容质量与一致性，降低显存压力，提高训练效率与稳定性，适用于视频生成和多模态内容创作。

AI项目与工具 2025年06月11日 45 点赞 0 评论 747 浏览

智谱AI绘画

智谱AI绘画可根据用户的描述创作出新的艺术作品，还能够模仿不同的艺术风格，提供个性化的图像编辑和创作服务

Ai绘画生成 1970年01月01日 0 点赞 0 评论 755 浏览

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型，采用视觉-动作自回归Transformer架构，实现高保真、可控性强的场景生成。通过并行解码算法，模型可在每秒4至7帧的速度下实现实时交互，适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

AI项目与工具 2025年06月11日 93 点赞 0 评论 755 浏览

TIGER

TIGER是由清华大学研发的轻量级语音分离模型，采用时频交叉建模策略与多尺度注意力机制，有效提升语音分离性能，同时显著降低计算和参数开销。模型通过频带切分优化资源利用，适应复杂声学环境，广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

AI项目与工具 2025年06月12日 98 点赞 0 评论 755 浏览

COMET

COMET是字节跳动开发的Mixture-of-Experts（MoE）模型优化系统，通过细粒度计算-通信重叠技术和自适应负载分配机制，显著提升分布式训练效率。它在大规模模型中实现单层1.96倍、端到端1.71倍的加速，具备强鲁棒性与泛化能力，支持多种硬件环境和并行策略，核心代码已开源并可无缝集成至主流训练框架。

AI项目与工具 2025年06月12日 12 点赞 0 评论 756 浏览

HumanRig

HumanRig是由阿里巴巴团队研发的3D人形角色自动绑定系统，提供大规模高质量数据集和先进算法，支持从粗到细的骨架估计与蒙皮优化。其核心组件包括先验引导骨架估计器（PGSE）和网格-骨架互注意网络（MSMAN），适用于游戏开发、影视制作、VR/AR及数字人应用，有效提升3D角色动画制作效率和质量。

AI项目与工具 2025年06月11日 11 点赞 0 评论 757 浏览

Grok 3

Grok 3是由马斯克旗下xAI推出的最新AI模型，具备强大的推理能力和多模态处理功能。采用“思维链”技术，支持复杂任务的逐步分析，提升逻辑准确性。模型参数量达1.2万亿，基于10万块H100 GPU训练，性能在多个基准测试中超越同类产品。适用于自动驾驶、医疗、教育、客服及营销等多个领域，提供高效智能解决方案。

AI项目与工具 2025年06月12日 66 点赞 0 评论 759 浏览

EliGen

EliGen是由浙江大学与阿里巴巴集团联合开发的实体级可控图像生成框架，采用区域注意力机制实现对图像中实体的精确控制，支持多实体修复、风格化生成及交互式编辑。基于50万高质量注释样本训练，具备强大泛化能力，适用于虚拟场景、角色设计、数据合成及产品展示等场景。

AI项目与工具 2025年06月12日 97 点赞 0 评论 766 浏览

机器学习

首页

机器学习

列表

默认

浏览次数

发布日期