模型 - 智狐AI导航

3DHM

3DHM是一项由加州大学伯克利分校开发的3D人体动作生成技术，能够从单张照片生成动态人体视频，具备动作生成、编辑、评估、纹理修复、人体渲染及动作模仿等功能。该技术通过学习人体先验知识和3D运动序列，结合扩散模型和4DHumans预测模型，广泛应用于电影特效、虚拟现实、游戏开发等领域，为动画制作和人体动作模拟提供了创新解决方案。

AI项目与工具 2025年06月12日 13 点赞 0 评论 837 浏览

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型，基于 Qwen2.5-VL 架构，结合强化学习优化技术，具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析，支持自然语言指令定位图像目标，并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

AI项目与工具 2025年06月12日 42 点赞 0 评论 837 浏览

HunyuanVideo

HunyuanVideo是一款由腾讯开源的视频生成模型，具备130亿参数量，支持物理模拟、高文本语义还原、动作一致性和电影级画质等功能。它通过时空压缩的潜在空间训练，融合Causal 3D VAE与Transformer架构，实现图像和视频的统一生成，广泛应用于电影制作、音乐视频创作、游戏开发以及教育等领域。

AI项目与工具 2025年06月12日 87 点赞 0 评论 837 浏览

AnchorCrafter

AnchorCrafter是一款基于扩散模型的智能视频生成工具，利用人-物交互（HOI）技术生成高质量主播风格产品推广视频。它支持物体外观保持、运动控制、遮挡处理及细节增强学习，适用于在线购物、社交媒体营销、电视广告制作等多个领域，显著提升视频真实感和互动性。

AI项目与工具 2025年06月12日 20 点赞 0 评论 837 浏览

DistilQwen2.5

DistilQwen2.5-R1 是阿里巴巴推出的基于知识蒸馏技术的轻量级深度推理模型，包含多种参数量级，适用于资源受限环境。它具备高效计算、深度推理和高度适应性，支持文本生成、机器翻译、客户服务等多种任务。通过双阶段训练和认知轨迹适配框架，提升了小模型的推理能力，性能优于同类开源模型。

AI项目与工具 2025年06月12日 92 点赞 0 评论 837 浏览

AutoAgents

是一款面向业务人员使用的无代码的Agent产品，能够推动企业新时代知识工作流水线的构建

Ai编程建站 2026年07月30日 0 点赞 0 评论 837 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 837 浏览

WebThinker

WebThinker是一款由多家科研机构联合开发的AI工具，旨在增强大型推理模型在复杂任务中的表现。它支持自主搜索、网页导航与实时报告生成，结合深度网页探索器和强化学习策略，提升信息获取与内容创作的效率与质量。适用于科学研究、数据分析、教育辅助等多种场景，显著增强了模型在知识密集型任务中的可靠性与实用性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 837 浏览

BAG

BAG是一项由香港中文大学与腾讯联合研发的3D可穿戴资产生成技术，结合多视图图像扩散模型与控制网络，根据人体形状和姿态信息生成高质量的服装和配饰。该技术具备高效适配、多样化生成和物理模拟优化等特点，广泛应用于虚拟试衣、游戏开发、VR/AR及时尚设计等领域，有效提升用户体验与设计效率。

AI项目与工具 2025年06月12日 53 点赞 0 评论 837 浏览

NoteLLM

NoteLLM 是一款基于多模态大型语言模型的笔记推荐框架，支持文本与图像信息的融合处理。通过自动生成标签、压缩嵌入、对比学习和指令微调等技术，提升推荐准确性与相关性。其升级版 NoteLLM-2 引入多模态上下文学习与晚期融合机制，增强视觉信息处理能力，适用于个性化推荐、冷启动优化及内容创作辅助等场景。

AI项目与工具 2025年06月11日 84 点赞 0 评论 838 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期