开源模型 - 智狐AI导航

万相首尾帧模型

万相首尾帧模型（Wan2.1-FLF2V-14B）是一款开源视频生成工具，基于DiT架构和交叉注意力机制，可根据用户提供的首帧和尾帧图像生成高质量、流畅的过渡视频。支持多种风格和特效，适用于创意视频制作、影视特效、广告营销等多个场景。模型具备细节复刻、动作自然、指令控制等功能，且提供GitHub和HuggingFace开源资源供用户使用。

AI项目与工具 2025年06月11日 100 点赞 0 评论 723 浏览

FramePack

FramePack 是斯坦福大学推出的开源 AI 视频生成模型，通过帧上下文打包和抗漂移采样技术，实现高效、稳定的视频生成。其仅需 6GB 显存即可运行，支持实时高清视频生成，具备灵活的调度策略，适用于多种应用场景，如短视频制作、游戏开发、教育与广告等，显著降低了视频生成的硬件门槛。

AI项目与工具 2025年06月11日 23 点赞 0 评论 816 浏览

AI推理模型有哪些？13个支持深度思考的推理模型

本文介绍了13款支持深度思考的AI推理模型，涵盖数学、代码、自然语言推理等多个领域。这些模型通过强化学习和大数据分析，能够高效处理复杂问题，提供精准的决策支持。部分模型具备多模态处理能力、透明推理过程及开源特性，适用于不同应用场景，如教育、医疗和科研等。

AI项目与工具 2025年06月11日 88 点赞 0 评论 657 浏览

OpenMath-Nemotron是由英伟达推出的一系列开源数学推理模型，专为解决复杂数学问题设计，涵盖从基础到奥林匹克级别的题目。其基于大规模数据集OpenMathReasoning训练，具备长推理、多模式推理和工具集成推理能力。模型支持多种应用场景，包括数学教育、竞赛训练、学术研究和工业应用。项目提供GitHub、HuggingFace和arXiv等资源，适用于需要高精度数学推理的AI系统开发

AI项目与工具 2025年06月11日 56 点赞 0 评论 446 浏览

Open Code Reasoning

Open Code Reasoning（OCR）是英伟达推出的开源代码推理AI模型，基于Nemotron架构设计，支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力，适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本，满足不同计算需求，并与主流框架兼容，具有良好的扩展性。

AI项目与工具 2025年06月11日 10 点赞 0 评论 662 浏览

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别（ASR）模型，采用 FastConformer 和 TDT 架构，具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异，实时因子高达 3386，适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

AI项目与工具 2025年06月11日 36 点赞 0 评论 631 浏览

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型，拥有 130 亿参数，可在消费级显卡上高效运行，生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节，具备多尺度渲染和高压缩率技术，适用于影视、广告、游戏、教育等多个领域，提升内容创作效率与质量。

AI项目与工具 2025年06月11日 18 点赞 0 评论 834 浏览

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列，具备从5.9M到632.1M参数的多种模型，适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略，训练效率比同类模型高2至3倍，在多模态任务中表现优异。支持可变大小patch输入，兼具灵活性与高效性，广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

AI项目与工具 2025年06月11日 58 点赞 0 评论 522 浏览

Windows AI Foundry

Windows AI Foundry 是微软推出的全新 AI 开发平台，提供从模型选择、优化、微调到部署的全生命周期支持。平台整合 Windows ML，支持在多种硬件上高效部署模型，并基于 Foundry Local 提供优化后的开源模型库。同时，提供即用型 AI API 和 LoRA 技术，帮助开发者快速集成和微调模型，提升开发效率与灵活性。

AI项目与工具 2025年06月11日 11 点赞 0 评论 579 浏览

BAGEL

BAGEL是字节跳动开源的多模态基础模型，拥有140亿参数，采用混合变换器专家架构（MoT），通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异，生成质量接近SD3，并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

AI项目与工具 2025年06月11日 92 点赞 0 评论 429 浏览

开源模型

首页

开源模型

列表

默认

浏览次数

发布日期