开源模型

Open Code Reasoning

Open Code Reasoning(OCR)是英伟达推出的开源代码推理AI模型,基于Nemotron架构设计,支持多种编程语言。它具备代码生成、逻辑补全、多语言处理及高效推理能力,适用于代码优化、教育、测试等多个场景。OCR提供32B、14B和7B三种参数版本,满足不同计算需求,并与主流框架兼容,具有良好的扩展性。

Parakeet TDT 0.6B

Parakeet TDT 0.6B 是一款由英伟达开发的开源自动语音识别(ASR)模型,采用 FastConformer 和 TDT 架构,具备高速转录、高精度识别、歌词转录、文本格式化等功能。模型在 Hugging Face Open ASR Leaderboard 中表现优异,实时因子高达 3386,适用于会议记录、法律医疗、字幕生成及音乐索引等多种场景。

LTXV

LTXV-13B 是 Lightricks 推出的开源 AI 视频生成模型,拥有 130 亿参数,可在消费级显卡上高效运行,生成速度比同类产品快 30 倍。支持文本、图像转视频及多关键帧调节,具备多尺度渲染和高压缩率技术,适用于影视、广告、游戏、教育等多个领域,提升内容创作效率与质量。

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

Windows AI Foundry

Windows AI Foundry 是微软推出的全新 AI 开发平台,提供从模型选择、优化、微调到部署的全生命周期支持。平台整合 Windows ML,支持在多种硬件上高效部署模型,并基于 Foundry Local 提供优化后的开源模型库。同时,提供即用型 AI API 和 LoRA 技术,帮助开发者快速集成和微调模型,提升开发效率与灵活性。

BAGEL

BAGEL是字节跳动开源的多模态基础模型,拥有140亿参数,采用混合变换器专家架构(MoT),通过两个独立编码器捕捉图像的像素级和语义级特征。它能够进行图像与文本融合理解、视频内容理解、文本到图像生成、图像编辑与修改、视频帧预测、三维场景理解与操作、世界导航以及跨模态检索等任务。BAGEL在多模态理解基准测试中表现优异,生成质量接近SD3,并适用于内容创作、三维场景生成、可视化学习和创意广告生成等

MedGemma

MedGemma是谷歌推出的开源AI模型,专注于医疗图像与文本分析。它包含4B参数的多模态模型和27B参数的纯文本模型。4B模型擅长解读医疗图像并生成诊断报告,27B模型则用于医疗文本理解与临床推理。支持本地运行或通过Google Cloud部署,适用于医疗诊断、患者分诊、临床决策辅助等场景,提升医疗服务效率与准确性。

零一万物

零一万物是李开复带队孵化的AI2.0公司,总部注册于北京,集中在大模型技术、人工智能算法、自然语言处理、系统架构、算力架构、数据安全、产品研发等领域。

Awesome Chinese LLM

整理了开源的中文大语言模型(LLM),主要关注规模较小、可私有化部署且训练成本较低的模型,目前已收录了100多个相关资源。

Jan.ai

ChatGPT 的开源、托管替代品,jan.ai可在您的计算机上100%离线运行。