模型

Zero123

一种从单个图像到一致的多视图扩散基础模型,旨在使用单视图输入生成 3D 一致的多视图图像。

OmniEdit

OmniEdit是一款基于多专家模型监督训练的先进图像编辑工具,支持七种核心图像编辑任务,包括对象替换、移除、添加、属性修改、背景替换、环境变化和风格转换。它能够处理不同宽高比和分辨率的图像,采用EditNet架构,提升了编辑的成功率和图像保真度。OmniEdit在自动与人工评估中表现优异,适用于专业设计、社交媒体内容创作、电子商务、新闻媒体等多个领域。

TokenSwift

TokenSwift是由北京通用人工智能研究院开发的超长文本生成加速框架,可在90分钟内生成10万Token文本,效率较传统模型提升3倍,且保持输出质量。其核心优势包括多Token并行生成、动态KV缓存管理、上下文惩罚机制等技术,支持多种模型架构。适用于内容创作、智能客服、学术研究及编程辅助等场景。

FramePack

FramePack 是斯坦福大学推出的开源 AI 视频生成模型,通过帧上下文打包和抗漂移采样技术,实现高效、稳定的视频生成。其仅需 6GB 显存即可运行,支持实时高清视频生成,具备灵活的调度策略,适用于多种应用场景,如短视频制作、游戏开发、教育与广告等,显著降低了视频生成的硬件门槛。

OmniVision

OmniVision是一款面向边缘设备的紧凑型多模态AI模型,参数量为968M。它基于LLaVA架构优化,能够处理视觉与文本输入,显著降低计算延迟和成本。OmniVision支持视觉问答、图像描述等功能,广泛应用于内容审核、智能助手、视觉搜索等领域。

通古大模型

通古大模型是由华南理工大学研发的古籍文言文处理AI工具,基于百川2-7B-Base进行增量预训练,结合24.1亿古籍语料和400万对话数据,采用RAT和RAG技术提升古籍处理效果。支持古文句读、文白翻译、诗词创作、古籍赏析、检索问答及辅助整理等功能,广泛应用于古籍数字化、教育、文化传承与学术研究等领域。

Tripo3D AI

一个由VAST发布的在线3D建模平台,利用先进的AI技术,可以在几秒钟内生成高质量的3D模型。用户可以通过文本描述或上传图片来生成模型。

Llama 4

Llama 4 是 Meta 推出的多模态 AI 模型系列,采用混合专家(MoE)架构,提升计算效率。包含 Scout 和 Maverick 两个版本,分别适用于不同场景。Scout 支持 1000 万 token 上下文,Maverick 在图像理解和创意写作方面表现优异。Llama 4 支持 200 种语言,具备强大的语言生成与多模态处理能力,适用于对话系统、文本生成、代码辅助、图像分析等多个

Goedel

Goedel-Prover是一款由多所高校联合开发的开源大型语言模型,专注于自动化数学问题的形式化证明生成。它通过将自然语言数学问题转化为形式语言(如Lean 4),生成准确且完整的证明过程。采用专家迭代方法持续优化模型性能,在多项基准测试中表现优异。该工具可应用于数学研究、教学、软件验证及AI算法验证等领域,具备强大的数学推理能力和广泛的应用前景。

OptoChat AI

OptoChat AI是国内首款面向光子领域的AI大模型,整合超30万条光子芯片相关数据资源,具备强大的数据分析与智能算法能力。可实现光子芯片设计优化、工艺验证、文献检索等功能,显著提升研发效率,缩短设计周期。适用于科研、制造、教育及市场分析等多个场景,推动光子产业智能化发展。