训练

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型,结合自回归与扩散模型优势,实现高效图像理解和生成。基于CLIP语义特征,支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略,提升模型性能。完全开源,适用于创意设计、视觉问答、艺术生成等多种场景。

Skild Brain

Skild Brain 是 Skild AI 推出的具身智能基础模型,具备强大的泛化能力和多场景适应性,可应用于机器人控制、物体操作、环境导航等任务。其基于大规模数据训练,支持多种机器人平台,适用于工业自动化、物流、医疗及家庭服务等领域。

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。

OmniSync

OmniSync是由中国人民大学、快手科技和清华大学联合开发的通用对口型框架,基于扩散变换器实现视频中人物口型与语音的精准同步。它采用无掩码训练范式,直接编辑视频帧,支持无限时长推理,保持自然面部动态和身份一致性。通过渐进噪声初始化和动态时空分类器自由引导(DS-CFG)机制,提升音频条件下的口型同步效果。OmniSync适用于影视配音、虚拟现实、AI内容生成等多个场景。

Qwen3 Embedding

Qwen3 Embedding 是基于 Qwen3 基础模型开发的文本表征、检索与排序专用模型,支持 119 种语言,参数规模从 0.6B 到 8B。它能够精准捕捉文本语义,支持多语言处理、高效检索和语义相关性排序,并可通过个性化优化提升用户体验。在 MTEB 等任务中表现优异,适用于智能搜索、推荐系统、问答系统和教育领域等场景。

Qwen3 Reranker

Qwen3 Reranker是阿里巴巴通义千问团队推出的文本重排序模型,属于Qwen3模型家族。它采用单塔交叉编码器架构,能够对文本对进行相关性评估并输出得分,支持超过100种语言。通过多阶段训练范式和高质量数据训练,模型在MTEB排行榜上表现优异。Qwen3 Reranker可用于语义检索、文本分类、情感分析和代码搜索等场景,提升信息检索效率和准确性。

PartCrafter

PartCrafter是一款先进的3D生成模型,能够从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件,并利用层次化注意力机制确保全局一致性。该模型基于预训练的3D网格扩散变换器(DiT),支持多部件联合生成、端到端生成和部件级编辑,适用于游戏开发、建筑设计、影视制作等多个领域。

百付AI

AI软件技术服务商,ChatGPT应用开发,训练AI模型、AI软件开发、AI知识库搭建。

WeDraw

WeDraw专注于人工智能AI绘画和大模型语料数据合成领域,是一支充满激情和创意的团队。

天罡智算

一个智能算力交易平台,专注于解决GPU资源错配问题,通过智能匹配供需双方的算力需求,促成供需双方交易。