训练

TokenFD

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型,专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐,支持Token级图文交互,提升了多模态任务性能。其基于自研的TokenIT数据集进行训练,涵盖2000万张图像和18亿高质量Token-Mask对,覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域,具有广泛的适用性和

DINO

DINO-X是一款由IDEA研究院开发的通用视觉大模型,具备开放世界对象检测与理解的能力。它支持多种提示类型,无需用户额外输入即可识别图像中的任意对象,并在多个基准测试中刷新了性能记录。DINO-X拥有Pro和Edge两个版本,分别针对高性能需求和边缘设备优化。其应用范围涵盖自动驾驶、智能安防、工业检测及机器人视觉等领域,助力行业创新与发展。

【新】AI算法工程师-深度学习入门

31课时掌握神经网络的基本原理和实现方法,以及卷积神经网络、递归神经网络和词向量等经典模型的原理和应用技巧,打下深度学习领域的坚实基础。

JoyCoder

JoyCoder是一款由京东开发的AI编程助手,旨在提升研发效率。它提供了代码预测生成、注释生成代码、一键生成单元测试和接口文档等功能,并与主流IDE无缝集成。JoyCoder集成了本地行云DevOps能力,支持多种编程语言。其核心技术包括AI算法、代码上下文理解、模型训练和智能问答系统等,能够显著提升代码质量和开发效率。

Infinity

Infinity-MM是智源研究院发布的千万级多模态指令数据集,包含4300万条样本,涵盖视觉问答、文字识别、文档分析及数学推理等多领域任务。它通过严格的筛选和去重保证数据质量,并采用合成数据生成技术扩展数据集规模。基于此数据集,智源研究院训练出了20亿参数的Aquila-VL-2B模型,在多项基准测试中表现出色,推动了多模态AI领域的研究与发展。

World Labs 空间智能模型

World Labs 空间智能模型是一款基于人工智能技术的工具,能够通过单张图片生成逼真的3D世界,并支持实时渲染与交互操作。其核心功能包括3D几何估算、场景补全、内容生成及相机效果模拟,广泛应用于电影、游戏、虚拟现实、教育以及建筑设计等多个领域,大幅提升了创作效率与视觉表现力。

ChatGAI

ChatGAi是一款集成了最先进人工智能技术的全能应用,致力于满足您在工作和生活中的各种需求

360gpt2

360gpt2-o1是一款专注于数学与逻辑推理的人工智能大模型,具备强大的推理能力和深度学习能力。它通过合成数据优化、分阶段训练及“慢思考”范式提升了模型的表现,尤其在数学竞赛和基础数学评测中成绩显著。此外,模型还支持编程问题解决、复杂问题分析及教育领域应用,为企业决策提供逻辑支持。

SongCreator

SongCreator是一款基于AI技术的音乐生成工具,由清华大学深圳国际研究生院与香港中文大学等机构联合开发。它采用双序列语言模型(DSLM)和注意力掩码策略,支持歌词到歌曲、歌词到声乐、伴奏到歌曲等多种音乐生成任务,并允许用户灵活调整生成内容的声学特性。SongCreator适用于音乐制作、教育、娱乐、内容创作等多个领域,为用户提供高效便捷的音乐解决方案。

MetaMorph

MetaMorph是一款基于多模态大模型的工具,通过Visual-Predictive Instruction Tuning(VPiT)技术实现文本和视觉token的生成。它在视觉理解和生成领域表现优异,能够克服其他生成模型的常见失败模式,同时有效处理专业术语和复杂语义问题。MetaMorph展示了统一建模方法的优势,支持多模态数据的高效处理,并在视觉生成与理解基准测试中取得竞争力表现。