模型

Tripo 2.0

Tripo 2.0 是一款基于 AI 技术的 3D 模型生成工具,融合了 DiT 和 U-Net 模型架构,具备高效生成高质量 3D 模型的能力。支持文本和图像输入生成 3D 模型,同时提供纹理贴图、负向提示输入等功能,广泛应用于游戏开发、影视制作、虚拟现实、教育及工业设计等领域。

ItiNera

ItiNera是一款由香港大学与麻省理工学院合作开发的智能城市行程规划系统,基于大型语言模型和空间优化技术,为用户提供个性化、高效、连贯的Citywalk路线规划服务。系统包含兴趣点数据库构建、请求解析、偏好感知检索、空间优化及行程生成五大模块,支持实时动态信息更新,适用于个人旅游、城市漫步、短途旅行等多种场景。

LVCD

LVCD是一款基于视频扩散模型的AI工具,专门用于动画视频线稿的自动上色。它通过参考注意力机制和创新的采样方法,确保视频颜色的一致性和时间连贯性,支持生成长时间序列动画。LVCD广泛应用于动漫制作、游戏开发、影视行业以及艺术创作等领域,显著提升动画制作效率。

SCoRe

SCoRe是一种由谷歌DeepMind提出的基于强化学习的多轮训练方法,旨在提高大型语言模型的自我纠错能力。它通过模型自动生成的数据进行训练,并采用正则化约束与奖励机制,有效提升了模型在数学、编程等任务中的准确性。此外,SCoRe能够适应训练与推理过程中的数据分布差异,展现出较强的灵活性与实用性。

Westlake

Westlake-Omni是西湖心辰推出的一款开源中文情感端到端语音交互大模型,融合了语音识别、自然语言处理、情感理解和对话管理等功能,具备实时性和端到端交互特性。它通过深度学习技术和离散表示法,实现从语音输入到语音输出的全流程自动化,生成自然流畅的语音回应,并广泛应用于智能助手、客户服务、教育辅助、健康医疗等领域。

CCI 3.0

CCI 3.0是一项由智源研究院开发的大规模中文互联网语料库,包含1000GB主数据集及498GB高质量子集。该语料库覆盖新闻、社交媒体、博客等领域,数据规模较前代扩大近一倍,来源增至20余家机构。通过多维度标注与数据清洗技术,CCI 3.0筛选出高价值数据,适用于自然语言处理、大模型训练、知识图谱构建、内容推荐系统以及教育科研等多种应用场景。

NeMo

NeMo 是一款基于 NVIDIA 技术的端到端云原生框架,专为生成式 AI 模型的设计与部署而打造。它具备模块化架构、多模态支持、优化算法及分布式训练能力,可应用于语音识别、自然语言处理、文本到语音转换、对话式 AI 等多个领域,同时支持预训练模型微调和端到端开发流程,为企业提供高效灵活的解决方案。

Oryx

Oryx是一款由清华大学、腾讯和南洋理工大学联合开发的多模态大型语言模型,专为处理视觉数据设计。其核心技术包括预训练的OryxViT模型和动态压缩模块,支持任意分辨率的图像处理及高效的视觉数据压缩。Oryx在空间和时间理解上表现优异,广泛应用于智能监控、自动驾驶、人机交互、内容审核、视频编辑及教育等领域。

I2VEdit

I2VEdit是一款基于图像到视频扩散模型的先进视频编辑框架,通过首帧编辑实现全视频效果传播。它能够保持视频的时间和运动一致性,支持局部与全局编辑任务,包括更换对象、风格转换等,并广泛应用于社交媒体内容创作、视频后期制作、虚拟试穿等领域。

AMD

AMD-135M是一款由AMD开发的小型语言模型,基于LLaMA2架构,具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度,降低了内存占用,并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。