模型

Ev

Ev-DeblurVSR是一款由多所高校联合开发的视频增强模型,利用事件相机数据提升视频去模糊和超分辨率效果。通过互惠特征去模糊模块和混合可变形对齐模块,实现高精度视频恢复。适用于监控、体育、自动驾驶等多个领域,支持快速部署与研究。

盘古大模型

盘古大模型是华为云推出的全面AI解决方案,覆盖了自然语言处理、计算机视觉、多模态学习、预测分析和科学计算等多个领域。

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

LongReward

LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具,专注于通过多维度评估(有用性、逻辑性、忠实性和完整性)来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号,并结合强化学习算法改善模型性能,特别擅长处理复杂长文本任务,如文档理解、摘要生成及特定领域的数据分析,如法律、金融和医疗。

Phi

Phi-3是由微软研究院开发的一系列小型语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个版本。这些模型通过优化的数据集和算法,在保持较小参数规模的同时,展现出与大型模型相当的语言理解和推理能力。phi-3-mini模型仅有3.8亿参数,但在多项基准测试中表现优异,甚至能在智能手机上运行。Phi-3系列模型的研发体现了在数据工程和模型优化领域的最新进展,为未来

Cosmos

Cosmos是由英伟达推出的生成式世界基础模型平台,支持自动驾驶和机器人领域的虚拟环境生成与训练。它能够根据文本、图像或视频输入生成高度仿真的虚拟世界状态,并提供高效的数据处理与安全机制。平台包含多个参数规模的模型,适用于不同性能需求的应用场景。Cosmos还支持开放模型许可,便于开发者进行定制化部署。其应用场景涵盖驾驶模拟、策略优化、复杂环境训练及工业数字孪生等。

Open Materials 2024

Open Materials 2024 (OMat24) 是Meta发布的开源数据集,包含超过1.1亿个无机材料的密度泛函理论(DFT)计算数据,并配备了预训练的图神经网络模型EquiformerV2。该模型在材料的基态稳定性及形成能预测方面具有卓越表现,为新材料的发现和设计提供了高效工具。其核心功能包括大规模数据集支持、高效的材料属性预测以及在多个领域(如能源、环境、催化等)的实际应用潜力。

3DIS

3DIS-FLUX是一种基于深度学习的多实例图像生成框架,采用两阶段流程:先生成场景深度图,再进行细节渲染。通过注意力机制实现文本与图像的精准对齐,无需额外训练即可保持高生成质量。适用于电商设计、创意艺术、虚拟场景构建及广告内容生成等领域,具备良好的兼容性和性能优势。

LEOPARD

LEOPARD是一款由腾讯AI Lab开发的视觉语言模型,专为处理包含大量文本的多图像任务而设计。它通过自适应高分辨率多图像编码模块和大规模多模态指令调优数据集,实现对复杂视觉语言任务的高效处理,包括跨图像推理、高分辨率图像处理及动态视觉序列长度优化。LEOPARD在自动化文档理解、教育、商业智能等领域具有广泛应用潜力。

Hunyuan3D 2.0

Hunyuan3D 2.0是腾讯推出的3D资产生成系统,支持从文本和图像生成高分辨率3D模型。系统采用两阶段生成流程,包含几何生成与纹理合成两个核心模块,具备高精度、高质量输出能力。支持多平台使用,涵盖游戏开发、UGC创作、电商、工业设计等多个应用场景,并提供多个开源模型供研究与开发使用。