Oryx是由清华大学、腾讯和南洋理工大学联合研发的多模态大型语言模型(MLLM),具备处理视觉数据的核心创新能力,包括预训练的OryxViT模型和动态压缩模块。OryxViT能够将任意分辨率的图像转化为适合LLM的视觉表示,而动态压缩模块可根据任务需求在1到16倍范围内压缩视觉标记,从而实现灵活处理各种分辨率和时长的视觉输入。Oryx在多个视觉-语言基准测试中表现出色,尤其在空间和时间理解方面具有显著优势。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部