学习
OpenVision
OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。
Code Tutor
一个 GPTs商店的AI代码工具,旨在促进编程领域的学习。Code Tutor 的主要目的是为那些对编码感兴趣的人提供个性化的教练和导师,从初学者到更有经验的程序员。
PaliGemma 2 mix
PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。
Stable Video 3D (SV3D)
Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升
威斯康星大学麦迪逊分校
威斯康星大学麦迪逊分校(University of Wisconsin-Madison,简称:UW-Madison)创建于1848年,位于美国威斯康星州首府麦迪逊,是一所公立研究型大学,该校是威斯康星大学系统的旗...
