学习

Liquid

Liquid是由华中科技大学、字节跳动和香港大学联合开发的多模态生成框架,通过VQGAN将图像编码为离散视觉token并与文本共享词汇空间,使大型语言模型无需修改结构即可处理视觉任务。该框架降低训练成本,提升视觉生成与理解性能,并在多模态任务中表现出色。支持图像生成、视觉问答、多模态融合等应用,适用于创意设计、内容创作及智能交互等领域。

OpenVision

OpenVision是加州大学圣克鲁兹分校推出的多模态视觉编码器系列,具备从5.9M到632.1M参数的多种模型,适用于不同硬件环境。其采用渐进式多阶段分辨率训练策略,训练效率比同类模型高2至3倍,在多模态任务中表现优异。支持可变大小patch输入,兼具灵活性与高效性,广泛应用于工业检测、机器人视觉、自动驾驶及科研教育等领域。

Code Tutor

一个 GPTs商店的AI代码工具,旨在促进编程领域的学习。Code Tutor 的主要目的是为那些对编码感兴趣的人提供个性化的教练和导师,从初学者到更有经验的程序员。

PaliGemma 2 mix

PaliGemma 2 Mix 是谷歌 DeepMind 推出的多任务视觉语言模型,支持图像描述、目标检测、OCR、文档理解等功能。模型提供多种参数规模和分辨率选项,适用于不同场景。其基于开源框架开发,易于扩展,可通过简单提示切换任务。适用于科学问题解答、文档分析、电商内容生成等多个领域。

Stable Video 3D (SV3D)

Stable Video 3D(SV3D)是一款由Stability AI公司开发的多视角合成和3D生成模型,能够从单张图片生成一致的多视角图像,并进一步优化生成高质量的3D网格模型。该模型在视频扩散模型基础上进行改进,提供更好的质量和多视角体验。主要功能包括多视角视频生成、3D网格创建、轨道视频生成、相机路径控制以及新视角合成。SV3D在新视角合成方面取得显著进展,能够生成逼真且一致的视图,提升

小途问问

小途问问是一款基于AI技术的学习辅助工具,支持作业批改、拍照解题、多语翻译及智能对话等功能。它能为学生提供精准的学习指导,优化学习路径,提升学习效率。适用于作业检查、语言学习、知识查询等多个场景,具有便捷高效的使用体验。

佐治亚理工学院

佐治亚理工学院(Georgia Institute of Technology,又称乔治亚理工学院,简称Georgia Tech,Gatech,GT),1885年建校,是一所坐落于佐治亚州首府亚特兰大的公立研究型大学 ,美...

Fancy123

Fancy123是一种基于深度学习的3D网格生成工具,利用单张图像生成高质量3D模型。其核心技术包括多视图扩散模型、大型重建模型、外观增强模块、保真度增强模块及反投影操作,能够有效解决多视图图像的局部不一致问题,提升网格保真度和清晰度。该工具适用于虚拟现实、游戏开发、影视制作等多个领域,具备高度灵活性和实用性。

威斯康星大学麦迪逊分校

威斯康星大学麦迪逊分校(University of Wisconsin-Madison,简称:UW-Madison)创建于1848年,位于美国威斯康星州首府麦迪逊,是一所公立研究型大学,该校是威斯康星大学系统的旗...