R

UPDF

UPDF是一款基于AI技术的多功能PDF工具,支持文本编辑、图片编辑、注释、转换、OCR识别、表单填写及签名等功能。其特色包括跨平台兼容性(Windows、Mac、Android、iOS及在线版本)、AI辅助阅读体验(总结、翻译、解释)以及便捷的商务与学术应用场景。适用于文档编辑、学术研究、商务沟通及法律文件处理等多样化需求。

PaliGemma 2

PaliGemma 2是一款由Google DeepMind研发的视觉语言模型(VLM),结合了SigLIP-So400m视觉编码器与Gemma 2语言模型,支持多种分辨率的图像处理。该模型具备强大的知识迁移能力和出色的学术任务表现,在OCR、音乐乐谱识别以及医学图像报告生成等方面实现了技术突破。它能够处理多模态任务,包括图像字幕生成、视觉推理等,并支持量化和CPU推理以提高计算效率。

TaoAvatar

TaoAvatar是阿里巴巴推出的高保真、轻量级3D全身虚拟人技术,基于3D高斯溅射(3DGS)实现照片级真实感的虚拟形象生成。支持多模态驱动,具备高帧率实时渲染能力,适用于AR、移动设备及高清显示平台。其轻量级架构结合深度学习优化,提升了运行效率与交互自然度,广泛应用于电商直播、全息通信、虚拟会议、在线教育及娱乐等领域。

ColorMagic

ColorMagic是一个由人工智能驱动的色彩调色板生成工具,你可以输入图像或色彩情绪的关键字,它会根据关键词生成您输入的颜色图像的颜色。

Whisper语音识别模型

Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。

CopyFish

一个免费的 OCR 程序,可从图片、视频和 PDF 文件中提取文本。

Find3D

Find3D是一款由加州理工学院开发的3D部件分割模型,通过自动化数据生成技术和对比学习方法,实现了高效且精准的3D对象分割。它能够在多个数据集上达到三倍于次优方法的性能提升,支持开放世界下的任意文本查询分割,广泛应用于机器人、虚拟现实、建筑设计等领域。

MotionCanvas

MotionCanvas是一种图像到视频生成工具,能将静态图像转化为动态视频。它提供相机与物体运动的联合控制,支持复杂轨迹设计和局部运动调整,具备3D感知能力,可生成高质量长视频。适用于电影制作、动画创作、VR/AR、游戏开发及教育等多个领域。