开源项目

cogvlm2

强大的视频描述生成工具,通过先进的多模态处理和上下文感知能力,为用户提供了一种快速理解视频内容的方法。它的实时处理能力和定制化描述功能,使其在多种应用场景中都非常有用。

I2VGen

一个强大的图像到视频的生成模型,它通过创新的方法解决了AI视频合成过程中的语义准确性、清晰度和时空连续性的挑战。用户可以轻松地将静态图像转换为高质量的动态视频,生成的视...

DragGAN(GitHub)

DragGAN是一个创新的AI图像编辑工具,它提供了一种新颖的交互方式,允许用户通过直观的点拖动操作来编辑图像。

ScreenAgent

一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

GOT

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

MotionCtrl

强大的视频生成工具,它通过精确控制视频中的相机和物体运动,为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作,MotionCtrl都能够提供令人满意的解决方案。

Ovis1.6

强大的多模态大模型,它通过创新的架构设计和全面的数据优化,在多模态任务上展现了卓越的性能。

Gummy

创新的语音翻译大模型,它通过端到端的设计和深度学习技术,实现了高质量的实时语音翻译。无论是在国际会议、教育培训、旅游导航还是客户服务和医疗咨询等场景中,Gummy都能提供高...

Real

一个强大的图像超分辨率工具,它利用深度学习和生成对抗网络,在没有真实高分辨率图像作为参考的情况下,通过合成退化过程来提升低分辨率图像的质量。

AnyText

一个创新的多语言视觉文本生成和编辑工具,利用先进的扩散模型技术,能够准确生成和编辑图像中的文本。它不仅支持多种语言和文本风格,还能在复杂的图像背景中保持文本的清晰度和...