计算

中国图象图形学学会

积极开展图像图形基础理论和高新技术的研究,促进该学科技术的发展和在国民经济各个领域的推广应用。

ScreenAgent

一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

OLMo

一个开放的语言模型框架,它为研究人员和开发者提供了一套完整的工具和资源,以促进AI和语言模型的共同进步。

EMO2

EMO2是一种由阿里巴巴智能计算研究院开发的音频驱动头像视频生成技术,通过音频输入和静态人像照片生成高质量、富有表现力的动态视频。其核心技术包括音频与手部动作的协同建模、扩散模型生成视频帧,以及高精度音频同步。该工具支持多样化动作生成,适用于虚拟现实、动画制作和跨语言内容创作等场景,具备自然流畅的视觉效果和丰富的应用场景。

AI Face Analyzer

只需上传您的脸部照片,AI Face Analyzer就会告诉您客观的面部美容评分。

NarratoAI

NarratoAI是一款基于AI技术的影视解说和编辑工具,它利用大型语言模型(LLM)、计算机视觉和自然语言处理技术来理解视频内容,自动生成解说文案,并将文案转化为配音,同时进行视频剪辑和字幕生成。该工具支持个性化定制,可以满足不同用户的视频制作需求,简化视频制作流程,帮助非专业人士快速制作出专业水准的视频内容。

Delta

Delta-CoMe是一种由清华大学NLP实验室牵头研发的增量压缩算法,它通过低秩分解与混合精度量化技术,显著减少了大型语言模型的存储和内存需求,同时保持了模型性能几乎无损。该工具支持多任务处理、推理加速,并广泛适用于云计算、边缘计算及学术研究等领域,特别擅长应对数学、代码和多模态任务。

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

DreamO

DreamO是由字节跳动与北京大学联合开发的图像定制生成框架,基于扩散变换器(DiT)模型实现多条件图像生成。支持身份、风格、背景等条件的灵活集成,具备高质量生成、条件解耦和精准控制能力。适用于虚拟试穿、风格迁移、主体驱动生成等多种场景,具备广泛的适用性和技术先进性。