计算机视觉

MotionCtrl

强大的视频生成工具,它通过精确控制视频中的相机和物体运动,为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作,MotionCtrl都能够提供令人满意的解决方案。

中国图象图形学学会

积极开展图像图形基础理论和高新技术的研究,促进该学科技术的发展和在国民经济各个领域的推广应用。

NarratoAI

NarratoAI是一款基于AI技术的影视解说和编辑工具,它利用大型语言模型(LLM)、计算机视觉和自然语言处理技术来理解视频内容,自动生成解说文案,并将文案转化为配音,同时进行视频剪辑和字幕生成。该工具支持个性化定制,可以满足不同用户的视频制作需求,简化视频制作流程,帮助非专业人士快速制作出专业水准的视频内容。

Florence

Florence-2是微软Azure AI团队研发的多功能视觉模型,支持图像描述、目标检测、视觉定位和图像分割等功能。该模型基于Transformer架构,采用序列到序列学习方法,利用自注意力机制实现多模态信息融合。通过训练大规模数据集,Florence-2在多个应用场景中表现出色,包括图像和视频分析、内容审核、辅助驾驶、医疗影像分析以及零售和库存管理。

DreamO

DreamO是由字节跳动与北京大学联合开发的图像定制生成框架,基于扩散变换器(DiT)模型实现多条件图像生成。支持身份、风格、背景等条件的灵活集成,具备高质量生成、条件解耦和精准控制能力。适用于虚拟试穿、风格迁移、主体驱动生成等多种场景,具备广泛的适用性和技术先进性。

Junlala AI

Junlala AI 是一家专注于人工智能领域的公司。我们汇聚了行业内顶尖专家和高级工程师,致力于研发尖端的人工智能算法和解决方案。

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。