图像

书生·浦像

书生·浦像是由多家科研机构联合开发的超高动态成像算法,核心为浦像HDR(UltraFusion HDR)。它结合AIGC与HDR技术,在极端光照条件下实现图像细节修复和高质量输出,有效解决动态场景中的运动伪影问题。适用于摄影、手机成像和自动驾驶等领域,具有多曝光融合、动态处理、色调映射等功能,提升了图像的鲁棒性与真实感。

VILA

VILA-U 是一款由 MIT 汉实验室开发的统一基础模型,整合了视频、图像和语言的理解与生成能力。它通过自回归框架简化模型结构,支持视觉理解、视觉生成、多模态学习和零样本学习等功能。VILA-U 在预训练阶段采用混合数据集,利用残差向量量化和深度变换器提升表示能力,适用于图像生成、内容创作辅助、自动化设计、教育和残障人士辅助等多种场景。

Tripo3D AI

一个由VAST发布的在线3D建模平台,利用先进的AI技术,可以在几秒钟内生成高质量的3D模型。用户可以通过文本描述或上传图片来生成模型。

RepText

RepText是一款由Shakker Labs与Liblib AI联合开发的多语言视觉文本渲染框架,采用字形模仿技术实现高质量文本生成。支持多种语言及复杂排版,具备精准控制、高效兼容和自然融合等特点,广泛应用于平面设计、艺术创作和数字内容生产等领域。

OThink

OThink-MR1是由OPPO研究院与香港科技大学(广州)联合研发的多模态语言模型优化框架,基于动态KL散度策略(GRPO-D)和奖励模型,提升模型在视觉计数、几何推理等任务中的泛化与推理能力。其具备跨任务迁移能力和动态平衡探索与利用机制,适用于智能视觉问答、图像描述生成、内容审核等多个领域,具有广阔的应用前景。

Moondream

Moondream是一款小型的开源人工智能视觉语言模型,具有强大的图像处理能力和灵活性,能够在不同设备上运行。它基于Apache 2.0许可证,支持商业使用,并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

ParGo

ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。

Skywork R1V

Skywork R1V是昆仑万维推出的首个工业级多模态思维链推理模型,具备强大的视觉链式推理能力,可处理数学问题、科学现象分析、医学影像诊断等复杂任务。其技术基于文本推理能力的多模态迁移与混合式训练方法,在多项基准测试中表现优异。模型开源,适用于教育、医疗、科研、内容审核等多个领域,推动多模态人工智能的发展。

Trickle

Trickle 是一款零代码网页应用开发工具,通过自然语言输入即可快速构建功能完善的网页应用。它支持自动生成前端、后端及数据库,具备一键发布和托管功能。内置图像优化、数据分析和文案生成等 AI 能力,并提供丰富模板库。适用于小商家、创业者、设计师及企业等多种场景,提升开发效率与用户体验。

designify

Designify是一款基于AI技术的在线设计工具,专注于为用户提供高效、专业的图像处理服务。它具备自动背景移除、色彩优化、阴影调节等功能,同时支持自定义元素添加和批量处理,广泛应用于电商、营销及汽车行业。Designify还提供了高分辨率输出和API接入能力,使用户能够灵活整合至现有工作流中,满足不同场景下的设计需求。