图像处理

TokenFD

TokenFD是由上海交通大学与美团联合开发的细粒度图文对齐基础模型,专为文档理解任务设计。通过图像与语言Token的统一特征空间对齐,支持Token级图文交互,提升了多模态任务性能。其基于自研的TokenIT数据集进行训练,涵盖2000万张图像和18亿高质量Token-Mask对,覆盖多种文本图像类型。TokenFD可用于文档处理、图像审查、文字检索及大模型知识增强等多个领域,具有广泛的适用性和

PixelHacker

PixelHacker是一款由华中科技大学与VIVO AI Lab联合开发的图像修复模型,采用潜在类别引导机制,通过线性注意力实现结构与语义一致性的高质量修复。基于大规模数据集训练并经过多基准微调,支持多种图像类型与分辨率。适用于照片修复、对象移除、艺术创作、医学影像及文化保护等领域。

CogAgent

CogAgent是一款由清华大学与智谱AI联合开发的多模态视觉大模型,专注于图形用户界面(GUI)的理解与导航。它具备视觉问答、视觉定位、GUI Agent、高分辨率图像处理及多模态能力,可应用于自动化测试、智能交互、多模态人工智能应用开发、企业级AI Agent平台等多个领域。CogAgent在多个基准测试中表现出色,尤其在GUI操作数据集上显著超越现有模型。

PicsArt在线照片编辑器

PicsArt在线照片编辑器是一个强大的工具,它提供了一系列易于使用的在线编辑功能,使普通用户和专业设计师都能够快速提升照片质量,并将其融入到各种创意设计中。

moonshot

moonshot-v1-vision-preview 是一款由月之暗面开发的多模态图像理解模型,具备精准的图像识别、OCR 文字识别和数据解析能力。支持 API 集成,适用于内容审核、文档处理、医学分析、智能交互等多个领域。模型可识别复杂图像细节、分析图表数据,并从美学角度进行图像评价,适合需要高效图像处理和智能交互的应用场景。

SVG Converter

SVG Converter是一款高效的在线矢量转换工具,可将多种位图格式(如JPG、PNG、BMP)转换为SVG、AI、EPS等矢量格式。支持高精度输出、像素级调整、多层结构及颜色自定义,操作简便,适用于网页设计、图形编辑、Logo制作等多个领域。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

Face Swapper Online

一款由人工智能驱动的在线换脸工具,允许用户在不降低图像质量的情况下交换图片中的面部。

StartAI

StartAI 是一款基于 Adobe Photoshop 的 AI 图像处理工具,支持文生图、局部重绘、线稿上色、无损放大等功能,提升设计效率。兼容 Photoshop CC2015 及以上版本,支持 Stable Diffusion、Midjourney 等主流引擎,提供 100 多种艺术风格,适用于广告设计、UI 设计、摄影后期及艺术创作等多种场景。

Poify

Poify是一款由快手推出的AI图像生成工具,支持AI模特试衣、背景更换、局部重绘等功能,帮助商家和创作者高效生成高质量商品展示图及创意内容。用户可通过文字或图片输入,快速生成符合需求的视觉作品,适用于电商营销、海报设计、社交媒体等内容创作场景,提升视觉吸引力和传播效果。