图像

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

Object Cutter

Object Cutter是一款基于AI的智能图像处理工具,支持文字指令和框选操作,实现高精度图像分割。它能够自动识别并抠出图像中的特定对象,尤其擅长处理复杂背景和细节丰富的图像。其主要功能包括智能抠图、背景移除和高精度图像分割,广泛应用于电商展示、设计创作、影视后期及个人照片编辑等领域。

DoraCycle

DoraCycle是由新加坡国立大学Show Lab开发的一种多模态生成模型,通过文本与图像间的双向循环一致性学习,实现跨模态信息转换与对齐。其核心优势在于无需大量标注数据即可完成领域适应,支持风格化设计、虚拟角色生成等多样化任务。模型采用自监督学习和梯度裁剪等技术提升训练稳定性,适用于广告、教育等多个应用场景。

水印云

水印云是一款简单好用的在线去水印工具,支持视频和图片的去水印、加水印、智能抠图等功能。用户可以通过上传图片或视频,框选或涂抹需要处理的区域,一键去除水印。水印云还支持...

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

QVQ

QVQ是一个基于Qwen2-VL-72B的开源多模态推理模型,擅长处理文本、图像等多模态数据,具备强大的视觉理解和复杂问题解决能力。它在数学和科学领域的视觉推理任务中表现出色,但在实际应用中仍需解决语言切换、递归推理及图像细节关注等问题。QVQ可广泛应用于教育、自动驾驶、医疗图像分析、安全监控及客户服务等领域。

StarVector

StarVector 是一个开源多模态视觉语言模型,支持图像和文本到可编辑 SVG 文件的转换。采用多模态架构,结合图像编码与语言模型,生成结构紧凑、语义丰富的 SVG 内容。基于 SVG-Stack 数据集训练,适用于图标设计、艺术创作、数据可视化等多种场景,具备良好的性能和扩展性。

Le Chat APP

Le Chat APP是一款由Mistral AI推出的AI对话工具,支持自然语言交互、实时搜索、文档分析与图像生成。提供免费基础版和付费Pro版,支持多语言及移动端使用,适用于学习、旅行规划、创意激发等多种场景。

AI改图神器

AI改图神器是一种基于人工智能的图像处理工具,广泛应用于社交媒体、电商、摄影、设计等多个领域。它提供在线修改图片颜色尺寸、智能抠图去水印、AI/EPS/PSD/SVG全格式支持的功能。