图像

VLM

VLM-R1 是由 Om AI Lab 开发的视觉语言模型,基于 Qwen2.5-VL 架构,结合强化学习优化技术,具备精准的指代表达理解和多模态处理能力。该模型适用于复杂场景下的视觉分析,支持自然语言指令定位图像目标,并在跨域数据中表现出良好的泛化能力。其应用场景涵盖智能交互、无障碍辅助、自动驾驶、医疗影像分析等多个领域。

Sekai

Sekai是一款结合AI技术的交互式内容平台,允许用户创建和自定义虚拟角色,并通过AI生成完整的故事情节。平台支持互动式叙事、沉浸式体验以及故事编辑与分享功能,适用于个人娱乐、社交互动、教育学习及品牌营销等多种场景。

PicFinder.AI

PicFinder.AI是一个让您通过 AI 生成的图像的在线工具网站。它使用人工智能将您的描述转换为令人惊叹的艺术品。您可以将它用于娱乐、灵感或任何需要视觉内容的项目。

StyleShot

StyleShot 是一个开源的AI图像风格迁移模型,能够实现文本和图像驱动的风格迁移。它利用风格感知编码器和内容融合编码器,捕捉和再现风格细节,生成高质量的风格化图像。主要应用场景包括艺术创作、社交媒体、游戏开发和电影视频制作。

图可丽抠图

图可丽抠图,专业的 AI 图像、视频处理工具,智能一键抠图、高清、修复、转卡通。

iA Presenter

iA Presenter 的文本界面将焦点放在故事上,节省时间和精力。

可灵AI国际版(Kling AI)

Kling AI国际版是快手推出的AI创意工具,支持图像、视频及声音的生成与编辑。用户可通过文本或图像输入生成内容,并利用AI模板、虚拟模特、换装及对口型等功能进行创作。适用于内容创作、教育、电商及社交等多个领域,提升创作效率与表现力。

Pandora Avatars

用户可以从100多种独特的头像风格中选择,并能够在所有社交媒体平台上以高清质量使用它们。

Emu3

Emu3是一款由北京智源人工智能研究院开发的原生多模态世界模型,结合了多模态自回归技术和单一Transformer架构,能够在图像、视频和文本之间实现无缝转换。它不仅能够根据文本生成高质量图像,还能预测视频发展并理解图文内容,广泛应用于内容创作、广告营销、教育、娱乐等多个领域。

JoggAI

JoggAI是一款基于AI技术的头像生成工具,可根据文本描述创建个性化的写实或卡通风格头像,并支持动态表情与动作。用户可通过简单操作自定义面部特征、服装、背景等细节,适用于社交媒体、数字营销、游戏开发及教育等多个领域,具备高度灵活性与易用性。