图像

UniToken

UniToken 是一种面向多模态理解与生成任务的自回归模型,结合了离散与连续视觉表示,实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务,并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。

Tersa

Tersa 是一款开源免费的 AI 工作流构建平台,提供直观的拖放界面,支持 77 个主流 AI 模型,如 GPT-4o、Claude 3.5 Sonnet、DALL-E 3 和 Whisper 等,适用于文本生成、图像视频创作、音频转录和代码优化等多种任务。用户可通过拖放文件快速构建复杂流程,无需编程基础,广泛应用于内容生成、代码审查、原型开发和多模态功能集成等领域。

Mistral Small 3.1

Mistral Small 3.1 是一款由 Mistral AI 开发的开源多模态 AI 模型,拥有 240 亿参数,支持文本与图像处理,具备长达 128k tokens 的上下文窗口和每秒 150 token 的推理速度。采用 Transformer 架构与 MoE 技术,提升计算效率,支持多语言和本地部署。适用于文档处理、图像分析、质量检测、虚拟助手等多种场景。

Solvely.ai

Solvely.ai是一款以AI驱动的数学学习平台,提供从基础到高级数学问题的即时解答,支持文本、图片和截图提问,并具备自动绘图和个性化辅导功能。该平台通过图像识别技术优化学习体验,提供逐步解决方案和互动式学习内容,适用于K-12至高等教育阶段的学生及教师。

TenereTeam AI工具集

TenereTeam为用户提供了一个广泛的目录,其中包含35个类别的1000 +多个创新AI工具。这些工具涵盖了人工智能的各个方面,包括文案、图像生成和 ChatGPT。

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

Word-As-Image

我们的文字作为图像插图在不同的字体和不同的文本概念。使用我们的方法,语义调整的字母完全自动创建,然后可以用于进一步的创造性设计,正如我们在这里所演示的那样。

Photo Room

人工智能背景生成器,描述您想要的图像,它会使用符合您确切要求的稳定扩散神奇地生成无限数量的独特背景

FLUX.1 Kontext

FLUX.1 Kontext是由Black Forest Labs推出的图像生成与编辑模型,支持上下文感知的图像处理。它基于文本和图像提示进行生成与编辑,具备对象修改、风格转换、背景替换、角色一致性保持和文本编辑等功能。FLUX.1 Kontext Pro版本支持快速迭代编辑,Kontext Max版本在提示词遵循和排版生成方面表现优异,而dev开源版本适合定制化开发。

Pippo

Pippo是由Meta Reality Labs研发的图像到视频生成模型,可基于单张照片生成多视角高清人像视频。采用多视角扩散变换器架构,结合ControlMLP模块与注意力偏差技术,实现更丰富的视角生成和更高的3D一致性。支持高分辨率输出及细节自动补全,适用于虚拟现实、影视制作、游戏开发等多个领域。技术方案涵盖多阶段训练流程,确保生成质量与稳定性。