模型

FUSION BRAIN

FUSION BRAIN是一款基于AI的图像生成工具,能够根据文本描述生成高质量图像,并支持多种艺术风格和格式。用户可对生成的图像进行编辑和优化,适用于艺术创作、广告设计、游戏开发等多个领域。平台提供API接口,便于开发者集成与使用,是创意人员和研究人员的理想选择。

SoraWebui

一个开源项目,允许用户使用 OpenAI Sora 模型使用文本在线生成视频,从而简化视频创建,并具有轻松的一键网站部署功能。

ReasonGraph

ReasonGraph 是一个开源平台,用于可视化和分析大语言模型(LLM)的推理过程。它支持多种主流模型和推理方法,提供直观的图表展示和交互式功能,帮助用户理解 AI 思考逻辑、优化模型表现。模块化设计使其易于扩展,适用于学术研究、教育、开发等多个领域。

MineWorld

MineWorld是由微软研究院开发的基于《我的世界》的实时交互式AI模型,采用视觉-动作自回归Transformer架构,实现高保真、可控性强的场景生成。通过并行解码算法,模型可在每秒4至7帧的速度下实现实时交互,适用于具身智能、强化学习、游戏代理及视频生成等场景。其核心技术包括图像与动作标记器、Transformer解码器以及优化的训练与推理流程。

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型,具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障,并根据自然语言指令识别和跟踪目标对象。无需提前建图,适用于多种场景,如陪伴服务、安防巡逻、物流配送等,为具身智能商业化提供支撑,推动机器人走向日常生活。

Long

Long-VITA是一款由腾讯优图实验室、南京大学和厦门大学联合开发的多模态AI模型,支持处理超长文本(超过100万tokens)及多模态输入(图像、视频、文本)。通过分阶段训练提升上下文理解能力,结合动态分块编码器与并行推理技术,实现高效处理长文本和高分辨率图像。模型基于开源数据训练,适用于视频分析、图像识别、长文本生成等场景,性能在多个基准测试中表现突出。

FLORA AI

一款为创意专业人士打造的集成多模型、支持实时协作的 AI 画布工具。提供无限画布、多模型集成、节点式系统和实时协作等功能,快速生成创意草图、文案、图像。

OmniEdit

OmniEdit是一款基于多专家模型监督训练的先进图像编辑工具,支持七种核心图像编辑任务,包括对象替换、移除、添加、属性修改、背景替换、环境变化和风格转换。它能够处理不同宽高比和分辨率的图像,采用EditNet架构,提升了编辑的成功率和图像保真度。OmniEdit在自动与人工评估中表现优异,适用于专业设计、社交媒体内容创作、电子商务、新闻媒体等多个领域。

TokenVerse

TokenVerse 是一种基于扩散模型的多概念图像生成工具,支持从单图或多图中解耦并组合视觉元素,如物体、材质、姿势等。通过优化调制空间,实现对复杂概念的局部控制,无需微调模型即可生成个性化图像,适用于创意设计、艺术创作和内容生成等多种场景。

Etna模型

一个文字转视频的AIGC模型,Etna能够根据简短的文本描述生成相应的视频内容,支持生成时长为8-15秒的视频,且视频流畅度极高,每秒可达60帧。