视觉分词器

首页

视觉分词器

列表

默认

浏览次数

发布日期

GigaTok

GigaTok 是一款基于语义正则化的高参数视觉分词器，支持自回归图像生成，具备优异的图像重建与生成能力。通过一维架构和非对称扩展策略，实现高效计算与稳定训练。适用于图像生成、编辑、数据增强及多模态应用，具有广泛的技术拓展性。

AI项目与工具 2025年06月11日 74 点赞 0 评论 1026 浏览

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器，支持视觉生成与理解任务。其采用多码本量化技术，将视觉特征分割并独立量化，显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率，图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块，广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

AI项目与工具 2025年06月11日 22 点赞 0 评论 546 浏览

视觉分词器 首页 视觉分词器

列表 默认 浏览次数 发布日期

GigaTok

UniTok

视觉分词器

首页

视觉分词器

列表

默认

浏览次数

发布日期