模型

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

GameNGen

GameNGen是谷歌推出的一款AI游戏引擎,它能够以每秒20帧的速度实时生成高质量的DOOM游戏画面,使大多数玩家难以分辨真假。该工具无需编程,简化了开发流程,同时具备高逼真度和交互式体验,为游戏创作提供了新的可能性。除了游戏开发,它还能应用于虚拟现实、自动驾驶等多个领域,具有广泛的应用前景。

NextAI整理全球AI项目库

NextAI整理全球AI项目库,包括AI变现: 如何利用AI搞钱、推荐课、Prompt提示词网站、AI学习文章和资料、AI工具汇总&报告收集、国内干模大战申请链接、AI部署公益咨询

怪兽智能AI知识库

怪兽智能AI知识库是一个集成了企业知识管理和智能问答功能的系统,它通过AI技术帮助企业提升服务效率和客户体验。

VideoLLaMA3

VideoLLaMA3 是阿里巴巴开发的多模态基础模型,支持视频与图像的深度理解和分析。基于 Qwen 2.5 架构,结合先进视觉编码器与语言生成能力,具备高效时空建模与多语言处理能力。适用于视频内容分析、视觉问答、字幕生成等场景,提供多种参数版本,支持灵活部署。

魔多AI

一个专为AI创作者打造的趣玩社区,提供多种AI模型和创作工具,支持用户进行插画、动漫、写实等多种风格的图像创作。

LayerDiffusion

LayerDiffusion是一种创新的AI工具,利用大规模预训练的潜在扩散模型生成具有透明度的图像。该技术引入了“潜在透明度”的概念,将图像的alpha通道透明度信息编码到潜在空间中。LayerDiffusion不仅可以生成单个透明图像,还能生成多个透明图层,支持条件控制生成和图层内容结构控制,确保高质量的图像输出。此外,它还能够生成多个透明图层,并通过共享注意力机制和低秩适应确保图层间的和谐混

LM Studio

LM Studio是一个开源的本地大语言模型(LLM)应用平台,提供图形用户界面(GUI)和命令行界面(CLI),便于用户使用大型语言模型。LM Studio支持从Hugging Face等平台下载兼容的模型文件,并提供了一种“Playground”模式,用户可以通过该模式同时运行多个AI模型,以增强性能和输出。此外,LM Studio还具备模型发现功能,能够在应用首页展示新的和值得关注的LLMs

STIV

STIV是一款由苹果公司开发的视频生成大模型,具有8.7亿参数,擅长文本到视频(T2V)及文本图像到视频(TI2V)任务。它通过联合图像-文本分类器自由引导(JIT-CFG)技术提升生成质量,并结合时空注意力机制、旋转位置编码(RoPE)及流匹配训练目标优化性能。STIV支持多种应用场景,包括视频预测、帧插值、长视频生成等,适用于娱乐、教育、广告及自动驾驶等多个领域。