生成

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

Pyramid

Pyramid-Flow是一款基于文本生成高清视频的AI工具,利用创新的金字塔流匹配算法,支持从低分辨率到高分辨率的逐步生成过程,可生成长达10秒、分辨率达1280×768的视频内容。该模型具备端到端优化能力,支持连续帧生成,确保视频内容的连贯性和高质量。

JoyGen

JoyGen是由京东科技与香港大学联合开发的音频驱动型3D说话人脸视频生成框架,能够实现唇部动作与音频信号的精准同步,并提供高质量的视觉效果。该工具采用单步UNet架构进行高效视频编辑,基于130小时中文视频数据集训练,在唇音同步和视觉质量方面表现优异。适用于虚拟主播、动画制作、在线教育及多语言视频生成等多个领域,为视频内容创作提供了创新解决方案。

novelistAI

NovelistAI是一款基于AI技术的小说创作平台,支持多种文学体裁和语言的创作,提供封面设计、插图生成和有声书制作等功能,旨在提升创作体验并扩大全球影响力。用户可以通过个性化图书馆功能管理自己的创作成果,适用于个人、教育、语言学习和专业写作等多个场景。

AI Majic

一款可帮助您在几分钟内生成原创和高质量的内容的AI写作工具。您可以将Ai Majic用于各种目的,例如撰写论文、文章、博客、社交媒体帖子等。

Viggle AI

一款由JST-1驱动的图片生成动画的AI视频生成器,JST-1是第一个具有实际物理理解能力的视频-3D基础模型。它允许用户根据自己的需求使任何角色移动。

Medio.cool

Medio.cool是一款面向企业海外市场的AI视频编辑工具,提供视频水印去除、商品翻译、商品解说视频自动生成等功能。它支持多语言翻译,涵盖超过100种国际语言,并能一键下载4K高清原视频,适用于YouTube、TikTok等多个平台,助力企业高效实现全球化推广。

豆包·语音播客模型

豆包·语音播客模型是字节跳动旗下火山引擎推出的语音播客工具,基于流式模型构建,可将文本秒级转化为双人对话式播客。具有低成本、高时效、强互动特点,解决了传统AI播客内容重复、不够口语化的问题。支持低时延与可打断、深度搜索、高效创作、超长文本转播客等功能,适用于教育、娱乐、心理咨询、内容营销和有声读物制作等场景。

Kimi i人嘴替

Kimi i人嘴替是一款基于AI技术开发的沟通辅助工具,主要服务于希望改善人际交往能力的用户。其核心功能包括即时文案生成、社交场景应对指导以及心理建设支持等。此外,该工具还能灵活运用网络流行语,让交流过程更加生动有趣。无论是面对日常对话还是复杂的人际挑战,i人嘴替都能提供有效的解决方案。

PPTalker

一款专门将PPT演示文稿转换成高质量视频的在线工具,通过多语言的AI语音解说和字幕,用户可以在几分钟内将PPT生成高质量的视频。