UniToken UniToken 是一种面向多模态理解与生成任务的自回归模型,结合了离散与连续视觉表示,实现对图像语义与细节的全面捕捉。它支持图文理解、图像生成、多模态对话、复杂指令执行等多种任务,并具备细粒度视觉处理能力。适用于内容创作、智能客服、教育、医疗及自动驾驶等多个领域。 AI项目与工具 2025年06月11日 67 点赞 0 评论 124 浏览
KeySync KeySync是一种高分辨率口型同步工具,由帝国理工学院和弗罗茨瓦夫大学联合开发。其采用两阶段生成框架,结合掩码策略和视频分割模型,实现音频与唇部动作的精准对齐。支持高清视频生成,具备遮挡处理、减少表情泄露等功能,在视觉质量、时间连贯性和同步精度上优于现有方法,适用于自动配音、虚拟形象、视频会议等多场景应用。 AI项目与工具 2025年06月11日 32 点赞 0 评论 383 浏览
Mogao Mogao是由字节跳动开发的多模态生成基础模型,结合双视觉编码器和先进位置嵌入技术,实现高质量的图像与文本生成。支持零样本图像编辑、多模态理解与生成、高分辨率图像输出以及优化的中文文本渲染。适用于内容创作、智能交互、医疗影像分析等多个领域,具备强大的跨模态处理能力和生成稳定性。 AI项目与工具 2025年06月11日 97 点赞 0 评论 369 浏览
Goku Goku是由香港大学与字节跳动联合开发的AI视频生成模型,支持文本到图像、文本到视频、图像到视频等多种生成方式。其核心优势在于高质量的视频输出、低制作成本及多模态生成能力。Goku+作为扩展版本,专注于广告视频创作,具备稳定的动作表现和丰富的表情交互。模型基于大规模数据集和先进架构,适用于广告、教育、娱乐等多个领域,提升了内容创作效率与质量。 AI项目与工具 2025年02月11日 29 点赞 0 评论 397 浏览