Hallo2是由复旦大学、百度公司和南京大学联合研发的音频驱动视频生成模型。该模型能够将单张参考图片与数分钟的音频结合,并通过可选的文本提示调节表情,生成与音频同步的高分辨率4K视频。Hallo2采用先进的数据增强技术,例如补丁下降和高斯噪声,以提升视频的长期视觉一致性和时间连贯性。此外,该模型利用潜在代码的矢量量化与时间对齐技术,生成高质量的4K视频,并通过引入语义文本标签作为条件输入,增强生成内容的可控性和多样性。Hallo2已在多个公开数据集上进行了广泛测试,展示了其在长时间、高分辨率、多样化内容生成方面的强大能力。
发表评论 取消回复