深度学习

UniTok

UniTok是由字节跳动联合高校研发的统一视觉分词器,支持视觉生成与理解任务。其采用多码本量化技术,将视觉特征分割并独立量化,显著提升离散token的表示能力。在ImageNet上实现78.6%的零样本分类准确率,图像重建质量达0.38。可作为多模态大语言模型的视觉输入模块,广泛应用于图像生成、视觉问答、内容创作及跨模态检索等场景。

JoyGen

JoyGen是由京东科技与香港大学联合开发的音频驱动型3D说话人脸视频生成框架,能够实现唇部动作与音频信号的精准同步,并提供高质量的视觉效果。该工具采用单步UNet架构进行高效视频编辑,基于130小时中文视频数据集训练,在唇音同步和视觉质量方面表现优异。适用于虚拟主播、动画制作、在线教育及多语言视频生成等多个领域,为视频内容创作提供了创新解决方案。

团子AI

一款集伴奏人声提取、乐器分离及无损音频升降调等功能于一体的在线人工智能音乐处理工具箱。

EasyAI

EasyAI,产品经理的人工智能学习库,用通俗易懂的方式帮助产品经理快速学习人工智能相关知识,让非技术人群也能快速理解人工智能。

Yodayo AI | 文本生成动漫图片

Yodayo是一个AI文本生成动漫图片工具,是一款先进的人工智能系统,它可以根据你输入的文字或图片,自动生成出免费、高质量的动漫风格的画面。

笔墨AI

笔墨AI是一款基于人工智能模拟中国传统绘画的风格和技巧,生成具有中国传统艺术特色画作的ai绘画生成器。

AnyCharV

AnyCharV是一款由多所高校联合研发的角色可控视频生成框架,能够将任意角色图像与目标场景结合,生成高质量视频。它采用两阶段训练策略,确保角色细节的高保真保留,并支持复杂的人-物交互和背景融合。该工具兼容多种文本生成模型,具备良好的泛化能力,适用于影视制作、艺术创作、虚拟现实等多个领域。

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

LongLLaVA

LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。