深度学习
InternVideo2.5
InternVideo2.5是一款由上海人工智能实验室联合多机构开发的视频多模态大模型,具备超长视频处理能力和细粒度时空感知。它支持目标跟踪、分割、视频问答等专业视觉任务,适用于视频检索、编辑、监控及自动驾驶等多个领域。模型通过多阶段训练和高效分布式系统实现高性能与低成本。
MangaNinja
MangaNinja是一款基于参考图像的线稿上色工具,采用Reference U-Net和Denoising U-Net架构,结合补丁重排模块与点驱动控制方案,实现高精度、细粒度的上色效果。其可处理复杂场景、多参考图像协调及极端姿势等问题,广泛应用于漫画创作、插画设计、平面设计和数字艺术等领域。
WorldCraft
WorldCraft是一款基于大型语言模型的3D世界创建系统,支持用户通过自然语言交互快速生成和调整虚拟场景。其核心模块包括物体定制、场景布局优化和轨迹控制,具备高精度的几何与纹理控制能力。系统兼容多种3D生成工具,适用于建筑设计、影视娱乐、教育等多个领域,为非专业人士提供高效、直观的创意设计解决方案。
Finedefics
Finedefics是由北京大学彭宇新教授团队开发的细粒度多模态大模型,专注于提升多模态大语言模型在细粒度视觉识别任务中的表现。该模型通过引入对象的细粒度属性描述,结合对比学习方法,实现视觉对象与类别名称的精准对齐。在多个权威数据集上表现出色,准确率达76.84%。其应用场景涵盖生物多样性监测、智能交通、零售管理及工业检测等领域。
TME Studio腾讯音乐
分析TME全曲库歌词以及散文、诗歌等多种语料素材,依据智能推荐算法帮你找到合适的押韵词语,打开灵感空间