增强

libcom

libcom是一款由上海交通大学BCMI实验室开发的图像合成工具箱,支持图像融合、和谐化、阴影生成、对象放置及生成式合成等功能,采用传统图像处理与深度学习技术相结合的方式,提供高质量的合成图像解决方案。适用于增强现实、艺术创作、电子商务、影视制作及游戏开发等多个领域。

Moonshine

Moonshine是一款专为资源受限设备设计的高效语音识别模型,支持实时语音转文本,具有低延迟、高准确率的特点。它基于编码器-解码器架构和旋转位置嵌入技术,适应不同长度的音频输入,计算需求随音频长度变化而调整,适合边缘设备部署。主要应用于会议转录、语音助手、听力辅助及多语言翻译等领域。

AnyEnhancer

一款视频增强工具,AnyEnhancer能够将分辨率提升至4K、降噪、黑白视频上色、增强色彩鲜艳度、恢复面部细节以及优化帧率,让您的旧视频焕发新生。

ZAKER

机器人客服、智能客服、ai机器人客服

Cartwheel

Cartwheel 是一款基于文本到动画(Text-to-Motion)技术的 AI 3D 动画生成平台,用户只需输入文本描述即可快速生成高质量的 3D 角色动画。平台结合深度学习与传统动画技术,支持动作捕捉、自动化运动合成,并与主流 3D 软件无缝集成。其功能包括文本驱动动画、可编辑动画、动作库预设等,适用于游戏开发、影视制作、广告营销、VR/AR 及教育等多个场景。Cartwheel 提供不同

OldPicRestore

一个免费的老照片修复工具,可修复老照片中的损坏、模糊和褪色问题,还能增强照片的清晰度、对比度和色彩饱和度,同时提供去除背景、吉卜力风格转换功能。

MotionGo

让PPT动效、动画表达更专业

HybridRAG

HybridRAG是一种结合了检索增强生成模型的混合架构,通过检索系统和生成模型的协同工作,生成更准确和丰富的输出。其主要功能包括信息检索、上下文理解、知识融合和生成能力。HybridRAG适用于多种自然语言处理任务,如问答系统、文本摘要和对话生成,能够利用大量外部知识提高生成内容的质量和相关性。

LongCite

LongCite是清华大学研发的一项旨在提升大型语言模型在长文本问答中可信度和可验证性的项目。它通过生成细粒度的句子级引用,帮助用户验证模型回答的准确性。LongCite包含LongBench-Cite评估基准、CoF自动化数据构建流程、LongCite-45k数据集,以及基于该数据集训练的模型。这些模型能够处理长文本内容,提供准确的问答服务,并附带可追溯的引用,增强信息的透明度和可靠性。

VMB

VMB是一个由多机构合作研发的多模态音乐生成框架,可从文本、图像和视频等多样化输入生成音乐。它通过文本桥接和音乐桥接优化跨模态对齐与可控性,显著提高了音乐生成的质量和定制化程度。VMB具有增强模态对齐、提升可控性、显式条件生成等特点,适用于电影、游戏、虚拟现实等多个领域。