模型

TIGER

TIGER是由清华大学研发的轻量级语音分离模型,采用时频交叉建模策略与多尺度注意力机制,有效提升语音分离性能,同时显著降低计算和参数开销。模型通过频带切分优化资源利用,适应复杂声学环境,广泛应用于会议记录、视频剪辑、电影音频处理及智能语音助手等领域。

GenCast

GenCast是一款基于扩散模型的AI气象预测工具,可提供长达15天的高精度全球天气预报,尤其擅长预测极端天气事件。它采用0.25°纬度-经度分辨率生成高精度集合预报,并通过并行计算在8分钟内完成预测。GenCast已开源,支持学术界和行业用户进一步研究与应用。

Chat Nio

Chat Nio 是一款集成了丰富 AI 功能的一站式服务管理平台,支持文本、图像、音频和视频处理,兼容 OpenAI、Anthropic Claude 等多种 AI 模型。其主要功能包括文件解析、对话记忆、云端同步、多端适配等,同时提供开源版本以满足开发者的个性化需求。适用于个人用户、开发者及企业,支持多种应用场景,如客户服务、内容创作、数据分析和教育领域。

Bestprompts

一个中文行业prompt收录网站。 一个全行业AI会话辅助工具,为各行业的内容创作者提供全面准确的提示语。

快转字幕

快转字幕,适用于为各种创作者提供字幕制作、学习资源、会议记录、字幕制作等场景,一键为您的视频生成精准的字幕。

Kiss3DGen

Kiss3DGen是一款基于2D扩散模型的3D资产生成框架,通过“3D Bundle Image”结构实现多视角图像与法线图的融合,从而高效生成和编辑3D模型。它支持文本与图像输入,具备3D编辑、网格优化和纹理增强等功能,适用于游戏开发、影视制作、VR/AR、数字孪生及教育等多个领域。

炉米Lumi

炉米Lumi是一款由字节跳动开发的AIGC图像创作平台,主要功能包括模型上传与展示、工作流搭建以及LoRA微调。它为AI爱好者、研究人员和开发者提供了一个协作环境,用于分享和优化AI模型。炉米Lumi支持多种应用场景,如科研、教育、艺术创作、商业应用开发等,具有开放性和高灵活性。 ---

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

FlexiAct

FlexiAct是由清华大学与腾讯ARC实验室联合研发的动作迁移模型,可在空间结构差异较大的场景下实现精准动作迁移,并保持目标主体的外观一致性。其核心模块包括轻量级RefAdapter和频率感知动作提取(FAE),有效提升跨主体动作迁移的灵活性与准确性。该模型适用于影视、游戏、广告等多个领域,具有良好的应用前景。

MotionFix

MotionFix是一个开源的3D人体动作编辑工具,采用自然语言描述与条件扩散模型TMED相结合的方式,支持通过文本指令精准编辑3D人体动作。其主要功能包括文本驱动的动作编辑、半自动数据集构建、多模态输入处理及基于检索的评估指标。MotionFix适用于动画制作、游戏开发、虚拟现实等多个领域,为动作编辑提供了灵活性与精确性。