模型

AnimateDiff

AnimateDiff是一款由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员共同开发的框架,旨在将文本到图像模型扩展为动画生成器。该框架利用大规模视频数据集中的运动先验知识,允许用户通过文本描述生成动画序列,无需进行特定的模型调优。AnimateDiff支持多种领域的个性化模型,包括动漫、2D卡通、3D动画和现实摄影等,并且易于与现有模型集成,降低使用门槛。

CSGO AI

CSGO是一项由南京理工大学等机构合作研发的图像风格迁移与文本到图像生成研究项目。其主要功能包括图像驱动的风格迁移、文本驱动的风格化合成及文本编辑驱动的风格化合成。项目通过端到端训练模型、特征注入技术及扩散模型,实现高效且高质量的图像生成,广泛应用于艺术创作、数字娱乐、设计行业及广告营销等领域。

Draftaid

一款能够将3D模型快速转换为高质量的CAD设计图纸的自动化AI生成工具,DraftAid大大幅缩短制图时间,从数小时缩短到几分钟。

Mooncake

Mooncake是一个以KVCache为中心的分布式大模型推理架构,由Kimi联合清华大学等机构开源。它通过分离预填充和解码阶段,有效利用GPU集群的其他资源,显著提升推理吞吐量,降低算力消耗,同时保持低延迟。Mooncake支持长上下文处理、负载均衡及过载管理,适用于多种应用场景,包括自然语言处理、语音识别、搜索引擎优化等,推动大模型技术的高效应用。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

Loong

Loong是一种基于自回归大型语言模型的长视频生成工具,能够生成长达一分钟以上的高质量视频。其核心技术包括统一序列建模、渐进式训练方法及损失重新加权策略,确保生成视频在内容连贯性、动态丰富性和场景过渡上的卓越表现。Loong广泛适用于娱乐、教育、广告等多个领域,助力用户快速生成个性化、专业化的视频内容。

RF

RF-DETR是一款由Roboflow推出的实时目标检测模型,支持多分辨率训练,具备高精度和低延迟特性,在COCO数据集上达到60+ mAP。结合Transformer架构和预训练DINOv2主干,提升领域适应性和检测效果。适用于安防、自动驾驶、工业检测等多个场景,提供预训练检查点以支持快速微调和部署。

mPLUG

mPLUG-Owl3是一款由阿里巴巴开发的多模态AI模型,专注于理解和处理多图及长视频内容。该模型具备高推理效率和准确性,采用创新的Hyper Attention模块优化视觉与语言信息的融合。它已在多个基准测试中展现出卓越性能,并且其源代码和资源已公开,可供研究和应用。

汉王天地大模型

汉王天地大模型是一个综合性的AI语言助手,它通过提供丰富的语言处理功能,帮助用户在多种场景下提高效率和创造力。

NEXUS

NEXUS-O是一款由多家知名机构联合开发的多模态AI模型,能够处理音频、图像、视频和文本等多种输入,并以相应形式输出结果。它在视觉理解、音频问答、语音识别和翻译等方面表现出色,具备强大的跨模态对齐与交互能力。模型基于视觉语言预训练,结合高质量音频数据提升性能,并通过多模态任务联合训练增强泛化能力。适用于智能语音助手、视频会议、教育、智能驾驶、医疗健康等多个领域。