GPU

Memo

Memo是一款将视频转换为翻译文本、字幕和笔记的工具。无论是YouTube、播客还是本地音频和视频文件,Memo都能轻松将其转换为文本并提炼精华。

FILM

Frame Interpolation是一个开源的神经网络模型,能够在两个视频帧之间生成高质量的中间帧,特别适合需要处理大范围场景运动的应用。

壁仞科技

致力于研发原创性的通用计算体系,建立高效的软硬件平台

Comflowy

Comflowy 是一个专注于将 ComfyUI 工作流转化为实用工具的平台,提供超过 100 个预安装的扩展,支持多种主流 AI 模型,包括一些闭源模型。它具备强大的云 GPU 支持,用户友好的界面设计以及灵活的节点系统,帮助用户高效管理和生成高质量的工作流,适用于多种应用场景,如室内设计、快速手绘生成、艺术风格转换及视频生成等。

Stability AI开源Stable Diffusion 3 Medium文生图模型

Stable Diffusion 3 Medium是一款由Stability AI开源的文本到图像生成模型,拥有20亿个参数,适用于消费级和企业级GPU。该模型具备照片级真实感、强大的提示理解和排版能力,以及高资源效率。此外,它还支持API试用,并得到了NVIDIA和AMD的支持,以优化其性能。Stability AI致力于开放和安全的AI应用,并计划持续改进SD3 Medium。

ProPainter

ProPainter是一款由南洋理工大学S-Lab团队开发的AI视频修复工具,其核心功能包括自动检测并移除视频中的不需要物体、修补缺失或损坏部分以及扩展视频视野。该工具采用了双域传播技术和蒙版引导的稀疏视频Transformer,旨在提供高质量的视频修复解决方案,广泛应用于电影后期制作、历史视频修复、社交媒体内容创作及虚拟现实等领域。 ---

LitServe

LitServe是一款基于FastAPI的高性能AI模型部署引擎,专为企业级AI服务设计。它支持批处理、流式处理和GPU自动扩展,简化了模型部署流程。LitServe易于安装和使用,提供灵活的API定义和强大的服务器控制能力。它兼容多种机器学习框架,具备自动扩展和身份验证等高级特性,适用于机器学习模型部署、大语言模型服务、视觉模型推理、音频和语音处理及自然语言处理等多个领域。

LongVILA

LongVILA是一款专为长视频理解设计的视觉语言AI模型,由多家知名研究机构共同开发。它具备强大的长上下文处理能力和多模态序列并行性,能在大量GPU上高效训练,无需梯度检查点。LongVILA通过五阶段训练流程,结合大规模数据集构建和高性能推理,显著提升了长视频字幕的准确性和处理效率。此外,它还支持多种应用场景,包括视频字幕生成、内容分析、视频问答系统等。