实时

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

新壹视频大模型

新壹视频大模型是一款AI驱动的视频创作平台,具备自动生成剧本、情感化语音合成、3D元素生成和高清视频输出等功能。该平台通过集成自主研发的AI算法和深度学习技术,简化了视频创作流程,提高了制作效率,降低了成本,同时提升了视频的整体质量和用户体验。其应用场景广泛,涵盖教育、医疗、文化旅游、金融管理和广电传媒等多个领域。

FILM

Frame Interpolation是一个开源的神经网络模型,能够在两个视频帧之间生成高质量的中间帧,特别适合需要处理大范围场景运动的应用。

KuaiFormer

KuaiFormer是一款基于Transformer架构的检索框架,专为大规模内容推荐系统设计。它通过重新定义检索流程,将传统分数估计任务转换为“下一个动作预测”,从而实现高效的多兴趣提取和实时兴趣捕捉。KuaiFormer具备多兴趣查询Token、自适应序列压缩、稳定训练等核心技术,已在快手App的短视频推荐系统中广泛应用,显著提升了用户体验和平台效率。 ---

AgentX

AgentX是一个基于多种大语言模型的AI聊天机器人开发平台,用户可通过无代码方式快速构建并部署定制化AI代理。平台具备多模型兼容性、灵活集成能力和实时性能优化功能,广泛应用于客户服务、教育培训、企业内部管理及电子商务等领域。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

Signs

Signs是由英伟达推出的AI手语学习平台,通过实时手势识别与3D虚拟教学,帮助用户精准掌握美式手语。平台支持用户上传视频,丰富学习资源,具备互动性与个性化反馈,适用于初学者及进阶学习者,同时为无障碍技术开发提供数据支持。

录音识别王

录音识别王,支持录音实时转文字、视频转文字、智能配音及图片转文字等功能,高效精准的录音识别技术,智能提取音频中的文字,支持TXT、WORD等格式导出,适用于各种录音制作场景。

StockGPT

一款AI驱动的搜索工具,包含所有标准普尔 500 指数和纳斯达克公司的收益发布、财务报告和其他基本信息的知识。它允许用户询问摘要、分析不同时间范围内的公司绩效、获得有关产品更新的具体答案等等。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。