视频
Motion Dreamer
Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。
Gemini Live
Gemini Live是一款由谷歌开发的智能语音助手,拥有自然语言理解和多模态识别能力,支持语音、图像和视频交互。其主要功能包括自然语言对话、多模态识别、个性化语音选择、任务自动化以及智能打断和续接。此外,Gemini Live还与谷歌的原生应用深度集成,提升用户体验。目标用户包括商务人士、技术探索者、多语言用户、创意人士和老年人。
MiniMax MCP Server
MiniMax MCP Server 是一款基于 MCP 协议的多模态生成服务器,支持视频、图像、语音及声音克隆等功能。其具备高分辨率输出、自然语音生成与声音克隆能力,兼容多种主流客户端。平台采用客户端-服务器架构,结合 RAG 技术提升响应准确性,适用于教学、游戏开发、内容创作等多个领域。
