VideoChat是一款开源的实时数字人对话系统,支持语音输入与实时对话功能。用户可以自定义数字人的形象和音色,无需额外训练即可实现音色克隆。该系统首包延迟低至3秒,适用于直播、新闻播报及聊天助手等多种实时语音交互场景。VideoChat集成了GLM-4-Voice,并提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。通过Gradio框架构建交互式应用,支持流式视频输出,便于快速部署与应用开发。
VideoChat是一款开源的实时数字人对话系统,支持语音输入与实时对话功能。用户可以自定义数字人的形象和音色,无需额外训练即可实现音色克隆。该系统首包延迟低至3秒,适用于直播、新闻播报及聊天助手等多种实时语音交互场景。VideoChat集成了GLM-4-Voice,并提供ASR-LLM-TTS-THG和MLLM-THG两种生成方式。通过Gradio框架构建交互式应用,支持流式视频输出,便于快速部署与应用开发。
发表评论 取消回复