视频
YT Navigator
YT Navigator 是一款基于 AI 的 YouTube 内容检索工具,支持自然语言查询、语义搜索和视频内容交互。用户可快速定位视频片段并获取时间戳,提升信息获取效率。适用于研究、学习、创作和分析等场景,具备频道管理、安全会话等功能。采用向量嵌入与 BM25 算法结合的搜索机制,提高搜索准确率,项目已开源。
LipRead Pro
LipRead Pro 是一款基于AI技术的视频唇读工具,可将视频中的唇部动作转换为文字,支持多语言和口音识别。其高精度算法确保了文字输出的准确性,适用于内容创作、无障碍辅助、安全监控、历史档案修复等多种场景。操作简便,处理高效,注重用户数据隐私保护,适合专业用户和普通用户使用。
Motion Dreamer
Motion Dreamer是由香港科技大学(广州)研发的视频生成框架,采用两阶段架构生成物理合理的视频内容。通过引入“实例流”实现从稀疏到密集的运动控制,支持用户以少量提示生成时间连贯的视频。其随机掩码训练策略增强了模型的推理能力与泛化性能,已在多个数据集上验证其优越性。适用于视频创作、动画制作、VR/AR及自动驾驶等多个领域。
