RealtimeSTT RealtimeSTT RealtimeSTT是一款开源的实时语音转文本库,具备高精度语音活动检测、GPU加速的实时转录能力以及语音唤醒功能。支持多语言识别,适用于语音助手、会议记录、实时字幕等场景,提供灵活的音频输入与预处理机制,便于开发者快速集成和扩展。 AI项目与工具 2025年06月12日 97 点赞 0 评论 480 浏览
ParGo ParGo ParGo是一种由字节与中山大学联合开发的多模态大语言模型连接器,通过结合局部与全局token,提升视觉与语言模态的对齐效果。其核心模块PGP和CPP分别提取图像的局部和全局信息,增强细节感知能力。在多个基准测试中表现优异,尤其在文字识别和图像描述任务中优势明显。采用自监督学习策略,提高模型泛化能力,适用于视觉问答、图像字幕生成、跨模态检索等多种场景。 AI项目与工具 2025年06月12日 38 点赞 0 评论 512 浏览
AIVLOG AIVLOG AIVLOG是一款基于AI技术的视频编辑工具,专为视频创作者设计,具备自动剪辑、智能字幕生成、特效与音乐一键添加等功能。支持多平台使用,提供丰富的模板和素材,便于快速制作高质量Vlog,并可一键分享至社交平台,提升内容传播效率。 AI项目与工具 2025年06月12日 22 点赞 0 评论 221 浏览
OpusClip OpusClip OpusClip 是一款基于人工智能的视频剪辑工具,能够将长视频自动转换为适合社交媒体传播的短视频。其核心功能包括自动剪辑、多平台发布、字幕生成与翻译、智能人脸追踪、关键词高亮等。用户可通过简单操作快速生成多个短视频版本,并支持品牌模板定制和团队协作。适用于社交媒体运营、营销推广、教育、新闻及音频内容转化等多种场景。 AI项目与工具 2025年06月12日 97 点赞 0 评论 379 浏览
BlipCut BlipCut BlipCut是一款基于AI的视频处理工具,支持130多种语言的视频翻译、自动字幕生成、AI配音和唇形同步。用户可上传视频或链接,一键生成多语言版本,并支持语音克隆、智能剪辑及批量处理,适用于内容创作、教育、营销等场景。 AI项目与工具 2025年06月12日 79 点赞 0 评论 365 浏览
VideoCaptioner VideoCaptioner VideoCaptioner是一款基于大语言模型的智能字幕处理工具,支持语音识别、字幕优化、翻译、样式调整及视频合成等功能。无需GPU即可运行,兼容多语言和多种字幕格式,适用于视频创作者、教育工作者及字幕翻译团队,提升字幕制作效率与质量。 AI项目与工具 2025年06月12日 50 点赞 0 评论 345 浏览
青梧字幕 青梧字幕 青梧字幕是一款基于AI语音识别技术的字幕提取工具,能够从视频中精准提取语音内容并生成时间轴字幕。支持多语言识别、多格式导出及多语种翻译,适用于视频创作者、外语学习者及字幕团队。所有数据处理在本地完成,保障隐私安全,兼容Windows和MacOS系统,提升字幕制作效率。 AI项目与工具 2025年06月12日 90 点赞 0 评论 167 浏览
Bith AI Bith AI Bith AI 是一款AI驱动的视频创作与编辑工具,支持文本转视频、自动字幕生成、多平台尺寸适配、多媒体融合及一键发布等功能。适用于社交媒体、企业营销、教育培训和个人创作等多种场景,提升视频制作效率与专业度。 AI项目与工具 2025年06月12日 37 点赞 0 评论 502 浏览
Scribe Scribe Scribe 是由 ElevenLabs 推出的高精度语音转文本模型,支持 99 种语言,具备多说话者区分、非语言事件检测和单词级时间戳功能。输出结构化的 JSON 数据,适用于会议记录、字幕生成、内容创作等多种场景,广泛应用于教育、客服及媒体领域。 AI项目与工具 2025年06月12日 86 点赞 0 评论 315 浏览
AIMv2 AIMv2 AIMv2是苹果公司开发的开源多模态自回归预训练视觉模型,通过图像与文本的深度融合提升视觉理解能力。其采用图像块与子词标记拼接的方式进行自回归预训练,支持多种参数规模,适用于不同设备。具备视觉问答、指代表达理解、图像字幕生成、多媒体检索等功能,并可无缝集成到大型语言模型中。模型在多个视觉任务中表现优异,具备良好的可扩展性和零样本适应能力。 AI项目与工具 2025年06月12日 48 点赞 0 评论 339 浏览