应用

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

FlexClip

FlexClip是一款基于云端的视频编辑平台,提供丰富的素材库及多种编辑工具,包括裁剪、分割、文字添加、录音、音乐和水印等功能,支持多格式导入与高清输出,广泛应用于社交媒体、商业宣传、教育、个人项目等领域,用户可通过网页端直接操作,无需额外软件安装。

Skyo

Skyo是一款基于天工AI大模型技术的智能语音对话助手,具备快速响应、多语言对话、实时打断、情感化回应及个性化记忆等功能。它能根据用户情绪提供拟人化回复,并支持长时间对话和个性化声音定制。Skyo可应用于情感陪伴、个性化交互、多语言客服、时事新闻聊天、教育辅助和生活助理等多个场景,旨在为用户提供高质量的互动体验。

KAPWING

KAPWING是一款基于AI技术的在线视频编辑平台,提供从视频生成到编辑的一站式解决方案。其核心功能涵盖AI视频生成器、文档转视频、文本转语音、字幕生成及高级编辑工具,支持用户轻松创建和定制视频内容。此外,KAPWING还具备团队协作能力,适合教育、企业宣传及内容创作等多个应用场景。

Translate Now

Translate Now是一款免费的翻译应用程序,可让您在 100 多种语言之间翻译文字、语音和图像。它使用 Google 翻译技术,提供快速、准确的翻译。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

猎户星空大模型

百亿级模型SOTA,支持 32万 tokens 的上下文能够一次性接受并处理约 45 万汉字的输入内容准确提取关键信息。

tldraw

tldraw是一款开源的无限画布工具,支持多人实时协作,适用于团队设计、项目管理和教育等领域。它提供了手绘风格、智能箭头、捕捉和便签等功能,以及丰富的绘图工具如画笔、橡皮擦、线框和文本工具,用户可在无限画布上自由创作,不受空间限制。

PandasAI

一个基于Python的库,PandasAI将将该库依赖到自己项目中,只需几行代码,轻松实现数据读取,并能通过对话方式向数据进行提问