实时

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务

Lingo

Lingo是一款由西湖心辰开发的国内首个端到端语音大模型,具备实时交互、语音理解、多风格语音表达、情绪价值等功能。Lingo在人机对话的自然流畅度和情绪感知方面表现出色,适用于智能家居、客户服务、教育、医疗等多个领域。其核心技术包括端到端设计、深度学习算法和自然语言处理,旨在提供高质量的语音交互体验。

ChatGPT Projects

ChatGPT Projects是OpenAI推出的一项多功能集成工具,支持文件上传、个性化指令设置、对话组织及实时协作等功能,通过项目管理、数据存储和版本控制优化用户体验。该工具适用于项目管理、内容创作、编程开发、教育学习等场景,提供强大的文件管理和数据分析能力,助力用户高效完成多样化任务。

Kuse AI

Kuse AI 是一款基于AI技术的智能工具,提供无边界的画布,支持多种格式内容的自由组织和呈现。其AI智能助手可自动总结、生成内容并提供建议,提升工作效率。支持实时协作,适合团队头脑风暴和创意发想,同时具备多媒体整合、透明引用与信息验证、定制化工作流等功能,适用于项目管理、创意发想、学术研究、教育学习和市场营销等场景。

Kokoro

Kokoro-TTS是一款由hexgrad开发的轻量级文本转语音工具,基于StyleTTS 2与ISTFTNet架构,支持多种语音风格和自然语调,具备实时处理能力。支持美式与英式英语,提供10种语音包,适用于教育、游戏、客服等多种场景。支持本地部署与API集成,确保数据安全与高效运行。

SAM 2.1

SAM 2.1是一款由Meta开发的先进视觉分割模型,支持图像和视频的实时分割处理。其核心功能包括用户交互式分割、多对象跟踪、数据增强以及遮挡处理等。通过引入Transformer架构和流式记忆机制,SAM 2.1显著提升了对复杂场景的理解能力。该工具具有广泛的应用场景,涵盖内容创作、医疗影像分析、自动驾驶等多个领域。

SmoothCache

SmoothCache是一种针对Diffusion Transformers(DiT)模型的推理加速技术,通过分析层输出的相似性实现自适应缓存和特征重用,有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点,支持图像、视频、音频及3D模型生成,并在多种应用场景中展现出卓越的性能表现。

Project Astra

Project Astra是一款由谷歌DeepMind研发的多模态虚拟助手,支持自然语言和视觉交互。它具备实时对话、记忆功能及工具集成能力,可帮助用户处理日常任务、旅行规划、健康咨询等多种场景需求。当前版本仍在测试中,致力于提升用户体验并保障技术的可靠性。

CodeArena

CodeArena是一个在线平台,用于实时比较多个大型语言模型(LLM)的代码生成能力。它通过实时渲染和排名机制,帮助开发者评估LLM的性能,包括代码的可读性、效率和准确性。CodeArena集成了开发者工具,支持企业选型、学术研究、编程教育和技能提升等多种应用场景。

Sloyd AI

Sloyd,一个 3D 建模平台,我们的文本转 3D 模型 AI 生成器专门用于将文本提示转换为详细的 3D 模型,可简化创建 3D 模型的过程。