实时

SmoothCache

SmoothCache是一种针对Diffusion Transformers(DiT)模型的推理加速技术,通过分析层输出的相似性实现自适应缓存和特征重用,有效减少计算成本并提升生成效率。该技术具有模型无关性、跨模态适用性和易于集成的特点,支持图像、视频、音频及3D模型生成,并在多种应用场景中展现出卓越的性能表现。

ARTalk

ARTalk是由东京大学与日本理化学研究所联合开发的语音驱动3D头部动画生成框架,基于自回归模型实现实时、高同步性的唇部动作和自然表情生成。它通过多尺度运动码本和滑动时间窗口技术提升动画质量,并引入风格编码器实现个性化风格适配。该工具在唇部同步、表情自然性和风格一致性方面优于现有技术,适用于虚拟现实、游戏开发、动画制作及人机交互等领域。

Mini

Mini-Omni 是一个开源的端到端语音对话模型,具备实时语音输入和输出的能力,能在对话中实现“边思考边说话”的功能。模型设计无需额外的自动语音识别(ASR)或文本到语音(TTS)系统,直接进行语音到语音的对话。Mini-Omni 采用文本指导的语音生成方法,通过批量并行策略提高性能,同时保持了原始模型的语言能力。它支持实时语音交互、文本和语音并行生成、跨模态理解等功能,适用于智能助手、客户服务

Lingo

Lingo是一款由西湖心辰开发的国内首个端到端语音大模型,具备实时交互、语音理解、多风格语音表达、情绪价值等功能。Lingo在人机对话的自然流畅度和情绪感知方面表现出色,适用于智能家居、客户服务、教育、医疗等多个领域。其核心技术包括端到端设计、深度学习算法和自然语言处理,旨在提供高质量的语音交互体验。

Sloyd AI

Sloyd,一个 3D 建模平台,我们的文本转 3D 模型 AI 生成器专门用于将文本提示转换为详细的 3D 模型,可简化创建 3D 模型的过程。

Gloda

一家专注于 TikTok 数据分析的服务商,提供智能选品工具,涵盖商品库、小店库、达人库等,还能联动亚马逊、抖音进行跨平台选品。

Kuse AI

Kuse AI 是一款基于AI技术的智能工具,提供无边界的画布,支持多种格式内容的自由组织和呈现。其AI智能助手可自动总结、生成内容并提供建议,提升工作效率。支持实时协作,适合团队头脑风暴和创意发想,同时具备多媒体整合、透明引用与信息验证、定制化工作流等功能,适用于项目管理、创意发想、学术研究、教育学习和市场营销等场景。

Kokoro

Kokoro-TTS是一款由hexgrad开发的轻量级文本转语音工具,基于StyleTTS 2与ISTFTNet架构,支持多种语音风格和自然语调,具备实时处理能力。支持美式与英式英语,提供10种语音包,适用于教育、游戏、客服等多种场景。支持本地部署与API集成,确保数据安全与高效运行。

BlueLM

BlueLM-V-3B是一种针对移动设备设计的多模态大型语言模型,结合了高效算法与系统优化,支持快速、低功耗的文本与图像处理。其主要特性包括多模态理解、实时响应、隐私保护、高效率部署及跨语言能力。该模型通过动态分辨率调整、批量图像编码及令牌下采样等技术,实现了在有限资源下的高性能表现。

Meetily

Meetily 是一款注重隐私保护的 AI 会议助手,支持实时音频捕捉、语音转录、会议总结生成及行动项提取。所有数据处理均在本地完成,确保信息安全。具备离线功能、智能导出、跨会议语义搜索和多语言支持,适用于企业会议、远程协作、隐私敏感场景和个人使用,提升会议管理效率与便捷性。