模型

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

Bark

Bark是一款开源的文本到音频转换模型,由Suno AI开发,能够生成逼真的多语言语音及多种音频类型,包括音乐和背景噪音,并支持非语言交流的声音。该模型提供预训练模型,适用于研究和商业用途。其主要功能涵盖文本到音频转换、多语言支持、音频多样性和非语言交流模拟。Bark在多语言内容创作、音频内容生成和非语言交流场景中具有广泛应用。

讯飞星火认知大模型

讯飞星火认知大模型是由科大讯飞发布的大模型,具有7大核心能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互,对标ChatGPT。

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

In

In-Context LoRA是一种基于扩散变换器(DiTs)的图像生成框架,通过微调少量数据实现多样化图像生成任务。它无需修改原始模型结构,减少了对大规模标注数据的依赖,同时保持了高质量的生成效果。该工具支持多任务图像生成、上下文学习能力、任务无关性以及条件图像生成等功能,适用于故事板生成、字体设计、家居装饰等多个领域。

aisuite

Aisuite是一款基于Python开发的开源库,提供统一接口以调用多个大型语言模型(LLM),支持OpenAI、Anthropic、Azure等多个平台。它简化了模型切换和对比测试流程,并具备良好的扩展性,适用于聊天补全、模型对比测试及个性化推荐等应用场景。

Ai工具箱

10W AI作为一站式AI应用平台,汇集了AI聊天、图片处理、写作、AI游戏、音视频处理、学习教育、娱乐、营销、职场等10余个类别,数百个国内外主流AI工具。

AMD

AMD-135M是一款由AMD开发的小型语言模型,基于LLaMA2架构,具有文本生成、代码生成、自然语言理解和多平台兼容性等特点。该模型通过推测解码技术提高了推理速度,降低了内存占用,并在多项自然语言处理任务中表现出色。适用于聊天机器人、内容创作、编程辅助、语言翻译和文本摘要等多种应用场景。

Ministral 3B/8B

Ministral 3B 和 8B 是由 Mistral AI 开发的两款轻量级 AI 模型,专为设备端和边缘计算设计。它们具备强大的知识处理能力和高效的上下文管理能力,支持长达 128k 的上下文长度,并通过独特的交错滑动窗口注意力机制提升了推理速度。这些模型适用于设备端翻译、本地数据分析、智能助手及自主机器人等领域,同时支持无损量化和私有部署。