模型

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型,基于预训练、微调和强化学习技术,可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格,具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量,无需人工标注。适用于音乐创作、教育、影视配乐等多种场景,提供多种模型规模选择,满足不同需求。

In

In-Context LoRA是一种基于扩散变换器(DiTs)的图像生成框架,通过微调少量数据实现多样化图像生成任务。它无需修改原始模型结构,减少了对大规模标注数据的依赖,同时保持了高质量的生成效果。该工具支持多任务图像生成、上下文学习能力、任务无关性以及条件图像生成等功能,适用于故事板生成、字体设计、家居装饰等多个领域。

Arctic

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型,拥有480亿参数。该模型采用混合专家模型(MoE)架构,结合了密集变换器(Dense Transformer)和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势,特别适用于企业任务,例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布,用户可以自由使用和

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

AIGC电商解决方案 | @未来力场

生成式 AI 在跨境电商业务流程里能转化为生产力的环节和对应的解决方案有几种分类:按对人力的替换分类,按通用工具分类,按电商场景,按生成对象。

DeepFaceLab

DeepFaceLab 是一种利用深度学习识别来交换图片和视频中的人脸的工具。

CleanS2S

CleanS2S是一款流式语音到语音交互智能体原型,通过集成自动语音识别(ASR)、大型语言模型(LLM)、文本到语音(TTS)以及WebSockets等技术,提供高质量、实时的语音交互体验。它支持全双工交互和打断功能,可整合网络搜索和RAG模型以增强回答能力,适用于客户服务、智能家居控制、教育辅助、健康咨询及车载系统等多个领域。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

讯飞星火认知大模型

讯飞星火认知大模型是由科大讯飞发布的大模型,具有7大核心能力,包括文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模交互,对标ChatGPT。