模型

In

In-Context LoRA是一种基于扩散变换器(DiTs)的图像生成框架,通过微调少量数据实现多样化图像生成任务。它无需修改原始模型结构,减少了对大规模标注数据的依赖,同时保持了高质量的生成效果。该工具支持多任务图像生成、上下文学习能力、任务无关性以及条件图像生成等功能,适用于故事板生成、字体设计、家居装饰等多个领域。

TurboEdit

TurboEdit是一款由Adobe Research开发的AI即时图像编辑模型。它通过编码器迭代反演和基于文本的精细控制,在数步内实现图像的精确编辑。用户可以通过修改详细的文本提示来引导图像编辑,实现对图像特定属性的精确修改。TurboEdit具备快速高效的特性,支持实时编辑,并在文本引导下的图像编辑方面表现出色。

Whisper Input

Whisper Input 是一款开源语音输入工具,基于 Python 和 OpenAI Whisper 模型开发,支持多语言语音识别与实时转录。用户可通过快捷键操作录音并生成文本,具备翻译、自动标点、高效处理及本地运行等功能。适用于会议记录、教育、智能交互及媒体制作等多种场景。

DeepFaceLab

DeepFaceLab 是一种利用深度学习识别来交换图片和视频中的人脸的工具。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

Text2CAD

Text2CAD 是一款基于人工智能的在线 CAD 设计工具,能够将自然语言描述快速转换为高精度的 CAD 模型。支持多种格式导出,具备快速设计、精准转换、易修改、云存储与协作等功能,适用于工业设计、教育、原型开发、VR/游戏设计及个性化定制等多个领域。平台提供不同版本的订阅服务,满足不同用户需求。

Arctic

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型,拥有480亿参数。该模型采用混合专家模型(MoE)架构,结合了密集变换器(Dense Transformer)和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势,特别适用于企业任务,例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布,用户可以自由使用和

NotaGen

NotaGen 是由多所高校联合研发的音乐生成模型,基于预训练、微调和强化学习技术,可生成高质量古典乐谱。支持通过“时期-作曲家-乐器”等条件控制音乐风格,具备高度音乐性与可控性。采用 CLaMP-DPO 方法优化生成质量,无需人工标注。适用于音乐创作、教育、影视配乐等多种场景,提供多种模型规模选择,满足不同需求。

Gemini Diffusion

Gemini Diffusion是谷歌推出的实验性文本扩散模型,通过逐步细化噪声生成文本,具备快速响应、生成更连贯文本和迭代细化等能力。与传统自回归模型不同,它能并行生成文本,提高效率。在外部基准测试中表现优异,速度更快,适用于内容创作、代码生成、数学问题解答和文本编辑等场景。用户需加入等待名单获取访问权限。

炉米Lumi

炉米Lumi是一款由字节跳动开发的AIGC图像创作平台,主要功能包括模型上传与展示、工作流搭建以及LoRA微调。它为AI爱好者、研究人员和开发者提供了一个协作环境,用于分享和优化AI模型。炉米Lumi支持多种应用场景,如科研、教育、艺术创作、商业应用开发等,具有开放性和高灵活性。 ---