模型

UniAct

UniAct是一款面向具身智能的通用行为建模框架,旨在解决机器人行为异构性问题。通过向量量化构建通用动作空间,UniAct将不同机器人的原子行为统一表示,实现跨平台共享。其轻量架构(如0.5B模型)具备高效性能与快速适应能力,仅需少量数据即可微调,并通过异构解码器适配多种机器人。适用于自动驾驶、医疗、工业及家庭服务等多个领域,提供一致且高效的控制方案。

Raphael AI

一款基于 ​​FLUX.1-Dev 模型​​ 的免费 AI 图像生成工具,主打 ​​无需注册、无限生成、隐私保护​​ 等特点,适合个人创作者和企业使用。

dots.llm1

dots.llm1 是小红书 hi lab 开源的中等规模 Mixture of Experts(MoE)文本大模型,拥有 1420 亿参数,激活参数为 140 亿。模型在 11.2T 高质量 token 数据上预训练,采用高效的 Interleaved 1F1B 流水并行和 Grouped GEMM 优化技术,提升训练效率。该模型支持多语言文本生成、复杂指令遵循、知识问答、数学与代码推理以及多轮

子曰翻译2.0

子曰翻译2.0是网易有道推出的最新翻译大模型,通过数据优化、算法升级和严格评估体系,实现翻译质量与效率的显著提升。支持中英互译、专业领域翻译及多场景应用,涵盖学术、医疗、文学等领域,具备高准确性、流畅性和适应性,适用于多种翻译需求。

Llasa TTS

Llasa TTS是基于LLaMA架构的开源文本转语音模型,支持高质量语音合成、情感表达和音色克隆。采用单层VQ编解码器和Transformer结构,具备多语言支持及长文本处理能力,适用于智能助手、有声读物、游戏娱乐等场景。模型提供不同参数规模版本,支持零样本学习,提升语音自然度和表现力。

Gemma 3n

Gemma 3n 是谷歌 I/O 开发者大会推出的端侧多模态 AI 模型,基于 Gemini Nano 架构,采用逐层嵌入技术,将内存占用压缩至 2-4B 参数模型水平。支持文本、图像、短视频和音频输入,可生成结构化文本输出,并具备音频转录、情感分析等功能。可在本地设备运行,响应时间低至 50 毫秒,适用于语音助手、内容生成和学术任务定制。

Animagine XL 3.1

一个开源的文本生成图像动漫模型,通过整合新的数据集,Animagine XL 3.1扩展了对广泛动漫作品和风格的理解,从经典作品到最新发布的动漫,覆盖了从古老到现代的各种艺术风格。

Open Deep Research

Open Deep Research 是一个开源 AI 智能体,支持多语言模型和 Firecrawl 数据提取,用于执行复杂的研究任务。它提供统一 API 和 Next.js 框架,具备实时数据处理、结构化信息提取及多维度分析能力,适用于文献综述、行业分析、投资研究等场景。

爱作画

爱作画是一个专业的AI绘画图片创作平台,可以让用户通过Stable Diffusion、NovelAI、Midjourney生成各种风格的图片。