开源

Napkins.dev

Napkins.dev 是一款基于 AI 技术的开源工具,能够将用户上传的截图或线框图快速转化为可运行的网页应用程序。它利用 Meta 的 Llama 系列模型和 Together.ai 的推理服务,支持代码生成、编辑和定制,并具备多主题选择及版本管理功能,适用于快速原型开发、教育学习、初创公司以及 UI/UX 设计验证等场景。

RTranslator

RTranslator是一款基于AI技术的开源、免费离线翻译应用,专为Android设备设计。它支持对话模式、对讲机模式及文本翻译功能,能够实现高质量的多语言实时翻译。RTranslator采用Meta的NLLB翻译模型和OpenAI的Whisper语音识别技术,支持多种语言,完全离线运行,保障用户隐私安全。

CogView3

CogView3是一款基于中继扩散技术的开源AI图像生成模型,由清华大学与智谱AI联合研发。它通过分阶段生成图像,从低分辨率逐步提升至高分辨率,提高了生成效率并降低了运行成本。CogView3在生成质量和速度上超越了现有的开源模型SDXL,在保持图像细节的同时大幅减少推理时间。其核心特性包括高性能、多分辨率支持及多种优化技术,适用于艺术创作、数字娱乐、广告营销等多个领域。

PDF2Audio

PDF2Audio 是一款开源工具,支持将 PDF 文档转换为音频内容,适用于播客制作、教育、业务演示等多个场景。其核心功能包括 PDF 转文本、生成播客脚本、文本转语音转换、多语言支持及高级编辑功能。用户可通过自定义选项调整文本生成模型、语音风格等,支持批量处理和多种模板适配,方便用户根据需求生成高质量音频。

MiniPerplx

MiniPerplx 是一款基于 Grok 2.0 模型的开源 AI 搜索工具,支持网页、视频、学术论文等内容的检索。它提供代码解释、天气查询、URL 摘要、位置搜索等多功能服务,采用 Next.js 和 Vercel AI SDK 构建,具备良好的用户体验。用户可访问 GitHub 自行部署,适用于学术研究、编程开发、新闻获取等多个场景。

ComfyFlow

ComfyFlow 是一个强大的应用程序创建和分享平台,它通过提供全托管服务和用户友好的界面,简化了从设计到分享的整个流程。

Arctic

Arctic是一款由云计算公司Snowflake的AI研究团队开发的高效且开源的企业级大型语言模型,拥有480亿参数。该模型采用混合专家模型(MoE)架构,结合了密集变换器(Dense Transformer)和128个专家的特点。Arctic在成本效益、训练效率和推理效率方面具有显著优势,特别适用于企业任务,例如SQL生成、编程和指令遵循。模型基于Apache 2.0许可发布,用户可以自由使用和

MarsX

一个专注于通过 AI 和微应用商店简化软件开发流程的软件开发平台,结合了AI、无代码和传统编码功能,让软件开发流程变得更简单。

Ultravox

Ultravox 是一种多模态大型语言模型(LLM),能够直接处理文本和语音输入,无需额外的语音识别步骤。其核心技术包括多模态投影器,用于将音频数据转换为高维空间表示,显著提升语音理解和处理效率。该模型支持实时语音对话、多语言扩展及领域特定知识的学习,适用于智能客服、虚拟助手、语言学习、实时翻译及教育等领域。

Voila

Voila是一款开源的端到端语音大模型,支持实时语音交互与多轮对话,具备高保真、低延迟的音频处理能力。集成语音与语言建模功能,支持百万级预设声音及个性化定制,适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构,提升语音理解与生成质量,降低开发成本,提高通用性与灵活性。