开源

Podcastfy

Podcastfy 是一款基于生成式人工智能技术开发的开源工具,可将网络文章、PDF 文件及纯文本转化为多语言对话式音频。它不仅支持多源文本合并,还具备强大的文本转语音功能,允许用户选择不同的语音模型来优化音频效果。此外,其开源特性便于开发者根据需求进行个性化定制,广泛适用于内容摘要、语言本地化、教育材料转化等多个领域。

Stablecog

Stablecog 是一款基于人工智能技术的开源图像生成工具,能够根据文本描述或现有图片生成逼真的艺术作品。它支持多种艺术风格,具备图像编辑和调整功能,适用于艺术创作、设计、社交媒体内容制作等多个领域。

Wren AI

Wren AI 是一个开源的文本到 SQL 工具,基于自然语言处理技术,允许用户通过自然语言提问来执行数据库查询,无需编写 SQL 代码。它支持多种数据库和数据源,具有语义理解能力,能准确解析业务上下文并提供精确的结果。Wren AI 的核心功能包括语义引擎、向量数据库和大型语言模型,支持数据集成、安全性和结果导出,广泛应用于业务智能分析、数据探索、报告生成等领域。

Open NotebookLM

Open NotebookLM是一个开源工具,能够将PDF文档转换为播客形式的音频内容。它基于Llama 3.1 405B、MeloTTS和Bark等先进AI模型,生成自然流畅的对话式音频,并支持多语言及个性化音调设置。用户可通过简单易用的Gradio界面上传PDF文件并下载MP3格式的音频文件,适用于教育、科研、商业分析等多个领域。

Reverb ASR

Reverb ASR是一款基于深度学习的开源自动语音识别与说话人分离工具,采用20万小时高质量英语语音数据训练,具备高精度语音转录能力,支持逐字稿控制及多种解码模式。其显著特点是擅长处理长时间语音内容,并在长篇幅识别任务中超越其他开源模型。Reverb ASR适用于播客、会议记录、法庭记录等多个应用场景,为用户提供灵活且高效的语音转文字解决方案。

anime.gf

Anime.gf 是一款基于开源技术开发的本地应用程序,支持用户创建和管理个性化虚拟角色。它利用先进的自然语言处理技术和多种大型语言模型 API,提供智能化的对话体验。主要功能涵盖角色创建、编辑与删除、多 API 接入、聊天记录管理以及响应再生成等。适用于娱乐、情感陪伴、语言学习、故事创作、教育辅助以及心理治疗等多个领域。

HelloBench

HelloBench 是一款开源基准测试工具,专注于评估大型语言模型在长文本生成任务中的表现。它基于布鲁姆分类法设计了五个子任务,并采用 HelloEval 方法实现高效自动化评估。该工具支持多领域应用,包括模型开发、学术研究、产品测试等,同时揭示了现有模型在长文本生成中的局限性。

Laminar

Laminar是一款面向大型语言模型(LLM)的开源可观测性和分析平台,具备自动追踪LLM调用与数据库交互、事件驱动分析及数据标注等功能,同时支持高效的数据存储与可视化展示。其目标是提升LLM应用的透明度和效率,适用于开发调试、性能监控、用户体验优化及业务决策支持等多个场景。

markmap

Markmap 是一款将 Markdown 文本转化为思维导图的工具,支持实时渲染和高度可定制化,兼容多种代码编辑器。它通过解析 Markdown 语法生成树状数据结构,并利用布局算法实现直观可视化展示,广泛应用于项目规划、学术研究及教学演示等领域。

GroundingBooth

GroundingBooth 是一种创新的文本到图像定制框架,通过结合文本-图像对齐模块和遮罩交叉注意力层,实现了前景主体与背景对象的空间精准对齐。其核心功能包括单主题与多主题定制、身份保留、文本-图像一致性保障及复杂场景下的高精度生成。该工具广泛应用于个性化商品定制、艺术创作、游戏设计、广告营销等多个领域,为视觉内容创作提供了强大的技术支持。