开源工具

Flex.2

Flex.2-preview是Ostris开发的开源文本到图像生成模型,具备80亿参数规模。支持长文本输入、图像修复和多模态控制输入,适用于创意设计、图像修复和内容生成等多种场景。模型基于扩散框架,采用多通道输入处理和高效推理算法,可通过ComfyUI或Diffusers库集成使用,适合实验性开发和个性化定制。

LangGraph WhatsApp Agent

LangGraph WhatsApp Agent 是一个开源 AI 工具,用于在 WhatsApp 上构建智能代理。支持多代理架构、多模态交互及持久化对话状态,集成多种语言模型,提供安全可靠的通信环境。适用于客户服务、信息推送、教育辅导等多个场景,便于开发者快速构建和部署高效的 WhatsApp 机器人。

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型,具备强大的数学推理与代码生成能力。通过预训练与后训练相结合,利用大量高价值语料及强化学习算法,在 7B 参数规模下实现超越更大模型的表现。支持多场景应用,包括教育、科研、软件开发等,已开源至 HuggingFace,便于开发者使用与研究。

ACI.dev

ACI.dev 是一个开源 AI 基础设施平台,支持 600 多种预构建工具集成,涵盖主流应用如 Gmail、Slack 和 Notion。提供灵活的函数调用和 MCP 服务器访问方式,具备多租户认证、动态工具发现及自然语言权限管理功能。平台兼容多种 LLM 框架,支持多语言开发,具备监控与日志功能,适用于智能体开发与部署。

Granite 4.0 Tiny Preview

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型,具备高效计算能力和紧凑结构,支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构,结合高效与精准优势,支持无位置编码(NoPE)处理128K tokens上下文。内存需求降低72%,推理时仅激活1B参数,适用于边缘设备部署、长文本分析及企业级应用开发,适合资源受限环境下的AI研究与

ICEdit

ICEdit是由浙江大学与哈佛大学联合开发的指令式图像编辑框架,基于扩散变换器实现自然语言驱动的图像修改。支持多轮编辑、风格转换、对象替换等功能,具有高效处理能力(单张图像约9秒)。采用LoRA-MoE混合微调策略,降低资源需求,适用于创意设计、影视制作、社交媒体等多个领域。开源且提供在线体验,便于研究与应用。

VoiceCanvas

VoiceCanvas 是一款开源的多语言语音合成平台,基于 AI 技术提供高质量文字转语音服务,支持超过 50 种语言。用户可通过上传简短音频实现个性化声音克隆,并集成多种语音服务以保障输出质量。平台适用于内容创作、教育、企业及个人等多种场景,提升语音内容制作效率。

Muyan

Muyan-TTS是一款面向播客场景的开源文本转语音工具,基于超10万小时播客数据训练,支持零样本语音合成与说话人适配,可在0.33秒内生成1秒音频,适合实时与长内容合成。支持本地部署与API调用,应用于播客、有声书、视频配音、AI角色及新闻播报等领域,兼具高效性与灵活性。

HealthBench

HealthBench是OpenAI推出的开源医疗评估工具,用于衡量大型语言模型在医疗保健领域的表现和安全性。它包含5000个由医生设计的多轮对话,涵盖多种健康场景,并通过多维度评分标准评估模型的准确性、沟通质量等。支持按主题和行为维度进行细分分析,帮助开发者识别模型优势与不足,指导优化方向。适用于模型性能评估、安全测试及医疗AI工具选择。

AG

AG-UI是一款开源、轻量级的事件驱动协议,支持AI Agent与前端应用之间的标准化交互。它提供16种标准事件类型,支持多种传输方式,实现流式通信和双向状态同步。兼容多个Agent框架,适用于智能客服、问答界面等场景,提升开发效率和用户体验。