LLM

VideoLingo

VideoLingo是一款集成了自然语言处理与大型语言模型技术的全自动视频翻译工具,具备智能字幕分割、上下文感知翻译、精准字幕对齐及高质量配音等功能。它能够高效处理视频翻译任务,适用于在线教育、企业培训、视频内容创作等多个领域,帮助用户突破语言障碍,提升内容传播效果。

Archon

Archon 是一个开源 AI 智能体构建与优化平台,支持多智能体协作、领域知识集成、本地 LLM 集成等功能。它提供自动化代码生成、语义搜索、Streamlit 界面交互及 Docker 部署能力,适用于企业、教育、智能家居等多个场景。技术上融合 Pydantic AI 和 LangGraph,强调框架无关性和高效开发流程。

WorldCraft

WorldCraft是一款基于大型语言模型的3D世界创建系统,支持用户通过自然语言交互快速生成和调整虚拟场景。其核心模块包括物体定制、场景布局优化和轨迹控制,具备高精度的几何与纹理控制能力。系统兼容多种3D生成工具,适用于建筑设计、影视娱乐、教育等多个领域,为非专业人士提供高效、直观的创意设计解决方案。

MnnLlmApp

MnnLlmApp 是阿里巴巴基于 MNN-LLM 框架开发的开源 Android 应用,支持多种大语言模型在本地运行。具备多模态交互能力,可处理文本、图像、音频等多种输入输出任务。应用经过 CPU 推理优化,运行效率高,支持离线使用,保障数据安全。内置 Qwen、Gemma、Llama 等主流模型,适用于内容创作、智能助手、语言学习及创意设计等多种场景。

PodAgent

PodAgent是一款由多所高校与企业联合开发的播客生成框架,采用多智能体协作机制,模拟真实脱口秀场景,自动生成高质量对话内容。系统具备声音匹配、语音合成与表现力增强功能,并提供多语言支持和完整播客结构生成能力。同时,PodAgent引入评估指标,确保内容的专业性与多样性,适用于媒体、教育、企业推广等多个领域。

FastVLM

FastVLM是一款高效的视觉语言模型,采用FastViTHD混合视觉编码器,显著提升高分辨率图像处理速度并减少token数量。其在保持高性能的同时,降低了计算成本和模型复杂度。适用于视觉问答、图文匹配、文档理解、图像描述生成等多模态任务,具备良好的实用性和扩展性。

EvalsOne Ai

一个功能强大而简单易用的一站式评估平台,EvalsOne Ai用于迭代优化生成式AI的应用程序。它可以帮助克服AI生成中的不确定性,简化工作流程,增强团队信心,确保

Pocket Flow

Pocket Flow 是一个极简的 LLM(大型语言模型)框架,仅用 100 行代码实现。它具有轻量级、无依赖、无厂商锁定的特点,支持多 Agents、工作流、检索增强生成(RAG)等功能,帮助开发者快速构建基于 LLM 的应用程序。基于 Agentic Coding 范式,AI Agents 协助开发,提升效率。适用于多种编程语言,适合希望用极简方式开发 LLM 应用的开发者。

FireRedASR

FireRedASR是小红书推出的工业级自动语音识别(ASR)模型系列,支持普通话、中文方言和英语,具备高精度和高效推理能力。其包含FireRedASR-LLM和FireRedASR-AED两个版本,分别聚焦于极致精度和计算效率。模型在多个场景如智能助手、视频字幕生成、歌词识别和语音输入中表现出色,且已开源,推动语音识别技术的发展。

Paper2Coder

Paper2Code是一款由韩国科学技术院与DeepAuto.ai联合开发的AI工具,基于多Agent大语言模型,能够将机器学习论文自动转换为可运行的代码仓库。其核心流程包括规划、分析和代码生成三个阶段,确保生成的代码结构清晰、逻辑严谨,并忠实于原始论文。该工具显著提升了研究复现效率,适用于学术研究、教学、工业应用等多个场景,是推动AI研究落地的重要工具。