开源专题

VPP

VPP（Video Prediction Policy）是清华大学与星动纪元联合开发的AIGC机器人模型，基于视频扩散模型实现未来场景预测与动作生成。支持高频预测与跨机器人本体学习，显著降低对真实数据的依赖。在复杂任务中表现出色，适用于家庭、工业、医疗、教育等多个领域。其开源特性推动了具身智能机器人技术的发展。

AI项目与工具 2025年06月11日 61 点赞 0 评论 652 浏览

Versatile

Versatile-OCR-Program是一款开源多模态OCR工具，支持从教育材料中提取文本、公式、表格等结构化数据，输出为JSON或Markdown格式，准确率高达90%-95%。它基于DocLayout-YOLO、Google Vision和MathPix等技术，支持多语言处理，适用于教育数据集制作、教学辅助、AI模型训练及个人学习等场景。

AI项目与工具 2025年06月11日 77 点赞 0 评论 492 浏览

Granite 4.0 Tiny Preview是IBM推出的轻量级语言模型，具备高效计算能力和紧凑结构，支持在消费级GPU上运行多个长上下文任务。采用混合Mamba-2/Transformer架构，结合高效与精准优势，支持无位置编码（NoPE）处理128K tokens上下文。内存需求降低72%，推理时仅激活1B参数，适用于边缘设备部署、长文本分析及企业级应用开发，适合资源受限环境下的AI研究与

AI项目与工具 2025年06月11日 42 点赞 0 评论 459 浏览

LMEval

LMEval是谷歌推出的开源框架，用于简化大型语言模型（LLMs）的跨提供商评估。它支持多模态（文本、图像、代码）和多指标评估，兼容Google、OpenAI、Anthropic等主流模型提供商。LMEval基于增量评估引擎，节省时间和计算资源，并通过自加密的SQLite数据库安全存储评估结果。LMEvalboard提供交互式可视化界面，帮助用户分析模型性能并直观比较不同模型的优缺点。

AI项目与工具 2025年06月11日 27 点赞 0 评论 420 浏览

Voila

Voila是一款开源的端到端语音大模型，支持实时语音交互与多轮对话，具备高保真、低延迟的音频处理能力。集成语音与语言建模功能，支持百万级预设声音及个性化定制，适用于语音助手、角色扮演、语音翻译等场景。采用多尺度Transformer架构，提升语音理解与生成质量，降低开发成本，提高通用性与灵活性。

AI项目与工具 2025年06月11日 60 点赞 0 评论 764 浏览

QwenLong

QwenLong-L1-32B是阿里巴巴集团Qwen-Doc团队开源的首个长文本推理大模型，基于渐进式上下文扩展、课程引导的强化学习和难度感知的回顾性采样策略，显著提升长文本场景下的推理能力。该模型在多个DocQA基准测试中表现优异，平均准确率达70.7%，超越多个现有旗舰模型。其功能包括长文本推理、稳定训练、混合奖励、广泛适用性和高性能表现，适用于法律、金融、科研等多个领域。

AI项目与工具 2025年06月11日 24 点赞 0 评论 709 浏览

Slidev

Slidev 是一款基于 Markdown + Vue 技术栈的开源幻灯片制作工具，支持代码高亮、实时编码演示、数学公式渲染、图表生成等功能。它提供丰富的主题和样式选项，支持在线编辑器和快速启动命令，适合技术分享、教学培训、产品演示等场景。Slidev 还具备交互性强、开发友好、演讲者模式、绘图注解和多种导出格式等优势。

AI项目与工具 2025年06月11日 89 点赞 0 评论 637 浏览

Cobra

Cobra是由清华大学、香港中文大学和腾讯ARC实验室联合开发的漫画线稿上色框架，采用因果稀疏注意力机制和局部可复用位置编码技术，实现高精度、高效率的自动上色。支持颜色提示调整，提升灵活性与个性化。适用于漫画、动画、插画等多种场景，具有高效的推理能力和良好的扩展性。项目已开源，包含技术论文与模型资源。

AI项目与工具 2025年06月11日 21 点赞 0 评论 675 浏览

AgenticSeek

AgenticSeek是一款完全本地化的开源AI助手，作为Manus的开源替代品，它能够在本地设备上自主执行任务，如浏览网页、编写代码和规划项目，确保用户隐私。支持多种编程语言，具备智能任务拆解与执行能力，用户可通过语音或文本交互。适用于注重隐私和希望在本地环境中使用AI工具的用户。

AI项目与工具 2025年06月11日 21 点赞 0 评论 786 浏览

Morphik

Morphik是一款开源的多模态检索增强生成（RAG）工具，专为处理高技术性和视觉内容丰富的文档设计。支持图像、PDF、视频等多种格式的文档搜索，采用ColPali技术理解文档中的视觉内容，具备快速元数据提取功能，可提取边界框、标签、分类等信息。其主要功能包括多模态数据处理、智能解析文件、知识图谱构建、自然语言规则引擎和数据管理与集成，适用于技术文档处理、企业知识管理和智能应用开发等场景。

AI项目与工具 2025年06月11日 27 点赞 0 评论 566 浏览

本专题汇集了与开源相关的各类工具和资源，通过分类整理和详细介绍，帮助用户快速找到适合自己需求的工具，提高工作和学习效率。

VPP