问答

ZeroSearch

ZeroSearch 是阿里巴巴通义实验室开发的基于大模型的搜索引擎框架,通过强化学习技术提升搜索能力,无需依赖真实搜索引擎。它能动态生成相关或噪声文档,显著降低训练成本(超80%),并支持多种模型和算法,适用于问答、内容创作、教育等多个场景。

Nooka

Nooka是一款基于AI技术的听书应用,提供全球非虚构类书籍的20分钟音频摘要,适合碎片化时间学习。用户可随时提问并获得AI即时回答,实现深度互动。应用支持多语言字幕、音频剪辑分享及社区交流,适用于通勤、运动、家务等多种场景,提升学习效率与趣味性。

BLIP3

BLIP3-o是Salesforce Research等机构推出的多模态AI模型,结合自回归与扩散模型优势,实现高效图像理解和生成。基于CLIP语义特征,支持文本与图像间的双向转换及图像编辑。采用顺序预训练策略,提升模型性能。完全开源,适用于创意设计、视觉问答、艺术生成等多种场景。

DeepWiki MCP

DeepWiki MCP是Cognition Labs推出的远程服务器,基于开放标准的Model Context Protocol(MCP),为AI应用提供访问和搜索GitHub代码库文档的能力。它包含三个主要工具:获取文档主题列表、查看文档内容以及针对仓库提问获得AI回答。支持SSE和Streamable HTTP传输协议,确保信息实时性和准确性,适用于快速查询文档、技术问题解答、代码库结构概览

Pixel Reasoner

Pixel Reasoner是由多所高校联合开发的视觉语言模型,通过像素空间推理增强对视觉信息的理解和分析能力。它支持直接对图像和视频进行操作,如放大区域或选择帧,以捕捉细节。采用两阶段训练方法,结合指令调优和好奇心驱动的强化学习,提升视觉推理性能。在多个基准测试中表现优异,适用于视觉问答、视频理解等任务,广泛应用于科研、教育、工业质检和内容创作等领域。

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性。该框架通过动态切换短答案和长形式推理,根据模型对答案的置信度(PPL)决定是否进行详细推理,从而在保证准确性的同时节省计算资源。CAR适用于视觉问答(VQA)、关键信息提取(KIE)等任务,在数学

Ming

Ming-Lite-Omni是蚂蚁集团开源的统一多模态大模型,基于MoE架构,支持文本、图像、音频和视频等多种模态的输入输出,具备强大的理解和生成能力。模型在多个任务中表现优异,如图像识别、视频理解、语音问答等,适用于OCR识别、知识问答、视频分析等多个领域。其高效处理能力和多模态交互特性,为用户提供一体化智能体验。

VRAG

VRAG-RL是阿里巴巴通义大模型团队推出的视觉感知驱动的多模态RAG推理框架,旨在提升视觉语言模型在处理视觉丰富信息时的检索、推理和理解能力。通过定义视觉感知动作空间,实现从粗粒度到细粒度的信息获取,并结合强化学习和综合奖励机制优化模型性能。该框架支持多轮交互推理,具备良好的可扩展性,适用于智能文档问答、视觉信息检索、多模态内容生成等多种场景。

DeepSider

DeepSider 是一款集成在浏览器侧边栏的 AI 对话工具,支持多种顶级 AI 模型如 GPT-4o、Grok3 和 Claude 3.5。用户可通过简洁交互完成复杂任务,包括 AI 搜索、实时问答、内容创作、翻译和代码生成等。该工具支持文档上传分析,结合最新数据提供准确答案,具备快速响应和高效交互设计,适用于提升工作效率和学习效率。

PandaWiki

PandaWiki 是一个开源的 AI 知识库搭建系统,基于 AI 大模型的能力,帮助用户快速构建智能化的产品文档、技术文档、FAQ 和博客系统。其核心功能包括 AI 辅助创作、AI 问答和 AI 搜索,显著提升知识管理的效率和智能化水平。支持富文本编辑,兼容 Markdown 和 HTML,可导出为多种格式,并支持与第三方应用集成。用户可通过多种方式导入内容,适用于产品文档管理、FAQ 系统、知