MMSearch 是一款专为评估大型多模态模型(LMMs)作为 AI 搜索引擎能力而设计的基准测试工具。它由 MMSearch-Engine 框架和包含 300 个问题的 MMSearch 测试集组成,问题覆盖 14 个子领域,分为新闻和知识两大类别,确保测试内容与 LMMs 的训练数据无重叠,从而实现公平评估。MMSearch-Engine 框架通过问题重构、网页排序和答案总结三个阶段增强 LMMs 的搜索能力。实验表明,GPT-4o 在该基准测试中表现优于商业产品 Perplexity Pro,且增加测试时的计算量相较于扩大模型规模更为有效。
发表评论 取消回复