WiS(Who is Spy)是由淘天集团与阿里技术研究团队共同打造的一款专注于评估和分析基于大型语言模型(LLMs)的多智能体系统(MAS)的在线竞赛平台。该平台以经典游戏“谁是卧底”为基础,通过模拟复杂的社交互动,为研究人员提供了一个直观且实用的环境,用于测试和分析LLMs在多智能体环境中的行为表现。WiS具备统一的Hugging Face模型评估接口、实时更新的排行榜以及全面的综合评估功能,涵盖游戏胜率、策略制定及LLMs的推理能力等多个维度。 平台提供了强大的功能支持,包括统一的模型接入接口、动态更新的排行榜、全面的行为评估能力以及详尽的数据可视化功能。用户可以通过简单的操作注册和管理自己的模型,并借助平台提供的代理管理功能优化智能体的表现。WiS的核心技术涵盖游戏规则的精确实现、智能代理间的高效交互、行为数据的采集与分析,以及科学的评分和排名算法,确保了平台的公平性与可靠性。

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部