模型测试

Google AI Edge Gallery

Google AI Edge Gallery 是谷歌推出的实验性应用,支持在 Android 设备上本地运行机器学习和生成式人工智能模型,无需联网。用户可切换不同模型,进行图像问答、文本生成、多轮对话等操作,并实时查看性能指标。应用支持自带模型测试,提供丰富的开发者资源,助力探索设备端 AI 的强大功能。

TestSprite

TestSprite 是一款基于 AI 的自动化测试平台,支持后端 API、前端 UI、数据及 AI 模型的测试,能够自动生成测试计划、执行测试并输出详细报告。其核心优势在于提升测试效率、减少人工干预,并适用于多种测试场景,如软件发布前验证、CI/CD 集成、生产环境监控等,帮助企业提升软件质量与交付速度。

FlagEval

FlagEval作为一个专业的语言模型评估平台,为用户提供了一个可靠、标准化的评测环境。通过这个平台,研究人员和开发者可以全面了解模型的性能,推动语言模型技术的不断进步和创新。

CodeElo

CodeElo 是一款基于 Elo 评级系统的编程能力评估工具,用于衡量大型语言模型在编程竞赛中的表现。它从 CodeForces 平台选取题目,按难度和算法分类,并通过直接提交代码进行测试,确保评估的准确性。该工具可比较模型与人类程序员的水平,适用于模型优化、教学辅助及开发应用,为 LLMs 编程能力研究提供可靠参考。