评估

LongReward

LongReward是一种由清华大学、中国科学院及智谱AI联合开发的AI工具,专注于通过多维度评估(有用性、逻辑性、忠实性和完整性)来优化长文本大型语言模型的表现。它利用现成的语言模型提供奖励信号,并结合强化学习算法改善模型性能,特别擅长处理复杂长文本任务,如文档理解、摘要生成及特定领域的数据分析,如法律、金融和医疗。

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。

CAR

CAR(Certainty-based Adaptive Reasoning)是字节跳动联合复旦大学推出的自适应推理框架,旨在提升大型语言模型(LLM)和多模态大型语言模型(MLLM)的推理效率与准确性。该框架通过动态切换短答案和长形式推理,根据模型对答案的置信度(PPL)决定是否进行详细推理,从而在保证准确性的同时节省计算资源。CAR适用于视觉问答(VQA)、关键信息提取(KIE)等任务,在数学

多面

多面是一款基于AI技术的招聘平台,提供AI在线面试、智能评估与模拟面试等功能,助力求职者提升面试能力,帮助企业高效筛选人才。平台支持多种招聘场景,具备智能管理、简历解析、批量邀约等实用功能,提升招聘效率与精准度。

Stocknear

Stocknear是一款利用AI技术的在线股票分析平台,提供股票评级、价格预测、市场情绪分析、财务数据展示及技术图表分析等功能。它能够帮助投资者深入了解股票市场动态,辅助其做出更明智的投资决策。Stocknear特别适合个人投资者、市场研究人员以及新手投资者使用,支持从基础学习到专业操作的多样化需求。 ---

PaperBench

PaperBench是OpenAI开发的AI智能体评测基准,用于评估其复现顶级机器学习论文的能力。它涵盖从理解论文、编写代码到执行实验的全流程,具备8316个评分节点和自动评分系统。支持多种智能体配置,提供标准化测试环境,适用于模型优化、学术验证及教育实践等领域,推动AI研究的标准化发展。

HMA

HMA(Heterogeneous Masked Autoregression)是一种基于异构预训练和掩码自回归技术的机器人动作视频建模方法,支持离散与连续生成模式,可处理不同动作空间的异构性。该工具具备高效实时交互能力,广泛应用于视频模拟、策略评估、合成数据生成及模仿学习等领域,适用于机器人学习与控制任务,提升策略泛化与执行效率。

FullStack Bench

FullStack Bench是一款由字节跳动与M-A-P社区联合推出的专业代码评估工具,主要针对全栈编程和多语言编程能力进行评估。它包含11种真实编程场景、3374个问题以及16种编程语言,具备全面评估、多语言支持、实际场景模拟、代码质量控制等特点,适用于代码智能评估、教育与培训、研究开发、软件测试及多语言编程能力评估等多个场景。

Pixian.AI

Pixian.AI是一款基于人工智能的一键抠图工具,特别适合需要快速、高质量处理图片背景的用户。该工具无需订阅,提供高效且经济的解决方案,尤其在Beta测试阶段,用户可以免费使用。...

potis.ai

Potis.ai 是一款基于 AI 技术的招聘平台,通过自动化行为面试、智能面试协助和人才评分系统,帮助企业提升招聘效率,降低时间和成本支出。平台支持无缝集成至现有流程,提供详尽的候选人反馈和团队协作优化功能,适用于远程招聘、大规模招聘及技术岗位评估等多种场景。