数据质量

Prolific

Prolific 是一个面向研究人员和企业的在线平台,提供高质量的研究参与者服务。它拥有超过200,000名经过严格筛选的活跃参与者,通过多种检查机制确保数据质量。Prolific支持灵活的研究设计和API集成,便于用户管理和扩展项目。该平台适用于学术研究、市场调研、用户体验测试等多个领域,能够有效提升研究效率和质量。

VSI

VSI-Bench是一种用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准测试工具,包含超过5000个问题-答案对,覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务,可全面评估模型的空间认知、理解和记忆能力,并提供标准化的测试集用于模型性能对比。 ---

smoltalk

Smoltalk-Chinese 是 OpenCSG 开发的中文大型语言模型专用合成数据集,包含 70 多万条高质量数据,涵盖多种任务类型,如信息查询、编程、数学、创意写作等。数据通过先进模型生成并经过严格筛选和去重,确保多样性与质量,适用于模型微调和多场景应用,提升语言理解和生成能力。