轻量级算法

首页

轻量级算法

列表

默认

浏览次数

发布日期

TPO

TPO（Test-Time Preference Optimization）是一种在推理阶段优化语言模型输出的框架，通过将奖励模型反馈转化为文本形式，实现对模型输出的动态调整。该方法无需更新模型参数，即可提升模型在多个基准测试中的性能，尤其在指令遵循、偏好对齐、安全性和数学推理等方面效果显著。TPO具备高效、轻量、可扩展的特点，适用于多种实际应用场景。

AI项目与工具 2025年06月12日 83 点赞 0 评论 843 浏览

轻量级算法 首页 轻量级算法

列表 默认 浏览次数 发布日期

TPO

轻量级算法

首页

轻量级算法

列表

默认

浏览次数

发布日期