4轮暴训,Llama 7B击败GPT-4,Meta等让LLM“分饰三角”自评自进化
元奖励语言模型:AI自我评价的新突破
近日,Meta、UC伯克利和NYU联合发布了一项关于元奖励语言模型的研究,为人工智能的自我改进提供了新思路。这项研究旨在让AI模型不仅能作为参与者(actor)从反馈中优化,还能作为评判者(judge)自我评价,进而提升其对齐能力。
传统的语言模型对数据的需求巨大,特别是在RLHF和DPO等对齐阶段,这不仅增加了成本,还可能导致模型性能受限于人类水平。今年1月,Meta和NYU的研究团队首次提出了语言模型的自我奖励机制,通过LLM-as-a-Judge的方式,使模型能够在训练过程中进行自我反馈,无需依赖人类标注者。
最新研究表明,为了实现更高效的自我改进,需要增加一个“元奖励”步骤,即让模型评估自身的评估能力。尽管听起来复杂,但实际上这一方法在实验中显示了显著的效果。例如,Llama-3-8B-Instruct在AlpacaEval 2上的胜率从22.9%提高到39.4%,超过了GPT-4的表现;在Arena-Hard上的表现也从20.6%提升至29.1%。
这项研究进一步验证了模型的自我提升可以独立于人类监督。Meta科学家Yann LeCun对此表示高度认可,并认为这是AI领域的一项重要进展。
这项研究的成果不仅为AI模型的自我改进提供了新的理论支持,也为减少对人类监督的依赖开辟了新的道路。未来,随着技术的不断发展,元奖励语言模型有望在更多领域展现其潜力。