Written by 研究員22/09/2024

OpenAI 首席科学家MIT演讲：揭示 o1模型训练核心激励模型学习是培养 AGI 的最佳方式

OpenAI 首席科学家，也是OpenAI o1模型团队的主要成员Hyung Won Chung，在 MIT 的演讲分享中，提出了“不要教导，要激励”的模型训练理念，他认为通过激励模型学习是培养 AGI 系统通用技能的最佳方式。

传统的逐一教导任务方法不适用于大规模任务，反而通过激励结构，如“下一步标记预测”，可以有效促进模型自发学习通用技能。虽然激励机制对人类而言可能需要更长时间，但对于机器可以通过增加计算资源即可加速学习。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

加入会员查看更多会员内容和教程。
超过1000+的会员内容，每天更新。

閲讀原文
Author: 小互

研究一下自己。