Open AI 的人工智能对齐计划-表盘吧

还发布了在未来十年解决 AI 对齐问题的计划，“我们的目标是建立一个与人类水平相当的自动化对齐研究员，并利用大量的计算资源来扩大我们的努力，逐步实现超级智能的对齐。我们正在组建一个由顶级机器学习研究人员和工程师组成的团队来解决这个问题，并计划在未来分享更多的路线图和研究重点”

具体的方法是：

为了针对人类难以评估的任务提供训练信号，我们可以利用人工智能系统来协助评估其他人工智能系统（可扩展监督）。此外，我们希望了解和控制我们的模型如何将我们的监督推广到我们无法监督的任务（泛化）。
为了验证我们系统的一致性，我们自动搜索有问题的行为（鲁棒性）和有问题的内部结构（自动可解释性）。
最后，我们可以通过故意训练未对准的模型来测试我们的整个流程，并确认我们的技术可以检测到最严重的未对准类型（对抗性测试）。

Open AI 的人工智能对齐计划