Open AI 的人工智能对齐计划

Open AI 的人工智能对齐计划

还发布了在未来十年解决 AI 对齐问题的计划,“我们的目标是建立一个与人类水平相当的自动化对齐研究员,并利用大量的计算资源来扩大我们的努力,逐步实现超级智能的对齐。我们正在组建一个由顶级机器学习研究人员和工程师组成的团队来解决这个问题,并计划在未来分享更多的路线图和研究重点”

具体的方法是:

  • 为了针对人类难以评估的任务提供训练信号,我们可以利用人工智能系统来协助评估其他人工智能系统(可扩展监督)。此外,我们希望了解和控制我们的模型如何将我们的监督推广到我们无法监督的任务(泛化)。
  • 为了验证我们系统的一致性,我们自动搜索有问题的行为(鲁棒性)和有问题的内部结构(自动可解释性)。
  • 最后,我们可以通过故意训练未对准的模型来测试我们的整个流程,并确认我们的技术可以检测到最严重的未对准类型(对抗性测试)。
141d2c4477c34e96897362590bd053e5_2076989541495611392

未经允许不得转载:表盘吧 » Open AI 的人工智能对齐计划