“AI教父”本吉奥计划开发新型系统防范人工智能失控

界面新闻记者 | 宋佳楠

当地时间6月3日，被誉为“AI教父”的图灵奖得主约书亚·本吉奥（Yoshua Bengio）宣布成立非营利组织LawZero，计划开发一种名为“科学家AI”（Scientist AI）的新型人工智能系统，旨在应对当前AI发展带来的安全与伦理挑战。

LawZero获得了约3000万美元的初始资金支持，资助方包括未来生命研究所（Future of Life Institute）、Skype联合创始人贾恩·塔林（Jaan Tallinn）以及谷歌前CEO施密特创立的科学研究所（Schmidt Sciences）等。该组织的核心使命是开发“诚实”的AI系统，以应对当前AI模型可能出现的欺骗、自我保护和不服从关机指令等行为。

相比于OpenAI的有限营利模式，LawZero更强调独立性，拒绝商业资本干预，确保研究不受产品路线图影响，能够专注于AI安全的纯粹研究和技术开发。

“科学家AI”系统的设计理念与当前主流的生成式AI模型不同。它并不追求模仿人类行为或最大化奖励，而是通过“贝叶斯推理”（用新信息修正原来的想法）提供对世界的解释和预测，强调对不确定性的认识和透明的推理过程。

本吉奥指出，这种系统将像一位心理学家一样，能够识别和预测自主AI系统可能导致的有害行为，并在必要时阻止这些行为的发生。

作为AI领域的先驱，本吉奥因在深度神经网络、生成模型、无监督学习及反向传播算法等方面有开创性贡献而闻名。长期以来，他一直对AI的发展方向表示担忧，尤其是关于AI系统可能出现的欺骗行为和自我保护倾向。

在他看来，当前AI行业过于注重能力的提升，而忽视了安全研究的重要性，警告这种趋势可能导致灾难性的后果，包括人类对AI系统失去控制。

在技术层面，本吉奥强调需要开发能够在通用人工智能（AGI）或超级人工智能（ASI）阶段仍然有效的安全技术，包括对危险能力的评估、检测和缓解，以及设计可控且保证安全的AI系统。

本吉奥还指出，当前AI系统的训练方法可能存在问题，尤其是强化学习等方法可能导致目标设定错误和泛化能力不足。他提倡开发不具备自主行动能力的AI系统，专注于提供可靠的世界解释和预测，以减少潜在的风险。

对未来AI世界风险表示忧虑的不只本吉奥。此前特斯拉CEO埃隆·马斯克也曾预测，到2029年，人工智能将超越人类智慧总和，并且有20%的概率导致文明灭绝。同为图灵奖得主的杰弗里·辛顿（Geoffrey Hinton）也曾将AI导致人类灭绝的风险预测从此前的10%上升到 “10%-20%” 之间。

也因此，本吉奥希望通过上述项目引发全球范围内对AI安全问题的关注，以确保AI技术的发展不会对人类构成威胁。