数学

解决深度学习的奥秘

2020年出版的

(Sanjeev Arora是该校的特聘访问教授数学学院在高等研究院工Bob的游戏作。专门研究…理论的深度学习阿罗拉对自然语言处理和隐私感兴趣，她指导了该研究所的“优化、统计和理论”特别项目机器学习2019-20学年。他还与社会科学学院共同组织了几个研讨会，包括一个关于“机器学习的社会和伦理挑战”的研讨会。bob真人是哪里的以下是他与IAS杰出新闻研究员的谈话乔安妮Lipman关于深度学习的前景以及解决偏见和隐私的道德问题。本次对话于2020年4月28日进行。为了篇幅和清晰度，本文进行了编辑。

乔安妮Lipman:首先，什么是深度学习?

(Sanjeev Arora:深度学习是机器学习的一种形式，它受到20世纪40年代大脑工作模式的简单启发。这个模型被称为神经网络，你有一堆简单的单元，非常简单的单元，它们通过电线相互连接，有点像网络。每个单元通过从其他单元获取输入并将它们相加，然后进行一些简单的计算并将其传递给其他单元来进行计算。答案在最后从指定的输出单元输出出来。

这种模式从20世纪40年代就已经存在了，大约在八年前，它突然变得非常非常流行，有影响力，而且很成功。为什么这些模型如此有效，这是一个很大的谜。目前的许多工作都将神经网络视为一个黑盒子，我们正试图打开这个黑盒子，了解它们的数学特性。

深度学习与机器学习

乔安妮Lipman:深度学习和机器学习的区别是什么?

(Sanjeev Arora:机器学习涉及一个数学模型，它获取数据并从中学习并学习生成算法。深度学习是机器学习的一种。

“深度”指的是这个模型有很多层。所以信息从一层到另一层再到另一层，在现代模型中可能有数百层。很长一段时间以来，人们认为用数学方法训练这些是不可能的。

在过去的8到9年里，有一些创新让它发挥了作用。

莱托:如果它们如此简单，那么其中的奥秘是什么呢?

山:我可以给你们一个现实生活中最简单的类比，想想经济。世界上有70亿人口，我们所有人，就经济学而言，我们并没有那么复杂，对吧?我们有一些偏好和要求(我们喜欢什么)，我们有一些钱。然后我们就买。最终，它不是很复杂的数学，它描述了一个人的经济行为。

但当你把70亿这样的东西放在一个经济体中，就很难知道全球经济在做什么，以及一年后它会如何表现。这甚至不考虑自然的不确定性，比如冠状病毒突然落在我们身上。神经网络的神秘之处与此类似:非常简单的单元彼此通信，但在现代模型中有数亿甚至数十亿个单元，因此其聚合行为在数学上并不清楚。

莱托:你能给我们的读者举例说明深度学习是如何应用的吗?

山:最近在识别物体和图像方面的许多进展都是由这个驱动的。所以当你在Facebook或社交媒体上上传一张照片时，他们知道照片上的十个人是谁，他们会在照片上画圈，这是通过深度学习完成的。在过去五年左右的时间里，从一种语言翻译到另一种语言的准确性大幅提高，这是由深度学习推动的。计算机以超人水平下棋的能力，尤其是围棋，是由深度学习驱动的。自动驾驶汽车使用深度学习。

莱托:机器学习在开发新冠肺炎疗法中有一席之地吗?

山:机器学习在所有生命科学中无处不在——生物学、神经科学。我不是这方面的专家，但我想在每个层面上你都可能在使用机器学习。首先，他们正在对冠状病毒进行成像，对吗?目标是提出一个更详细的物理描述各种节和棘突——如何设计附加到这些药物等等。

机器学习可能被用于许多这样的调查。找到一种对抗病毒的药物也需要探索多种可能性。仅靠几个专家在几天内处理上百万件事情是不可能的，而机器学习发挥着重要作用。

莱托:撇开医疗应用不谈，你的研究——试图打开深度学习如何工作的“黑匣子”——会改变这项技术的使用方式吗?

山:已经出现的一个分支是保护隐私的新想法。你有所有这些设备从你的日常活动中收集数据，然后这些数据被输入到科技公司的机器学习算法中，这是深度学习算法。

显然，科技公司通过训练Siri和Alexa等算法来改善我们的生活。但与此同时，我不希望这个进程吸收我的信息并将其放在云上的某个地方。那么你能在不知道我的数据的情况下，用我的数据训练这个深度学习模型吗?

我们认为这是可能的，这是一个非常令人兴奋的新发现。它来自于对黑盒子内部的研究和一些已知现象的研究，我们把它们组合在一起，形成了这个系统，这个方法。

莱托:这是一种匿名化数据的方法吗?就像科技公司说，“我们在看总量。我们不是单独看你们。”

山:我相信你指的是所谓的差异隐私，这是一种给个人数据添加一些噪音的方法，这使得它可以用于机器学习，同时保留他们的一些隐私。但这并不能完全保护隐私因为公司仍然掌握着数据，对吧?在他们的服务器上。如果没有你的数据，他们就无法训练模型。

莱托:所以你的观点是，他们可能不需要你的实际私人数据?

山:我知道这听起来不可能，但是是的。

莱托:这是非同寻常的，因为技术伦理问题的核心是隐私。

山:这是一种新技术，它似乎在某些情况下有效，其全部含义仍在研究中。这就是为什么我没有说太多，但是，是的，这是在努力理解黑盒的过程中得出的结论。

莱托:现在出现的隐私问题之一涉及接触者追踪，这是我们应该结束Covid传染的方式。一些国家使用了侵入性很强的技术。你认为我们也应该用它吗?

山:再说一次，我不是专家，但我个人认为我们应该避免在这个领域出现任何下意识的事情。我的意思是，在许多国家，人们已经对民主的走向感到焦虑。我们最好不要建立一个最终会后悔的制度。

视频来自“深度学习理论:下一步是什么?”

该研究所数学学院举办了“深度学习理论:下一步何去何从?”2019年10月15日至18日，作为学院优化、统计和理论机器学习特别年的一部分。

研讨会将深度学习实践者和理论家聚集在一起，讨论了深度学习理论所取得的进展，并确定了理论可行和有用的有前途的途径。会议由学院杰出客座教授Sanjeev Arora、Joan Bruna、Rong Ge、Jason Lee和Bin Yu以及Suriya Gunasekar共同组织。

在上面的窗口观看车间的视频，或者在上面观看IAS YouTube频道。

莱托:如果你必须预测五年后，我们会解决隐私问题吗?

山:这是个很难回答的问题。不清楚这只是一个技术问题。这也是一个法律和社会问题。我们甚至不知道我们的政府在五年内会走向何方，所以很难说。但我确实认为，总的来说，在数学和技术上，我们应该能够想出更好的方法。

正如我所指出的，当数据用于机器学习时，我正在研究其中一些以保护您的隐私。因此，允许企业在保持个人数据隐私的同时进行创新，在技术上可能是可行的。但这并不能改变这样一个事实，即公司和各种各样的参与者都有巨大的经济动机来收集我的数据并将其保存在他们的服务器上，并在市场上以几便士的价格出售。这些激励措施仍将存在。这是一个社会问题，目前还不清楚如何控制或以某种方式改变它。

所以在技术方面，我希望有解决方案，它们将继续改进。但是，由于控制这种技术的公司本身也有很强的动机来保留并使用你的数据，所以情况根本不清楚。

莱托:这与机器学习的伦理有关，这是你一直参与的一个领域。你能解释一下谈话背后的原因吗?

山:道德问题来自于我刚才提到的一些技术问题，比如说，你训练一个网络去做任何任务，比如检测报纸网站上的垃圾评论或者批准或拒绝贷款，等等。既然它的工作对我们来说是一个黑箱，我们如何确保它不会歧视弱势群体，因为它从数据和过去的决定中学习，也许那些决定是有偏见的?我们如何将公平植入其中?我们如何确保它的决策不会被那些了解决策者算法的人所左右?

莱托:我们都听说过面部识别的例子，它不能像识别白人面孔那样准确地识别黑人面孔，还有亚马逊的机器学习例子，它因为以前的招聘模式而筛选出女性的简历。我们如何克服这些偏见的问题?

山:这将会很困难。在机器学习中，范式是你在数据上训练，你不质疑数据。所以如果数据是垃圾，你就会学到垃圾。准备数据输入机器学习算法的过程不是机器学习的一部分。也许应该如此。

为什么深度学习是一个“黑盒子”

乔安妮Lipman:你说深度学习是一个“黑盒”是什么意思?

(Sanjeev Arora：我们有存储在深度网络中的数字的描述，电线的值，等等。所以我们可以访问网络，但我们对它没有任何数学上的理解做．

你可以看到它是如何工作的，你可以把它应用到数据上，看看输出是什么。如果您在10万个示例上进行了尝试，并且看起来还算合理，那么您会说:“很好，可以部署了。”但我们并不真正了解它的内部结构。

为什么会做出这样的决定?它输出一些决策。它为什么要这样做?我认为这个经济学类比是恰当的。我们认为我们大致了解个体是如何运作的，但是当你把70亿个体放在一起时，整个系统是如何训练和运作的?它的规律是什么?应该有一些描述，尽管可能不是简单的描述。

我们总是希望，我们有一个简单的描述，但可能没有。这正是我们想要了解的。

莱托:你认为机器学习能够识别偏见吗?

山:首先，你必须从数学上定义这个问题是什么。什么是偏见?如果偏差是一种数学属性，那么你可以尝试训练机器学习算法来检测它，是的，人们正在尝试这样做。

莱托:机器学习的其他社会和伦理影响是什么?

山:一些专家对世界末日的情景感到担忧。随着机器在经济中发挥越来越多的作用，然后在我们的生活中发挥越来越多的作用，我们如何防止科幻小说中谈论的那种世界末日或世界末日的场景?这是一种更极端的担忧，可能是更遥远的未来。

在我看来，在不久的将来，这是不需要担心的事情。

莱托:世界末日的情景会是什么?

山:就拿科幻电影来说，对吧?这就是我说的。目前还不清楚目前的技术是如何实现这一目标的，但一些人已经在思考这个问题了。

莱托:你是说哈尔2001年,谁接管宇宙飞船之类的场景?

山:甚至更多。我是说，那是1968年。还有比这更可怕的电影。《终结者》，银翼杀手,少数派报告．

莱托:《终结者》这是一个好问题。

山:我们在用80年代的电影来显示我们的年龄，对吧!

莱托:(笑)。没错!你怎么看待我们生活中的机器学习，比如Alexa和Siri?你使用这些技术吗?

山:我不太喜欢。

莱托:为什么不呢?

山:最简单的答案是，就世代而言，我不习惯使用这些技术。但同时，作为一个知识渊博的人，我发现科技世界非常侵犯隐私。也许20年后，人们会对此不屑一顾，但对我来说，这是一种侵犯。例如，我在浏览器中关闭了很多侵入性的东西。我担心这一切对隐私的影响。

莱托:我从很多精通技术的人身上发现了这一点。似乎你知道的越多，你对隐私侵犯就越警惕。

山:这让我想起我在麻省理工学院读本科的时候，有一天我站在我的一位教授旁边等电梯。显然，他比我大很多。电梯正要离开，我把手伸进去，想再打开一扇门。

他看着我说，“我是个工程师。我绝不会那样做。”

莱托:当你知道太多的时候，对吧?

山:是的，你知道所有这些系统都有可能失灵。

深度学习

机器学习

常见问题

(Sanjeev Arora

数学学院

在家喝茶时间

解决深度学习的奥秘

深度学习与机器学习

视频来自“深度学习理论:下一步是什么?”

为什么深度学习是一个“黑盒子”

建立对机器学习的理论理解

观看:深度学习，炼金术还是科学?

视频:理论机器学习