go语言神经网络 go 神经网络

学人工智能要学些什么？

、数学基础。数学基础知识蕴含着处理智能问题的基本思想与方法，也是理解复杂算法的必备要素。这一模块覆盖了人工智能必备的数学基础知识，包括线性代数、概率论、最优化方法等。

让客户满意是我们工作的目标，不断超越客户的期望值来自于我们对这个行业的热爱。我们立志把好的技术通过有效、简单的方式提供给客户，将通过不懈努力成为客户在信息化领域值得信任、有价值的长期合作伙伴，公司提供的服务项目有：主机域名、网络空间、营销软件、网站建设、铁西网站维护、网站推广。

2、机器学习。机器学习的作用是从数据中习得学习算法，进而解决实际的应用问题，是人工智能的核心内容之一。这一模块覆盖了机器学习中的主要方法，包括线性回归、决策树、支持向量机、聚类等。

3、人工神经网络。作为机器学习的一个分支，神经网络将认知科学引入机器学习中，以模拟生物神经系统对真实世界的交互反应，并取得了良好的效果。这一模块覆盖了神经网络中的基本概念，包括多层神经网络、前馈与反向传播、自组织神经网络等。

4、深度学习。简而言之，深度学习就是包含多个中间层的神经网络，数据爆炸和计算力飙升推动了深度学习的崛起。这一模块覆盖了深度学习的概念与实现，包括深度前馈网络、深度学习中的正则化、自编码器等。

5、神经网络实例。在深度学习框架下，一些神经网络已经被用于各种应用场景，并取得了不俗的效果。这一模块覆盖了几种神经网络实例，包括深度信念网络、卷积神经网络、循环神经网络等。

6、深度学习之外的人工智能。深度学习既有优点也有局限，其他方向的人工智能研究正是有益的补充。这一模块覆盖了与深度学习无关的典型学习方法，包括概率图模型、集群智能、迁移学习、知识图谱等。

7、应用场景。除了代替人类执行重复性的劳动，在诸多实际问题的处理中，人工智能也提供了有意义的尝试。这一模块覆盖了人工智能技术在几类实际任务中的应用，包括计算机视觉、语音处理、对话系统等。

未来的人工神经网络将会怎样改变我们的生活。

1、客服行业/行政助手

传统客服、企业内部行政，这种机械性、重复性、程式化的重复体力劳动的工作将会被专业的行政/客服机器人所替代。

2、翻译行业

打破语言界限，帮助人类进行跨民族、跨语种、跨文化的交流，一直以来都是“翻译”这一专业领域的神圣指责，且深深的在全球化的大潮中，被重要依赖着。

3、服务于公共交通的司机、公交车司机

交通改变了人类生存的空间感和时间感，交通行业的发展和速度效率的提升，极大的提升了社会效率和人类生活体验。但每年不断增加的汽车保有量和随之快速上升的交通事故，也造成了不可挽回的生命及财产损失。

4、制造业流水线工人

人工智能最常让人浮想联翩的技术领域，毫无疑问是机器人，尤其是工业制造机器人领域。现在在高端科技制造、精密机械制造、主流汽车生产和甚至手机生产线中，工业机器人是标配。大量的工业应用故事，已经明确地指明了未来工业生产的方向。

5、基础医学服务和辅助医疗

近年来在医疗行业，多家企业源源不断地向人工智能技术应用方向注入大量资金，尤其是降低医疗成本、增加医疗效果、提升医疗效率、改善患者健康领域。

在某些情境下，人工智能的深度学习能力已超越医生。专家预测2020年医疗人工智能将持续增长，尤其是在成像、诊断、预测分析和管理领域。

6、金融审计和风控

人工智能的知识图谱、深度学习、大数据处理等技术在金融行业已有广泛的应用，通过专业策略深度应用下，对金融领域数据的监控和数据分析、决策方向极大的提高了业务处理效率，并且在每日新增和历史的金融海量数据下，人工智能的效率是人工不可企及的。

7、便利店收银员

无营业员超市，又称为无人超市。负责收钱的不是营业员，而是一个具备摄像头、人脸识别、机器交互终端、扫码设备的自动收款机器人。这种无须排队结账的实体店：刷手机进店、选品、拿货，然后走人！这种黑科技早已于2016年，随着Amazon Go无人超市的正式上线成为现实。

特点优点：

人工神经网络的特点和优越性，主要表现在三个方面：

1、具有自学习功能

例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图像。

自学习功能对于预测有特别重要的意义。预期未来的人工神经网络计算机将为人类提供经济预测、市场预测、效益预测，其应用前途是很远大的。

2、具有联想存储功能

用人工神经网络的反馈网络就可以实现这种联想。

3、具有高速寻找优化解的能力

寻找一个复杂问题的优化解，往往需要很大的计算量，利用一个针对某问题而设计的反馈型人工神经网络，发挥计算机的高速运算能力，可能很快找到优化解。

在职场中晋升和加薪是困难的，应该怎么保持平常心？

相信有很多人认同之前的朋友，那么就来说说在这个瞬息万变的时代，年轻人是否有必要进行职业规划。诚然，这个社会的确是多变的。每一刻，都有新的东西不知从哪里冒出来，每一分钟，太多曾经辉煌的东西慢慢消失。可能这两年你一只脚踏入了共享经济，打算5~10年做点什么。谁曾想到风一夜之间就熄了，猪倒了，你还是看不到事业的影子，得到的却是一张裁员通知。

行业内就是这样，技能甚至会过时。两年前很火的Go语言，现在在招聘需求上已经很难看到了。今天所有的招聘都是想抢AI和神经网络人才，但是没人知道几年后会发生什么。大时代的变化像波浪一样汹涌澎湃，个人难免会觉得变化来得太快，跟不上节奏。从这个角度来看，我们似乎真的很难控制和预测行业的变化。这个时候，制定一个五年或者十年的职业规划，似乎真的没有太大的意义。但是，如果你真的这么想，恐怕你在思维上已经陷入了误区。

无论行业和社会发生多大的变化和翻案，个人的成长轨迹始终是连贯统一的。职业规划不是让我们预测行业的发展，甚至是未来可能出现的行业，而是回归个人成长本身，让我们时刻提醒自己在人生的某个阶段应该做什么，应该做什么。很多人觉得职业规划太复杂。其实这种规划并没有那么神奇。你甚至可以简单的理解为一个人在不同的阶段给自己设定不同的目标，然后规划一条合理的路径去实现。

尽管现如今社会与行业的发展瞬息万变，没有人能够预测未来10年会发生什么。然而正是在这种情况下，我们才更应该关注个人的职业发展规划，给自己设定一个正确的规划与目标，不要让自己迷失在社会与行业的颠簸变化之中。以上就是今天想要给大家分享的内容，希望对您有所帮助。

神经网络如何外推：从前馈网络到图网络

How Neural Networks Extrapolate: From Feedforward to Graph Neural Networks

ICLR2021最高分论文

52页论文，正文占9页，主要都是附录，不过附录里很多图片（一页就一两张图），排除这些一页一图的，只有40页

我们研究用梯度下降法训练的神经网络如何外推，也就是说，它们在训练分布的支持之外学习什么。以前的工作报告了使用神经网络进行外推时混合的实证结果：虽然前馈神经网络，即多层感知器（MLP）在某些简单任务中外推效果不好，但图形神经网络（GNN）——带有MLP模块的结构化网络——在更复杂的任务中取得了一些成功。为了得到理论解释，我们确定了MLPs和GNNs外推良好的条件。首先，我们量化了ReLU-MLPs从原点沿任意方向快速收敛到线性函数的观测结果，这意味着ReLU-MLPs不能外推大多数非线性函数。但是，当训练分布足够“多样化”时，他们可以证明学习线性目标函数。其次，在分析GNNs的成功和局限性时，这些结果提出了一个假设，我们提供了理论和经验证据：GNNs在将算法任务外推到新数据（例如。，较大的图或边权重）依赖于编码体系结构或特征中特定于任务的非线性。我们的理论分析建立在过度参数化网络与神经切线核的联系上。根据经验，我们的理论适用于不同的培训环境

1简介

人类在许多任务中推断得很好。例如，我们可以对任意大的数应用算术。人们可能想知道，神经网络是否也能做到这一点，并将其推广到任意远离训练数据的示例中（Lake et al.，2017）。奇怪的是，以前的工作报告混合外推结果与神经网络。早期的工作表明，前馈神经网络，又称多层感知器（MLPs），在学习简单多项式函数时不能很好地进行外推（BarnardWessels，1992；HaleySoloway，1992年）。然而，最近的研究表明，图神经网络（GNNs）（Scarselli et al.，2009）是一类具有MLP构建块的结构化网络，在具有挑战性的算法任务中，如预测物理系统的时间演化（Battaglia et al.，2016），可以推广到比训练图大得多的图，学习图形算法（Velickovic et al.，2020），求解数学方程（LampleCharton，2020）。

为了解释这个难题，我们正式研究了梯度下降（GD）训练的神经网络是如何外推的，即它们在训练分布的支持之外学习什么。我们说，如果一个神经网络在训练分布之外学习了一个任务，它就能很好地进行外推。乍一看，似乎神经网络可以在训练分布之外任意行为，因为它们具有高容量（Zhang et al.，2017），并且是通用逼近器（Cybenko，1989；Funahashi，1989年；Hornik等人，1989年；库尔科娃，1992年）。然而，神经网络受到梯度下降训练的限制（Hardt等人，2016；Soudry等人，2018年）。在我们的分析中，我们通过类比过参数化神经网络的训练动态和通过神经切线核（NTK）的核回归，明确考虑了这种隐式偏差（Jacot等人，2018）。

从前馈网络、最简单的神经网络和更复杂的体系结构（如GNNs）的构建块开始，我们建立了由GD训练的具有ReLU激活的过参数mlp的预测从原点沿任意方向收敛到线性函数。我们证明了两层网络的收敛速度，并从经验上观察到收敛经常发生在训练数据附近（图1），这表明ReLU-MLPs不能很好地外推大多数非线性任务。我们强调，我们的结果并不是基于ReLU网络具有有限多个线性区域的事实（Arora et al.，2018；HaninRolnick，2019年；Hein等人，2019年）。虽然有有限多个线性区域意味着ReLU MLPs最终会变为线性，但MLPs是否会学习到接近训练分布的正确目标函数并没有说明。相比之下，我们的结果是非渐近的，并且量化了MLPs将学习什么样的函数接近于训练分布。其次，我们确定了mlp外推良好的条件：任务是线性的，训练分布的几何结构是充分“多样化”的。据我们所知，我们的结果是这种前馈神经网络的第一个外推结果。

然后，我们将我们对前馈神经网络的见解与GNNs联系起来，以解释GNNs在某些算法任务中外推得好的原因。先前的工作报告了可以通过动态规划（DP）解决的任务的成功外推（Bellman，1966），其计算结构与GNNs一致（Xu等人，2020）。DP更新通常可以分解为非线性和线性步骤。因此，我们假设GD训练的GNN可以在DP任务中很好地外推，如果我们在架构和输入表示中编码适当的非线性（图2）。重要的是，编码非线性可能不需要GNNs插值，因为MLP模块可以很容易地学习训练分布中的许多非线性函数（Cybenko，1989；Hornik等人，1989年；Xu等人，2020），但GNNs正确外推至关重要。我们使用图NTK（Du等人，2019b）证明了简化情况下的这一假设。在经验上，我们验证了三个DP任务的假设：最大度、最短路径和n体问题。我们证明了具有适当结构、输入表示和训练分布的GNNs可以很好地预测具有未知大小、结构、边权值和节点特征的图。我们的理论解释了以往工作的经验成功，并指出了它们的局限性：成功的外推依赖于编码任务特定的非线性，这需要领域知识或广泛的模型搜索。从更广泛的角度来看，我们的见解超越了GNNs，并广泛应用于其他神经网络。

总之，我们研究神经网络如何外推。首先，由GD训练的ReLU-mlp以O（1/t）的速率沿原点方向收敛为线性函数。其次，为了解释为什么GNNs在一些算法任务中可以很好地外推，我们证明了ReLU-MLPs在线性任务中可以很好地外推，从而引出一个假设：当适当的非线性被编码到结构和特征中时，神经网络可以很好地外推。我们用一个简化的例子证明了这个假设，并为更一般的情况提供了经验支持。

1.1相关工作

早期的工作显示了MLP不能很好地外推的示例任务，例如学习简单多项式（BarnardWessels，1992；HaleySoloway，1992年）。相反，我们展示了ReLU MLPs如何外推的一般模式，并确定MLPs外推良好的条件。最近的工作研究了在NTK和平均场两种情况下，梯度下降对MLP产生的隐性偏差（Bietti和Mairal，2019；ChizatBach，2018年；Song等人，2018年）。与我们的结果相关，一些工作表明MLP预测收敛于“简单”分段线性函数，例如，具有很少的线性区域（HaninRolnick，2019；Maennel等人，2018年；Savarese等人，2019年；威廉姆斯等人，2019年）。我们的工作不同之处在于，这些工作都没有明确研究外推法，有些只关注一维输入。最近的研究还表明，在NTK区域的高维环境中，MLP在某些标度极限下至多是一个渐近线性预测因子（Ba等人，2020；Ghorbani等人，2019年）。我们研究不同的设置（外推），我们的分析是非渐近性质，不依赖于随机矩阵理论。

先前的工作通过在较大的图上进行测试来探索GNN外推（Battaglia et al.，2018；Santoro等人，2018年；萨克斯顿等人，2019年；Velickovic等人，2020年）。我们是第一个从理论上研究GNN外推法的人，我们完成了外推法的概念，包括看不见的特征和结构。

2准备工作

3前馈神经网络如何外推

前馈网络是最简单的神经网络和更复杂的体系结构（如GNNs）的构建块，因此我们首先研究它们在GD训练时是如何外推的。在本文中，我们假设ReLU激活。第3.3节包含其他激活的初步结果。

3.1 RELU MLP的线性外推行为

通过架构，ReLU网络学习分段线性函数，但是在训练数据的支持之外，这些区域究竟是什么样的呢？图1举例说明了当GD对各种非线性函数进行训练时，ReLU MLP如何进行外推。这些例子表明，在训练支持之外，预测很快就会沿着原点的方向线性化。我们通过线性回归对MLPs的预测进行了系统的验证：决定系数（R2）总是大于0.99（附录C.2）。也就是说，ReLU MLPs几乎立即在训练数据范围之外“线性化”。

我们使用GD通过神经切线核（NTK）训练的神经网络的隐式偏差来形式化这个观察：GD训练的过参数化网络的优化轨迹等价于具有特定神经切线核的核回归的轨迹，在一系列被称为“NTK制度”的假设下（Jacot等人，2018年）。我们在这里提供了一个非正式的定义；更多详情，请参阅Jacot等人（2018）和附录A。

定义2。

（非正式）在NTK区域训练的神经网络是无限宽的，以一定的比例随机初始化，并且由GD以无穷小的步长训练。

先前的工作通过NTK分析过参数化神经网络的优化和分布泛化（Allen-Zhu等人，2019a；b类；Arora等人，2019a；b类；曹顾，2019；杜等人，2019c；一个；李亮，2018；日田和铃木，2021年）。相反，我们分析外推。

定理1将我们从图1中观察到的结果形式化：在训练数据范围之外，沿着原点的任何方向tv，两层ReLU MLP的预测迅速收敛为速率为O（1/t）的线性函数。线性系数β收敛速度中的常数项依赖于训练数据和方向v。证据见附录B.1

定理1

ReLU网络具有有限多个线性区域（Arora等人，2018；汉宁和罗尔尼克，2019），因此他们的预测最终成为线性。相反，定理1是一个更细粒度的分析MLP如何外推，并提供了收敛速度。虽然定理1假设两层网络处于NTK状态，但实验证实，线性外推行为发生在具有不同深度、宽度、学习速率和批量大小的网络上（附录C.1和C.2）。我们的证明技术也可能扩展到更深层次的网络。

图4a提供了一个更积极的结果：MLP在许多不同的超参数上很好地外推了线性目标函数。虽然学习线性函数一开始似乎非常有限，但在第4节中，这一见解将有助于解释GNN在非线性实际任务中的外推特性。在此之前，我们首先从理论上分析了MLPs外推的好时机。

3.2当RELU MLPS可证明外推井

图4a显示，当目标函数为线性时，MLP可以很好地外推。然而，这并不总是正确的。在本节中，我们展示了成功的外推依赖于训练数据的几何结构。直观地说，训练分布必须足够“多样化”，以便进行正确的推断

我们提供了两个条件，将训练数据的几何结构与外推联系起来。引理1指出，过参数化的mlp只需二维例子就可以学习线性目标函数。

实验：训练数据的几何结构影响外推。

定理2中的条件形式化了一种直觉，即训练分布必须是“多样的”，才能成功地进行外推，例如，D包括所有方向。从经验上讲，当满足定理2的条件时（图4b中的“all”），外推误差确实很小。相反，当训练示例仅限于某些方向时，外推误差要大得多（图4b和图3）。

与之前的工作相关，定理2提出了为什么虚假相关性可能会损害外推，补充了因果关系论点（Arjovsky et al.，2019；Peters等人，2016年；Rojas Carulla等人，2018年）。当训练数据具有虚假相关性时，某些特征组合丢失；e、例如，骆驼可能只出现在沙漠中的图像收集。因此，定理2的条件不再成立，模型可能外推错误。定理2也类似于线性模型的可辨识条件，但更为严格。如果训练数据具有全（特征）秩，我们可以唯一地识别一个线性函数。mlp更具表现力，因此识别线性目标函数需要附加约束。

综上所述，我们分析了ReLU-MLPs是如何外推的，并提供了两个启示：（1）MLPs由于其线性外推而不能外推大多数非线性任务（定理1）；当目标函数是线性函数时，如果训练分布是“多样的”（定理2），mlp可以很好地外推。在下一节中，这些结果将帮助我们理解更复杂的网络是如何外推的。

3.3具有其他激活功能的MLPS

在继续讨论GNNs之前，我们通过对其他激活函数tanh的实验来完成MLPs的描述σ(x） =tanh（x），余弦σ(x） =cos（x）（LapedesFarber，1987年；McCaughan，1997年；Sopena和Alquezar，1994），和σ(x） =x2（杜和李，2018；Livni等人，2014年）。详情见附录C.4。当激活函数和目标函数相似时，MLPs外推效果较好；e、例如，当学习tanh时，tanh激活可以很好地推断，但不能推断其他功能（图5）。而且，每个激活函数都有不同的局限性。要用tanh激活外推tanh函数，训练数据范围必须足够宽。当学习具有二次激活的二次函数时，只有两层网络可以很好地进行外推，而更多的层可以得到更高阶的多项式。对于高维数据，余弦激活很难优化，因此我们只考虑一维/二维余弦目标函数。

4图形神经网络如何外推

上面，我们看到非线性任务中的外推对于MLP来说是困难的。尽管存在这一局限性，GNNs在一些非线性算法任务中表现出了很好的外推能力，如直观物理（Battaglia et al.，2016；Janner等人，2019），图算法（Battaglia等人，2018；Velickovic等人，2020）和符号数学（LampleCharton，2020）。为了解决这个差异，我们建立在MLP结果的基础上，研究GD训练的GNNs是如何外推的。

4.1假设：线性算法对齐有助于外推

我们从一个例子开始：训练GNNs来解决最短路径问题。对于这项任务，先前的工作观察到，具有最小聚集的改进GNN架构可以推广到比训练集中的图更大的图（Battaglia et al.，2018；Velickovic等人，2020）：

我们首先提供一个直观的解释（图2a）。最短路径可通过Bellman-Ford（BF）算法（Bellman，1958）求解，并进行以下更新

其中w（v，u）是边（v，u）的权重，d[k][u]是k步内到节点u的最短距离。这两个方程可以很容易地对齐：如果GNNs的MLP模块学习一个线性函数d[k]，那么它将模拟BF算法−1] [v]+w（v，u）。由于mlp可以外推线性任务，这种“对齐”可以解释为什么GNNs可以在这个任务中很好地外推。

为了进行比较，我们可以解释为什么我们不希望GNN使用更常用的和聚合（Eqn。1）在这项任务中推断得很好。对于和聚合，MLP模块需要学习一个非线性函数来模拟BF算法，但定理1表明，它们不会在训练支持之外外推大多数非线性函数。

我们可以将上述直觉推广到其他算法任务。许多GNNs外推良好的任务可以通过动态规划（DP）来解决（Bellman，1966），这是一种具有类似GNNs（Eqn）的递归结构的算法范式。1）（Xu等人，2020年）。

定义3。动态规划（DP）是一个带有更新的递归过程

其中答案[k][s]是迭代k和状态s索引的子问题的解决方案，DP Update是一个任务特定的更新函数，它基于上一次迭代解决子问题。从更广泛的角度出发，我们假设：如果我们将适当的非线性编码到模型结构和输入表示中，使MLP模块只需要学习接近线性的步骤，那么所得到的神经网络就可以很好地外推。

假设1。

我们的假设建立在（Xu等人，2020）的算法对齐框架之上，该框架指出，如果模块“对齐”以便于学习（可能是非线性）函数，则神经网络插值良好。成功的外推更难：模块需要与线性函数对齐。

线性算法对准的应用。

一般来说，线性算法对准不局限于GNN，广泛应用于神经网络。为了满足这种情况，我们可以在结构或输入表示中编码适当的非线性操作（图2）。使用GNNs学习DP算法是在体系结构中编码非线性的一个例子（Battaglia等人，2018；Corso等人，2020年）。另一个例子是对体系结构中的日志和exp变换进行编码，以帮助外推算术任务中的乘法（Trask等人，2018；MadsenJohansen，2020年）。神经符号程序进一步发展，并对符号操作库进行编码，以帮助推断（Johnson等人，2017年；Mao等人，2019年；易等，2018年）。

对于某些任务，更改输入表示可能更容易（图2b）。有时，我们可以将目标函数f分解为f=g◦ 将h嵌入特征嵌入h和一个简单的目标函数g中，我们的模型可以很好地推断。我们可以通过使用领域知识通过专门的特征或特征转换获得h（LampleCharton，2020；Webb等人，2020年），或通过X\D中未标记的未标记的未标记的分发数据的表示学习（例如，BERT）（Chen等人，2020年）；Devlin等人，2019年；胡等，2020；Mikolov等人，2013b；Peters等人，2018年）。这为表示如何帮助在不同应用领域进行外推提供了新的视角。例如，在自然语言处理中，预处理表示（Mikolov等人，2013a；WuDredze，2019）和使用领域知识进行特征转换（袁等，2020年；Zhang等人，2019）帮助模型在语言之间进行概括，这是一种特殊的外推。在定量金融中，确定正确的“因素”或特征对于深入学习模型至关重要，因为金融市场可能经常处于外推制度中（Banz，1981；法兰西，1993年；罗斯，1976）。

线性算法对齐解释了文献中成功的外推，并指出外推一般更难：编码适当的非线性通常需要领域专家或模型搜索。其次，我们为我们的假设提供理论和实证支持。

4.2理论和经验支持

我们验证了我们对三个DP任务的假设：最大度、最短路径和n-体问题，并证明了最大度假设。我们强调了图结构在外推中的作用。

理论分析。

我们从一个简单而基本的任务开始：学习一个图的最大度，一个DP的特例。作为定理1的推论，常用的基于和的GNN（Eqn。1）无法很好地推断（证据见附录B.4）。

推论1。

具有和聚集和和和读出的GNNs在最大程度上不能很好地外推。为了实现线性算法对齐，我们可以对读出器中唯一的非线性max函数进行编码。定理3证实了具有最大读数的GNN在这个任务中可以很好地外推。

定理3并不是紧跟定理2，因为GNNs中的MLP模块只接受间接的监视。我们分析图NTK（Du等人，2019b）来证明附录B.5中的定理3。虽然定理3假设相同的节点特征，但我们在经验上观察到相同和不相同特征的相似结果（附录中的图16）。

条件的解释。

定理3中的条件类似于定理2中的条件。这两个定理都需要不同的训练数据，用定理3中的图结构或定理2中的方向来度量。在定理3中，如果所有训练图都具有相同的最大或最小节点度，例如，当训练数据来自以下族之一时，违反了该条件：路径、C-正则图（具有C度的正则图）、圈和阶梯。

实验：有助于推断的架构。

我们用两个DP任务来验证我们的理论分析：最大度和最短路径（详见附录C.5和C.6）。而以前的工作只测试不同大小的图（Battaglia et al.，2018；Velickovic等人，2020），我们还测试了具有不可见结构、边权重和节点特征的图。结果支持了我们的理论。对于最大度，具有最大读数的GNNs优于具有和读数的GNNs（图6a），证实了推论1和定理3。对于最短路径，具有最小读数和最小聚集的GNN优于具有和读数的GNN（图6a）。

实验证实了训练图结构的重要性（图7）。有趣的是，这两个任务支持不同的图结构。对于最大度，如定理3所预测的，当训练在树、完全图、扩张图和一般图上时，GNNs外推效果很好，当训练在4-正则图、圈图或梯形图上时，外推误差更大。对于最短路径，当我们改变训练图的稀疏性时，外推误差遵循U形曲线（附录中的图7b和图18）。直觉上，在稀疏或稠密图上训练的模型可能学习退化解。

实验：有助于推断的表征。

最后，我们展示了一个很好的输入表示帮助外推。我们研究了n体问题（Battaglia等人，2016；Watters等人，2017年）（附录C.7），即预测重力系统中n个物体的时间演化。根据之前的工作，输入是一个完整的图形，其中节点是对象（Battaglia等人，2016）。

5与其他分布外设置的连接

我们讨论几个相关的设置。直观地说，从我们上述结果的观点来看，相关设置中的方法可以通过1）学习超出训练数据范围的有用非线性和2）将相关测试数据映射到训练数据范围来改进外推。

领域适应研究对特定目标领域的泛化（Ben-David等人，2010；Blitzer等人，2008年；Mansour等人，2009年）。典型的策略会调整训练过程：例如，使用来自目标域的未标记样本来对齐目标和源分布（Ganin等人，2016；赵等，2018）。在训练期间使用目标域数据可能会导致有用的非线性，并可能通过匹配目标和源分布来减轻外推，尽管学习映射的正确性取决于标签分布（Zhao等人，2019）。

对大量未标记数据的自监督学习可以学习超出标记训练数据范围的有用非线性（Chen et al.，2020；Devlin等人，2019年；He等人，2020年；Peters等人，2018年）。因此，我们的结果提出了一个解释，为什么像BERT这样的预训练表示可以提高分布外鲁棒性（Hendrycks et al.，2020）。此外，自监督学习可以将语义相似的数据映射到相似的表示，因此映射后的一些域外实例可能会落入训练分布中。

不变模型旨在学习在多个训练分布中尊重特定不变性的特征（Arjovsky et al.，2019；Rojas Carulla等人，2018年；周等人，2021）。如果模型真的学习到了这些不变性，这可能发生在线性情况下，当存在混杂或反因果变量时（Ahuja等人，2021；Rosenfeld等人，2021），这可能从本质上增加了训练数据范围，因为模型可以忽略不变特征的变化。

分布鲁棒性考虑了数据分布的小干扰，并确保模型在这些干扰下表现良好（GohSim，2010；Sagawa等人，2020年；Sinha等人，2018年；StaibJegelka，2019年）。相反，我们看的是更多的全局扰动。尽管如此，人们还是希望，有助于外推的修改通常也能提高对局部扰动的鲁棒性。

6结论

本文是一个初步的步骤，正式了解如何神经网络训练梯度下降外推。我们确定了MLPs和GNNs按期望外推的条件。我们还提出了一种解释，说明GNNs在复杂的算法任务中是如何能够很好地进行外推的：在架构和特性中编码适当的非线性可以帮助外推。我们的结果和假设与本文和文献中的实证结果一致

什么是end-to-end神经网络

因为多层神经网络被证明能够耦合任意非线性函数，通过一些配置能让网络去做以前需要人工参与的特征设计这些工作，然后配置合适的功能如classifier,regression，而现在神经网络可以通过配置layers的参数达到这些功能，整个输入到最终输出无需太多人工设置，从raw data 到最终输出指标

经典机器学习方式是以人类的先验知识将raw数据预处理成feature，然后对feature进行分类。分类结果十分取决于feature的好坏。所以过去的机器学习专家将大部分时间花费在设计feature上。那时的机器学习有个更合适的名字叫feature engineering 。

后来人们发现，利用神经网络，让网络自己学习如何抓取feature效果更佳。于是兴起了representation learning。这种方式对数据的拟合更加灵活。

网络进一步加深，多层次概念的representation learning将识别率达到了另一个新高度。于是你听到了是个搞机器学习的人都知道的名字：deep learning。实指多层次的特征提取器与识别器统一训练和预测的网络。

end to end的好处：通过缩减人工预处理和后续处理，尽可能使模型从原始输入到最终输出，给模型更多可以根据数据自动调节的空间，增加模型的整体契合度。

拿语音识别为具体实例。普遍方法是将语音信号转成频域信号，并可以进一步加工成符合人耳特点的MFCC进行编码（encode）。也可以选择Convolutional layers对频谱图进行特征抓取。这样可在encode的部分更接近end to end 中的第一个end。

但识别出的结果并不可以告诉我们这段语音到底是什么。DNN-HMM混合模型还需要将DNN识别出的结果通过HMM来解码（decode）。而RNN-CTC就将HMM的对齐工作交给了网络的output layer来实现。在decode的部分更接近end to end 中的第二个end。