Ilya介绍的30篇文章仔细读完将了解当下90%的AI技术 1 OpenAI前CTO

2024-11-14

近日，网高端传一份ilya介绍给John Carmack的阅读清单，该清单蕴含了当今与AI相关30篇顶级文章，并称假设真的将它们读完，就能了解当下90%的AI技术。

上方笔者带大家速览这40篇文章内容概要。

1）Attention Is All You Need

不解释了，transformer开山论文，不得不看。

地址：

2）The Annotated Transformer

该文章是由康奈尔大学副传授 Alexander Rush 等钻研者在 2018 年撰写的博客文章，该文章对transformer启动了逐行级的解释，并应用 Python 完整成功了 Transformer架构，可以协助读者在了解通常的同时，结合通常加深意识。

文章：

代码：

3）The First Law of Complexodynamics

这是Scott Aaronson的名为《复杂能源学第必定律》的文章，讨论了为什么物理系统的“复杂性”或“兴趣性”仿佛随着期间的推移而参与，而后到达最大值，再逐渐缩小，而熵当然是干燥参与的？Aaronson 试图用 Kolmogorov 复杂性和相关概念来解释这一现象，并指出了这一畛域的若干应战和或者的处置打算。

文章：

3）The Unreasonable Effectiveness of Recurrent Neural Networks（RNN无法以思议的有效性）

该文章是由Andrej Karpathy 2 年撰写的一篇博客，强调 RNN 的有效性，文章讨论了 RNN 处置序列数据的弱小才干。

地址：

4）Understanding LSTM Networks（了解LSTM）

该文由Anthropic 联结开创人、Ilya 和 Christopher Olah 于 15 年撰写，本文引见了LSTM长短期记忆，它是一种不凡的循环神经网络，能够处置常年依赖相关。它在语音识别、言语建模、翻译、图像形容等畛域取得了渺小成功。

地址：

5）RECURRENT NEURAL NETWORK REGULARIZATION（RNN正则化）

本文是由ilya 2年撰写的，提出了一种递归神经网络的便捷正则化技术（RNN）与长短期存储器（LSTM）单元。Dropout是正则化神经网络最成功的技术，但它不能很好地与RNN配合经常使用和LSTM。在本文中咱们展现了如何正确地将dropout运行于LSTM，并标明它大大缩小了对各种义务的过拟合。这些义务包括言语建模、语音识别、图像字幕生成，以及机器翻译。

地址：

6）Keeping Neural Networks Simple by Minimizing the Description Length of the Weights（经过最小化权重的形容长度来坚持神经网络的便捷性）

假设相较于训练案例的输入向量，权重蕴含更少的消息，那么有监视的神经网络的泛化才干通常会更好。因此，在学习阶段，处罚权重的消息量以坚持权重繁复是关键。可以经过参与高斯噪声来控制权重的消息量，而且学习环节中可以顺应性地调理噪声水平，以到达网络预期平方误差与权重消息量之间最佳的平衡。咱们提出了一种方法，可以计算蕴含非线性暗藏层的网络中，受噪声影响的权重所蕴含消息量以及希冀平方误差的导数。只需输入单元坚持线性，就能够高效准确地计算出这些导数，无需依赖于耗时的蒙特卡洛模拟。谋求降落神经网络权重传输所需消息量的理念催生了许多幽默的权重编码打算。

地址：~hinton/absps/colt93.pdf

7）Pointer Networks

论文引入了一种新的神经网络架构，该架构旨在学习输入序列的条件概率，其中输入序列由代表输入序列位置的团圆Token(代币)组成。现有的方法，如序列到序列转换和神经图灵机，无法随便处置这类疑问，由于输入序列中每一步的指标类别数依赖于可变的输入长度。例如，排序可变长度序列和各类组合优化疑问都属于这种疑问。咱们的模型应用最近提出的神经留意机制处置了可变长度输入字典的疑问。与以前的留意力机制不同，咱们的方法不是将留意力用于融合编码器的暗藏单元到每个解码步骤的高低文向量中，而是将留意力用作一个指针，选取输入序列中的元素作为输入。咱们将这种架构称为指针网络（Ptr-Net）。经过只经常使用训练实例，咱们证实了Ptr-Net能够学习到三个复杂几何疑问-计算平面凸包、Delaunay三角剖分以及平面游览商疑问-的近似解。Ptr-Net不只改良了带输入留意力的序列到序列模型，还成功了输入字典规模可变性的泛化。咱们进一步展现了，这些学习到的模型能够泛化到超出训练时的最大长度。咱们宿愿这些义务上的结果能激励对团圆疑问的神经网络学习方法启动更深化的钻研。

地址：

8）ImageNet Classification with Deep Convolutional Neural Networks

本文图灵奖得主Geoffrey Hinton，ilya等撰写，提出 AlexNet，推翻图像识别畛域，开启了深度学习反派。他们训练了一种庞大的深度卷积神经网络来对ImageNet LSVRC-2010竞赛的1.2百万张高清图像启动分类，这些图像被分为1000个不同类别。在测试数据集上，成功了37.5%的top-1失误率和17.0%的top-5失误率，清楚优于之前的最佳水平。该神经网络领有60,000,000个参数和650,000个神经元，由五个卷积层组成，局部卷积层后接最大池化层，还包括三个全衔接层以及最后的1000维softmax输入层。为了放慢训练速度，驳回了非饱和神经元以及高效的GPU卷积操作成功。此外，为了降落全衔接层的过拟合，驳回了一种名为“dropout（随机失活）”的早先开发的正则化技术，这一技术十分有效。在ILSVRC-2012较量中提交了这个模型的改良型，并以15.3%的top-5测试失误率赢得了冠军，较第二名低了10.9个百分点，这标明了模型的清楚优化。

地址：

9）ORDER MATTERS: SEQUENCE TO SEQUENCE FOR SETS

随着循环神经网络的昌盛，序列在有监视学习中越发关键。如今，许多复杂的义务，如映射观察序列，都可以经过经常使用序列到序列转换（seq2seq）框架来构建，该框架驳回链式规律高效示意序列的联结概率。但在某些状况下，可变长度的输入/输入并不适宜以序列方式体现。比如，关于排序义务，还不清楚如何把一组数字输入模型；相似地，当义务触及建模随机变量的未知联结概率时，咱们也不知道应如何组织输入。在这篇论文中，咱们首先经过多个例子证实了输入/输入数据组织顺序对学习底层形式的清楚影响。咱们接着讨论了seq2seq框架的一种扩展，它能够逾越序列处置，依照原理性的方法处置输入集。另外，咱们提出了一种损失函数，它经过在训练环节中讨论不同的数据序列，处置输入汇合结构缺失的疑问。咱们提供了关于订单关键性的实证证据，并展现了在言语建模和解析义务的基准测试，以及两个天然义务——数字排序和预计未知图模型的联结概率上对seq2seq框架所做的修正。

地址：

10）GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism

优化深度神经网络的计算容量已证实是提高多种机器学习义务中模型功能的有效方法。但是，在很多状况下，参与模型的计算力以逾越单个减速设施的内存限度，通常须要开发专门的算法或基础架构。这些打算往往依赖于特定的配件架构，且难以运行于其余义务。为了应答这种关于高效且与义务有关的模型并行性需求，文中引见了GPipe，这是一个成功流水线并行化的库，它能使任何可以示意为层序列的网络启动规模化扩展。应用GPipe，经过在不同减速设施上对不同的层子序列启动流水线作业，可以灵敏且高效地扩展各种网络的规模至渺小水平。此外，GPipe驳回了一种翻新的批处置分流算法，在将模型调配到多个减速设施时，简直可成功线性的减速成果。经过在具备不同网络架构的两项不同义务上训练大规模神经网络来展现GPipe的长处：一是图像分类，训练了一个参数量到达5.57亿的AmoebaNet模型，在ImageNet-2012数据集上取得了84.4%的top-1准确率；二是多言语神经机器翻译，训练了一个蕴含128层Transformer结构、6亿参数量，笼罩超越100种言语的巨型模型，其体现逾越了一切双语模型。

地址：

本文转载自，作者：

<<时序预测Decoder中的期间步依赖疑问

谷歌I>>

Ilya介绍的30篇文章 仔细读完将了解当下90%的AI技术 1 OpenAI前CTO

您可能还会对下面的文章感兴趣：

随便看看

Ilya介绍的30篇文章仔细读完将了解当下90%的AI技术 1 OpenAI前CTO