【榜单】10位值得关注的机器学习Quora大咖问答录

新智元编译

来源：KDnuggets

译者：四叠半

【新智元导读】这篇文章基于Quora的“机器学习板块被阅读最多的作者”，列举了过去30天里回答被阅读最多的10位作者，数据统计至2017年6月25日。

HåkonHapnes Strand，数据科学家 - 264,665阅读，206回答

回答摘选：HåkonHapnes Strand在多大程度上认为在机器学习算法中记住高级公式很重要？

我不认为记住公式很重要。我甚至觉得可能产生相反效果。

如果你了解机器学习算法的工作原理，并且是在低级别上真正理解它，而不仅仅是高级直觉，那么你应该可以自己导出公式。在实践中，记公式是基本不需要做的事情，因为你可以查到它。

记住一个公式可能给你一个错觉，让你以为明白了公式背后的原理。

我不认为记住公式很重要。我甚至觉得可能产生相反效果。

如果你了解机器学习算法的工作原理，并且是在低级别上真正理解它，而不仅仅是高级直觉，那么你应该可以自己导出公式。在实践中，记公式是基本不需要做的事情，因为你可以查到它。

记住一个公式可能给你一个错觉，让你以为明白了公式背后的原理。

Roman Trusov，FAIR 2016 实习生 - 254,241阅读，404回答

回答摘选：应该花钱买一个好的GPU学习深入学习吗？（我不是指生产层面的运行。）

如果你是认真想学习DL，那么是的。了解架构或算法与使这些架构或算法正常工作是两个截然不同的事情，获取知识的唯一途径就是自己去实践并分析结果。

如果你考虑购买多个便宜的GPU来学习如何使用它们，最好不要。如果你的框架支持分布式计算，那还好。如果不是，那么到后面会很痛苦。

对于现代架构的训练，CPU无法以任何方式代替GPU。我有一个非常好的CPU，需要几个星期的时间来训练用GPU的话一个晚上就训练完网络。消费级的i5（我也不认为多付点钱买i7是个好主意）甚至更慢。

如果你是认真想学习DL，那么是的。了解架构或算法与使这些架构或算法正常工作是两个截然不同的事情，获取知识的唯一途径就是自己去实践并分析结果。

如果你考虑购买多个便宜的GPU来学习如何使用它们，最好不要。如果你的框架支持分布式计算，那还好。如果不是，那么到后面会很痛苦。

展开全文

对于现代架构的训练，CPU无法以任何方式代替GPU。我有一个非常好的CPU，需要几个星期的时间来训练用GPU的话一个晚上就训练完网络。消费级的i5（我也不认为多付点钱买i7是个好主意）甚至更慢。

Zeeshan Zia，计算机视觉与机器学习博士 - 142,140阅读，377回答

回答摘选：怎样为计算机视觉研究科学家的面试做准备？

会有一些编程问题，以及有关计算机视觉和机器学习的基本问题，这部分大约占50%。另外50%就根本没有技术问题。通常情况下，如果你自己编程并定期参加会议，那么不需要为这部分做准备。如果真的需要，可以刷几天C ++。

面试官想知道的两件事情是：（1）你可以作为独立研究员工作，（2）你对软件开发工作的预期是否与职位本身相符。

会有一些编程问题，以及有关计算机视觉和机器学习的基本问题，这部分大约占50%。另外50%就根本没有技术问题。通常情况下，如果你自己编程并定期参加会议，那么不需要为这部分做准备。如果真的需要，可以刷几天C ++。

面试官想知道的两件事情是：（1）你可以作为独立研究员工作，（2）你对软件开发工作的预期是否与职位本身相符。

Ian Goodfellow，AI研究科学家- 115,921阅读，143回答

回答摘选：使用GAN生成图像有什么问题或动机？

你可以使用GAN来：

生成模拟训练数据和模拟训练环境

填补缺少的数据

用半监督学习训练分类器（分类器同时从已标记和未标记的数据中学习...，并且使用GAN的话，还同时从完全虚构的数据中学习）

做监督学习，其中监督信号表示多个正确答案中的任何一个都可以接受，而不仅为每个训练示例提供一个具体的回答

用统计生成代替成本高的模拟

从来自生成模型的后验分布取样

学习对其他任务有用的嵌入

你可以使用GAN来：

生成模拟训练数据和模拟训练环境
填补缺少的数据
用半监督学习训练分类器（分类器同时从已标记和未标记的数据中学习...，并且使用GAN的话，还同时从完全虚构的数据中学习）
做监督学习，其中监督信号表示多个正确答案中的任何一个都可以接受，而不仅为每个训练示例提供一个具体的回答
用统计生成代替成本高的模拟
从来自生成模型的后验分布取样
学习对其他任务有用的嵌入

生成模拟训练数据和模拟训练环境

填补缺少的数据

用半监督学习训练分类器（分类器同时从已标记和未标记的数据中学习...，并且使用GAN的话，还同时从完全虚构的数据中学习）

做监督学习，其中监督信号表示多个正确答案中的任何一个都可以接受，而不仅为每个训练示例提供一个具体的回答

用统计生成代替成本高的模拟

从来自生成模型的后验分布取样

学习对其他任务有用的嵌入

Clayton Bingham，Informatics公司数据分析师，神经工程研究员 - 105,861阅读，12回答

回答摘选：机器学习（除了深入学习）有什么趋势？

我不知道有什么趋势，但我知道在主流ML之外一个强大的方法，被证明具有很强的灵活性、可解释性和在VLSI / FPGA硬件中相对容易实现的优势。

Volterra核

理解Volterra序列如何工作的最简单的方法是，它是一系列数字滤波器，用于预估从输入信号到适当的输出的转换。卷积核（滤波器）的形状，时间延迟和数量组成了必须估计的模型的特征，以便对复杂系统的行为进行准确的预测。

我不知道有什么趋势，但我知道在主流ML之外一个强大的方法，被证明具有很强的灵活性、可解释性和在VLSI / FPGA硬件中相对容易实现的优势。

Volterra核

理解Volterra序列如何工作的最简单的方法是，它是一系列数字滤波器，用于预估从输入信号到适当的输出的转换。卷积核（滤波器）的形状，时间延迟和数量组成了必须估计的模型的特征，以便对复杂系统的行为进行准确的预测。

Xavier Amatriain，曾经是ML研究员，现在在Quora主管Engineering- 97,947阅读，85回答

回答摘选：什么是训练机器学习模型的最佳实践？

好的指标：

应该容易比较不同的模型

应该尽可能容易理解和解释

最好是跟踪你关心的每个用户细分的指标（例如新用户，旧用户，非常活跃的用户，区域设置....）

在测试集上测量你的指标（不是训练，也不是验证）

好的指标：

应该容易比较不同的模型
应该尽可能容易理解和解释

应该容易比较不同的模型

应该尽可能容易理解和解释

最好是跟踪你关心的每个用户细分的指标（例如新用户，旧用户，非常活跃的用户，区域设置....）

在测试集上测量你的指标（不是训练，也不是验证）

Chomba Bupe，开发机器学习算法 - 96,608阅读，460回答

回答摘选：在分类方法中，可以添加类和训练样本而无需重新训练所有数据的方法，除了K最近邻法还有哪些？

有一种叫做迁移学习（transfer learning）的方法，几乎可以用任何机器学习算法都不需要重新训练整个系统。例如，可以用一个预训练的网络，在顶部额外添加一个简单分类器，并且只对新的训练样本训练这个分类器，同时保留预训练的权重。这在相关任务的实践中表现良好。

不过，迁移学习存在局限性，要想让它工作得好，需要确保新的样本具有与原始样本相似的分布。

有一种叫做迁移学习（transfer learning）的方法，几乎可以用任何机器学习算法都不需要重新训练整个系统。例如，可以用一个预训练的网络，在顶部额外添加一个简单分类器，并且只对新的训练样本训练这个分类器，同时保留预训练的权重。这在相关任务的实践中表现良好。

不过，迁移学习存在局限性，要想让它工作得好，需要确保新的样本具有与原始样本相似的分布。

Liang Huang，宾夕法尼亚大学计算机科学系PhD（2008）- 92,987阅读，3回答

回答摘选：在AI深度学习中，你认为谁是Hinton，Lecun和Bengio之后的顶尖研究人员？

这个问题本身就是错误的。我们都知道，Schmidhuber的贡献与Hinton，Lecun和Bengio的贡献相比，如果不是更重要，起码是同等重要的。

DL中只有两个关键的idea：

CNN（Fukushima-LeCun）

LSTM（Schmidhuber）

其他一切，包括Hinton和Bengio的工作，相比他们都是次要的。这并不是说他们的工作不重要，他们在推广NN方面是非常重要的，但如果是说诺贝尔奖经常强调的“原创想法”，那么就是LeCun，更早的Fukushima和Schmidhuber。如果有DL的诺贝尔奖，那么应该选这些人。

这个问题本身就是错误的。我们都知道，Schmidhuber的贡献与Hinton，Lecun和Bengio的贡献相比，如果不是更重要，起码是同等重要的。

DL中只有两个关键的idea：

CNN（Fukushima-LeCun）
LSTM（Schmidhuber）

CNN（Fukushima-LeCun）

LSTM（Schmidhuber）

其他一切，包括Hinton和Bengio的工作，相比他们都是次要的。这并不是说他们的工作不重要，他们在推广NN方面是非常重要的，但如果是说诺贝尔奖经常强调的“原创想法”，那么就是LeCun，更早的Fukushima和Schmidhuber。如果有DL的诺贝尔奖，那么应该选这些人。

Yoshua Bengio，蒙特利尔算法研究实验所负责人，蒙特利尔大学教授- 90,211阅读，112回答

回答摘选：如何进行机器学习的研究，只从Coursera或edX的MOOC获得知识够吗？

我不认为MOOC就足够了。你需要认真实践。例如，尝试重现在你感兴趣的一些论文的结果，参加Kaggle竞赛等。然后尝试作为访问学者、实习生或研究生加入学术实验室，与其他学生和研究人员合作进行深度学习的研究。

我不认为MOOC就足够了。你需要认真实践。例如，尝试重现在你感兴趣的一些论文的结果，参加Kaggle竞赛等。然后尝试作为访问学者、实习生或研究生加入学术实验室，与其他学生和研究人员合作进行深度学习的研究。

Shehroz Khan，ML研究员，多伦多大学Postdoc - 87,791阅读，715回答

回答摘选：机器学习是难度最大的吗？

在我念博士期间，有以为中国来的本科生（后来成为了硕士生，现在是博士生），他很轻松就能解决任何一个机器学习问题。他是个天才，我觉得对他来说任何事情都是可能的。我很震惊。

当你开始（或即将开始）做某件事情时，似乎总是很难。但当你完成了这件事，难度就变得微不足道了。对于数学家来说，ML的博士可能很简单。对于生物学家来说，ML学位可能十分难！如果你没有足够的技能，背景知识，兴趣，激情以及毅力...任何学科的博士不仅艰难而且不可能实现。对我来说，超出我所在领域的任何程度的知识都是艰难的。特别致敬研究基础科学人——数学，物理，化学，生物学，艺术，人文，心理学，社会学……

在我念博士期间，有以为中国来的本科生（后来成为了硕士生，现在是博士生），他很轻松就能解决任何一个机器学习问题。他是个天才，我觉得对他来说任何事情都是可能的。我很震惊。

当你开始（或即将开始）做某件事情时，似乎总是很难。但当你完成了这件事，难度就变得微不足道了。对于数学家来说，ML的博士可能很简单。对于生物学家来说，ML学位可能十分难！如果你没有足够的技能，背景知识，兴趣，激情以及毅力...任何学科的博士不仅艰难而且不可能实现。对我来说，超出我所在领域的任何程度的知识都是艰难的。特别致敬研究基础科学人——数学，物理，化学，生物学，艺术，人文，心理学，社会学……

原文：http://www.kdnuggets.com/2017/06/top-quora-machine-learning-writers.html返回搜狐，查看更多

责任编辑：