前百度员工在美读博5年：告诉你什么才是深度学习

发布时间：2017-02-07 21:31:47 所属栏目：动态来源：驱动之家

导读：副标题#e# 虎嗅注：本文作者李沐，前百度员工，大规模机器学习和优化算法等方面的大牛，在别人继续在职场高歌猛进，或者创业淘金的时候，毅然决然选择了另一条路：跑去卡内基梅隆大学（Carnegie Mellon University，简称CMU）读博士，师从机器学习专家Alex

在wormhole的开发中发现一个问题，就是各个算法还是挺不一样，他们可以共用一些代码，但又有各自的特点，需要特别的优化来保证性能。这样导致维护有些困难，例如对共用代码的改动导致所有项目都要检查下。总结下来觉得一个项目最好只做一件事情。所以天奇把xgboost代码放回原来项目，我也把FM独立出来一个项目叫difacto。

通过一系列的项目，我学到的一点是，以目前的水平和人力，做一个通用而且高效的分布式机器学习框架是很难的一件事情。比较可行的是针对一类相似的机器学习算法做针对性的项目。这个项目的接口必须是符合这类算法结构，所以做算法开发的同学也能容易理解，而不是过多暴露底层系统细节。

真正的让DMLC社区壮大的项目是第三个，叫做MXNet。当时的背景是CXXNet达到了一定的成熟度，但它的灵活性有局限性。用户只能通过一个配置项来定义模型，而不是交互式的编程。另外一个项目是zz和敏捷他们做的Minerva，是一个类似numpy的交互式编程接口，但这个灵活的接口对稳定性和性能优化带来很多挑战。我当时候同时给两个项目做分布式的扩展，所有都有一定的了解。然后一个自然的想法是，把两个项目合并起来取长补短岂不是很好。

召集了两个项目的开发人员讨论了几次，有了大致的眉目。新项目取名MXNet，可以叫做mixed-net，是前面两个名字（Minerva和CXXNet）的组合。放弃开发了几年的项目不是容易的决定，但幸运的是小伙伴都愿意最求更好，所以 MXNet进展挺顺利。很快就有了可以跑的第一个版本。

第四年：9/15-8/16

前半年为difacto和MXNet写了很多代码。其实一开始的时候我觉得difacto更重要些，毕竟它对于线性算法的提升非常显著而且额外的计算开销并不大，这对广告预估之类的应用会有非常大的提升。但有次遇到Andrew Ng，我跟他说我同时在做这两个项目，他立即告诉我我应该全部精力放在MXNet上，这个的未来空间会大很多。我一直很佩服Andrew的眼光，所以听了他的建议。

11月的时候MXNet就有了很高的完成度。写了个小论文投去了NIPS的workshop也算是歇了口气。但随后就听到了TensorFlow（TF）开源的消息。由 Jeff Dean领导大量全职工程师开发，Google庞大的宣传机器支持，不出意料迅速成为最流行的深度学习平台。TF对我们压力还是蛮大，我们有核心开发者转去用了TF。不过TF的存在让我领悟到一点，与其过分关心和担忧对手，不如把精力集中在把自己的做得更好。

NIPS的时候MXNet的小伙伴聚了一次，有好几个我其实是第一次见面。随后Nvidia的GTC邀请我们去做报告。在这两次之间大家爆发了一把，做了很多地方的改进。同时用户也在稳步增长。我们一直觉得MXNet是小开发团队所以做新东西快这是一个优势，但随着用户增加，收到抱怨说开发太快导致很多模块兼容性有问题。有段时间也在反思要在新技术开发速度和稳定性之间做一些权衡。

这时一夜之间大数据不再流行，大家都在谈深度学习了。

我也花了很多力气在宣传MXNet和争取开发者上。包括微博知乎上吼一吼，四处给报告。在大量的点赞声中有些陶醉，但很多中肯的批评也让我意识到重要的一点，就是应该真诚的分享而不是简单的吹嘘。

因为大量的媒体介入，整个深度学习有娱乐化的趋势。娱乐化的报道很多都只是一些简单信息，（有偏见）的观点，而没有太多干货。不仅对别人没营养，对自己来说也就是满足虚荣心。与其写这些简单的水文，不如静下心做一些有深度的分享，包括技术细节，设计思路，和其中的体会。

此类分享一个容易陷入的误区是只关注自己做了什么，结果多么好。这些确实能证明个人能力，对于想重复这个工作的人来说会有很大帮助。但更多的人更关心的是适用范围在哪里，就是什么情况下效果会减弱；为什么结果会那么好；insight是什么。这个需要更多深入的理解和思考，而不是简单的展示结果。

这个对写论文也是如此。只说自己的结果比基线好多少只能说明这是不错的工作，但结果再好并不能意味这个工作有深度。

深度学习的火热导致了各种巨资收购初创司不断。Alex也有点按耐不住，结果是他，Dave，Ash（曾经是YahooCTO）和我合伙弄了一家公司，拿了几十万的天使投资就开工了。Alex写爬虫，Dave写框架，我跑模型，风风火火干了好一阵子。可惜中途Dave跑路去跟Jeff做TF了。后来这个公司卖给了一个小上市公司。再后来我们觉得这个公司不靠谱也就没考虑跟他们干了。

第一次创业不能说很成功，从中学到几点：一是跟教授开公司一定要注意有太多想法但没死死的掐住一个做，二是找一堆兼职的博士生来干活不是特别靠谱，尤其是产品不明确的时候，三是即使要卖公司也一定要做一个产品出来。我们卖的时候给很多人的感觉是团队人太强但产品太弱，所以他们只想要人而已。四是试图想要通过技术去改变一个非技术公司是很难的事情，尤其是过于新的技术。

然后我们就奔去折腾下一个公司。Ash早财务自由所以想做一个大的想法，但这时Alex刚在湾区买了个房，有还贷压力，他选择去了Amazon。于是算是胎死腹中。

随后收到Jeff的邮件说有没有兴趣加入Google，自然这是一个很诱人的机会。同时我觉得小的创业技术性强的公司是不错的选择。但从MXNet的发展上来书，去Amazon是最好选择之一。自己挖的坑，总是要自己填的。所以我以兼职的身份去了Amazon，领着一帮小弟做些MXNet开发和AWS上深度学习的应用。

第五年：9/16-2/17

早在15年初Alex就表示我可以毕业了，但作为拖延晚期患者，迟迟没开始准备。这时候感觉不能再拖了，于是窝在湾区写毕业论文。Alex觉得毕业论文应该好好写，但我对把前面都做完的东西再捣鼓写写实在是没兴趣，尤其是加州太阳那么好，大部分时间我都是躺在后院晒太阳。此时B站已经完全被小学生占领，这边买书也不方便，无聊之余刷了很多起点。然后还写了篇炼丹文。

CMU要求答辩委员会需要有三个CMU老师和一个学校外的。除了两个导师外，我找了Jeff Dean和刚加入CMU的Ruslan Salakhutdinov. 结果Russ随后就加入了Apple，整个委员会的人都在湾区了。Jeff开玩笑说可以来Google答辩。可惜跟CMU争吵了好多次，还是不允许在校外答辩，而且必须要三个人委员会成员在场。这些限制导致答辩一拖再拖，而且临时加了Barnabas Poczos来凑人数。最后是Jeff的助理快刀斩乱麻的协调好了时间把所有东西定好了。没有她估计我还可以拖几个月。

答辩的时候是一个比较奇异的状态，委员会里有Google, Amazon, Apple的AI负责人，剩下两个和我又分别在这三家公司兼职。这个反应了当下AI领域学术界纷纷跑去工业界的趋势。

不过答辩这个事情倒是挺简单，跟平常做个报告没什么太多区别。一片祥和，即使Russ问了MXNet和TensorFlow哪家强这个问题也没有打起来。

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/7

首页

尾页

配Hi-Fi发烧级丹拿音响	一夜闪崩35％全球显卡
三星Galaxy S22 Ultra	苹果已达成 iOS 15 系