Google科学家最新整理，给新手推荐的十篇优秀数据科学文章

发布时间：2019-08-21 04:46:11 所属栏目：教程来源：skura

导读：副标题#e# 作为数据科学的初学者，一些好的文章能够快速带我们入门这一充满了未知和挑战的领域。近日，google 决策智库的主管 Cassie Kozyrkov 整理了十篇给学生们推荐的优秀文章。下面这些文章几乎都来自于相同的博客。让我们来看看是哪些文章吧~ #1 理

在实况课堂上，谷歌用户会大声回答「坐着还是站着」、「能看到木地板还是不能看到」、「猫自拍还是不猫自拍」等等，让我们检查一下第一个答案。

将图像分成两组的一种方法是：坐着和站着。好吧，「坐」对「站」。

如果你认为「坐着还是站着」是标签，那就再想想吧!这就是您用来创建集群的方法(模型)。在无监督的学习中，标签更为乏味：比如「第 1 组和第 2 组」或「A 或 B」或「0 或 1」。它们只是表示群体成员，没有额外的人类可解释(或诗意)的含义。

无监督学习的标签只表示集群成员。他们没有更高的人类可解释的意义，可能会感到令人失望的无聊。

这里所发生的一切就是算法通过相似性对事物进行分组。相似性度量是由算法的选择来指定的，但是为什么不尽可能多地尝试呢?毕竟，你不知道自己在找什么。

经验教训：

总结：无监督学习通过将相似的东西分组在一起，帮助你从数据中找到灵感。定义相似度有很多不同的方法，所以继续尝试算法和设置，直到一个很酷的模式吸引你的眼球。

#4 数据科学简史

文章地址：https://www.forbes.com/sites/insights-intelai/2019/05/22/automated-inspiration/#78a3aeb1c44f

在 19 世纪，医生可能给情绪波动开含有汞的处方，给哮喘开含有砷的处方。他们可能不会在你手术前洗手。他们不是想杀害你，只是不知道这样做更好。

这些早期的医生在他们的笔记本上记录着有价值的数据，但就像一个巨大的拼图游戏，每个人都只拿了一小块。如果没有共享和分析信息的现代工具以及理解这些数据的科学，那么就没有多少东西可以阻止迷信通过可观察到的表面事实来进行判断的方法。

从那时起，人类在技术上取得了长足的进步，但今天机器学习(ML)和人工智能(AI)的蓬勃发展并没有真正打破过去的局面。

后来，人们发明了第一个数据存储和共享技术。存储数据集的能力代表了通往更高智能道路上突破性的第一步。

不幸的是，获取信息是一件痛苦的事情。你必须把每一个单词上传到你的大脑来处理它。这使得早期的数据分析非常耗时，因此最初的研究一直止步不前。

幸运的是，有一些令人难以置信的先驱。例如，JohnSnow 在 1858 年伦敦霍乱爆发期间绘制的死亡地图，激发了医学界重新考虑了这种疾病是由毒气引起的迷信，并开始仔细观察饮用水。「拿着灯的女士」，弗洛伦斯南丁格尔在克里米亚战争期间创造性的用信息图表分析出医院死亡的主要原因，挽救了许多人的生命。

数据的美妙之处在于它能让你从中形成一种观点。通过查看信息，你会受到启发提出新的问题，。这就是分析学科所要做的：通过探索来激励模型和假设。

在 20 世纪初，在不确定的情况下做出更好决定的愿望导致了一个平行的职业的诞生：统计学。

分析和统计有一个主要的弱点：如果你在假设生成和假设测试中使用相同的数据点，那你就是在作弊。统计的严谨性要求你在采取行动之前先做出决定;分析更像是一场事后诸葛亮的游戏。他们几乎是悲剧性的不相容，直到下一次重大革命，数据分割改变了一切。

数据分割是一个简单的想法，但对于像我这样的数据科学家来说，这是最深刻的想法之一。

后来，机器学习出现了。

使用数据集会破坏其作为统计严格性来源的纯度。如果你有第三个数据集，你可以用它来获得灵感。这个筛选过程被称为验证，它是机器学习的核心。

一旦你可以把所有的东西都扔到一起上，你就可以让每个人都有机会想出一个解决方案：经验丰富的分析师、实习生、茶叶，甚至算法，而不必考虑你的业务问题。无论哪种解决方案在验证中效果最好，都将成为适当统计测试的候选者。你只是让自己自动激发灵感!这就是为什么机器学习是数据集的革命，而不仅仅是数据。

用深度神经网络进行机器学习在技术上被称为深度学习，但它还有一个绰号：人工智能。虽然人工智能曾经有不同的含义，但今天你很可能会发现它被用作深度学习的同义词。

深度神经网络由于在许多复杂的任务上比不太复杂的 ML 算法更容易分类，因此赢得了他们的赞誉。但它们需要更多的数据来训练它们，并且处理要求超过了典型的笔记本电脑。

#5 机器学习——皇帝的新衣?

文章地址：https://medium.com/@kozyrkov/machine-learning-is-the-emperor-wearing-clothes-928fe406fe09

机器学习使用数据中的模式来标记事物。听起来很神奇?核心概念实际上非常简单。如果有人让你觉得这是神秘的，他们应该感到尴尬。

我们的标签例子将涉及到将茶分类为美味或不美味，所有的想法在数学或代码所需技能上都超级简单!

数据

让我们想象一下，我品尝了 50 杯茶，并将它们的信息直观地呈现在下面。每一杯都有糖和酿造时间信息，Y 代表美味，N 代表不那么美味。

（编辑：源码网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

笔杆子怎么录音转文字	敬业签怎么同步备忘录
AutoCAD2014工具栏怎么	Shotcut怎么保存视频