加入收藏 | 设为首页 | 会员中心 | 我要投稿 源码网 (https://www.900php.com/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 产品 > 正文

活捉抢算力的谷歌员工!博弈论或可破数据中心“囚徒困境”

发布时间:2020-04-10 16:28:58 所属栏目:产品 来源:站长网
导读:副标题#e# 把数据中心和博弈游戏两个词放在一起,你会想到什么?经济学家们研究的囚徒困境?还是《魔兽世界》的用户数据? 我们今天要讲的,正是数据中心和博弈游戏的结合,但和在线游戏一点关系没有。 今天的话题,是切实发生在数据中心的博弈从共享的大量
副标题[/!--empirenews.page--]

把“数据中心”和“博弈游戏”两个词放在一起,你会想到什么?经济学家们研究的“囚徒困境”?还是《魔兽世界》的用户数据?

我们今天要讲的,正是“数据中心”和“博弈游戏”的结合,但和在线游戏一点关系没有。

今天的话题,是切实发生在数据中心的博弈——从共享的大量计算机和存储系统中抢占资源。

即使是在算力最为充足的的公司——谷歌,员工们也常常进行这样的博弈。

当要求提交任务的计算需求时,一些员工会夸大了他们对资源的请求,以减少与他人共享的数量。有趣的是,其他一些员工则会减少了他们的资源请求,假装他们的任务可以轻松地在任何一台计算机上完成。一旦他们在一台机器上开始任务,相关的操作就会耗尽机器上所有可用的资源,并挤掉他们同事的任务。

这些伎俩看起来有点滑稽,但它直指一个真正的问题——效率低下。

2018年,全球数据中心耗电量为2050亿千瓦时,几乎和澳大利亚全境的用电量相当,约占世界总量的1%。由于服务器未被充分利用,因此大量能源被浪费掉了。一台空闲服务器所浪费的电力相当于其峰值用电量的50%;而当服务器开始工作时,其固定的电力成本就将分摊到该工作上。

由于运行单个任务的用户通常只占用服务器资源的20%到30%,因此多个用户必须共享服务器以提高其利用率,从而提高其能源效率。共享还可以降低资本、运营和基础设施成本。毕竟,不是每个人都有足够的钱来建立自己的数据中心。

为了分配共享资源,数据中心部署有资源管理系统,根据用户需求和系统自身目标,对可用的处理器内核、内存容量和网络资源进行划分。乍一看,这个任务应该很简单,因为用户经常有补充需求。但事实并非如此。共享在用户之间产生了竞争,正如我们看到的谷歌员工,很可能会扭曲资源的使用。

因此,我们可以使用博弈论(game theory),即描述理性决策者之间战略交互的数学模型,进行了一系列项目,以此来管理这些自私用户之间的资源分配,同时最大化地提升数据中心的效率。在这种情况下,这种博弈还确实有利于解决资源分配问题。

货币兑换机制失效,博弈论登场

帮助一群理性和自私的用户有效地共享资源并不仅仅是大数据时代的产物。经济学家们几十年来一直在这样做。

在经济学中,市场机制根据供求来决定资源的价格。实际上,目前不少公共数据中心就在这么做,比如Amazon EC2和Microsoft Azure。在那里,真实货币的转移充当了一种工具,将用户的动机(绩效)与提供商的目标(效率)结合起来。

然而,在许多情况下,货币兑换机制是失效的。

让我们考虑一个简单的例子。

假设在你最好朋友的婚礼上,你得到了一张歌剧演出的门票,你决定把票给最喜欢该演出的人。所以你要进行所谓的第二价拍卖:让你的朋友们为这张票出价,规定赢家支付给你第二高的出价。数学上已经证明,在这种拍卖中,你的朋友没有动机去谎报他们对这张歌剧票的估价。

如果你不想要钱或不能让你的朋友付你钱,你的选择就会变得非常有限。如果你问你的朋友他们有多想去看歌剧,没有什么能阻止他们夸大他们对门票的渴望。歌剧票只是一个简单的例子,但在很多地方——比如谷歌的私人数据中心或学术计算机集群——金钱要不不能转手,要不就是不该转手,更不能以此来决定谁得到什么。

博弈论为这类问题提供了可行的解决方案——实际上它已被应用于计算机网络和计算机系统。我们从这两个领域获得了灵感,但我们也必须解决它们的局限性。在计算机网络中,有很多工作通过设计机制来管理自利的和不协调的路由器以避免拥塞。但是这些模型只考虑对单个资源网络带宽的争用。在数据中心计算机集群和服务器中,有各种各样的资源需要争夺。
在计算机系统中,人们对考虑多种资源的资源分配机制产生了浓厚的兴趣,特别是一种称为支配资源公平性的机制。然而,这类工作仅限于性能模型和处理器与内存的比率,它们并不总是反映数据中心的真实场景。

“计算冲刺”引起“公地悲剧”

为了提出适用于数据中心的博弈论模型,我们深入研究了硬件架构的细节,从最小的层次开始:晶体管。

长期以来,晶体管在缩小体积的同时耗散的功率越来越小,部分原因是降低了工作电压。然而,到2005年左右,这种被称为登纳德缩放比例的定律已被打破。

结果就是,对于固定的电力预算,处理器不再以我们习惯的速度变快。一个临时的解决方案是将多个处理器核心放在同一块芯片上,这样大量的晶体管仍然可以在经济上得到冷却。然而,很明显,你不可能同时全速运转所有的核心,否则芯片会熔化。

2012年,计算机架构师提出了一种名为“计算冲刺”(computational sprinting)的变通方法。其概念是处理器核心可以在短时间间隔(称为冲刺)内安全地突破它们的能量预算。在一次冲刺之后,处理器必须在下一次冲刺之前冷却下来;否则芯片就会被熔毁。如果处理正确,“冲刺”可以使系统对工作负载的变化做出更快速的响应。“计算冲刺”最初是为智能手机等移动设备的处理器而提出的,因为这些处理器必须限制用电量,以节省电量,同时避免“烫伤”用户。但“冲刺”很快就应用于数据中心来处理计算需求的激增。

这就是问题所在。假设自私的用户们拥有启用了带有“冲刺”的服务器,这些服务器在数据中心中共享一个电源供应。用户可以通过冲刺来提高处理器的计算能力,但如果大部分处理器同时冲刺,那么电力负荷将会激增。然后断路器跳闸。这就迫使不间断电源(UPS)中的电池在系统恢复时提供电力。在这样的紧急情况之后,所有的服务器都必须在电池充电的时候以额定功率运行——不允许冲刺。

这种情形是经典的“公地悲剧”(tragedy of the commons)的一个版本,英国经济学家威廉·福斯特(43.900, 2.11, 5.05%)·劳埃德(William Forster Lloyd)在1833年的一篇文章中首次提出了这一观点。他描述了如下的情况:假设牧牛人共享一块土地来放牧他们的牛。如果一个牧民把超过分配数量的牛放到公共草地上,这个牧民可以获得边际收益;但如果许多牧民这样做,过度放牧将破坏土地,伤害所有人。

(编辑:源码网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

热点阅读