2KB项目,专业的源码交易网站 帮助 收藏 每日签到

存储系统的 80/20 规律

  • 时间:2019-05-14 16:49 编辑:2KB 来源:2KB.COM 阅读:396
  • 扫一扫,手机访问
  • 分享
摘要: 英文原文:The
英文原文:The 80/20 rule… for storage systems.

80/20 规律凡是被以为是源于意大利经济学家维尔弗雷多·帕累托。帕累托诞生于1848年,他是(最少被以为是)占据活动的早期成员之一。他发明意大利国度财富的80%是把握在简直少于20%的生齿手中的。由此发散开来看,80/20规律在其他方面的使用异样值得留意,也是很风趣的:由于帕累托察看发明他的园子里的80%的豌豆产自于20%的作物上(他仿佛更爱好数豌豆而不是其他豆子,哈哈)。不管怎么,帕累托是不置信平均散布的实际的。

帕累托准绳,和由此而来的统计学观念“帕累托散布”被看做是统计学幂率的一个实例,它在了解存储器拜访形式上也有出其不意的相干性。这就是为何使用负载、拜访磁盘的问题更靠近于帕累托散布而不是平均的随机散布:即大部分的I/O恳求拜访少数的抢手数据,而大量的冷门数据的拜访频率远低于此。


我们的系统是由冷数据和热数据混杂构成的,这是一个尽人皆知的现实。混杂介质存储系统技术惹起了热闹的争议,它也被使用于为Facebook这类范围的使用顺序设计存储系统。问题就在这里:经过给数据分派不均等的资本可以给相似帕累托散布的构造更好的支撑。运用多种存储介质来替代同介质存储系统,如许的分派就能够让我们从那些不常常拜访的数据处夺来资本补助给那些常常被拜访的数据。

对帕累托准绳的曲解招致了构建和怀抱存储系统时的诸多凌乱。例若有些闪存芯片供给商保持以为在单1、同介质的闪存芯片上构建完整基于闪存的存储系统就可以很好的知足任务负荷的请求。从这个角度来看,同介质纯闪存的系统仍是高效的“***主义”存储呢。他们幻想化的决议投资这类给一切数据分派均等资本的计划,这招致了资本层面的开支与数据拜访层面的开支严重不合错误等,哎,仍是在这里多存眷一些吧。

其它翻译版本 (1) 加载中

让我们看一下真实的任务数据

为了说明存储的任务负载数据究竟有何等的纷歧致,我们来看一组真实的数据。我们比来对11个开发者桌面存储数据实行了为期一年的跟踪记载。跟着工夫的推移,对这些数据集的剖析变得很风趣,由于它包括了一个很长工夫段内的大量数据:存储的轨迹记载,比方 SNIA保管的数据就十分的小(一天内的总小时)或许准确度也很低。总的来讲,为期12个月的跟踪记载了大约76亿次的IO操作和在5TB存储数据长进行的超越28TB传输量。

我想经过疾速的总结这些数据,指出一些风趣的工具,获得能对你的考虑怎么计划你的数据存储有点协助。

上面第一个图表,显示的是一切存储数据在完毕trace时的工夫。5.1TB的数据被存储在11个桌面,3.1TB的数据在整整一年中没有被拜访。因而,可以经过一全年都没有被改动数据来决议那些冷数据被存储在哪一个地位。

在另外一方面,我们看到唯一627GB,或许约莫21%的数占有在一个月内被拜访。在更短的工夫段里,我们看到相似的级数增加。这个初始容量/工夫剖析,仅仅是用于验证我们关于拜访散布的假定,那末,如今让我们看一个更风趣的景象...

32 GB 4.5 TB (35%) 64 GB 5.9 TB (46%) 128 GB 8.0 TB (62%) 256 GB 10.7 TB (84%) 512 GB 12.6 TB (98%) 1 TB 12.8 TB 缓冲巨细... ...对应的恳求量.

如上图所示,我把一年来实践的拜访量同逐步递增的“抢手”数据进度条对应起来。经过上图,我们对一年来的拜访数占有了两个方面的新认知。第一个认知是:这张图枚举出了所拜访的数据量,经过它我们可以盘算出射中率。假如运用“比来起码拜访”(LRU)模子作为填充高速内存办法,那末我们就能够揣度图中上半部分(即缓冲)所供给的恳求率是几多。假如你把鼠标转动到上图中,你就可以看到射中率是如何跟着系统中高速内存的增加而增加的。

第二个认知是:经过这张图,我们可以盘算出数据的普通性拜访本钱。不是揣度每GB存储上我们所破费的用度,而是看看地道拜访所破费的用度。我完整随便地选择了最小缓冲的巨细,即以32GB为高速缓存的最小单元,此时我盘算出每拜访1GB的数据所破费为1美元。为了进步射中率,我们不时地增加高速存储的数目,如今我们看看这类状况下会呈现如何的情况。为了进步射中率,你不能不一而再再而三成倍地增加高速缓冲的时分,你会发明实践的数据拜访量却在绝对的减少。因而,你就会很轻易地得出拜访数据的本钱将会更贵。在我们的例子里,要完成100%的射中率所破费的款项是我们最后运用最小高速缓存完成35%射中率所破费的11倍多。

断定实行分歧投入

如今,我们要弄明白我上面所会商的工作:我会商的不是你该当知足35%的射中率。相反,我会商的是:你破费在拜访存储条尾部的资金--即破费在进步基本就没有任何拜访的3.1TB功能方面的资金-可能没有破费到准确的地方。我以为资金破费在进步较抢手数据拜访功能方面会更好一些。

这就是迩来我在存储会商日的第六期或多或少提到的,同时在Coho office的一系列活泼的博客日记中提出来的论点。我还阐明了现今存储技术方面正在发作的某些明显的技术改造,特别是如今三种大量运用的固态存储的衔接方法(SATA/SAS SSDs,PCIe/NVMe和NVDIMM),它们每种的用度和功能都差异十分大。

因而,为了取得优良的功能,即使不运用磁盘,存储系统依然需求运用多种介质,完成混杂存储。我发明这就是"混杂存储“和"全闪存阵列"(AFA)被曲解的缘由。对依然运用磁盘做存储者来讲,混杂存储系统并非一个便宜存储系统,它只是一个把更多的钱破费在寄存抢手数据的高功能存储上的一种存储框架。与此相似,全闪存阵列(AFA)也能够由三个(或许更多)种存储介质组合而成,这也是混杂存储。

Coho的存储栈不断不时地监督和描画任务负载,并恰当地分派存储以进步功能,同时报告请示你所运转的使用的任务功能。不久前,我们在顶级系统研讨集会上宣布了使人冲动的新算法。假如你想了解更多,(上面链接处)我的存储会商日展现提要地引见了任务负载监控和主动分级设计,即分层设计。

非平均散布无处不在。恰是因为帕雷托的察看,各类类型的系统设计才得益于集中力气尽量高效地做最盛行的工作如许的理念。相似如许的设计也使得高速公路和乡下公路设计、中间城市交通系统设计、互联网中心路由设计和 很多Netflix入门级系列课程设计上都有所分歧。存储系统也不破例,并且建立存储系统需求细心地对任务负载呼应实行剖析,如许才干准确地断定存储范围,适应存储任务区的特征。

开头语:

  1. 这篇文章最顶真个图片是一张旧的挖苦斯科特纸巾贸易公司的图片。其社交网页上对其的评论。

  2. 十分感激Jake Wires和Stephen Ingram,他们投入了大量的任务对这篇文章所采取的数据实行跟踪收集、处置和剖析。这儿实行的大量剖析是对Coho的Counter Stack引擎查询后失掉的后果。还要感激Stephen协助开发和调试了界面功用,它运用了由Mike Bostock开发的优良的D3js库


本文中的一切译文仅用于进修和交换目标,转载请务必注明文章译者、出处、和本文链接。 2KB翻译任务按照 CC 协议,假如我们的任务有进犯到您的权益,请实时联络我们。


2KB项目(www.2kb.com,源码交易平台),提供担保交易、源码交易、虚拟商品、在家创业、在线创业、任务交易、网站设计、软件设计、网络兼职、站长交易、域名交易、链接买卖、网站交易、广告买卖、站长培训、建站美工等服务

  • 全部评论(0)
资讯详情页最新发布上方横幅
最新发布的资讯信息
【计算机/互联网|】Nginx出现502错误(2020-01-20 21:02)
【计算机/互联网|】网站运营全智能软手V0.1版发布(2020-01-20 12:16)
【计算机/互联网|】淘宝这是怎么了?(2020-01-19 19:15)
【行业动态|】谷歌关闭小米智能摄像头,因为窃听器显示了陌生人家中的照片(2020-01-15 09:42)
【行业动态|】据报道谷歌新闻终止了数字杂志,退还主动订阅(2020-01-15 09:39)
【行业动态|】康佳将OLED电视带到美国与LG和索尼竞争(2020-01-15 09:38)
【行业动态|】2020年最佳AV接收机(2020-01-15 09:35)
【行业动态|】2020年最佳流媒体设备:Roku,Apple TV,Firebar,Chromecast等(2020-01-15 09:31)
【行业动态|】CES 2020预览:更多的流媒体服务和订阅即将到来(2020-01-08 21:41)
【行业动态|】从埃隆·马斯克到杰夫·贝佐斯,这30位人物定义了2010年代(2020-01-01 15:14)
联系我们

Q Q: 7090832

电话:400-0011-990

邮箱:7090832@qq.com

时间:9:00-23:00

联系客服
商家入住 服务咨询 投拆建议 联系客服
0577-67068160
手机版

扫一扫进手机版
返回顶部