维塔斯科技

 找回密码
 立即注册
楼主: i3s6d2f
打印 上一主题 下一主题

关于非企业磁盘做阵列RAID5的危险性讨论

[复制链接]

该用户从未签到

60

主题

430

帖子

940

积分

高级会员

Rank: 4

积分
940
11#
发表于 2016-3-29 20:30:39 | 只看该作者
普通SATA硬盘没有限时差错恢复技术。很容易掉线的。

回复 支持 反对

使用道具 举报

该用户从未签到

49

主题

393

帖子

851

积分

高级会员

Rank: 4

积分
851
12#
发表于 2016-3-29 20:30:40 | 只看该作者
同意楼主说的 因为我也计算过这个问题
假设现在有10^14bit数据要做校验回复 我们虽然不能说这一次校验过程肯定会至少出现一个错误 但我们可以计算一个错都不出的概率
((n-1)/n)^m
n是硬盘的BER值 m是校验的数据总量
这个值在m与n在一个数量级的时候 大约是36% n比m大一个数量级时大约是90%
就是说 用普通硬盘 做一次大约12T数据的全盘校验 每三次会有两次失败
简直危险到爆

回复 支持 反对

使用道具 举报

该用户从未签到

50

主题

351

帖子

776

积分

高级会员

Rank: 4

积分
776
13#
发表于 2016-3-29 20:30:40 | 只看该作者
想想之前做项目,300GB*400块盘的存储,化50个RAID5 LUN,只有4块热备盘,居然安全跑了4年无故障,也是万幸了

回复 支持 反对

使用道具 举报

该用户从未签到

67

主题

398

帖子

879

积分

高级会员

Rank: 4

积分
879
14#
发表于 2016-3-29 20:30:41 | 只看该作者

叫法不一样,但具有类似功能磁盘基本是为RAID而设的,其分类是属于企业盘(或者叫NAS)。

回复 支持 反对

使用道具 举报

该用户从未签到

58

主题

399

帖子

876

积分

高级会员

Rank: 4

积分
876
15#
发表于 2016-3-29 20:30:41 | 只看该作者
根据相关网站的公式和我设想,修改一下公式(可能有错):

BER(SATA)=10^14(估计有50%)=10TB(按硬盘厂家容量计算)
那么当100%时,BER=20TB

以3D+1P为例RAID5阵列(每个磁盘容量为4TB),发生1D掉线时,磁盘数据使用达到50%(2TB)

20TB/3/2TB=3.33

就是说当重组次数为4的时候,100%会出现BER。相反企业级硬盘可以提高一个级量(33.3次)。

一般家用硬盘质保为三年,就是说三年你只有三次机会重建。
如果是厂家推出产品的话,每生产3.33个就会有这种故障,所以存储厂家会采取RAID6的策略。



回复 支持 反对

使用道具 举报

该用户从未签到

77

主题

496

帖子

1087

积分

金牌会员

Rank: 6Rank: 6

积分
1087
16#
发表于 2016-3-29 20:30:41 | 只看该作者
虽然没能完全掌握,但是楼主的基本思想已经表达出来了。

BER是数位错误率(当然是设计上的,而且是仅当硬盘工作于极理想状况下的平均错误率),上面关于Sata和SAS盘的BER估计是设计参数,这个间接说明了两种磁盘的应用目的是不一样的。不过实际的BER会因为环境以及多种其他因素的共同作用而提高(而且这种提高也往往反映到硬盘上面去,因为数据不久存储在硬盘中吗)。
特别需要说明的是,基于统计的结论,对于单个样本是没有太大的意义的,这就是我们普通用户的硬盘一旦损坏数据就全部完蛋的现象吧。所以大家看这类文章的时候,要站在企业级的应用场景下。

从上述分析来看,普通的Sata硬盘在阵列方面的表现是并不如人意的。也可以理解为,这类Sata硬盘并不足以支持Raid这种企业级的应用(或者说如果应用到Raid中时,会成为一个非常薄弱的环节),基本上可以认为就是为单盘独立运行而设计的。而SAS硬盘由于设计质量水平较高,应用到Raid环境下时,其质量水平能够支持Raid整个系统的运行。

最后,楼主推荐的存储池结构和形态也是针对不同的机型(可以理解为设备水平)以及不同的存储类型(也可以理解为数据安全和性能的综合需求)下的推荐的冗余阵列方式。当然了,作为企业级的应用——对于普通的民用的产品——还是一贯的烧钱的

回复 支持 反对

使用道具 举报

该用户从未签到

68

主题

463

帖子

1012

积分

金牌会员

Rank: 6Rank: 6

积分
1012
17#
发表于 2016-3-29 20:30:42 | 只看该作者

很高兴你能明白我的观点。
BER的产生还要受到后期使用环境的影响(例如供电、温度、震动、工作时间、工作强度等),在环境良好的中心机房中尚且建议使用RAID6,间接证明专业的存储厂家已经重视该问题的严重性。

其实企业硬盘还有个技术叫TLER,是防止由于HDD发现不良区块时,做ECC纠正而导致超时,引致磁盘离线。一般的SATA没有这个功能,有上述原因导致的离线率比企业高,这也是做阵列的隐患。


回复 支持 反对

使用道具 举报

该用户从未签到

64

主题

493

帖子

1066

积分

金牌会员

Rank: 6Rank: 6

积分
1066
18#
发表于 2016-3-29 20:30:42 | 只看该作者
直接R1了,反正现在硬盘容量大,还是数据比较重要...

回复 支持 反对

使用道具 举报

该用户从未签到

56

主题

425

帖子

924

积分

高级会员

Rank: 4

积分
924
19#
发表于 2016-3-29 20:30:42 | 只看该作者
我之前用5块2t做zfs z1 可以看我之前的帖子,我一周一次数据巡检,没有发现重建,当然盘也不是全满,包括后来的h700p阵列卡4块东芝3t也没发生。希捷2t  x5 r5阵列因为硬盘质量问题 重建过2次,也没搞事情惠普p410i阵列卡。

回复 支持 反对

使用道具 举报

该用户从未签到

61

主题

423

帖子

925

积分

高级会员

Rank: 4

积分
925
20#
发表于 2016-3-29 20:30:43 | 只看该作者

这技术有的很多了,不是当年。一直唱r5不安全。那么r5和单盘比,你觉得哪个安全?r1成本高,r6盘多,不考虑,本身安全就比5高一级。 论坛的误区不是不知道r5的缺陷,是一堆人说r5不如单盘,我就很想知道如果单盘挂了数据就不要?

回复 支持 反对

使用道具 举报

发表回复
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

    移动客户端:
    关注我们:
  • 手机客户端:
  • 安卓版
  • 扫描二维码下载

Archiver|手机版|邢台网云科技有限公司 ( 冀ICP备16008275号 )

快速回复 返回顶部 返回列表