问题与挑战
某用户配置了16块1TB磁盘做RAID5,承载其在线关键业务。运行3年后,磁盘开始陆续损坏,发现其重建过程漫长。在其业务未中断的情况下,完成一次重建所需时间长达5天,这种情况还不是最糟的。更糟的是,在某次重建过程中,重建进程完成到60%时,过程被异常中止,RAID组fail,整个数据卷损坏,数据丢失。经检查发现,在重建过程中,该RAID组中的另一块磁盘发生了读错误,导致磁盘failed,被RAID组踢出。
通过这个案例可以看出几个问题:
1、磁盘属于消耗品,发生老化后,会产生潜在故障盘或假象故障盘;
2、故障盘或假象故障盘都将导致RAID组重建;
3、大容量磁盘RAID重建时间过长,重建过程风险巨大;
4、潜在故障盘将导致RAID重建失败;
随着云时代的到来,数据量越来越多,磁盘容量越来越大,发生磁盘损坏的机率也越来越高,如何解决磁盘故障对存储带来的危害成为重要课题目。
磁盘维护新方式-IDDC主动式磁盘诊断中心
基于多年存储维护经验的深刻理解,MacroSAN开发了一套可以在不增加任何附加投资的条件下,最大化提高磁盘及RAID组安全性的、智能存储磁盘维护检测修复工具,即下述的IDDC。
IDDC:Initiative Disk Diagnosis Center,主动式磁盘诊断中心
该诊断中心包含了4个模块(磁盘检测、快速修复、坏块复位、磁盘诊断),它可以通过预先设置的策略定期对磁盘进行错误检测,用于发现磁盘中是否存在错误码。再根据错误码判断磁盘错误类型,并进行相应的坏块修复、磁盘迁移或磁盘修复等操作,以提早处理磁盘潜在的故障隐患,降低RAID组重建损坏机率,提高设备稳定性。
磁盘检测:
对所有磁盘进行周期性全盘检测,提前发现故障;
支持磁盘检测速率动态调整,不影响应用性能;
发现问题的磁盘交由诊断中心统一处理;
快速复位:结合CRAID的局部重建机制,可快速修复磁盘逻辑错误,降低全盘重建机率。
坏块修复:经过检测的磁盘发现存在坏块(扇区)后,会触发磁盘自身的remap机制,将坏块的指针重定向到好的保留扇区中。然后调用RAID组的校验功能,重建该数据块,确保数据一致性。
磁盘诊断:所有告警磁盘、故障磁盘会在诊断中心进行复诊并尝试修复,减少磁盘故障误判。修复后的磁盘自动转为全局热备磁盘。[nextpage]
RAID维护新方式-CRAID
根据统计数据分析,存储系统的硬件故障90%以上是磁盘故障,而故障磁盘中,只有12%是完全的物理损坏,88%属于部分/完全可用。如果磁盘发生错误后立即被踢出阵列,一方面客户需要为100%的故障磁盘买单,另外一方面客户还需要承担故障磁盘被踢出阵列到被更换过程中其他磁盘再次故障所导致的数据丢失风险。ODSP存储软件平台在分层次、模块化设计的基础上,在多个层次上进行了磁盘错误处理,其目标是:“尽量尝试修复,尽可能减少踢盘”,以提高用户的投资回报率,提出基于Cell的RAID同步和重建技术。
Cell,称之为“细胞”,指带“活性”的数据单元,是存储资源管理的基本单位。引入Cell的概念后,资源管理层次如下图所示,在具体的实现上,首先用物理磁盘创建RAID,然后把RAID的可用空间根据指定长度(默认1GB)划分为多个Cell,创建LUN时,系统自动分配空闲Cell,破除了LUN与RAID、Disk之间的捆绑关系,使RAID的最小维护单位由原来的磁盘变成了更小更灵活的Cell,实现了完全的虚拟化存储架构。
CRAID(基于Cell的RAID)技术是宏杉科技在RAID机制上的一项创新技术。CRAID通过更精细的资源管理单元——Cell来实现对磁盘的精细化管理,不仅能有效提高系统对于磁盘故障的容忍度,减少数据处于临界危险状态的机率,而且能数倍地提升磁盘故障后的恢复效率。MS1000的CRAID技术能够做到:
1、容忍多块磁盘故障:在RAID组内,只要同一Cell内的两个数据块不同时出现故障,RAID组允许多块磁盘发生介质损坏,而数据不会丢失。借助CRAID技术既能解决传统RAID6、RAID10磁盘浪费严重的问题,降低成本,又能解决2块及以上磁盘出现介质错误导致数据丢失的问题,甚至可做到所有磁盘出现介质错误,系统和数据依然正常,极大地增强了可靠性。
2、数据重建时间减少80%:传统的RAID机制数据重建恢复过程非常漫长,尤其是2TB等大容量硬盘普及后,数据丢失风险大幅升高。据统计,在正常的监控业务流量下,2TB硬盘故障的重建恢复时间长达5天—30天。MS1000通过下述几项技术,能够减少80%-95%的数据重建恢复时间,大大提高了存储系统的数据保护能力。
•只对已写数据的Cell进行重建,空闲Cell不重建;
•只重建数据发生变化的Cell,不对整个硬盘进行重建;
•只对发生介质错误的Cell进行校验重建恢复,其它Cell通过拷贝的方式重建;
传统存储与IDDC+CRAID比较
结语
在高清视频监控迅速发展的今天,大规模、高容量硬盘的广泛部署,在满足越来越高的容量需求的同时,也面临着更高的磁盘故障率和数据丢失风险,传统的RAID机制已不能满足需求。而宏杉科技创新性提出了IDDC+CRAID技术,具备高效灵活的磁盘重建和同步策略,可容忍一组RAID5磁盘出现多块磁盘介质错误数据不丢失,同时减少80%的磁盘重建时间,大大提升了整套存储系统的可靠性。