首页 > 新闻资讯 > 极客学院
机房储存系统出现故障如何处理?
2019-10-07 14:25:43 | 来源:极客网络 | 作者:liuchuang

      机房的存储系统作为目前大数据云计算时代的根基,它的稳定才是支撑起如此海量数据的根本所在。所以各个行业对于这部分十分重视,所以在此针对存储系统的故障处置简单说一下。

      首先在处理存储系统发生的故障前,必须对于整个存储系统的架构以及原理有一定的了解。普遍来讲存储系统由服务器、交换机及存储设备组成。它们之间是直连或者是IP网络或FC网络的方式进行连接。整个系统的稳定性跟每个组成部分都息息相关的。

       其次了解故障的分类,故障分类大致分为硬件故障、配置故障或者license类问题,先外部后内部,先处理高级警告后处理低级警告,先共性后个性。
数据中心储存故障如何处理?

       面对故障的发生,第一步永远都是先进行必要的信息收集,在进行分析,对于整个存储系统的基本信息,故障信息、存储设备信息以及组网、主机服务器信息要有一定的了解。这些部分可以直接管理到主机、交换机或存储设备中进行收集,如今厂商也都有专门研发维护工具来帮助管理者做这些事情。收集清楚这些信息之后,才能对整个存储系统有一个普遍清晰的认知。至少对如今的故障可能发生原因有一个了解,然后再去到每个组成部分上排查有可能发生的问题。

1、主机层
       在主机层面很多检查是操作系统版本,相应的HBA卡是否达到合适的标准,如速率、IOPS及带宽等。其次是在主机上安装的多路径软件,查看一下与存储设备连接的物理路径的状态以及存储LUN等信息。

2、网络层
       网络层次可能发生的问题大多数是连通性问题,因为链路故障导致的丢包或者误码率上升等现象,此现象可以在交换机上观察端口的信息,观察误码率是否在持续增长,如有,则可能存在链路部件异常或接触不良的现象。其次可能是端口速率或带宽未达到标准,查看端口配置及协商状况,这些都有可能导致故障或者性能问题。

3、存储层
       存储设备可以在导出相关告警,事件或者运行数据、系统日志和硬盘日志来进一步分析可能发生故障的原因,到底是存储控制器问题还是底层的硬盘问题都需要一一排查。在底层存储方面主要考虑存储模块的配置,指示灯状态等信息,从指示灯状态我们可以分析出是否存在硬件故障等,其次在配置方面:RAID级别、分条深度、LUN读写策略、cache策略,LUN归属、硬盘类型等是否符合业务的特点以及不符合时可能导致的问题。都是需要我们在故障排查处理时需要考虑的。



最新新闻

查看更多

相关新闻

查看更多

推荐优选服务器

提供高防服务器租用、服务器托管!一站式云服务器/BGP高防/站群/免备案服务器服务平台
在线咨询
24H在线售后
11082052
24H服务热线
0769-88836624
IDC/ISP/IRCS/增值电信业务经营许可证号:粤B1-20190887
COPYRIGHT © 2010-2018 广东极客网络科技有限公司 版权所有.粤ICP备18157343号-7
极客网络专注:高防服务器,云服务器,美国服务器,香港服务器,韩国服务器,免备案服务器,BGP高防服务器服务器托管,服务器租用服务;感谢新老顾客的信任与支持!

在线
客服

客服
热线

0769-88836624
7*24小时服务热线

关注
微信

马上推出关注官方微信
顶部