天极IT资讯短信服务 电脑小技巧
|
介绍:细处着手,巧处用功。高手和菜鸟之间的差别就是:高手什么都知道,菜鸟知道一些。电脑小技巧收集最新奇招高招,让你轻松踏上高手之路。 | |
二、硬件在线诊断技术
硬件在线诊断技术主要包括热插拔技术、内存保护、内存检查和纠错技术、内存镜像技术,内存热添加/交换技术、活动PCI技术,活动诊断技术等,下面我们分别介绍。
1. 热插拔技术
热插拔技术就是指有些部件可以在系统带电的情况下对部件进行插、拨操作。这非常重要,因为有时我们发现一些部件已损坏,但因为提供了硬件冗余,所以系统仍能继续保持良好运行。损坏的设备需要更换下来,这时如果这些硬件不支持热插拔技术,则必须关掉服务器的电源才能进行,这样就会严重影响服务器所管网络的正常长期不间断运行。一般来说具有热插拔性能的硬件主要有:硬盘、CPU、RAM、电源、风扇、PCI适配器、网卡等。
2. 内存查纠错技术
服务器中的内存我们知道一般来是采用带有ECC技术的,ECC的英文全称是“ Error Checking and Correcting”,中文名为“错误检查和纠正”,从这个名称就可以看出它的主要功能就是“发现并纠正错误”。
ECC比以前的奇偶校正技术更先进的方面体现在它不仅能发现错误,而且能纠正这些错误,这些错误纠正之后计算机才能正确执行下面的任务,确保服务器的正常运行。但要注意的是它不是一种内存型号,是一种内存技术,不仅以前的EDO内存可以有、SD内存也可有,现在主流的DDR内存同样可以有。那是因为并不是一种影响内存结构和存储速度的技术,它可以应用到不同的内存类型之中,就象我们在前讲到的“奇遇校正”内存。但ECC技术只能纠正单比特的内存错误,IBM还有一种更先进的特殊内存纠错技术,那就是ChipKill内存技术。
Chipkill内存最初是由20年前的IBM大型机发展过来的,ChipKill最初是为美国航空航天局(NASA)的“探路者”探测器赴火星探险而研制。它是IBM公司为了解决目前服务器内存中ECC技术的不足而开发的,是一种新的ECC内存保护标准。
ECC内存可以同时检测和纠正单一比特错误,但如果同时检测出两个以上比特的数据有错误,则一般不能纠正。但随着基于Intel处理器架构的服务器的CPU性能在以几何级的倍数提高,而硬盘驱动器的性能同期只提高了5倍,因此为了获得足够的性能。服务器需要大量的内存来临时保存在CPU上读取的数据,这样大的数据访问量就导致单一内存芯片上每次访问时通常要提供4(32位)或8(64位)比特以上的数据。一次性读取这么多数据,出现多位数据错误的可能性会大大地提高,而ECC又不能纠正双比特以上的错误,这样就很可能造成全部比特数据的丢失,系统就很快崩溃了。IBM的Chipkill技术是利用内存的子结构方法来解决这一难题。
Chipkill技术内存子系统的设计原理是这样的,单一芯片,无论数据宽度是多少,只对于一个给定的ECC识别码,它的影响最多为一比特。举个例子来说明的就是,如果使用4比特宽的DRAM,4比特中的每一位的奇偶性将分别组成不同的ECC识别码,每个ECC单元可单独用一个数据位来保存的,也就是说保存在不同的内存空间地址。因此,即使整个内存芯片出了故障,每个ECC单元也将最多出现一比特坏数据。这种情况完全可以通过ECC逻辑修复,从而保证内存子系统的容错性,保证了服务器在出现故障时,有强大的自我恢复能力。采用这种Chipkill内存技术的内存可以同时检查并修复4个错误数据位。