空间管理 您的位置: DOIT博客 » Host » 日志
与其临渊羡鱼,不如坐而论钓

DS8000红皮书(part24)

上一篇 / 下一篇  2006-10-08 10:00:40 / 天气: 晴朗 / 心情: 高兴 / 个人分类:杂项

4.2 Processor complexRAS

p5 570DS8000体系架构中一个完整的部分。他被设计提供一套广泛的高可靠性、高可用性和高可服务性(RAS)特性,并且包括改善的故障隔离、不停顿Processor complex从错误中恢复,避免故障复发和预故障分析。

iG d.[5I B n8n2Q0

高可靠性,高可用性和高可服务性(RASDOIT博客G!qp2l(H] }S

IBM p5固有的设计和制造工艺的卓越品质和可靠性被应用在所有方面。设计基本目标是将停机减至最小。RAS特性帮助保障系统完成可靠性和有效的控制任何有可能出现的失效。这是通过硬件,AIX5L,和为DS8000量身打造的RAS代码共同达到的。下面的章节更加详细的描述了IBM Server p5系统RAS领先性特性。DOIT博客\(P!~l i1JB

免错Fault avoidanceDOIT博客`i.D\k]

POWER5系统被建造去保护不断的发生的错误。这些基础品质设计包括例如电源消耗和冷却器操作温度增加的可靠度,使用铜芯片线路,SOI(绝缘硅),以及动态时钟控制特性。它也使用了从大型机得到灵感的零件和技术DOIT博客 b"oWoW8\

最初故障数据捕获First Failure Data CaptureDOIT博客,[ lG#\D:mJ'}

如果一个问题将要发生,有能力去准确的诊断是一个在改进可用性之上的根本的需要。p5 570具有启动诊断和运行时FFDC的高级功能。这些功能是基于芯片自带的错误检查能力DOIT博客 Q#Ty3I}p;RK

任何错误通过深入的故障检查被捕获,放入将被服务处理器(SP)询问的故障隔离寄存器Fault Isolation Registers (FIRs)SPp5 570中具有使用专门目的的处理器端口访问系统零件,或通过访问故障寄存器的能力。DOIT博客;w'u~6IY

FIR是非常重要的,因为它们能够独特的识别一个错误,因而能够采取适当的动作。适当的动作可能包括一个总线的重试,ECC(故障校验和修正),或者系统系统firmware恢复测试。恢复测试能够包含动态解除潜在失效零件的分配。

(u;\&O9Q[/Rh)j*qVy8q0

错误会被记录在NVRAMSP历史记录里,同时会有一个发通知事件给AIX,所以在操作系统的错误日志里也是会有记录。诊断错误记录分析(diagela)例行测试分析错误记录条目,调用一个适当的操作,例如发出一个警告信息。如果错误能够被修复,或者在适当的操作之后,服务处理器复位FIR以便它们能准确的记录未来任何错误。

&w ]+] r8_9VUq0

准确的诊断任何挂起或确定的错误的能力是一个关键的需求,在任何动态或固定的零件重新分配或任何其他重新配置发生之前。DOIT博客Tu7u8^M

永久性监控Permanent monitoringDOIT博客$q)W'zW'@!S&W

包含在p5 570SP提供了一种方式去监控系统,即使当主要主要处理器不能工作。在下一小部分提供了更多在p5 570上监控功能详尽的描述。

r'U O6vOIO`0

彼此监视Mutual surveillanceDOIT博客 D4s z:Q$mu$B7E3o

SP能监控firmware的操作在启动过程中,以及他能监控失去控制的操作系统。这使得SP采取适当的动作,当它发现firmware或操作系统失去了控制。彼此监视也使得操作系统监控SP活动,以及如果必要的话能够请求1SP修复动作。DOIT博客WDG:} y-{

环境监测Environmental monitoring

,^"d1j^#g"MMk.V0

环境监测涉及到电源、风扇和温度通过SPCN执行。环境临界的和非临界的条件发生初期电源关闭警告Early Power-Off Warning (EPOW)事件。临界事件(例如,一个5类交流电源失效)引发适当的信号从硬件到受影响的部件,在没有操作系统或firmware介入下来防止任何数据丢失。非临界环境事件被记录和报告使用事件扫描。操作系统不能使用SP规划或访问温度阀值。DOIT博客{yO*F.J(z|-N5T

温度监控也是执行的。如果周围的温度达到在预制的操作范围之上,冷却风扇能够加速运转速度。温度监控也会警告潜在的与环境相关的问题在内部微码上。系统一个顺序停机将要在操作环境温度超过一个临界水平时发生。DOIT博客n z#lwa/kK"\

电压监控提供了警告,并且一个顺序停机将要在电压超出操作规定时发生。DOIT博客b*| Pb,r q+|T!S

自修复Self-healing

~v@X&c0

对于一个系统的自修复,它必须能够从一个失效的部件通过首先检测和隔离恢复回来。它应该在当时将部件离线,修理或隔离它,并且然后通过维护再次修复或替换零件,而没有任何应用程序中断。例如包括:DOIT博客(Y8vW)e@,E C)mw

Ü       对于一个内存模块失效的事件,有位bit控制功能的冗余内存来保证服务器运作。

GpJ$NE?d0

Ü       位扩散Bit scattering,因而允许在完全芯片失效时错误修正和继续工作(Chipkill™ recovery)。DOIT博客 kHB3g F5n

Ü       一个位Single-bit错误修正使用ECC,对于主、L2L3 Cache内存没有达到错误阀值时。

.Z7j%dj5x7qs j tn0

Ü       L3 cache线删除了延伸的从210的另外的自修复。

C/hh LE"h*Y(x?#m0

Ü       ECC延伸到芯片内部连接光纤和处理器总线。DOIT博客k.|~ k(j P+L;Y+i

Ü       内存清洗Memory scrubbing帮助预防内存软错误(soft-error)故障DOIT博客A{ y6alh^ lf'Z,p/f

Ü       动态处理器重新分配DOIT博客5wuH[;_N#c

内存可靠性,故障容错度和完整性

\-_wsR g)~ il`0

p5 570系统内存使用错误校验和修正Error Checking and Correcting (ECC)线路,校正一个位的内存错误和监测双位。监测双位内存故障帮助维护数据完整性。此外,内存芯片被组织成任意一个内存模块失效只会影响到一个位,在一个4ECC命令(bit-scattering),因而允许错误修正和继续操作在完全芯片失效时(Chipkill™ recovery)。DOIT博客A+o4w hk.b&[:em

内存DIMM也利用内存清洗scrubbing和阀值来决定什么时候内存模块在各个内存需要被替换超出了错误数量阀值的部分。内存清洗是在内存空闲的时间读内容,校验和修正经由ECC逻辑的积累的数据所有single-bit错误。这是一个内存控制芯片的硬件功能,不会影响系统内存的性能。DOIT博客M u D#J)Q\7Am

N+1冗余

|4PV e^5V)L0

下面逐一的列出了允许p5 570用所有的资源保持运行使用的冗余部件:

x4bc)`;\"o c`0

Ü       冗余备用内存位在L1L2L3和主内存中

(m/N&koxv0

Ü       冗余风扇

|xC vI0

Ü       冗余电源DOIT博客??aqF t~0~)]

故障屏蔽Fault maskingDOIT博客3E5XV!q6\L_2a6U8g

如果校正和重试成功并且不超过阀值限制,系统将保持运行在全部资源下,没有顾客或IBM服务代表干涉需要。DOIT博客1U^y%H8^*xm0lEz

资源重新分配Resource deallocation

9d:~#zK8F0

如果可恢复的错误超过阀值限制,资源能够被重新分配用于系统剩余的运行,允许等到在适宜的时间延缓维护。

+h3O7Q;fCb wu0

动态重新分配可能的损坏部件是不需要中断的,允许系统继续工作。持久的重新分配发生在一个故障部件被找到后;它会在一次重新启动后被释放。

,]2e~p!WX+A0

动态重新分配功能包括:DOIT博客 r h$_(kr

Ü       处理器

c ?3o xoK0

Ü       L3 Cache LineDOIT博客I^ t0p s%uL'i-|

Ü       部分L2 Cache重新分配

7mo R:^3u2zh0

Ü       PCI-X总线和插槽DOIT博客-aG#Ak8N0uW

持久的重新分配功能包括:DOIT博客D(IgFi.k]

Ü       处理器DOIT博客a%z1m*edm4X

Ü       内存DOIT博客Idm{'Z#wu0m

Ü       Deconfigure或旁路失败I/O适配卡

$X*M7s Ta7Y0

Ü       L3 CacheDOIT博客-D/^\ a0UK lv/R

如果服务处理器有发现硬件错误,那机器在重起的时候会进行全面的诊断。如果处理器或者L3内存已经被持续处理器的资源免除功能确认为没有正常配置,那在机器在重起过程中会忽略那些设备。不能正常工作的I/O卡会被洗去配置或者忽略。DOIT博客1G_I s4t!~eV"W/c3P

同时维护Concurrent MaintenanceDOIT博客cZh9Jf {

Concurrent Maintenance提供了在processor complex还在运行的时候替换下列部件的能力:DOIT博客ACs4r3C}6c-L

Ü       硬盘DOIT博客S#I[y*w*TG

Ü       冷却风扇

!q;Nt ? O5\zO0

Ü       电源子系统DOIT博客Y x~U&d#k

Ü       PCI-X适配卡DOIT博客x*LY UO#n?M Qh!j


TAG: DS8000 红皮书 杂项

 

评分:0

我来说两句

显示全部

:loveliness: :handshake :victory: :funk: :time: :kiss: :call: :hug: :lol :'( :Q :L ;P :$ :P :o :@ :D :( :)

Open Toolbar