[074]Ch1-Introduction of Fault Tolerant Computing

#ScalersTalk每日一议# 20180618

[074]Ch1-Introduction of Fault Tolerant Computing

Outline

  • Motivation of fault-tolerance

  • Dependability

  • Fault model

  • Basic approaches to redundancy

Motivation of fault-tolerance

  • 對於有些系統,他的維修成本非常高,而且無法及時地修復,例如:在外太空的衛星、在極地的偵測氣候儀器

  • 或是說,有些系統有high availability, 像是銀行,得處理大量的金融交易

Dependability

  • 再討論fault model前,講義提到很多衡量dependability的相關特性,像是availability, reliability, security, integrity, 而讓我印象深刻地是"reliability"的描述,在interval of time內,系統是否能正常地運作,而這個特性也帶出,Mean time to failure (MTTF)的描述,往後的章節會討論TMR v.s Simplex的差別。

  • 另外,Smart Maintenance via Dynamic Fault Tree Analysis- A Case Study on Singapore MRT System,也帶出用"MTTF"來描述該DFA解法的衡量,使得Singapore的鐵路系統,能用sub-system level層面做Maintenance的判斷。

Fault model

  • 分為軟體、物理、功能性的層面,此章節多數是以邏輯閘介紹,ex.用stuck-at model來做input/output的解釋,

  • 並且,帶出fault/error/failure的差別,《software Engineering》有提到這點,而在此是講述硬體的例子,期末考也有這題。

Basic approaches to redundancy

  • redundancy分類為兩種性質,一是dynamic, 二是static, 前者能夠detect/locate fault, 後者是做到mask out effects of fault immediately

  • 而Basic approaches to redundancy又有四種分類:time, information, software, hardware, 令我印象最深的是ECC code,屬於“information&static”的種類,這部分是我報告的內容。

Last updated

Was this helpful?