熱門關(guān)鍵詞: 聯(lián)樂 宇瞻工業(yè)級TF卡 工業(yè)閃存卡品牌 固態(tài)硬盤品牌
企業(yè)環(huán)境復(fù)雜多變,快速增長的業(yè)務(wù)需求使得企業(yè)在數(shù)據(jù)存儲規(guī)模、存儲性能和可靠性等多方面提出了越來越高的要求。SSD固態(tài)硬盤憑借極高的讀寫性能、極低延遲成為越來越多企業(yè)的首選解決方案,并在數(shù)據(jù)庫、虛擬化、應(yīng)用加速、大數(shù)據(jù)、云計算乃至人工智能等領(lǐng)域發(fā)揮重要作用。企業(yè)級SSD往往需要在高并發(fā)、大壓力、24小時全天候運行的嚴(yán)苛環(huán)境下運行,其可靠性是企業(yè)級用戶的重點關(guān)注之一。
可靠性指的是一個部件或系統(tǒng)在規(guī)定的操作條件下,在特定的時間內(nèi)繼續(xù)執(zhí)行其預(yù)定功能的能力。對企業(yè)級SSD而言,它是非常重要的一項指標(biāo),不僅直接決定產(chǎn)品出貨的良率、故障率等核心指標(biāo),而且對數(shù)據(jù)可用性、一致性的保護(hù),也起著關(guān)鍵作用。
SSD的“可靠性”通常以MTBF量化衡量。MTBF全稱Mean Time between Failures,平均故障間隔時間,即產(chǎn)品在總的使用階段累計工作時間與故障次數(shù)的比值。它反映了產(chǎn)品的時間質(zhì)量,產(chǎn)品故障越少,MTBF越高,產(chǎn)品可靠性也就越高。
與消費級SSD產(chǎn)品相比,企業(yè)級SSD在可靠性方面面臨更高挑戰(zhàn)。根據(jù)OCP(Open Compute Project)給出的建議,部署于數(shù)據(jù)中心的企業(yè)級SSD MTBF平均故障間隔時間要在2,000,000小時,也是目前企業(yè)級SSD奉行的標(biāo)準(zhǔn)。但是,MTBF是需要實際跑測驗證的,不能憑空而來。按照傳統(tǒng)方法,要完成多次200萬小時的驗證顯然不可能。那么,這長達(dá)200萬小時的平均故障間隔時間,又是如何得到的呢?
答案是基于一定樣本量,在一定時間段內(nèi)通過加速因子加速(如寫入量加速、運行環(huán)境溫度加速)進(jìn)行統(tǒng)計推斷。過程模擬典型用戶場景,通過實測驗證理論值,提前驗收產(chǎn)品質(zhì)量。嚴(yán)謹(jǐn)?shù)呐軠y驗證將直接決定MTBF“可靠性指標(biāo)”是否真的可靠。
和大部分電子產(chǎn)品一樣,SSD同樣符合浴盆曲線(失效率曲線)特性,它分為三個關(guān)鍵時期:
早期失效期(Infant Mortality)
產(chǎn)品在剛生產(chǎn)好并加電使用時,因良率等因素會導(dǎo)致其失效率較高。為保證交付到客戶手上的SSD符合企業(yè)級可靠性標(biāo)準(zhǔn),企業(yè)級SSD廠商會對所有生產(chǎn)線上的產(chǎn)品進(jìn)行一定時長的老化跑測,以最大程度暴露產(chǎn)品可能的早期失效,保證客戶拿到的產(chǎn)品不存在早期失效問題。
偶然失效期(Random Failures or Normal Life)這一階段對應(yīng)正式出貨產(chǎn)品,產(chǎn)品失效率較低,且較穩(wěn)定。產(chǎn)品可靠性指標(biāo)MTBF所描述的就是這個時期,即產(chǎn)品的穩(wěn)定使用階段。
磨損期(Wearout Phase)
該階段因產(chǎn)品磨損、老化等因素,其失效率會隨時間的延長而呈指數(shù)級增加。此時SSD宣稱壽命已經(jīng)結(jié)束,雖可繼續(xù)使用,但壞塊會隨著PE的增加而加速上升,SSD的有效預(yù)留空間(OP)逐漸消耗殆盡,設(shè)備失效率提高。對企業(yè)級SSD而言,進(jìn)入磨損期的產(chǎn)品已不建議繼續(xù)使用。
在MTBF之外,你可能還聽過另外一個可靠性描述的詞——MTTF。對于一個可維護(hù)的設(shè)備來說,MTBF = MTTF + MTTR,三者關(guān)系如下:
MTTF (Mean Time To Failure,平均失效時間):指系統(tǒng)兩次失效的平均時間,取所有從系統(tǒng)開始正常運行到發(fā)生故障之間的時間段的平均值。MTTF =∑T1/ N;
MTTR (Mean Time To Repair,平均修復(fù)時間):指系統(tǒng)從發(fā)生故障到維修結(jié)束之間時間段的平均值。MTTR =∑(T2+T3)/ N;
MTBF (Mean Time Between Failure,平均無故障時間):指系統(tǒng)兩次故障發(fā)生之間(包括故障維修)時間段的平均值。MTBF =∑(T2+T3+T1)/ N。
因為MTTR通常遠(yuǎn)遠(yuǎn)小于MTTF,所以MTBF近似等于MTTF。
Ai 為 SSD i 的加速因子;
ti 為 SSD i 的測試時間;nf 為出現(xiàn)故障 SSD 的數(shù)量;
a 為置信度(confidence limit,60%);x2 為卡方分布(chi-squared distribution)。
上述等式中的加速因子通常分為3類:
未加速因子:A=1,通常用于固件故障;
TBW(Total Bytes Written)加速因子 :通過增加數(shù)據(jù)寫入強(qiáng)度進(jìn)行壽命加速;
溫度加速因子 :通過升高測試環(huán)境溫度進(jìn)行故障出現(xiàn)加速。
TBW (Total Bytes Written) 加速因子
TBW是SSD壽命單位,以壽命為1.5 DWPD,用戶容量3.84TB PBlaze6 SSD為例,其5年總的數(shù)據(jù)寫入量(也就是現(xiàn)場部署寫入量field)為10.5 PB,對應(yīng)每天數(shù)據(jù)寫入量為5.76 TB。如果增加每天的數(shù)據(jù)寫入量(加速寫入量stress),相當(dāng)于加快消耗SSD壽命,可以加速故障出現(xiàn)。TBW加速因子計算方法如下:
假設(shè)一個用戶容量為100G的SSD,其產(chǎn)品規(guī)格書定義SSD壽命為175TBW,典型使用場景下可使用5年(43800個小時)。其在1008小時內(nèi)寫入130TB的數(shù)據(jù),寫放大為1.2,則TBW加速因子為32,如果短時間內(nèi)寫入更多數(shù)據(jù),則TBW加速因子也會相應(yīng)提升。
溫度加速因子
NAND因其固有特性,數(shù)據(jù)保持力會隨著溫度的升高而降低。阿倫尼烏斯公式(Arrhenius Equation)指出,在室溫 40℃ 下SSD放置 1 年(8670個小時),相當(dāng)于在 85℃ 的老化室中放置 52 個小時。
JESD 22-A108定義了溫度隨時間對SSD的影響,執(zhí)行高溫運行壽命(HTOL,High Temperature Operating Life)測試,可確定長時間高溫條件下SSD運行的可靠性。協(xié)議規(guī)定,如果沒有特殊要求,SSD需在 125 °C 的結(jié)溫壓力下測試。但企業(yè)級SSD一般會設(shè)計高溫保護(hù)邏輯,防止溫度過高造成NAND數(shù)據(jù)保持力下降和元器件的損壞,所以SSD的實際工作溫度不會達(dá)到125℃。
對于溫度加速因子,計算方法如下:
T? 為測試加速溫度。
MTTF計算示例
假設(shè)樣本量為 400,測試時間為 1008 小時,加速因子Ai = A(TBW) * A(T) 為10,失敗的數(shù)量為0,置信度為60%,則 MTTF = MTBF = 4,400,000小時。
注意,MTBF是和溫度嚴(yán)格相關(guān)的。這一點在OCP Datacenter NVMe? SSD Specification中也有提到:
MTBF 2,500,000小時(AFR≤0.35%),對應(yīng)的SSD運行溫度為0℃~50℃;
MTBF 2,000,000小時(AFR≤0.44%),對應(yīng)的SSD運行溫度為0℃~55℃。
但理論和現(xiàn)實總是有差距的?,F(xiàn)實中產(chǎn)品意義上的MTBF測試,很難達(dá)到10倍的加速因子,TBW加速因子僅能用于測試NAND顆粒的壽命,實際測試中還需要考慮電路和物理接口等硬件部分的可靠性。而這部分,只能靠溫度來加速。實際操作中,MTBF=200萬小時的測試,需要至少用2000片樣品在加速因子作用下,跑滿1000小時以上。除了MTBF指標(biāo),還有其他可靠性量化表征指標(biāo),如故障率λ(Failure Rate)和年化故障率AFR(Annualized Failure Rate),其中AFR和MTBF又可以相互轉(zhuǎn)化。
故障率λ:SSD關(guān)鍵元器件選型時,需要確保每個元器件的故障率 λ 達(dá)標(biāo)。相比故障率指標(biāo),MTBF的定義更加直接,也更適用于表現(xiàn)系統(tǒng)級的可靠性;
AFR:年化故障率,可以更好地了解在任何一年中發(fā)生硬盤故障的幾率。
MTBF 和 AFR轉(zhuǎn)化公式如下:MTBF 和 AFR 的數(shù)值對應(yīng)關(guān)系如下:
企業(yè)級SSD產(chǎn)品可靠性MTBF ≥ 2,000,000小時(@55℃),換算為年化失效率AFR ≤ 0.44%,對應(yīng)FFR(Functional Failure Requirement,SSD在整個磨損壽命時間范圍內(nèi)累積的功能失效率,以5年保修期為參考)≤2.2%。
Memblaze全系列企業(yè)級SSD均按照2,000,000小時MTBF @55℃ /2,500,000小時MTBF@50℃為標(biāo)準(zhǔn),滿足55℃/50℃環(huán)境下7×24小時穩(wěn)定不間斷運行要求、40℃環(huán)境下數(shù)據(jù)至少3個月斷電保持能力以及低于1E-17的UBER不可修復(fù)錯誤率。
Memblaze自研測試平臺Whale系統(tǒng)
在數(shù)據(jù)可靠性技術(shù)領(lǐng)域,Memblaze自研了MemSolid 技術(shù)集,以保證企業(yè)級數(shù)據(jù)的一致性和可靠性。通過全路徑數(shù)據(jù)保護(hù)、LDPC軟判決解碼糾錯技術(shù)、元數(shù)據(jù)跨Channel備份保護(hù)、Die間動態(tài)RAID5恢復(fù)壞塊數(shù)據(jù)機(jī)制,以及重讀保護(hù)和過溫保護(hù)等技術(shù),實現(xiàn)了PBlaze可持續(xù)的數(shù)據(jù)一致性保護(hù),保障企業(yè)關(guān)鍵業(yè)務(wù)數(shù)據(jù)資產(chǎn)始終處于安全可靠的存儲環(huán)境中。
為確保出廠的SSD產(chǎn)品能夠滿足MTBF的標(biāo)準(zhǔn),Memblaze運用十余年在固態(tài)硬盤領(lǐng)域的經(jīng)驗積累,以及對用戶實際應(yīng)用的理解,自主研發(fā)出MTBF測試平臺 —— Whale系統(tǒng)。
它參照J(rèn)EDEC標(biāo)準(zhǔn)打造,適用于PCIe SSD的研發(fā)(DVT)、環(huán)境應(yīng)力(EST,Environmental Stress Test)、數(shù)據(jù)保持力、生產(chǎn)(老化,ORT,Ongoing Reliability Testing)、RDT等測試。Whale系統(tǒng)預(yù)置了最接近客戶真實使用場景的測試案例,采用合理的加速因子對RDT階段產(chǎn)品進(jìn)行長時間跑測,成為產(chǎn)品量產(chǎn)前的質(zhì)量保障。
根據(jù)Memblaze的出貨量和實際故障率統(tǒng)計,PBlaze系列SSD的實際累計產(chǎn)品失效率(CFR,Cumulative Failure Rate)遠(yuǎn)低于標(biāo)稱的年化故障率。
經(jīng)過十幾年在SSD行業(yè)的深耕打磨,Memblaze 已經(jīng)形成從芯片、軟件、硬件、生產(chǎn)、出貨等各個環(huán)節(jié)的嚴(yán)密設(shè)計和嚴(yán)格的質(zhì)量管控體系,能夠保證PBlaze系列企業(yè)級固態(tài)硬盤為客戶提供卓越的可靠性,也極大降低了客戶系統(tǒng)運行開銷(OPEX)和總體擁有成本(TCO),而Memblaze也將繼續(xù)以匠心精神,不斷打磨,不負(fù)所期!
本文標(biāo)簽: 揭秘:SSD的“可靠性”到底可不可靠