此案例使用Hexagon模擬軟體: Actran、scFLOW
本篇編譯自P.54~59 Volume XV – Summer 2022 Engineering Reality Magazine
在現今這個數位時代,資料非常重要能讓世界運轉。每天有數十億的網路使用者,不斷的產生資料,而且只會越來越多。這些資料由提供儲存服務的公司或平台,儲存在擁有上百萬個硬碟的資料中心。這些硬碟和個人電腦上的硬碟相似,但是更大、更多。在那裏,多個硬碟上下疊放和排列在所謂的伺服器機架(Chassis,又稱機箱、機殼)內,而多個機架放置在一個機櫃(Cabinet)內,資料中心內有很多很多個機櫃。網路用戶從遠端存取硬碟內的資料。

(圖片來源: Engineering Reality Magazine)
然而,硬碟對振動非常敏感,而振動可能會損壞硬碟。雲端儲存公司Backblaze,曾經分析且接露,在他們安裝的20萬個硬碟中,2021年就有約1%損壞,也就是約有2000個硬碟壞掉。當然,這些需要儲存大量資料的公司,像是Google和Meta(Facebook的母公司),都備有多個硬碟來防止意外發生時的資料流失。即便如此,如果硬碟的效能衰退,儲存服務公司的業務仍然會受到衝擊。因此,這些公司都希望能改善儲存設備的設計,讓運作平順,盡可能減少振動和干擾。
在Meta,為了要最大化硬碟的效能,團隊需要確定振動機制,建立振動的重要性,進而發展可能的減振技術,最佳化機架設計,讓硬碟的振動減低到最小。帶領這個計畫的最佳化工程師-Kanwar Bhachu說:『通常,解決這種問題,需要依賴很多很多的測試。先做出機架的原型,然後和供應商一起找解決辦法。然而,我們想做的是試著看能否在設計週期的早期,藉由模擬來預測硬碟的振動,確認我們能改變什麼來控制振動的強度。』
。因此,我們選擇以模擬為基礎,執行多物理場最佳化設計(multi-disciplinary optimisation,MDO)分析,以節省時間和資源。模擬讓我們能快速、反覆的做分析,這點比單純只用測試來進行最佳化設計好。以模擬來改善設計,能給設計師或模擬分析工程師一個清楚的方向,知道要如何修改設計、該改多少。『模擬是非常有力的方法,提供我們對設計深刻的見解,有效率地解決設計週期遇到的問題』。
挑戰
Meta對硬碟的使用需求非常大,其中最重要的是硬碟需要有高生產力,也就是資料傳輸的速度不僅要快,還要非常穩定、可靠。
為了瞭解振動對硬碟效能的影響,必須先瞭解硬碟是如何運作的。當硬碟寫入和寫出資料的時後,必須快速且準確地將讀寫頭(想像黑膠唱片的唱盤和讀取探頭)放置在快速旋轉的轉盤上,甚至是在狹窄的軌道上。振動可能對這個動作有很大的影響,因為讀寫頭的移動很快且必須精準到位,任何的干擾都可能造成讀寫錯誤。
除了標稱狀態,某些特殊狀況,例如風扇壞掉時,硬碟的振動程度都需要評估。風扇對於儲存單元(放硬碟的裝置,這裡是機架)的運作很關鍵,主要是考量到熱的管理和電子零件的冷卻。
整個儲存單元有三個主要的振動源,導致硬碟效能損失:
- 冷卻用風扇的聲音負載
- 儲存單元上的風扇振動的負載,透過機架傳遞
- 硬碟自己的振動負載
在儲存伺服器機架上,風扇的主要目的就是散熱。然而,當風扇旋轉空氣流動,氣動音源造成聲壓波。這些聲波的傳遞經過空氣,然後衝擊到硬碟的側面,造成振動。在文獻中,這個振動源常被忽略,但是它可能對硬碟整體的負載有明顯的衝擊,特別是對靠近風扇那幾排的硬碟。再來,風扇自身也是第二個振動的來源。因為,風扇安裝在伺服器機架的牆面上,而且,通常風扇不可能完全平衡,只要不平衡造成振動,都會傳遞到硬碟身上。
最後一個振動源來自硬碟本身。當硬碟讀寫頭快速移動到不同的位置,帶動讀寫頭的手臂必須加速移動。這個在很短的時間加速的動作,需要一個很大的力量,每一次動作都有一個同等大小但是反向的力量,導致硬碟產生轉動振動,透過機架的結構傳到鄰近的硬碟上。

(圖片來源: Engineering Reality Magazine)
最佳化設計
最佳化流程的主要目標是要減少振動,同時保有散熱效應的完整性。在我們建立對模型的信心之後,接下來是識別最佳化流程的設計變數。一開始,13個設計變數可以幫助在不同振動源之間減少振動。對於聲音源來說,也包含黏熱通道,特別是通道的數目和寬度。此外,在低頻的範圍加入聲音泡棉,泡棉的聲音吸收係數也會是一個設計變數。然而,在減少聲壓級別和散熱之間需要權衡。如果通道的數目增加或者通道間的空間減少,硬碟的聲壓級別就會下降。但是,在此同時,空氣流動受到限制,對於散熱並不好。也因此,硬碟表面的溫度成為最佳化流程的一項拘束條件。
模擬的流程有四個部分,前三個是根據需要評估的振動源,包含1)風扇的聲音負載、2)風扇和3)硬碟本身的機械負載和4)計算硬碟溫度的熱分析。有趣的是,這個最佳化流程的特色,是輸入分別來自模擬和量測的結果。流程中,聲學的部分和得到的結構模型都是基於模擬。而因為風扇的不平衡和硬碟讀寫頭的振動所造成的激發則來自量測的數據。
在流程中模擬的部份,流體、結構和聲學分析各使用不同的軟體。依賴流動模擬產生不穩定流,也是計算聲學響應所需要的資料。然後,將硬碟面板上的平均聲壓,以頻率函數的方式映射到結構的表面,用不同的軟體來求解。風扇的振動頻譜和硬碟的轉距頻譜皆來自供應商做的實驗數據。有了所有的輸入數據,就可以評估結構模型,提供得到的振動頻譜,用作流程的目標函數。在此同時,進行熱分析模型的模擬,計算表面溫度的拘束。

(圖片來源: Engineering Reality Magazine)
在最佳化的流程中,也應用機器學習(machine learning)模型,根據輸入產生目標函數值。而模擬可能需要很多時間進行分析,對於每一項目標函數的評估,都要跑一組的模擬。為了要避免這種很花時間的流程,應用實驗設計(Design of Experiment, DOE)的技巧,定義出模擬只需要做在設計空間中特定的幾個位置。然後,將機器學習的模型擬合到數據中。這些數據在最佳化流程中用來評估目標函數值。這麼做讓整個流程明顯加速。而這裡的最佳化流程是以OpenMDAO來處理,它是NASA開發的開源、多物理場的最佳化工具。
每一個設計變數對硬碟振動的影響都必須要評估過。因為模型的準確性必須建立在適當、有代表性的設計空間上-意思是模擬的數目是根據使用的設計變數的數目-初始我們定義的13個設計變數,依據敏感性分析(Sensitivity Analysis),減少到6個。整體而言,最佳化的流程總共降低50%的振動,同時仍然能夠保有和之前一樣的散熱效能。另外,在測試上,設計有專門給實驗用的硬碟替身,用來比較模擬和量測的最佳化結果。在代理硬碟上安裝加速規和壓力感測器,兩個感測器集結一起,也是現在業界特有的測試安裝方式。模擬分析出來的預測趨勢,再使用量測來重現,然後Meta的團隊來改善模擬和量測間的關聯性,例如更複雜的阻尼模型、聲音和結構模擬間更精準的對映資料。
結論- 以模擬為基礎之設計流程的價值
這個專案執行以模擬為基礎的最佳化流程,讓硬碟整體減少了50%的振動。這個方法的目標在彌補過去整個設計週期中完全仰賴測試的不足。Kanwar Bhachu,最佳化工程師寫下模擬的價值,『如果我們只做實體測試,那麼能夠重複實驗的次數有限,因為每次實驗都需要建立一個原型。也因此,我們只能做5~10個不同的選項,然後從其中選擇最好的結果,但這不能保證是最佳的配置。有了模擬模型之後,我們可以很快地進行上百次、上千次的計算。』即使如此,實體測試仍然有需要,可用來確認模型或流程。此外,建立機器學習模型的優點是,我們一旦有”如果怎樣…就會如何(what-if)”的假設,幾乎就可以馬上進行。這樣真的可以縮短和供應商討論解決方案的時間,因為解決方案可以立即藉由機器學習模型來執行,評估其可行性。
這個專案之所以可以成功,一個很重要的關鍵就是選擇和Hexagon合作。Bhachu結論說道:『在我們想著要修復結構之前,Hexagon的團隊引導和幫助我們選擇正確的變數和方向,這點幫助很大。他們在處理專案的事情上,很有彈性且很包容,給客戶方便,這方面非常專業。』。