簡介
本文說明Cisco和Broadcom上記錄的與8.0版中的思科網絡卡驅動程式行為和Broadcom新FPIN(交換矩陣效能影響通知)架構相關的增加案例數量,本文旨在解決相關問題。
問題
FPIN(交換矩陣效能影響通知)功能已新增到ESXi 8.0 U2中,以便更好地瞭解交換矩陣相關問題。由於StorageFPIN代碼中存在錯誤,當FPIN嘗試分配記憶體且無法分配記憶體時,它可以保留路徑上的引用計數,從而阻止Cisco NFNIC驅動程式分配新路徑或重新建立現有路徑。
參考資料:
參見Broadcom KB
FPIN(交換矩陣效能影響通知)功能已新增到ESXi 8.0,以便更好地瞭解交換矩陣相關問題。由於StorageFPIN代碼中存在錯誤,當FPIN嘗試分配記憶體且無法分配記憶體時,它可以保留路徑上的引用計數,從而阻止Cisco NFNIC驅動程式分配新路徑或重新建立現有路徑。
這是FPIN和Cisco NFNIC驅動程式在路徑丟失時如何編碼的已知問題。NFNIC驅動程式不儲存儲存埠繫結,因此當儲存路徑在中斷或路徑丟失後重新建立時,它只是建立全新的路徑並遞增目標數量。由於FPIN錯誤在這些路徑上保持引用計數,Cisco NFNIC驅動程式最終無法建立新路徑。
在即將發佈的ESXi 8.x版本中,將提供一個用於修改FPIN開啟引用計數行為的代碼修復。
解決方案
有關解決方法修復程式,請參閱Broadcom知識庫文章。 當ESXi修補程式可用時,請將該修補程式作為解決方案進行長期修復。
因應措施
要解決此問題,建議在ESXi 8.0主機上禁用FPIN,特別是在使用Cisco UCS和NFNIC時:
esxcli storage fpin info set -e false
要確認設定,請執行以下操作:
esxcli storage fpin info get
除了此Broadcom建議的更改外,如果儲存行為正確,請重新啟動主機以恢復所有儲存路徑。
附註:此更改本身不需要重新啟動。 但是,如果ESXi主機已經處於storageFPINHeap的記憶體堆耗盡狀態,則需要在更改此設定後重新啟動主機。
思科的回應
我們的nfnic驅動程式始終在每次目標斷開連線/連線時增加目標ID號。 在當前和以前的NFNIC驅動程式版本上增加的目標ID號正是新的ESXi FPIN功能中暴露記憶體洩漏情況的原因。
此外,文章中提到的問題是ESXi OS錯誤,將在即將發佈的ESXI版本中修復。文章還提到了Cisco bug ID CSCwn00553,它會跟蹤其他問題,建議不要使用nfnic驅動程式修復到Cisco bug ID CSCwn00553,以解決Broadcom知識庫文章中提到的ESXi問題。
VMware KB文章表示需要思科錯誤修復以及其FPIN修復。這是不正確的,可以提供此附加語句。
Broadcom將提供FPIN問題的修復程式,在即將發佈的8.0.U3修補程式版本中將提供該修復程式。一旦Broadcom發佈FPIN修復,當前的VIC驅動程式就可以用於FPIN。
附註:同時,NFNIC驅動程式及其圍繞建立目標ID的行為。 針對target-ID的NFNIC上的此實施是VIC第一天行為,並且一旦VMware fix可用,FPIN功能就不需要更改此行為。
參考Cisco錯誤ID CSCwn00553