簡介
本文檔介紹導致思科路由器上出現奇偶校驗錯誤的原因以及如何排除這些錯誤。
必要條件
需求
思科建議您瞭解如何對路由器崩潰進行故障排除。
如需詳細資訊,請參閱路由器崩潰疑難排解。
採用元件
本文件所述內容不限於特定軟體和硬體版本。
本文中的資訊是根據特定實驗室環境內的裝置所建立。文中使用到的所有裝置皆從已清除(預設)的組態來啟動。如果您的網路運作中,請確保您瞭解任何指令可能造成的影響。
慣例
如需文件慣例的詳細資訊,請參閱思科技術提示慣例。
確定奇偶校驗錯誤
基於多通道介面處理器(MIPS)的處理器產品中發生記憶體奇偶校驗錯誤,例如:
-
Cisco 4500/4700系列路由器
-
Cisco 7500系列路由器(RSP1、RSP2、RSP4、RSP8、VIP2-10、VIP2-15、VIP2-20、VIP2-40、VIP2-50)
-
Cisco 7000系列路由器(RSP 7000)
-
Cisco 7200系列路由器(NPE-100、NPE-150、NPE-175、NPE-200、NPE-225、NPE-300)
-
Cisco 12000系列網際網路路由器
以下是一些消息,這些消息都與系統中某個位置的錯誤奇偶校驗檢測有關(該清單並非詳盡無遺,但包含最常見的消息):
軟奇偶校驗錯誤與硬奇偶校驗錯誤
奇偶校驗錯誤有兩種:
研究表明,軟奇偶校驗錯誤的頻率是硬奇偶校驗錯誤的10到100倍。因此,思科強烈建議您在替換任何內容之前等待第二個奇偶校驗錯誤。這大大降低了網路所受的影響。
找出問題
路由器的記憶體位於不同位置。理論上講,任何記憶體位置都可能受到奇偶校驗錯誤的影響,但大多數記憶體問題發生在動態RAM(DRAM)或共用RAM(SRAM)中。 基於該平台,您可以這樣找出哪個記憶體位置受到了影響,如果結果是硬奇偶校驗錯誤,則必須更換哪個部分:
思科4500和4700平台
在Cisco 4500和4700平台上,crashinfo檔案在低於Cisco IOS®軟體版本12.2(10)和12.2(10)T的版本中不可用。
要找出發生錯誤的位置,方法之一是在主控台記錄和show version指令的輸出中檢視「restart reason」:
-
DRAM中的奇偶校驗錯誤:
如果沒有在崩潰後手動重新載入路由器,show version輸出將如下所示:
System restarted by processor memory parity error at PC 0x601799C4,
address 0x0
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果crashinfo檔案可用,或者已捕獲控制檯日誌,您還可以看到類似以下內容:
*** Cache Error Exception ***
Cache Err Reg = 0xa0255c61
data reference, primary cache, data field error , error on SysAD Bus
PC = 0xbfc0edc0, Cause = 0xb800, Status Reg = 0x34408007
在DRAM中重複出現奇偶校驗錯誤表明DRAM或機箱有故障。如果您最近拆除了機箱,或者執行任何硬體配置更改,請重新安放DRAM晶片以解決問題。否則,請首先更換DRAM。這必須防止奇偶校驗錯誤。如果路由器仍然崩潰,請更換機箱。
-
SRAM中的奇偶校驗錯誤:
如果沒有在崩潰後手動重新載入路由器,show version指令輸出將如下所示:
System restarted by shared memory parity error at PC 0x60130F40
System image file is "flash:c4500-inr-mz.111-14.bin", booted via flash
如果crashinfo檔案可用,或者已捕獲控制檯日誌,您還可以看到類似以下內容:
*** Shared Memory Parity Error ***
shared memory control register= 0xffe3
error(s) reported for: CPU on byte(s): 0/1
或
%PAR-1-FATAL: Shared memory parity error
shared memory status register= 0xFFEF
error(s) reported for: CPU on byte(s): 0/1 2/3
或
*** Shared Memory Parity Error ***
shared memory control register= 0xffdf
error(s) reported for: NIM1 on byte(s): 0/1 2/3
附註:
路由/交換處理器(RSP)、網路處理引擎(NPE)和路由處理器(RP)平台
與Cisco 4000系列一樣,問題可能是由這些平台的DRAM或SRAM故障造成的。問題也可能是因為處理器卡(RP、RSP或NPE)故障。 Cisco 7000和7500還可以報告由介面處理器(傳統xIP或VIP)故障或安裝錯誤產生的奇偶校驗錯誤。
檢查crashinfo檔案和控制檯日誌中是否存在以下錯誤消息之一:
DRAM或SRAM(MEMD)中的奇偶校驗錯誤
對於RP、RSP和NPE,您通常會看到類似的情況:
Error: primary data cache, fields: data, (SysAD)
virtual addr 0x6058A000, physical addr(21:3) 0x18A000, vAddr(14:12) 0x2000
virtual address corresponds to main:data, cache word 0
或簡單地:
Error: primary data cache, fields: data, SysAD
phy21:3 0x201880, va14:12 0x1000, addr 63E01880
這表示RSP本身有問題。如果問題只出現一次,則很可能只是暫時性問題。
從SRAM提取奇偶校驗錯誤
對於RSP,消息可能如下所示:
%RSP-3-ERROR: MD error 0000008000000200
%RSP-3-ERROR: QA parity error (bytes 0:3) 02
%RSP-3-ERROR: MEMD parity error condition
%RSP-2-QAERROR: reused or zero link error, write at addr 0100 (QA)
log 22010000, data 00000000 00000000
%RSP-3-RESTART: cbus complex
或
%RSP-3-ERROR: CyBus error 01
%RSP-3-ERROR: read data parity
%RSP-3-ERROR: read parity error (bytes 0:7) 20
%RSP-3-ERROR: physical address (bits 20:15) 000000
如果沒有指示另一個介面處理器將錯誤的奇偶校驗寫入SRAM(例如VIP2-1-MSG錯誤消息),則最可能的原因就是SRAM本身。在這種情況下,更換RSP。
如果其它錯誤消息表明介面處理器寫入了錯誤的奇偶校驗,則可能是卡發生故障或卡安裝錯誤。
多功能介面處理器
如果您收到%VIP2-1-MSG:日誌或crashinfo文件中的slot(x)消息,請參閱VIP崩潰故障排除。
建議的操作
在第一次出現奇偶校驗錯誤時,無法區分軟奇偶校驗錯誤或硬奇偶校驗錯誤。根據經驗,大多數奇偶校驗都是軟奇偶校驗錯誤,您通常可以消除它們。如果您最近更換了一些硬體或移動了機箱,請嘗試重新安排受影響的部件(DRAM、SRAM、NPE、RP、RSP或VIP)。 頻繁出現多個奇偶校驗表示硬體出現故障。藉助本文檔中提到的說明更換受影響的部件(DRAM、RSP、VIP或主機板)。
開啟TAC服務請求時要收集的資訊
如果在執行上述故障排除步驟後仍需要幫助,並且希望使用思科支援案例管理器開啟服務請求,請務必提供以下信息: |
- 在開啟服務請求之前執行的故障排除。
- show technical-support命令輸出(如果可能,在啟用模式下)。
- show log命令輸出或控制檯捕獲(如果可用)。
- crashinfo檔案(如果存在,且未包含在show technical-support指令輸出中)。如果存在多個crashinfo檔案,請包含所有檔案)。
- 由於您看到的處理器記憶體奇偶校驗錯誤以及發生這些錯誤的時間而重新載入的次數。
建立案件後,請將收集到的資料以非壓縮的純文字格式(.txt)附加到案件上。 若要將資訊附加到您的服務要求中,請透過支援個案管理器工具(僅限註冊客戶)上傳。 如果您無法訪問支援案例管理器工具,請將相關資訊附加到您的服務請求中,並將其傳送至attach@cisco.com,並將您的服務請求編號包含在消息的主題行中。 註:在收集上述資訊之前,除非需要排除處理器記憶體奇偶校驗錯誤,否則請不要手動重新載入或重新啟動路由器,因為這樣可能會導致確定問題根本原因所需的重要資訊丟失。 |
相關資訊