?????? : 思科应用和内容网络系统 (ACNS) 软件

在Cisco内容引擎上解释和故障排除ACNS 4.2和5.0硬盘错误

2015 年 8 月 28 日 - 机器翻译
其他版本: PDFpdf | 英语 (2014 年 9 月 30 日) | 反馈


目录


简介

本文描述思科应用和内容网络系统(ACNS)软件版本的4.2和5.0硬盘错误在Cisco内容引擎(CES)。本文也解释如何解释和排除故障硬盘错误。在本文帮助的步骤您确定磁盘驱动器是否是可操作的,并且问题是否是硬件问题或软件问题,如果驱动不正常运行。当您遇到问题用硬盘时,您必须十分地排除故障磁盘驱动器为了避免多余的硬件替换。

先决条件

要求

本文档没有任何特定的要求。

使用的组件

本文档中的信息基于以下软件和硬件版本:

  • ACNS 4.2和5.0

  • 内容网络引擎CE-507-K9、CE-507AV-K9、CE-560-K9、CE-560AV-CDN-K9、CE-590-DC-K9、CE-590-K9和CE-590-ICDN-K9

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。

规则

有关文档规则的详细信息,请参阅 Cisco 技术提示规则

磁盘错误报告

ACNS 4.2和5.0报告磁盘驱动器失败用几个方式。有在错误报告的轻微的区别在版本4.2和5.0,但是整体方法是类似的。

停止的磁盘驱动器

有驱动器故障几个模式。一种极其失败模式是发生故障的驱动器没有均等在小型计算机系统接口(SCSI)总线出现。当这样失败发生时,软件假设,驱动不存在。进行方框的目测。如果能看到驱动存在,但是ACNS表明驱动未命中,您能推断一清楚失败。例如,请发出show disks命令show disk details命令。如果这些命令输出声称磁盘不存在,有一清楚失败。

保证驱动未宽松变为。并且,请检查SCSI布线问题。如果这些操作都不解决问题,您需要替换磁盘。

警告 警告: 保证您关闭电源,在您检查电缆前,或者,在您再置或插入驱动前。

硬件错误

更加普通的失效状态是,当某事在驱动时出错,并且驱动无法对读或写一个或更多部门。通用的SCSI驱动程序代码带走此失败,并且显示消息在级的LOG_CRIT。此错误去Syslog,默认情况下位于/local1/syslog.txt

在ACNS 5.0及以上版本,如果CDM配置,错误消息也去CDM。

这是错误消息的格式:

SCSI I/O error: POSSIBLE BAD DISK -- device 0x%x, sector %d

消息包括词“可能”作为套期交易I/O失败其他来源。例如, SCSI电缆故障,如果存储阵列是包含的或者多种FibreChannel故障情况。然而,此消息典型地指示磁盘故障。也指示文件系统损坏的各种各样的内核消息伴随此消息。

注意: 寻找在这样消息的字符串"ext2"。

在错误消息,设备是表0x8XY或0x41XY的十六进制major+minor设备号, X和Y是十六进制数字。x指示物理驱动(从Linux方面)和Y指示在受影响的驱动的分区。推进位0根据,并且分区编号1根据(0分区的含义整个驱动)。例如, 0x802含义disk00,分区2,并且0x4103含义disk16,分区3。

当所有磁盘驱动器存在时,此表列出设备号之间的映射:

设备号 说明
0x800 - 0x80f Disk00或者分区1至15在disk00
0x810 - 0x81f Disk01或者分区1至15在disk01
... ...
0x8f0 - 0x8ff Disk15或者分区1至15在disk15
0x4100 - 0x410f Disk16或者分区1至15在disk16
0x4110 - 0x411f Disk17或者分区1至15在disk17
... ...
0x41f0 - 0x41ff Disk31或者分区1至15在disk31

注意: 如果一个或更多磁盘驱动器未命中,映射可以被抵消。

注意: 您不需要认识分区编号。部门编号是在受影响的分区内的某个部门。此编号知识不是关键,但是部门编号为信息目的报告。有时, DE或其他能使用此信息再次产生失败。对于此, DE必须和通过磁盘驱动器手工触发对磁盘相关区域的磁盘I/O。

如果因故观察奇怪的行为或者可疑的磁盘故障,请发出show diskshow disk详细信息EXEC命令。如果这些命令输出包含消息类似于此,您能确认驱动器故障:

disk<x> is bad. Check cable or replace it.

在此消息, <x>可以00, 01或者更加高。此值指示失败的驱动。参考Cisco ACNS软件的产品文档能查找驱动的物理位置相对方框的其余。

它的检查电缆或替换一部分的消息仅申请在外存储器阵列的驱动。您能忽略消息的这部分内部驱动的在大多数型号在字段— CE-507和CE-560与仅内部驱动。

show diskshow disk详细信息命令执行一粗略磁盘检查。有时,检查不识别所有失败。所以,除这些命令行界面(CLI)命令之外,您必须也得到系统日志输出,默认情况下位于/local1/syslog.txt。复制输出到外部系统通过copy disk ftp命令。请使用一个文件查看器、文本编辑或者字处理程序通过日志文件搜索。从文件的末端向后搜索首先查看最新的消息。寻找可能的Bad磁盘和相似的消息。您能通过exec命令的查找也达到此:

ce#find match "POSSIBLE BAD DISK" syslog.txt

您能也观察在串行控制台输出的引导程序的某些驱动器故障。在ACNS 5.0及以上版本,此输出在syslog.txt文件也去回到Syslog在启动以后,并且能出现。这些消息类似于消息在show diskshow disk详细信息的输出中,命令。例如, disk<x>是消息。在包含“输入runlevel的字符串200"年的线路前寻找这些消息,在包含字符串"BOOT-100"后的线路,和。如果错误消息不出现在这些线路之间,您能认为,所有文件系统适当地装载。如果特定的驱动器故障对仅有些部门或集或者范围部门,被限制I/O错误能随后仍然出现,典型地。注意系统日志输出。

在Disk00的软件错误

磁盘相关的问题一些类型能导致实际上不指示磁盘故障的错误消息,但是相当某其他问题。在这些情况下,硬件替换或RMA不是必要的。这是指示与系统使用磁盘分区或文件系统的软件问题的一个权威消息:

First disk not in standard configuration.
Run disk recover command and re-install the software.

如果/local/local1能装载,在启动期间,此消息出现在控制台,并且在Syslog。此消息出现的特定案件有不同的原因,但是通常是少见的。发出磁盘恢复或者disk erase-disk00-partitions命令,然后发出disk recover命令解决此问题。

确定问题是否是硬件磁盘错误或软件问题

此部分提供逐步指导确定问题是否是硬件磁盘错误或软件问题。此部分包括仅SCSI磁盘。此部分不包括Redundant Array of Independent Disk (RAID)驱动、光纤信道驱动和网络接入服务器(NAS)设备。

逐步程序

步骤 1

证实CE是否能启动。

在一些极端和少见的情况中, SCSI磁盘驱动器能有在启动期间,造成ACNS设备驱动程序暂停的问题。您能从CE的控制台验证此。如果SCSI子系统驱动程序版本:1.00消息出现,并且ACNS不启动,证实磁盘驱动器或SCSI子系统是否有故障。去掉磁盘驱动器并且重新启动系统发现问题是否与磁盘驱动器关连。如果此操作发生故障,与思科联系确定问题的根本原因。

如果CE启动,并且收到在控制台的登录提示,请继续对步骤2。

步骤 2

发出show version命令验证软件版本。注释ACNS版本号。

步骤 3

发出show disks details命令,并且验证输出。磁盘驱动器必须出现作为“正常”,如果插入。这是ACNS的4.2一输出示例: :

ACNS42#show disks details
......
disk16: Normal        (h04 c00 i08 l00)    17501MB( 17.1GB)
    disk16/00: MEDIAFS       17500MB( 17.1GB) mounted internally
    FREE:                        0MB(  0.0GB)

Sample good ACNS 5.X output:

ACNS5#show disks details
......
disk14: Normal        (h01 c00 i09 l00 - Ext DAS)        35000MB( 34.2GB)
    disk14/00: CFS           34999MB( 34.2GB)
    FREE:                        1MB(  0.0GB)

步骤 4

证实任何磁盘驱动器是否出现作为"not present"。如果肯定磁盘驱动器物理的存在,但是输出显示驱动作为"not present",一个停止的磁盘驱动器是可能的。进入步骤9。

这是ACNS的4.2一输出示例: :

ACNS42#show disks details
......
disk01: Not present

这是ACNS的5.x一输出示例: :

ACNS5#show disks details
......
disk05: Not present

步骤 5

证实任何磁盘驱动器是否出现作为“没识别”。“没识别”通常表明其他操作系统,例如, Windows或者Linux,使用磁盘驱动器前。如果使用磁盘驱动器该思科提供,此问题不发生。获取从思科的一个磁盘驱动器,并且进入步骤10。

这是ACNS的4.2一输出示例: :

ACNS42#show disks details
/ruby/bin/ruby_disk: disk [/dev/sdb] has an unknown partition [/dev/sdb1], skipping it
......
disk01: Not recognized

这是ACNS的5.x一输出示例: :

ACNS5#show disks details
/ruby/bin/ruby_disk: disk [/dev/sdi] has an unknown partiton [/dev/sdi2], skipping it
......
disk08: Not recognized

步骤 6

证实任何磁盘驱动器是否出现作为“有问题”。此状态通常指示一硬件故障。错误或警告消息可以不同的。一些错误能表明diskXX是坏的,而其他错误能指示该磁盘/dev/sdX :请勿能{请打开|读|写道|寻求}。进入步骤9。

这是ACNS的4.2一输出示例: :

ACNS42#show disks details
disk04 is bad. Check cable or replace it.
ruby_disk: Disk /dev/sdg: cannot open: Device not configured
......
disk04: Problematic
......
disk07: Problematic

这是ACNS的5.x一输出示例: :

ACNS5#show disks details
disk01 is bad. Check cable or replace it.
......
disk01: Problematic

步骤 7

证实磁盘驱动器是否包含任何SCSI错误。搜索syslog.txt文件。

消息也出现在控制台或所有终端根据日志配置。如果查找在syslog.txt的可能的Bad磁盘消息,您能认为,或者磁盘驱动器有故障,或者SCSI连接是坏的。推测磁盘号然后进入步骤9。这是消息的格式:

SCSI I/O error: POSSIBLE BAD DISK -- device 0x%x, sector %d

步骤 8

发出show disks details命令或者通过控制台启动日志检查软件问题与disk00。对于ACNS 5.x,您能也找到控制台启动日志在syslog.txt

Disk00有存储ACNS软件和其他状态信息在重新加载间是不变的一些专用文件系统。show disks details命令必须显示disk00的部分为“系统使用”。如果找不到“系统使用”部分,并且没找到在上一个步骤的任何硬件故障,请进入步骤11。

这是好ACNS的4.2若干输出示例: :

disk00: Normal        (h00 c00 i00 l00)    17357MB( 17.0GB)
    System use:               5119MB(  5.0GB)
    FREE:                    12237MB( 12.0GB)

这是好ACNS的5.x若干输出示例: :

disk00: Normal        (h00 c00 i00 l00 - Int DAS)        69999MB( 68.4GB)
    disk00/04: PHYS-FS       59246MB( 57.9GB) mounted internally
    disk00/04: CDNFS         59246MB( 57.9GB) mounted internally
    disk00/04: MEDIAFS       51893MB( 50.7GB) mounted internally
    System use:              10751MB( 10.5GB)
    FREE:                        1MB(  0.0GB)

这是坏ACNS的4.2若干输出示例: :

disk00: Normal          (h00 c00 i00 l00)    17499MB( 17.1GB)
FREE:                    17499MB( 17.1GB)

Sample bad ACNS 5.X output:
disk00: Normal        (h00 c00 i00 l00 - Int DAS)        17357MB( 17.0GB)
    FREE:                    17357MB( 17.0GB)

这是从ACNS 4.2的启动消息:

BOOT-100: disk apply
*****
Your first disk is not in standard configuration.
You might need to run 'disk recover' from the CLI.
*****

这是从ACNS 5.x的启动消息:

ruby_disk: Your first disk is not in standard configuration.
ruby_disk: Run 'disk recover' from the CLI
/ruby/bin/code100.sh: NOTE: ruby_disk apply returned 6


********************************************
  System software is missing.             
  Check whether first-disk is bad, or        
  use 'disk recover' to recover first-disk. 
********************************************

步骤 9

关闭电源对CE。去掉磁盘驱动器。如果磁盘驱动器是容易访问的,请再插入磁盘驱动器。这是可靠对于Robin2和闪电硬件家族,但是不真对蛋白石或Thunder硬件家族。保证磁盘驱动器连接是好。返回到您完成,在此步骤前的步骤,并且重复测验。如果硬件故障持续,请与Cisco支持联系替换磁盘驱动器或CE。

步骤 10

安装替换磁盘驱动器。如果替换磁盘是disk00,请进入步骤11。否则,请去步骤14

步骤 11

如果disk00有软件问题,请发出disk recover命令对制造的disk00。警告提示出现。

这是ACNS的4.2若干输出示例: :

ACNS42#disk recover
This will erase everything on disk00. Are you sure? [no]yes
System file systems appear to have been installed.
Please verify your software installation with 'show flash'
and install a new image if necessary.

这是ACNS的5.x若干输出示例: :

ACNS5#disk recover
This will erase everything on disk00. Are you sure? [no]yes
System file systems appear to have been installed.
Please verify your software installation with 'show flash'
and install a new image if necessary.

如果此步骤是成功的,请进入步骤13。否则,请继续进行步骤12

步骤 12

磁盘恢复步骤11的操作可以发生故障,如果一些应用程序或交换分区使用disk00部分地。您必须使用disk erase命令清除分区。此命令类似于第一部分disk recover命令强制选项。一相似的警告出现。

这是ACNS的4.2若干输出示例: :

ACNS42#disk erase
This will erase everything on disk00. Are you sure? [no]yes
disk00 partition table erased.  Will take effect after reboot.
ACNS42#reload
Proceed with reload?[confirm]
Shutting down all services, will timeout in 15 minutes.

这是ACNS的5.x若干输出示例: :

ACNS5#disk erase
This will erase everything on disk00. Are you sure? [no]yes
disk00 partition table erased.  You need to reload the CE now!!!
ACNS5#reload
Proceed with reload?[confirm]
Shutting down all services, will timeout in 15 minutes.

警告 警告: 此操作是破坏性的。CE变得不稳定在此步骤以后。立即重新加载CE。在CE回到联机后,请进入步骤11再发出disk recover命令

步骤 13

安装磁盘软件。Disk00改制。必须重新安装软件的磁盘部分。遵从标准软件安装程序。通常,您能通过例如内容分配管理器(CDM)接口或者CLI如此执行,用copy ftp install命令copy http install命令

这是示例ACNS 4.2命令:

ACNS42#copy ftp install server path ACNS-4.2.9-K9.bin

这是示例ACNS 5.X命令:

ACNS5#copy ftp install server path ACNS-5.1.0-K9.bin

在此步骤,进入步骤14步骤15后,根据您的需求。

步骤 14

如果最近被替换的磁盘驱动器不是disk00,您能:

  • 发出disk add命令添加一个新的磁盘驱动器。

    或者

  • 发出disk config命令重新配置在CE的所有驱动。

注意: disk config命令清除在SYSFS的所有内容, CFS和MEDIAFS。在CDNFS的内容保留。

这是示例ACNS 4.2命令:

ACNS42#disk config sysfs 5GB ecdnfs remaining
Disk configured successfully.
New configuration will take effect after reload.
Please remove this device from the ECDN CDM (if any) before reboot this device,
as this device's configuration will be stale due to disk repartition.
ACNS42#reload

这是示例ACNS 5.x命令:

ACNS5#disk config sysfs 10% cfs 2GB cdnfs remaining
Disk configured successfully.
New configuration will take effect after reload.
ACNS5#reload

步骤 15

证实CE是否是回到正常操作。如果问题持续,请与Cisco技术支持中心(TAC)联系。

硬件替换

如果需要硬件替换,您需要打开与Cisco TAC的一服务请求。在更换可以处理前, Cisco TAC要求在此清单的信息。

硬件替换的清单
正确产品号、序列号、硬件部件号和失败的方框的ACNS版本。
什么替换?
零件为什么替换了?包括个人评估。
物理设置(拓扑)当前失败发生了的地方。
如果控制台或Telnet访问是可用的,请提供这些的输出显示命令和日志:
  • (包括输出show running config命令)的show tech support
  • 在这些日志的信息,您能通过FTP:获取
    • 从CE :
      • /local/local1/syslog.txt
      • 那里/local/local1/errorlog/是许多错误登陆此目录。根据失败,请发送适当的日志。例如,如果有与分配的一个问题,请收集dist*.*在此文件夹下。
      • 那里/local/local1/servicelog/是许多服务登陆此目录。根据失败,您必须发送适当的日志的服务。例如,如果有与wmt的一个问题,请收集wmt*.*在此文件夹下。它是一个好想法发送所有服务失败的cms_ce_start*.*。
    • 从CDM :从CDM的/local/local1/servicelog/,捕获CE的cms通信与CDM发现CE是否记录了任何错误对CDM。cms_cdm_start*.*是必要的。考虑发送从此位置的cms*.*。
  • 系统的启动的屏幕截图。
此设备被演出了在部署前的一个试运行设备在当前地点?
是否观察了同时接收的另一个设备的一相似的失败?
最后变化做什么对系统在为时上15天,包括基础设施?
问题是间歇性的吗?如果是,能再次产生问题?陈述间隔。
问题是否是确定的?如果是,描述如何再现问题。
什么活动是进展中在系统在失败时?
软件安装或删除?
流量是否是大量或轻的?或者流量是否是缺少的?
是否做了其中任一新建的配置更改?
是否在当前失败前面对任何环境问题?这是您必须正在寻找的列表的这样失败:
  • 断电
  • 空调失败
  • 在同一个物理位置的其它设备:他们是否良好工作?
  • 方框机箱:它是否获得过度加热?
  • 机械噪声

失败类别

这时,如果确定问题确实是硬件故障,和要求更换,设法识别失败到这些类别之一,并且获取该失败类别的其他信息:

  1. 不能启动

    证实系统是否是DOA (停止在到达)。如果系统有一段时间了工作,但是无法当前启动,请应答这些问题:

    • 此计算机是否运作前?

    • 否则,计算机是否运作?

    • 如果是,运算程序导致“不能启动”情况?

    • 计算机多久在失败前工作在站点?

    在引导程序尝试期间,获取控制台输出。

  2. Bad硬盘驱动器

    证实在系统的一个硬盘驱动器是否有故障。如果识别问题是一个坏硬盘驱动器,请应答这些问题:

    • 多久是此系统运转中?

    • 什么是此系统使用模式?(24x7流量?)

    • 有没有一个特别高的流量在失败的硬盘驱动器前?

    获取这些输出:

    • 报告驱动是坏的输出。

    • 报告驱动作为坏的日志。

    • show hardware命令输出。

    • show tech support命令输出。

  3. Bad电源

    如果在单元的电源有故障,并且系统不启动,请应答这些问题:

    • 此系统是否以前运转?

    • 否则,系统是否运转?

  4. 到达的(DOA)死者

    如果系统在停止的状态到达并且无法启动或启动,证实这是否是启动的第一次尝试系统。

  5. 软件

    硬件替换是不太可能解决软件问题。然而,如果认为硬件替换是必要的,您必须指示您为什么认为硬件替换能解决软件问题。

  6. 重复项

    这是为了捕获第二张可选磁盘RMA在CE-510和CE-510A的。如果此问题是重复项,请应答这些问题:

    • 多久是此系统运转中?

    • 系统是否在失败前工作在站点?

    • 多久是此系统运转中?

    • 什么是此系统使用模式?(24x7流量?)

  7. 其他

    到目前为止任何其他失败没捕获。

  8. 没有足够的信息(NEI)

    仅请使用此类别在少见的情况有用的资料不是足够的特别地分类问题。

在更换以后

在硬件替换以后, Cisco TAC进一步进行您得到此信息:

  • 用设备采取了什么特定纠正措施?

  • 什么是每操作结果?例如,在启动期间,一辆硬重新启动是否导致一特定的错误消息?或者,执行您设法附加不同的以太网电缆到相同端口和不同的端口交换机的,但是以太网端口CE的从未显示链路指示灯。

  • 如果做了多个变动,什么根本地解决问题?

相关的思科支持社区讨论

思科支持社区是您提问、解答问题、分享建议以及与工作伙伴协作的论坛。


相关信息


Document ID: 69674