简介
本文档介绍用于对思科网真多点控制单元(MCU)产品进行故障排除的过程。本文档面向视频系统管理员及其客户为视频系统管理员的思科合作伙伴。
MCU系列产品是行业领先的多媒体会议产品。它们是复杂的嵌入式系统,硬件由思科设计,旨在提供最佳性能。本文档旨在帮助解决可能由Cisco MCU产品的硬件故障导致的任何情况。返回制造授权(RMA)必须由思科技术支持工程师提供,工程师根据可疑组件通过一系列测试来确认产品确实失败。本指南旨在通过深入了解这些测试来加快此过程。
先决条件
要求
Cisco 建议您了解以下主题:
- 思科网真MCU MSE系列
- 思科网真 MCU 5300 系列
- 思科网真 MCU 4500 系列
- 思科网真 MCU 4200 系列
- 思科网真ISDN网关(GW)系列
使用的组件
本文档中的信息基于思科网真MCU媒体服务引擎(MSE)系列。
本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始(默认)配置。如果您使用的是真实网络,请确保您已经了解所有命令的潜在影响。
相关产品
本文档也可用于以下硬件和软件版本:
- 思科网真服务器7010
- 思科网真 MCU 5300 系列
- 思科网真 MCU 4500 系列
- 思科网真 MCU 4200 系列
- 思科网真ISDN网关系列
思科网真MCU MSE系列RMA清单
本节介绍一些用于确认MCU MSE系列刀片是否工作正常以及是否出现硬件故障的基本检查。完成这些检查时,应记录MCU行为。
在MCU上完成快速检查
本部分提供一份核对表,您可以使用该核对表通过MCU的Web界面对MCU的基本配置进行故障排除。此操作通过H.323设置、自动总机、端口许可证使用和环回呼叫的验证完成。
验证刀片是否可以进行视频呼叫。如果可以访问MCU Web界面,并可以进行呼叫,则基本上是正常的。请完成以下步骤:
- 打开Web浏览器并导航至MCU IP地址。主页必须立即显示。
注意:如果网页无法访问,请参阅本文档的检查MCU网络连接部分。
- 单击Status链接以检查当前在MCU上运行的软件版本。
注:如果当前使用的版本低于4.3,建议您查看最新的版本说明并考虑升级。
- 如果能够访问Web界面,请完成以下步骤:
- 导航到设置> H.323,并将H.323网守使用率设置为禁用。此步骤非常重要,因为某些网守会阻止直接从MCU到IP地址的呼叫。
- 导航到设置>会议>高级设置,确保Incoming calls to unknown conferences or auto attendant设置为Default Auto Attendant。
- 创建新会议,并添加IP地址为127.0.0.1的H.323参与者。这会导致MCU回拨到其自己的自动总机(AA)。AA屏幕显示在预览缩略图中,并且音频和视频编解码器在每个方向上进行协商。
以下是MCU可以成功调用自身时MCU MSE 8510屏幕的示例:
如果这种方法有效,并且发现一个已连接的参与者(类似于以前的图像),则很可能存在网守、网络或终端互操作性问题。拨打实际终端并使用事件日志和H323/会话发起协议(SIP)日志排除故障。如果连接立即失败,但Web界面仍然运行,请继续此过程。
- 要验证端口许可证是否已分配给MCU,请转至Supervisor刀片的Port License management部分。下图显示了来自Supervisor MSE 8050刀片的端口许可证分配:
在图像中,插槽4下的空块显示此插槽中有一个刀片,没有为其分配端口许可证。此刀片无法进行呼叫,因此步骤3中描述的环回测试在此刀片上将会失败。Slots 2、3、5和7下的蓝色块显示这些插槽具有完全分配的端口许可证。如果插槽显示警告符号,则插槽中没有刀片。半蓝色块表示刀片分配了某些端口许可证,但并未表示刀片已满容量。在为其分配更多许可证之前,像这样的刀片无法连接其通告的总端口数。
- 如果未向刀片分配任何端口许可证,则分配端口许可证(联机帮助中介绍了此过程)。如果端口许可证没有密钥,请与您的客户经理联系。
注意:如果呼叫失败,即使刀片具有足够的端口许可证,请参阅本文档的在Web界面上访问MCU部分。如果在此测试期间网络界面变得不可用,并且与刀片的联系丢失,则刀片可能已重新启动;检索刀片诊断日志,并与Cisco技术支持联系。
检查MCU网络连接
根据网络连接和网络配置的验证,使用此部分可排除尝试从浏览器连接到MCU Web界面时出现的故障。
当您尝试从浏览器连接到MCU Web界面时,可能会遇到以下问题之一:
- PC和MCU之间的网络出现问题
- MCU本身的问题(网络接口卡(NIC)、硬件或配置)
请完成以下步骤以排查问题:
- 尝试ping MCU的IP地址。
注意:NetBSD产品的最大大小为76字节。大多数路由器的默认值为100字节。
如果MCU响应ping,但Web接口关闭,则MCU可能未能完全启动,或者被锁定到重新启动循环。如果出现这种情况,请参阅本文档的刀片上的物理检查部分。如果MCU不响应ping,请继续执行此过程。
- 导航到包含MCU MSE 8510刀片的机箱的Supervisor MSE 8050刀片的Web界面。如果无法访问Supervisor刀片用户界面,请与您的本地网络管理员联系以调查可能的网络问题。如果可以访问Supervisor刀片用户界面,并且Supervisor和MCU不在不同的网络中,则问题很可能是刀片或其IP设置。
- 从Supervisor刀片用户界面导航到Hardware,然后点击MCU MSE 8510刀片的插槽编号链接。然后,单击Port A选项卡。
- 检查MCU Port A IP配置,并确认网络上没有其他主机分配相同的IP地址。IP地址重复是一个非常普遍的问题。如有必要,请咨询网络管理员以验证这些设置。
- 检查端口A以太网状态部分。如果链路状态不是up,请检查网络电缆是否已连接到交换机。电缆或交换机端口可能存在问题。
- 如果MCU现在可在网络上访问,请重复此过程的第一步。如果IP地址设置正确且以太网链路状态为打开状态,但是仍然无法从网络上的任何位置联系刀片,请参阅本文档的通过管理引擎检查MCU MSE 8510系列刀片部分。
通过管理引擎检查MCU MSE 8510系列刀片
要检查MCU刀片和会议状态、运行状况和正常运行时间、软件版本、温度和电压报告,请完成以下步骤:
- 单击Hardware,然后单击出现问题的刀片的插槽编号。摘要页面提供有关以下内容的信息:
- 刀片状态,包括IP地址、正常运行时间、序列号和软件版本
- 刀片健康,包括温度、电压和实时时钟(RTC)电池
- 活动会议的Reported状态、参与者数量、正在使用的音频/视频端口以及流查看器
此图显示刀片运行状况部分:
- 如果任何电压状态(电流或较差)未显示OK,请确保机箱电源架中已安装足够的整流器。此外,检查电源是否满足机箱的当前要求,如计算MSE 8000的功率和电流要求Cisco一文中所述。
- 如果电源设置未显示OK,请与Cisco技术支持联系。
- 如果Blade health部分中的任何其他当前状态未显示为OK,请与Cisco技术支持联系。
- 如果所有Current状态都显示OK,但是所看到的一个或多个Worst status未显示OK,请从Supervisor获取事件日志和警报日志,并与Cisco技术支持联系。
- 检查正常运行时间。如果正常运行时间过短(不足30分钟),且没有已知原因(例如,未重新启动电源或刀片未重新插入),则刀片可能最近重新启动。重新启动的原因可能是软件缺陷或硬件问题。这取决于是一次性重启,还是循环重启。
请完成以下步骤以确定:
- 等待30分钟
- 刷新页面。
- 再次检查正常运行时间。
如果可以从已刷新的正常运行时间确定刀片随后再次重新启动,请参阅本文档的崩溃部分。
- 如果刀片在检查状态页后没有重新启动,并且它在所有其他方面均显示正常(通过验证网络设置和端口许可证),则刀片可能在没有其数字信号处理器(DSP)资源可用时已启动。
要验证这一点,请完成以下步骤:
- 从Supervisor用户界面检查刀片摘要页面上的Reported status部分:
- 刀片显示其成功引导和许可的视频资源总数。此数量必须等于分配给刀片的端口许可证数量,当刀片处于高清(HD)/HD+模式时,最多为20个,当刀片处于标准定义(SD)模式时,最多为80个。如果二者不相等,请联系Cisco技术支持提供所记录的行为、版本和诊断日志。
刀片上的物理检查
本部分介绍根据LED灯的解读和刀片移动到不同插槽时对刀片执行物理检查的步骤。
如果在完成前面部分所述的步骤后无法确定刀片有硬件问题,请实际检查MSE 8000系列机箱。要执行物理检查,请完成以下步骤:
- 确保为刀片提供足够的时间在机箱首次通电后启动(或将刀片安装到已通电的机箱中)。这大约需要20分钟。
- 观察并注意刀片正面照亮的LED灯的颜色。重要的LED灯包括:
- 电源(蓝色) — 此指示灯位于底部塑料卡舌正上方,在接通刀片电源后立即点亮。
- 状态(绿色) — 当刀片成功启动时,此指示灯亮起。
- 警报(红色) — 当刀片正在启动或处于无法启动的状态时,此指示灯熄灭。
- 以太网端口A链路(三条绿色) — 指示灯指示活动、双工和速度。从版本4.4开始,8510仅支持端口A上的连接;不支持端口B、C和D。
此映像显示八个MCU MSE 8510系列刀片已成功启动,其中一个仍在启动或无法成功启动:
- 如果在观察LED灯时遇到问题,请完成以下步骤:
- 如果没有指示灯亮起,请检查机箱的其余部分是否通电,刀片是否正确插入插槽。
- 如果指示灯仍未亮起,请将刀片移至机箱中的另一个插槽。优选地,将其与具有已知工作刀片的槽交换。
- 如果刀片仍然不能通电,请联系Cisco技术支持。
- 如果蓝色电源灯亮起,而其它任何灯都未亮起,请与Cisco技术支持联系。如果红色警报灯的亮起时间超过30分钟,请参阅本文档的崩溃部分。
- 如果蓝色电源灯和绿色状态灯亮起,但绿色端口A灯未亮起,则不需要RMA。这表示与交换机端口的连接出现问题。使用新的电缆/交换机端口/交换机,并从Supervisor Hardware选项卡检查刀片以太网端口A配置。强烈建议链路两端都设置为Auto negotiation。
注意:进行故障排除时,获取串行日志和诊断日志非常重要。当您向Cisco技术支持提出服务请求时,应提供这些信息。
在Web界面上访问MCU
通过设备随附的控制台电缆,可以通过控制台会话访问思科网真MCU。如果系统无法通过Web界面访问,并且不响应ping请求,您可以打开设备的控制台会话,以便通过检查启用的服务、端口配置和状态对其进行故障排除。
如果系统无法执行ping操作,或者您在分配IP地址后无法导航至系统的Web界面,请完成以下步骤以访问MCU:
- 验证设备前面没有红色警报指示灯亮起。如果设备通电超过20分钟,并且红色警报指示灯仍然亮起,请参阅本文档的崩溃部分。
- 如果设备上的绿色Status指示灯亮起,请使用随设备提供的控制台电缆将PC连接到控制台端口。
注:有关如何完成此步骤的说明,请参阅Cisco收购的Codian单元Cisco上的Connecting to the console port一文。
- 要验证连接的终端会话是否实际连接,请按几次Enter键,系统将显示提示。显示的提示符显示您的设备(例如IPGW:>、ISDNGW:>或MCU:>):
- 要验证HTTP和/或HTTPS服务是否已启用,请输入service show命令:
- 要验证设备上的链路状态,请输入status命令:
- 如果端口A上未显示链路,则尝试将以太网电缆连接到端口B,以查看链路状态是否更改:
- 如果端口B能够检测到链路,但端口A不能,则完成以下步骤以再次检查端口A上的IP配置:
- 如果端口A似乎没有问题,则尝试执行reset_config过程以将设备恢复为出厂默认设置。
注:有关此步骤的详细信息,请参阅思科文章重置密码并将设备恢复为出厂设置。
- 完成出厂重置过程后,重新配置端口的静态IP地址。
- 如果仍然遇到问题,请从控制台重新启动系统,并通过使用的终端客户端将启动时的输出收集到文本文件中:
MCU MSE 8510系列刀片服务器和MCU MSE 8710系列刀片服务器将两个以太网接口显示为vfx0和vfx1。机架安装式系统(MCU 4500系列和4200系列、IPGW 3500系列和ISDN GW 3241系列)显示其以太网接口为bge0和bge1。
- 在MCU MSE 8510和8710系列刀片上,验证MAC地址已分配,并且vfx0和/或vfx1没有问题。
- 在机架安装式设备上,您可能会看到下一幅图中的输出,其中bge0表示设备上的网络接口卡(NIC)出现故障。这表示未检测到物理层。如果发现这种情况,请与Cisco技术支持联系。
- 如果在交换端口后未出现任何链路,请验证网络连接。理想情况下,输出应如下图所示,其中显示了所有IP信息。这表示单元上的IP设置配置正确。
注意:出于安全原因,映像中的IP地址信息会被隐藏。
- 更改设备的IP地址,以发现网络上任何一组IP地址的问题。
- 将以太网电缆移到单独的交换机端口,以消除任何交换机端口问题。
- 如果消除了交换机端口问题,请通过交叉电缆将笔记本电脑直接连接到该设备,并为笔记本电脑配置该子网中包含的相同子网掩码、默认网关和IP地址。
- 在笔记本电脑上配置IP地址后,从笔记本电脑向设备发送ping。尝试从笔记本电脑访问设备的Web界面。此外,尝试通过ping命令从设备控制台会话向笔记本电脑IP地址发送ping。如果存在连接和Web访问,则表明存在网络连接问题。如果不是,则以太网端口引脚可能损坏,您应联系Cisco技术支持。
崩溃
思科网真MCU产品上的故障可能是由无法完全启动、持续重启周期或持续会议发生的事件造成的。
如果设备上的红色警报灯保持亮起超过20分钟,则您无法导航到设备Web界面,或者无法进行视频呼叫,则可能是设备无法完全启动,或者处于重新启动周期中。如果出现这种情况,请完成以下步骤以解决问题:
- 拔下设备电源线。如果是刀片,请将其从机箱中取出。
- 等待5分钟,然后打开设备电源。
- 如果设备无法正常启动,请收集控制台日志,其中显示尝试启动的设备。这是针对此情况的最佳诊断工具。有关如何获取控制台日志的信息,请参阅Connecting to the console port on a Cisco acquired Codian unit Cisco文章。
- 关闭设备电源,然后打开设备电源。
- 等到输出完全停止,或者设备重新启动了三四次。联系Cisco技术支持,并提供控制台日志。
排除MSE 8000系列风扇托架、电源整流器和电源架故障
风扇托架、电源整流器和电源架均通过Supervisor MSE 8050系列刀片进行监控。您可以通过Supervisor Web界面排除与这些故障或问题相关的任何故障或问题。本节介绍通过验证日志和状态对风扇、电源架或电源整流器故障进行故障排除的步骤。
下图显示了完整的MSE 8000系列机箱:
请注意,在上图中:
- 上部和下部风扇托架
- 插入的刀片
- 单个刀片的特写
- 机架安装
注意:有关如何安装MSE 8000系列机箱的详细信息,请参阅思科网真MSE 8000入门指南。
排除MSE 8000系列风扇故障
使用此部分可以通过验证Supervisor MSE 8050系列刀片上的警报状态和事件日志来排除MSE 8000系列机箱上的风扇故障。
以下是事件日志中的一个练习,其中显示了上部风扇托架的问题:
37804 2012/07/03 18:43:28.567 HEALTH Warning
upper fan tray, fan 3 too slow - 1569 rpm
37805 2012/07/03 18:43:28.567 ALARMS Info
set alarm : 2 / Fan failure SET
37806 2012/07/03 18:43:44.568 ALARMS Info
clear alarm : 2 / Fan failure CLEAR
37807 2012/07/03 18:44:00.569 HEALTH Warning
upper fan tray, fan 3 too slow
当您看到这些错误时,请完成以下步骤以收集所需的日志:
- 要下载警报日志文本文件,请导航到警报>警报日志>下载为文本。请观察记录此信息的最新日期。
- 要下载事件日志文本文件,请导航到日志>事件日志>下载为文本。
- 导航到Alarms > Alarms Status,并截取Alarm Status页面的屏幕快照。
- 卸下顶部风扇托架,并验证所有风扇是否工作正常。
- 卸下底部风扇托架,并验证所有风扇是否工作正常。
- 要清除Supervisor中的Historic Alarms,请导航到Alarms > Alarms Status > Clear HistoricAlarms。
- 要清除Alarms Log,请导航到Alarms > Alarms Log > Clear Log。
- 监控,并查看警报是否返回。
- 如果问题再次出现,请将顶部托盘与底部托盘交换,并确定问题是否出在风扇托盘上。如果问题再次出现并出现在风扇托架后,请联系Cisco技术支持并提供您收集的日志。
电源架问题
在MSE 8000系列机箱中,有两个独立的直流电源输入端,您可以直接连接到两个直流电源,也可以连接到两个将交流转换为直流的电源架上。MSE 8000系列机箱可配备一个或两个电源架(A和B)。这些电源架可独立向每个风扇托架和刀片供电。设备可以从电源A或电源B完全供电。如果任一电源出现故障,设备将继续运行,因为它从其他电源获取电源。
思科建议,为了获得完全冗余和最大可靠性,电源必须连接到独立电源。每个机架必须具备提供设备全部电负载的能力,且每个机架包含相同数量的整流器。
此图显示MSE 8000系列直流电源架:
以下是您可能遇到的两个常见电源架问题:
- 与电源架失去联系 — 导航到硬件>电源时,电源A显示“与电源架失去联系”。这意味着Supervisor MSE 8050系列无法与电源架通信。
- 10/外部电源超出范围SET — 这意味着机箱的输入电压超出规格。通过计算MSE 8000在线工具的电源和电流要求,验证为机箱提供的电源和电流是否正确。
如果在执行前面提到的电源和电流验证时没有发现差异,请检索此信息并联系思科技术支持:
- MSE 8050系列管理引擎配置
- 审核日志
- 警报日志
- 事件日志
- “警报状态”(Alarm Status)页面的截图
- 机箱中刀片的数量和型号
- 电源的状态
配置电源状态监控
Cisco建议您配置电源状态监控,以便就日志中发现的任何错误、警告或其他重要信息向视频管理员提供可靠的反馈。
要启用电源电压以及交流到直流电源架(如果需要)的监控,请完成Cisco TelePresence Supervisor 2.3联机帮助(可打印格式)第61页上的步骤。完成电源状态配置后,清除日志。
检查从电源架背面到机箱的电源架监控电缆。这是用于电源架监控的特殊电缆。检查电缆时要小心,因为它很容易与常规DB9-RJ45控制台电缆混淆。电源架监控电缆上贴有标签,上面写着Power Shelf Rear:
MSE 8000系列机箱背面有两个连接器对:左边的连接器对标记为Slot 10,右边的连接器对标记为Slot 1。确保监控电缆连接到插槽1,这是代表MSE 8050系列Supervisor插槽的连接器。
如果电源架监控配置有任何问题,请完成以下步骤:
- 将电源机架监控电缆从机架A换到机架B,以确定电缆是否有问题。如果电缆出现问题,请与Cisco技术支持联系。
- 从电源架A和电源架B交换网卡以确定网卡是否是问题的原因。如果警报返回,并且问题出在NIC卡上,请与Cisco技术支持联系。
下图显示了电源架NIC卡:
电源整流器故障排除
在某些情况下,您可能会遇到某个电源整流器问题。本节介绍如何解决这些问题。
以下是带整流器的电源架的前视图:
这是电源架的后视图:
要解决电源整流器问题,请完成以下步骤:
- 如果整流器上出现错误,请将其重新安装,并等待查看错误是否仍然出现(整流器可热插拔)。
- 如果几分钟后仍然出现错误,请将整流器放入电源架A或B的不同插槽,以确定问题出在整流器还是电源架插槽。
- 如果您仍然遇到问题,请与Cisco技术支持联系并提供以下信息:
- 处于警报状态的整流器的图片
- 整流器的序列号(位于整流器的右侧左侧)
- “电源”页面的截图(硬件>电源)
- “运行状况”(Health)页面的截图(状态(Status)>运行状况(Health))
- 审核日志
- 警报日志
- 事件日志
思科网真ISDN GW问题故障排除
Cisco Telepresence ISDN GW通过ISDN提供功能完全透明的IP和ISDN网络无缝集成。本节介绍如何对DSP上的ISDN PRI接口和缓冲区进行故障排除。
PRI第1层和第2层关闭
使用此部分可排除ISDN GW上的PRI接口问题。可以使用环回插头检查PRI端口以确定其是否故障:
- 第1层(L1)表示物理层或PRI连接。
- 第2层(L2)用于信令。
您可以使用环回电缆确定ISDN GW上PRI端口的L1状态。将Pin1连接到Pin4,将Pin2连接到Pin5,以便创建环回电缆。
将环回电缆插入端口1,并检查L1状态。如果端口1上的L1状态显示为Up,则问题很可能是由使用的电缆引起的。您可以使用环回电缆沿线进一步隔离问题。
如果使用环回电缆,端口1上的L1状态显示为Down,请为ISDN GW上的PRI启用Port 2。使用环回电缆测试端口2。如果特定端口仍然存在问题,则可能是PRI端口故障。请与 Cisco 技术支持联系。
乒乓错误和DSP超时
DSP上有两个缓冲区,称为Ping和Pong。每个缓冲区一次处理十毫秒的数据(一个ISDN帧)。目的是在读取下一个缓冲区时处理一个缓冲区。如果这两个缓冲区彼此不同步,它们会交换以尝试恢复同步。
以下是Cisco Telepresence ISDN GW事件日志中的示例,其中缓冲区失去同步并尝试自行更正:
14031 2012/02/29 13:03:05.143 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14032 2012/02/29 13:03:05.399 dspapi Error DSP(05):
"Ping Pong buffer out of sync 1, 11111111"
14033 2012/02/29 13:03:05.399 dspapi Info DSP(05):
"Attempt to correct Ping Pong buffer sync"
14034 2012/02/29 13:03:05.400 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14035 2012/02/29 13:03:05.856 dspapi Error DSP(05):
"Ping Pong buffer out of sync 1, 11111111"
14036 2012/02/29 13:03:05.856 dspapi Info DSP(05):
"Attempt to correct Ping Pong buffer sync"
14037 2012/02/29 13:03:05.862 dspapi Warning DSP(05):
"Ping Pong buffer returned to sync 0, 11111111"
14064 2012/02/29 13:03:21.626 dspapi Info DSP(04):
"receive from local primary dsp timeout"
14065 2012/02/29 13:03:21.626 dspapi Info DSP(03):
"receive from local primary dsp timeout"
14066 2012/02/29 13:03:21.638 dspapi Info DSP(15):
"receive from peer primary dsp timeout (rx)"
以下是需要考虑的一些问题:
- 为什么它们不同步?
- 可能是无效帧、有故障的ISDN时钟或不可靠的PRI导致此问题吗?
以下是需要收集的信息列表:
- 有多少个PRI连接到此GW?
- 所有PRI是来自同一交换机还是来自不同的交换机?
- 如果所有PRI都拔掉并且系统重新启动,错误是否继续?收集显示这些错误的控制台日志。
- 如果只有PRI 1已连接,是否返回错误?
- 如果只有PRI 2已连接,是否返回错误?对所有PRI重复上述操作,一次一个。
如果使用来自不同交换机的PRI,则PRI时钟必须同步(来自相同Telco的PRI通常同步)。一台交换机的PRI的时钟可能与另一台交换机的PRI的时钟完全不同步。如果只有一个PRI已连接且看上去正常,则从一个交换机连接一个PRI,从另一个交换机连接一个PRI,重新启动系统,然后查看错误是否返回。记录您的测试和行为,以便在需要时提供给Cisco技术支持。
相关信息