实时监控工具警报

下载选项

PDF (779.1 KB)
在各种设备上使用 Adobe Reader 查看
ePub (602.3 KB)
在 iPhone、iPad、Android、Sony Reader 或 Windows Phone 上使用各种应用查看
Mobi (Kindle) (498.3 KB)
在 Kindle 设备上查看或在多个设备上使用 Kindle 应用查看

已更新: 2018 年 4 月 27 日

文档 ID:213291

非歧视性语言

此产品的文档集力求使用非歧视性语言。在本文档集中，非歧视性语言是指不隐含针对年龄、残障、性别、种族身份、族群身份、性取向、社会经济地位和交叉性的歧视的语言。由于产品软件的用户界面中使用的硬编码语言、基于 RFP 文档使用的语言或引用的第三方产品使用的语言，文档中可能无法确保完全使用非歧视性语言。深入了解思科如何使用包容性语言。

关于此翻译

思科采用人工翻译与机器翻译相结合的方式将此文档翻译成不同语言，希望全球的用户都能通过各自的语言得到支持性的内容。请注意：即使是最好的机器翻译，其准确度也不及专业翻译人员的水平。 Cisco Systems, Inc. 对于翻译的准确性不承担任何责任，并建议您总是参考英文原始文档（已提供链接）。

简介

本文档讨论思科实时监控工具(RTMT)警报，并演示如何对一些常见警报进行故障排除。

先决条件

要求

Cisco建议您具备Cisco Call Manager Web管理知识。

使用的组件

本文档中的信息基于Cisco CallManager Server 11.0。

本文档中的信息都是基于特定实验室环境中的设备编写的。本文档中使用的所有设备最初均采用原始（默认）配置。如果您使用的是真实网络，请确保您已经了解所有命令的潜在影响。

背景信息

作为客户端应用程序运行的RTMT使用HTTPS和TCP来监控系统性能、设备状态、设备发现、计算机电话集成(CTI)应用程序和语音消息传送端口。RTMT可用于为其监控的群集配置警报。

系统生成警报消息，以便在满足预定义条件（例如激活的服务从上到下）时通知管理员。系统可以将警报作为电子邮件/电子邮件页面发送。

RTMT支持警报定义、设置和查看，包含预配置和用户定义的警报。虽然您可以对这两种类型执行配置任务，但不能删除预配置的警报。

RTMT警报

Unified RTMT在警报中心显示预配置的警报和自定义警报，如图所示。

您还可以通过点击系统抽屉的层次结构树中的Alert Central图标来访问Alert Central。

配置

Unified RTMT在适用的选项卡下组织警报：System、CallManager、Cisco Unity Connection和Custom。

您可以在警报中心启用或禁用预配置和自定义警报；但是，不能删除预配置的警报。

RTMT中的警报分类如下：

系统警报

此列表包括预配置的系统警报：

身份验证失败
CiscoDRFailure
CoreDumpFileFound
Cpu追溯
CriticalAuditEventGenerated
CriticalServiceDown
硬件故障
LogFileSearchStringFound
已超出LogPartitionHighWaterMarkExceeded
已超出LogPartitionLowWaterMarkExceeded
LowActivePartitionAvailableDiskSpace
LowAvailableVirtualMemory
LowInactivePartitionAvailableDiskSpace
LowSwapPartitionAvailableDiskSpace
ServerDown(适用于Unified Communications Manager(CUCM)群集)
SparePartitionHighWaterMarkExceeded
SparePartitionLowWaterMarkExceeded
系统日志严重性匹配已找到
系统日志字符串匹配已找到
系统版本不匹配
TotalProcessesAndThreadsExceededThreshold

CallManager警报

此列表包括预配置的CallManager警报。

BeginThrottlingCallListBLFSsubscriptions
CallAttemptBlockedByPolicy
CallProcessingNodeCpuPegging
CARIDSEngineCritical
CARIDSEngineFailure
CARSchedulerJobFailed
CDRAgentSendFileFailed
CDRFileDeliveryFailed
已超过CDRHighWaterMarkExceeded
CDRMmaximumDiskSpaceExceeded
CodeYellow
DBChangeNotifyFailure
DBReplicationFailure
DBReplicationTableOutofSync
DDRBlockPrevention
DRDown
EMCCFailedInLocalCluster
EMCCFailedInRemoteCluster
ExcessiveVoiceQualityReports
IMEDdistributedCacheInactive

IMEOverQuota
IMEQualityAlert
InsufficientFallbackIdentifiers
IMEServiceStatus
凭证无效
LowTFTPServerHeartbeatRate
MaliciousCallTrace
MediaListExhauted
MgcpDChannelOutOfService
NumberOfRegisteredDevicesExceeded
NumberOfRegisteredGatewaysReduced
NumberOfRegisteredGatewaysIncreated
NumberOfRegisteredMediaDevicesDecreated
NumberOfRegisteredMediaDevicesIncreated
NumberOfRegisteredPhoneDropped
路由列表已用尽
SDLLinkOutOfService
TCPSetupToIMEilled
TLSConnectionToIMEFilled
UserInputFailure

LowAvailableVirtualMemory和LowSwapPartitionAvailableDiskSpace

Linux服务器倾向于在一段时间内“不清除”虚拟内存的使用情况，并且发现会积累这些警报，从而产生这些警报。

作为操作系统，Linux的运行方式略有不同。

内存分配给进程后，处理器将不会收回内存，除非其它进程请求内存大于可用内存。

这会导致高虚拟内存。

缺陷中记录了在Call Manager的更高版本中增加警报阈值的请求；https://bst.cloudapps.cisco.com/bugsearch/bug/CSCuq75767/?reffering_site=dumpcr

对于交换分区，此警报表示交换分区可用空间不足，且被系统大量使用。交换分区通常用于在需要时扩展物理RAM容量。在正常情况下，如果RAM足够，则不应过度使用交换。

此外，这些警报可能会因临时文件的累积而引发RTMT警报，建议重新启动服务器以清除任何不必要的临时文件。

LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded

在CUCM服务器的CLI上运行show status时，将显示一个值，该值指定在CUCM磁盘空间中日志记录分区的已用和空闲百分比。这些值也称为公共分区，指定服务器中的日志/跟踪和CDR文件所占用的空间，即使这些空间是无害的，也可能会导致安装/升级过程出现问题，因为随着时间推移缺少空间。这些警报对管理员起到警告作用，以清除群集/服务器中随时间累积的日志。

LogPartitionLowWaterMarkExceeded：当填充空间达到为警报配置的阈值时生成此警报。此警报用作磁盘使用情况的预检查指示器。

LogPartitionHighWaterMarkExceeded：当填充空间达到为警报配置的阈值时生成此警报。生成警报后，服务器开始自动清除最旧的日志，以便将空间缩小到可忽略HighWaterMark阈值的值。

最佳做法是在收到LogPartitionLowWaterMarkExceeded警报后立即手动清除日志。

具体步骤如下：

步骤1.启动RTMT。

步骤2.选择Alert Central，然后执行以下任务：

选择LogPartitionHighWaterMarkExceeded，记下其值并将其阈值更改为60%。

选择LogPartitionLowWaterMarkExceeded，注意其值，并将其阈值更改为50%。

轮询每5分钟执行一次，因此请等待5-10分钟，然后验证所需的磁盘空间是否可用。如果要释放公共分区中的更多磁盘空间，请再次将LogPartitionHighWaterMarkExceeded和LogPartitionLowWaterMarkExceeded线程值更改为较低的值（例如，30%和20%）。

给它一个15到20分钟的时间来清除公共分区中的空间。您可以使用CLI命令show status监控磁盘使用量的减少。

那会把共同的分区拆下来。

Cpu追溯

CpuPegging警报根据配置的阈值监控CPU使用情况。

收到CPU追溯警报后，可以转至左侧的“系统抽屉”（即“进程”）来占用最高CPU的进程。

从相关服务器的CLI中，这些输出将提供一些见解。

utils诊断测试
show process load cpu sorted
show status
utils core active list

建议观察CPU峰值是在特定时间还是随机发生的。如果它随机发生，则所需的详细CUCM跟踪以及RisDC perfmon日志检查CPU中触发峰值的原因。如果在一天中的特定时间发出警报，则可能是由于某些计划活动(如灾难恢复系统(DRS)备份、CDR负载等)所致。

此外，根据哪个进程占用CPU最多的信息，将采用特定日志进行进一步调查。例如如果罪魁祸首是Tomcat，则需要Tomcat相关日志。

验证

使用本部分可确认配置能否正常运行。

如果您在遵循此处建议的变通方法后未解除警报，或者警报似乎对服务有直接影响，请与Cisco TAC联系，以了解有关呼叫管理器版本、集群中的节点数、警报时间和持续时间以及CPU追溯时所需的进程缩窄的必要详细信息。

故障排除

目前没有针对此配置的故障排除信息。

修订历史记录

版本	发布日期	备注
1.0	27-Apr-2018	初始版本

由思科工程师提供

阿尼梅什·洛坎
思科TAC工程师

此文档是否有帮助?

反馈

联系我们

提交支持案例
(需要思科服务合同)

本文档适用于以下产品

Unified Communications Manager (CallManager)