简介
本文档介绍ACI故障F3696:coop-ep-dampening和补救步骤。
背景信息
当EP由于COOP终端抑制功能进入“冻结”状态时,会触发此特定故障。EP在发现具有一致的移动行为时处于“冻结”状态,导致在短时间内对COOP进行多次更新。
COOP EP Dampening是一种COOP过程保护机制,也有助于确定EP的原因。
在思科应用策略基础设施控制器(APIC)版本4.2(3)中引入并默认启用COOP EP抑制。
code : F3696
descr : 1 EPs are in freeze state.
cause : coop-ep-dampening
注意:此故障的性质和相关联的燃尽计时器可能导致触发故障,然后自行清除。
Intersight Connected ACI交换矩阵
此故障作为主动ACI活动的一部分进行主动监控。
如果您有与Intersight连接的ACI交换矩阵,则会代表您生成服务请求,以指明在Intersight连接的ACI交换矩阵中找到了此故障的实例。
COOP端点阻尼
Oracle Council of Oracle Protocol(COOP)用于将终端(EP)映射信息(位置和身份)传送到主干代理。枝叶交换机通过COOP将终端地址信息转发到主干交换机,这样就可以确保所有主干节点保持终端地址和位置信息的一致副本。
一致的EP移动(例如跨接口或设备)会导致持续向主干更新终端,以确保COOP数据库准确。由于正在进行的终端移动而导致的激增的更新量可能导致COOP资源过度利用,从而阻止有效终端更新的处理。
欺诈终端检测(枝叶交换机的功能)可防止主动EP更新到达主干交换机,只要移动范围是单个枝叶。也有其他EP移动场景,如跨叶EP移动,需要不同的保护机制来保护COOP。这就是COOP终端抑制的作用所在。
为减轻EP移动情况下的COOP压力,主干交换机要求所有枝叶交换机忽略来自已标记终端的指定时间段内的更新。当发生这种情况时,任何此类终端的阻尼状态为“冻结”,并生成故障F3696。
有关惩罚值和阈值的更多详细信息在配置指南链接(例如4.2配置指南链接)中提及。
https://www.cisco.com/c/en/us/td/docs/switches/datacenter/aci/apic/sw/4-x/basic-configuration/Cisco-APIC-Basic-Configuration-Guide-42x/Cisco-APIC-Basic-Configuration-Guide-42x_chapter_0101.html#Cisco_Task.dita_b4647f36-3e4f-43bc-bea3-7572badebc01
有关此功能的最新信息,请参阅版本特定配置指南链接。
注意:必须明确启用其他主动EP更新保护功能,如欺诈EP控制和EP环路保护。 有关这些功能的更多详细信息,请参阅ACI交换矩阵终端学习白皮书
https://www.cisco.com/c/en/us/solutions/collateral/data-center-virtualization/application-centric-infrastructure/white-paper-c11-739989.html
EP冻结的可能原因
在现场造成此行为的2种典型场景是:
- 具有2个独立枝叶连接的服务器,使用主用 — 主用,而不是单个逻辑链路(vPC)配置
- 下游网络设备上的环路
解决故障的快速入门
- 确定哪些终端进入“冻结”状态
- (可选)如果发现数据平面影响,请清除冻结的EP以临时解决影响
- 确定并理解EP移动的原因,以及网络设计中是否预期需要此功能。
- 如果不需要,请采取措施解决导致EP移动的基本情况
- 如果网络设计需要相关移动,并且需要该移动,请考虑禁用COOP EP抑制。
注:COOP EP阻尼是COOP过程的保护机制。一般而言,优选在可能情况下采取减少不必要的EP移动的操作。
解决故障的详细步骤
识别“冻结”端点
使用此交换机CLI过程查看主干或枝叶节点中的所有阻尼终端。
- 登录到主干或枝叶交换机CLI并输入命令:
- switch# show coop internal info repo ep dampening
(可选)清除“冻结”端点
通过GUI
通过GUI执行时,这将清除所选节点上的所有冻结EP。 此操作必须在所有主干交换机以及冻结终端的源枝叶交换机上执行。
- 在菜单栏中,点击Fabric > Inventory。
- 在“导航”(Navigation)窗格中,展开Pod和主干或枝叶节点。
- 右键单击该节点,然后选择Clear Dampened Endpoints。
- 点击Yes确认操作。
注意:如果所讨论的EP仍在枝叶交换机上的终端表中,则终端会发布到主干交换机COOP数据库。否则,阻尼终端将在两分钟后从主干交换机COOP数据库中删除。
通过交换机CLI
通过交换机CLI执行时,此过程一次只能清除单个终端。此操作必须在终端的所有主干交换机和源枝叶交换机上执行。
- 登录到主干或枝叶交换机CLI并输入命令
- switch# clear coop internal info repo ep dampening key <bd_vnid> <mac>
注意:如果所讨论的EP仍在枝叶交换机上的终端表中,则终端会发布到主干交换机COOP数据库。否则,阻尼终端将在两分钟后从主干交换机COOP数据库中删除。
禁用COOP EP阻尼
通常不建议这样做。但是,如果您发现您的网络设计需要EP移动,则可以禁用COOP EP抑制。
使用disableEpDampening="true"对/api/policymgr/mo/.xml执行HTTP POST将禁用COOP EP阻尼。
COOP EP阻尼可使用同一请求重新启用,但需设置disableEpDampening="false"。
POST api/policymgr/mo/.xml
PAYLOAD:
disableEpDampening="true">
通过APIC CLI
在APIC CLI上,icurl命令可以促进所需的HTTP POST。
禁用COOP EP抑制:
apic# icurl -X POST -d '
true">
' http://localhost:7777/api/policymgr/mo/.xml
验证是否已禁用COOP EP抑制:
apic# moquery -c infraSetPol
Total Objects shown: 1
# infra.SetPol
disableEpDampening : yes
dn : uni/infra/settings
其他详细信息
COOP EP阻尼 — DamgFactor定制
在5.2.4d及更高版本中,可以修改“阻尼因子”,以增加与COOP EP阻尼功能相关的特定值。
如果预期在默认阈值之外存在一定程度的EP移动,并且您不想禁用COOP EP衰减,则可以考虑修改DampingFactor。
与阻尼惩罚相关的3个阈值协同工作。在更改DamnFactor时,所有3个值都会被修改。
阈值名称 |
描述 |
默认值 |
dhnReuseThresh |
当EP从“冻结”状态返回正常状态时,重新使用阈值 |
2500 |
zhiSatThresh |
阻尼饱和阈值。当EP超过此惩罚值时,它将被置于“冻结”状态 |
10000 |
zhiThresh |
严重状态阈值。如果EP在其上方保持10分钟,则将其置于“冻结”状态 |
4000 |
默认DamnFactor设置为1。DamnFactor可以修改为1到5之间的值。
修改COOP EP DamnFactor
要将阻尼系数更改为值的4倍,您可以在APIC上使用以下贴子 —
apic# icurl -X POST -d '
dampFactor=4>
' http://localhost:7777/api/policymgr/mo/.xml
通过检查coopRepP类,可以验证修改的阈值(每个回放的每个主干):
apic# moquery -c coopRepP
# coop.RepP
...
dampReuseThresh : 10000
dampSatThresh : 40000
dampThresh : 16000