소개
이 문서에서는 AppDynamics에서 상담원 가용성 경고를 구성하고 문제를 해결하는 방법에 대해 설명합니다.
사전 요구 사항
요구 사항
- 컨트롤러에 대한 Java/Machine/Database Agent 보고 가용성 메트릭.
- HealthRule 및 정책을 만들 수 있는 권한입니다.
- AppDynamics 컨트롤러(SaaS 또는 온프레미스).
사용되는 구성 요소
이 문서의 정보는 특정 랩 환경의 디바이스를 토대로 작성되었습니다. 이 문서에 사용된 모든 디바이스는 초기화된(기본) 컨피그레이션으로 시작되었습니다. 현재 네트워크가 작동 중인 경우 모든 명령의 잠재적인 영향을 미리 숙지하시기 바랍니다.
배경 정보
디지털에 우선하는 환경에서는 무중단 애플리케이션 성능이 필수적입니다. 사용자 만족뿐만 아니라 비즈니스 연속성과 평판을 위해서도 그렇습니다. AppDynamics는 스택의 모든 코너에서 중요한 텔레메트리를 수집하여 강력한 가시성을 제공합니다. 그러나 이러한 가시성을 담당하는 바로 그 에이전트가 암흑에 빠지면 어떻게 될까요? 상담원 중단을 적시에 감지하지 못하면 관찰 기능이 손상되어 새로운 문제와 잠재적 중단을 인식하지 못하게 됩니다.
문제 설명
AppDynamics 에이전트(App Agents 또는 Machine Agents)가 보고를 중지하면 애플리케이션 상태, 성능 및 인프라 상태에 대한 실시간 통찰력을 잃게 됩니다. 이러한 사각지대는 에이전트 충돌, 잘못된 컨피그레이션, 네트워크 장애 또는 리소스 소진으로 인해 발생할 수 있습니다. 그 결과는 매우 심각합니다.
- 관찰 가능성 상실: 모니터링 데이터의 부족으로 인해 성능이나 가용성 문제를 사전에 탐지, 진단, 해결할 수 없게 되어 사용자 환경에 심각한 사각지대가 생깁니다.
- 더 느린 사고 대응: 적시에 경고가 표시되지 않으면 중단 또는 저하가 최종 사용자에게 영향을 미칠 때까지 감지되지 않고 지속되어 다운타임이 더 길어지고 평균 해결 시간이 늘어납니다.
- 규정 준수 및 감사 취약점: 불완전한 모니터링 기록은 규정 준수를 저해하고 감사 준비도를 입증하는 것을 어렵게 만들어 조직에 잠재적 불이익을 줄 수 있습니다.
- 비즈니스 및 고객 영향: 탐지되지 않은 중단 또는 성능 문제는 사용자 환경을 저하시키고 신뢰를 떨어뜨리며 조직의 평판에 부정적인 영향을 미치고 직접적인 매출 손실로 이어질 수 있습니다.
상담원 가시성 중요도
1. 엔드 투 엔드 가시성 유지
상담원 가용성 경고는 상담원이 보고를 중지할 때 즉시 알림을 제공하여 심각한 격차가 발생하기 전에 모니터링을 복원할 수 있도록 합니다. 이는 분산 시스템 전반에서 엔드 투 엔드 가시성을 유지하기 위한 기본 사항입니다.
2. 사전 사고관리
자동화된 알림을 통해 조직은 격차가 비즈니스에 영향을 미치는 중단으로 확대되기 전에 모니터링 격차에 대응할 수 있습니다. 조기 탐지는 더 빠른 교정 및 다운타임 최소화를 의미합니다.
3. 컴플라이언스 및 거버넌스 지원
규정 준수를 위해 지속적인 모니터링이 필요한 경우가 많습니다. 상담원 가용성 경고를 통해 전체 모니터링 레코드를 유지 관리하고 운영 표준을 준수하는지 확인할 수 있습니다.
4. 자신 있게 확장
환경의 규모와 복잡성이 증가하면서 수동 에이전트 점검이 비현실적으로 바뀌고 있습니다. 자동화된 상담원 가용성 알림은 모든 노드 및 서비스 간의 격차를 완화하면서 규모에 맞게 관찰할 수 있도록 보장합니다.
5. 오탐(오탐) 감소
AppDynamics를 사용하면 상태 규칙을 세부적으로 조정하고 한정자(예: 일정 기간 동안의 SUM 또는 값)를 사용하여 일시적인 연결 끊기 또는 간단한 네트워크 문제로 인한 불필요한 알림을 방지할 수 있습니다. 이렇게 하면 관찰 가능성의 실제 격차가 발생할 때만 알림을 받을 수 있습니다.
구성
AppDynamics에서 상담원 가용성 알림을 설정하는 데는 세 가지 주요 단계가 포함됩니다. 상태 규칙 생성, 작업 정의 및 정책과 연결
1단계: 상태 규칙 만들기
- AppDynamics 컨트롤러 UI로 이동합니다.
- Alert & Response(경고 및 응답)로 이동하고 Health Rules(상태 규칙)를 선택합니다.
- 새 상태 규칙을 추가하려면+ 버튼을 클릭합니다.
- 규칙의 이름을 지정합니다(예: Agent Down Alert - BookHouzeService).

- Affected Entities 섹션에서 모니터링할 노드 또는 계층을 선택합니다.

- Critical Critical Criteria 섹션에서 메트릭 경로를 설정합니다.
- 앱 에이전트의 경우: Agent|App|Availability
- 컴퓨터 에이전트: 하드웨어 리소스|컴퓨터|가용성
- 데이터베이스 에이전트의 경우: DB|KPI|DB 가용성
(메트릭 브라우저를 사용하여 이러한 경로를 탐색하고 확인합니다.)
- 값이 1보다 작을 때 트리거되도록 조건을 설정합니다(< 1). 이는 상담원이 보고하지 않을 경우 경고가 발생함을 의미합니다.
- 상담원이 메트릭 전송을 완전히 중지하는 경우를 catch하려면 Evaluate to true on no data(데이터 없음에서 Evaluate to true(평가에서 true)를 Critical(중요)로 선택해야 합니다.

팁: 애플리케이션이 유휴 기간(트래픽 없음)을 경험하는 경우 에이전트는 언로드한 후 다운된 상태로 표시될 수 있습니다. 응용 프로그램이 유휴 시간 제한 설정인지 조정하거나 상태 규칙 평가 창을 미세 조정하여 오탐을 방지하는 것이 좋습니다.
2단계: 작업 만들기
- Alert & Response(경고 및 응답) > Actions(작업)로 이동합니다.
- 전자 메일 알림을 보내거나 Webhook 호출과 같은 작업을 만듭니다.
- 경고에 대한 수신자 또는 통합 엔드포인트를 지정합니다.


3단계: 정책 생성
- Alert & Response(경고 및 응답) > Policies(정책)로 이동합니다.
- 새 정책을 생성하고 생성한 상태 규칙을 선택합니다.

- 이 정책에 작업을 할당합니다.

이제 에이전트가 보고를 중지할 때마다 AppDynamics에서 팀에 자동으로 알림을 보내 신속한 조사 및 교정을 수행할 수 있습니다.
다음을 확인합니다.
1단계: 상태 규칙 평가 상태 확인
- Health Rules로 이동합니다.
AppDynamics Controller에서 Alert & Response(경고 및 응답) > Health Rules(상태 규칙)로 이동합니다.
- 규칙 찾기:
목록에서 상담원 가용성 상태 규칙을 찾습니다.
- 상태 표시등:
규칙 옆에 있는 상태 아이콘 또는 평가 요약을 찾습니다. 녹색 확인 표시 또는 확인 상태는 평가 중임을 나타냅니다. 경고 또는 오류는 구성 문제가 있음을 나타냅니다.

2단계: 메트릭 브라우저 사용
- 메트릭 브라우저 열기:
Monitor(모니터) > Metric Browser(메트릭 브라우저)로 이동합니다.
- 가용성 메트릭을 찾습니다.
대상 노드 또는 계층의 Agent|App|Availability 또는 Agent|Machine|Availability로 드릴다운합니다.
3단계: 상담원 작동 중지 시나리오 시뮬레이트
- 상담원 중지:
테스트 노드에서 AppDynamics 에이전트 서비스를 일시적으로 중지합니다.
- 평가 대기:
상태 규칙 평가 창이 통과될 때까지 충분한 시간을 허용합니다.

- 경고 확인:
UI에 상태 규칙 위반이 나타나는지, 구성된 작업(예: 이메일, 웹후크)이 트리거되는지 확인합니다. 
단계 4: 경고 검토 및 응답 대시보드
- Alert & Response(경고 및 응답) > Actions and Policies(작업 및 정책)로 이동합니다.
상태 규칙에 연결된 작업 및 정책에 최근 작업 또는 트리거 로그가 표시되는지 확인합니다.

5단계: 알림 전달 확인
- 이메일/웹후크 확인:
받은 편지함 또는 엔드포인트에서 알림을 수신하는지 확인합니다.
- 경고 내용 검토:
알림 메시지는 올바른 상태 규칙 및 영향을 받는 노드/계층을 참조해야 합니다.

체크리스트 확인:
상태 √ 상태가 OK이거나 현재 평가 중입니다.
√ 최근 상태 규칙 평가 및 (해당되는 경우) 위반이 UI에 표시됩니다.
√ Metric Browser는 가용성 메트릭에 대한 실시간 데이터를 표시합니다.
√ 시뮬레이션된 에이전트 다운 시나리오는 상태 규칙 위반 및 알림을 트리거합니다.
√ 구성된 알림 채널을 통해 알림을 수신합니다.
이러한 검증 단계를 통해 상담원 가용성 알림이 올바르게 구성되었을 뿐 아니라 상담원이 오프라인 상태가 되는 즉시 적극적으로 모니터링되고 알릴 준비가 되었는지 확인할 수 있습니다. 이 간단한 루틴은 예기치 않은 모니터링 사각지대를 방지하고 전반적인 관찰 가능성 전략을 강화할 수 있습니다.
문제 해결
최상의 설정이더라도 때때로 알림을 발생시키지 않습니다. AppDynamics에서 상담원 가용성 알림이 작동하지 않을 경우 문제를 해결하는 데 도움이 되는 실제 검사 목록은 다음과 같습니다.
카테고리 |
문제 해결 단계 |
상태 규칙 컨피그레이션 확인
|
- 메트릭 경로: 올바른 메트릭 경로(Agent|App|Availability 또는 Agent|Machine|Availability)를 사용하고 있는지 다시 확인하십시오.
- 조건 논리: 값이 1(< 1)보다 작을 때 경고 조건이 트리거되도록 설정되었는지 확인합니다.
- 평가 기간: 평가 기간이 너무 짧거나 긴 경우 알림을 누락하거나 지연할 수 있습니다. 필요에 따라 조정합니다.
- 데이터가 없는 경우 true로 평가: 에이전트가 데이터 전송을 완전히 중지하더라도 규칙이 트리거되도록 이 옵션이 활성화되었는지 확인합니다.
|
작업 및 정책 확인
|
- 작업 구성: 작업(예: 이메일, 웹후크)이 올바르게 설정되었는지 확인하고 올바른 수신인 또는 엔드포인트를 가리킵니다.
- 정책 연결: 상태 규칙이 정책을 통해 작업에 실제로 연결되었는지 확인합니다.
- Policy Status(정책 상태): 정책이 활성화되었고 일시 중지되거나 비활성화되지 않았는지 확인합니다.
|
엔드 투 엔드 알림 테스트
|
- 에이전트 작동 중지 시뮬레이션: 에이전트를 중지하거나 연결을 끊어 상태 규칙이 트리거되고 알림이 전송되는지 확인합니다.
- Check Notification Channels(알림 채널 확인): 이메일, sms 또는 webhook 엔드포인트가 작동하며 스팸 필터 또는 방화벽에 의해 차단되지 않았는지 확인합니다.
|
AppDynamics 로그 및 대시보드 검토
|
- 컨트롤러 로그: 알림 또는 상태 규칙과 관련된 AppDynamics 컨트롤러 로그에서 오류 또는 경고를 찾습니다.
- 경고 및 응답 대시보드: AppDynamics UI를 사용하여 최근 상태 규칙 위반 및 트리거된 작업을 검토할 수 있습니다.
|
에이전트 및 네트워크 상태 확인
|
- 상담원 상태: 상담원이 실제로 다운되었거나 보고하지 않았는지 확인합니다. 에이전트가 실행 중이지만 네트워크 문제로 인해 데이터를 보내지 않는 경우도 있습니다.
- 네트워크 연결: 에이전트와 컨트롤러 간의 통신을 차단하는 네트워크 파티션이나 방화벽이 없는지 확인합니다.
|
커먼 함폭스
|
- 응용 프로그램 풀 유휴 시간 제한: 웹 응용 프로그램의 경우 유휴 시간 제한으로 인해 에이전트가 언로드될 수 있습니다. 설정을 조정하거나 오탐을 방지하기 위해 평가 창을 확장합니다.
- 여러 컨트롤러: 여러 AppDynamics 컨트롤러가 있는 경우 올바른 컨트롤러를 확인하고 있는지 확인하십시오.
|
Pro 팁: 컨피그레이션 변경 또는 업그레이드 후 알림 동작을 안전하게 실험하고 확인할 수 있도록 비프로덕션 환경에서 테스트 상태 규칙 및 정책을 유지합니다.
이러한 트러블슈팅 단계를 통해 AppDynamics의 상담원 가용성 알림에서 대부분의 문제를 신속하게 파악하고 해결할 수 있습니다. 이를 통해 모니터링의 안정성을 유지하고 팀이 중단 위험에 대비할 수 있습니다.
결론
상담원 가용성 알림은 AppDynamics에서 신뢰할 수 있는 가시성의 초석입니다. 에이전트 중단을 능동적으로 탐지하고 대응함으로써 지속적인 가시성을 유지하고, 사고 대응을 가속화하며, 탐지되지 않은 중단의 위험으로부터 비즈니스를 보호합니다. 매일 1초의 다운타임이 발생하는 세상에서 이러한 알림은 팀이 가동 중단에 미리 대비하고 사용자가 기대하는 복원력 있는 디지털 경험을 제공할 수 있도록 합니다.
추가 지원 필요
질문이 있거나 문제가 있는 경우 AppDynamics 지원에 문의하고 오류 메시지, 구성 정보 또는 관련 로그와 같은 세부 정보를 포함하여 신속한 문제 해결을 도와주십시오.
관련 정보