O gerenciamento de desempenho envolve a otimização do tempo de resposta de serviço de rede e o gerenciamento da uniformidade e da qualidade para serviços de rede gerais e individuais. O serviço mais importante é a necessidade de medir o tempo de resposta do usuário/aplicação. Para a maioria dos usuários, o tempo de resposta é o fator fundamental de sucesso do desempenho. Esta variável dá forma à percepção de sucesso de rede dos seus usuários e dos administradores de aplicativos.
O planejamento de capacidade é o processo pelo qual você determina os requisitos para recursos de rede futuros a fim de evitar um impacto no desempenho ou na disponibilidade de aplicativos críticos para os negócios. Na área de planejamento de capacidade, a linha de base da rede (CPU, memória, buffers, octetos de entrada/saída etc.) pode afetar o tempo de resposta. Portanto, lembre-se de que os problemas de desempenho geralmente estão relacionados à capacidade. Em redes, geralmente são a largura de banda e os dados que devem aguardar em filas antes de serem transmitidos pela rede. Em aplicativos de voz, esse tempo de espera quase certamente afeta os usuários porque fatores como atraso e jitter afetam a qualidade da chamada de voz.
Outra questão importante que complica o gerenciamento de desempenho é que, embora a alta disponibilidade de rede seja de missão crítica para redes de grandes empresas e provedores de serviços, a tendência é buscar ganhos econômicos de curto prazo com o risco de custos mais altos (muitas vezes imprevistos) a longo prazo. Durante cada ciclo orçamentário, os administradores de rede e a equipe de implementação do projeto lutam para encontrar um equilíbrio entre desempenho e rápida implementação. Além disso, os administradores de rede enfrentam desafios que incluem o rápido desenvolvimento de produtos para atender a janelas de mercado estreitas, tecnologias complexas, consolidação de negócios, mercados concorrentes, tempo de inatividade não programado, falta de experiência e, muitas vezes, ferramentas insuficientes.
Diante desses desafios, como o desempenho se encaixa na estrutura de gerenciamento de rede? A principal função de um sistema de gerenciamento de rede ideal é otimizar os recursos operacionais de uma rede. Assim que você aceitar isso como o objetivo final do gerenciamento de rede, o foco do gerenciamento de rede será manter a operação da rede com desempenho máximo.
Um sistema de gerenciamento de rede ideal inclui estas operações principais:
Informa o operador da deterioração iminente do desempenho.
Fornece roteamento alternativo fácil e soluções alternativas quando ocorrer deterioração ou falha do desempenho.
Fornece as ferramentas para identificar as causas da deterioração ou falha do desempenho.
Serve como a estação principal para resiliência e sobrevivência da rede.
Comunica o desempenho em tempo real.
Com base nessa definição de um sistema ideal, o gerenciamento de desempenho se torna essencial para o gerenciamento de rede. Esses problemas de gerenciamento de desempenho são críticos:
Desempenho do usuário
Desempenho do aplicativo
Planejamento de capacidade
Gerenciamento de falhas pró-ativo
É importante observar que, com aplicativos mais novos, como voz e vídeo, o desempenho é a variável principal para o sucesso e, se você não conseguir um desempenho consistente, o serviço será considerado de baixo valor e falhará. Em outros casos, os usuários simplesmente sofrem com o desempenho variável, com intervalos de aplicações intermitentes que prejudicam a produtividade e a satisfação do usuário.
Este documento detalha os problemas mais críticos de gerenciamento de desempenho, que incluem fatores críticos de sucesso, indicadores-chave de desempenho e um mapa de processo de alto nível para gerenciamento de desempenho. Ele também discute os conceitos de disponibilidade, tempo de resposta, precisão, utilização e planejamento de capacidade e inclui uma breve discussão sobre a função da análise proativa de falhas no gerenciamento de desempenho e o sistema de gerenciamento de rede ideal.
Os fatores críticos para o sucesso identificam os requisitos para as práticas recomendadas de implementação. Para ser qualificado como um fator crítico para o sucesso, um processo ou procedimento deve melhorar a disponibilidade ou a ausência do procedimento deve diminuir a disponibilidade. Além disso, o fator crítico de sucesso deve ser mensurável para que a organização possa determinar a extensão de seu sucesso.
Nota: Consulte Indicadores de Gerenciamento de Desempenho para obter informações detalhadas.
Estes são os fatores críticos para o sucesso do gerenciamento de desempenho:
Colete uma linha de base para dados de rede e de aplicativos.
Execute uma análise de hipóteses na rede e nos aplicativos.
Executar relatório de exceções para problemas de capacidade.
Determine a sobrecarga de gerenciamento de rede para todos os serviços de gerenciamento de rede propostos ou potenciais.
Analisar as informações de capacidade.
Reveja periodicamente as informações de capacidade da rede e dos aplicativos, bem como a linha de base e a exceção.
Ter procedimentos de atualização ou ajuste configurados para lidar com problemas de capacidade de forma reativa e de longo prazo.
Os indicadores de desempenho fornecem o mecanismo pelo qual uma organização pode medir fatores críticos para o sucesso. Os indicadores de desempenho para o planejamento de desempenho incluem:
Documentar os objetivos comerciais de gerenciamento de rede. Isso pode ser um conceito formal de operações para gerenciamento de rede ou uma declaração menos formal dos recursos e objetivos necessários.
Crie objetivos de nível de serviço detalhados e mensuráveis.
Fornecer documentação dos contratos de nível de serviço com gráficos que mostram o sucesso ou o fracasso de como esses contratos são cumpridos ao longo do tempo.
Colete uma lista das variáveis para a linha de base, como intervalo de polling, sobrecarga de gerenciamento de rede incorrida, possíveis limites de gatilho, se a variável é usada como um gatilho para uma interceptação e análise de tendências usada em cada variável.
Faça uma reunião periódica que analise a análise da linha de base e as tendências.
Ter uma metodologia de análise de hipóteses documentada. Tal deve incluir a modelização e a verificação, se for caso disso.
Quando os limiares forem excedidos, desenvolva documentação sobre a metodologia usada para aumentar os recursos da rede. Um item a ser documentado é a linha do tempo necessária para colocar largura de banda WAN adicional e uma tabela de custos.
Estas etapas fornecem um fluxo de processo de alto nível para gerenciamento de desempenho:
Antes de definir as variáveis detalhadas de desempenho e capacidade de uma rede, você deve examinar o conceito geral de operação do gerenciamento de rede na sua organização. Quando você define esse conceito geral, ele fornece uma base comercial sobre a qual você pode criar definições precisas dos recursos desejados em sua rede. Se você não desenvolver um conceito operacional para o gerenciamento de rede, isso pode levar a uma falta de metas ou objetivos que mudam constantemente devido às demandas do cliente.
Normalmente, você produz o conceito de gerenciamento de rede de operações como a primeira etapa na fase de definição do sistema do programa de gerenciamento de rede. O objetivo é descrever as características gerais desejadas do sistema do ponto de vista operacional. O uso deste documento é para coordenar as metas comerciais gerais (não quantitativas) de operações de rede, engenharia, projeto, outras unidades de negócios e os usuários finais. O foco deste documento é formar as atividades de planejamento operacional de longo alcance para gerenciamento e operação de rede. Ele também fornece orientação para o desenvolvimento de toda a documentação de definição subsequente, como contratos de nível de serviço. Obviamente, esse conjunto inicial de definições não pode se concentrar muito estritamente no gerenciamento de problemas de rede específicos, mas nos itens que enfatizam a importância para a organização geral e em relação aos custos que também devem ser gerenciados. Alguns objetivos são:
Identificar essas características essenciais para o uso eficiente da infraestrutura de rede.
Identifique os serviços/aplicativos aos quais a rede oferece suporte.
Inicie o gerenciamento de serviços de ponta a ponta.
Inicie métricas baseadas em desempenho para melhorar o serviço geral.
Colete e distribua informações de gerenciamento de desempenho.
Ofereça suporte à avaliação estratégica da rede com feedback dos usuários.
Em outras palavras, o conceito de gerenciamento de rede de operações deve se concentrar nos objetivos organizacionais gerais e na sua filosofia para atingir esses objetivos. Os ingredientes principais consistem nas definições de nível superior da missão, objetivos da missão, metas do sistema, envolvimento organizacional e filosofia operacional geral.
Como gerente de rede, você está na posição de unificar expectativas de desempenho frequentemente inconsistentes de seus usuários. Por exemplo, se o principal requisito para a rede for a transferência de arquivos grandes de um local para outro, você deve focar em alto throughput e menos nos tempos de resposta dos usuários interativos. Tome cuidado para não limitar sua visão do desempenho, a menos que considere vários problemas. Por exemplo, ao testar uma rede, observe os níveis de carga que são usados. A carga é frequentemente baseada em pacotes muito pequenos e o throughput em pacotes muito grandes. Qualquer um desses testes de desempenho pode produzir uma imagem muito positiva, mas com base na carga de tráfego da rede, os testes podem não apresentar uma imagem real do desempenho. Estudar o desempenho da rede sob o maior número de condições de carga de trabalho possível e o desempenho documentado.
Além disso, embora muitas organizações de gerenciamento de rede tenham técnicas de alarme eficazes para notificar os técnicos sobre uma falha de dispositivo, é muito mais difícil definir e implementar um processo de avaliação para o desempenho do aplicativo de ponta a ponta. Portanto, enquanto o centro de operações de rede (NOC) pode responder rapidamente a um roteador ou switch inoperante, as condições de rede que podem prejudicar o desempenho da rede e afetar a percepção do usuário podem passar despercebidas facilmente até que essa percepção se torne negativa. Por mais difícil que seja, esse segundo processo pode fornecer benefícios imensos para a empresa e para o gerenciamento de rede.
Por fim, não crie expectativas irrealistas sobre o desempenho da rede. Normalmente, são criadas expectativas irrealistas quando você não entende os detalhes dos protocolos de rede ou dos aplicativos. Muitas vezes, um desempenho ruim não é a falha da rede, mas o resultado de um projeto de aplicativo ruim. A única maneira de documentar e medir o desempenho do aplicativo é ter uma linha de base do desempenho da rede antes da instalação do aplicativo.
A primeira etapa do gerenciamento de desempenho, do planejamento contínuo da capacidade e do projeto de rede é definir os recursos e/ou serviços necessários. Esta etapa exige que você compreenda os aplicativos, os fluxos básicos de tráfego, as contagens de usuários e locais e os serviços de rede necessários. O primeiro uso dessas informações é determinar a importância do aplicativo para os objetivos da empresa. Você também pode aplicar essas informações para criar uma base de conhecimento para uso no projeto lógico a fim de entender os requisitos de largura de banda, interface, conectividade, configuração e dispositivo físico. Esta etapa inicial permite que os arquitetos de rede criem um modelo de rede.
Criar objetivos de escalabilidade de solução para ajudar os engenheiros de rede a projetar redes que atendam aos requisitos de crescimento futuros e garantir que os projetos propostos não sofram restrições de recursos devido ao crescimento ou extensão da rede. As restrições de recursos podem incluir:
Tráfego geral
Volume
Número de rotas
Número de circuitos virtuais
Contagens de vizinhos
Domínios de broadcast
Taxa de transferência do dispositivo
Capacidade de mídia
Os planejadores de rede devem determinar a vida útil necessária do projeto, extensões esperadas ou locais exigidos pela vida útil do projeto, volume de novos usuários e volume ou alteração de tráfego esperados. Esse plano ajuda a garantir que a solução proposta atenda aos requisitos de crescimento durante a vida útil projetada do projeto.
Quando você não investiga a escalabilidade da solução, pode ser forçado a implementar alterações importantes no projeto reativo. Essa alteração de design pode incluir hierarquia adicional, atualizações de mídia ou atualizações de hardware. Em empresas que dependem de ciclos orçamentários bastante precisos para grandes aquisições de hardware, essas mudanças podem ser um grande inibidor para o sucesso geral. Em termos de disponibilidade, as redes podem experimentar limitações de recursos inesperadas que causam períodos de indisponibilidade e medidas reativas.
A interoperabilidade e o respectivo teste podem ser fundamentais para o sucesso de novas implantações de solução. A interoperabilidade pode se referir a diferentes fornecedores de hardware ou diferentes topologias ou soluções que devem se unir durante ou após uma implementação de rede. Os problemas de interoperabilidade podem incluir sinalização de hardware através da pilha de protocolos para problemas de roteamento ou transporte. Os problemas de interoperabilidade podem ocorrer antes, durante ou após a migração de uma solução de rede. O planejamento da interoperabilidade deve incluir conectividade entre dispositivos diferentes e problemas de topologia que podem ocorrer durante as migrações.
A comparação de soluções é a prática na qual você compara diferentes projetos em potencial em relação a outras práticas de requisitos de solução. Essa prática ajuda a garantir que a solução seja a melhor opção para um ambiente específico e que o viés pessoal não oriente o processo de projeto. A comparação pode incluir diferentes fatores, como custo, resiliência, disponibilidade, risco, interoperabilidade, capacidade de gerenciamento, escalabilidade e desempenho. Tudo isso pode ter um efeito maior na disponibilidade de rede geral, depois que o projeto for implementado. Você também pode comparar mídia, hierarquia, redundância, protocolos de roteamento e recursos semelhantes. Crie um gráfico com fatores no eixo X e soluções potenciais no eixo Y para ajudar a resumir comparações de soluções. A comparação detalhada de soluções em um ambiente de laboratório também ajuda a investigar objetivamente novas soluções e recursos em relação aos diferentes fatores de comparação.
Como parte do conceito de gerenciamento de rede de operações, é essencial definir as metas para a rede e os serviços suportados de uma forma que todos os usuários possam entender. As atividades que seguem o desenvolvimento do conceito operacional são muito influenciadas pela qualidade desse documento.
Estes são os objetivos de desempenho padrão:
Tempo de resposta
Utilização
Transferência
Capacidade (taxa de transferência máxima)
Embora essas medições possam ser triviais para uma LAN simples, elas podem ser muito difíceis em uma rede de campus comutada ou em uma rede corporativa de vários fornecedores. Quando você usa um conceito bem pensado de plano de operações, cada uma das metas de desempenho é definida de uma maneira mensurável. Por exemplo, o tempo de resposta mínimo para o aplicativo "x" é de 500 Ms ou menos durante o horário comercial de pico. Isso define as informações para identificar a variável, a maneira de medi-la e o período do dia no qual o aplicativo de gerenciamento de rede deve focar.
Os objetivos de disponibilidade definem o nível de serviço ou os requisitos de nível de serviço para um serviço de rede. Isso ajuda a garantir que a solução atenda aos requisitos de disponibilidade final. Defina diferentes classes de serviço para uma determinada organização e detalhe os requisitos de rede para cada classe que são apropriados para o requisito de disponibilidade. Diferentes áreas da rede também podem exigir diferentes níveis de disponibilidade. Um objetivo de disponibilidade mais alta pode exigir procedimentos de redundância e suporte maiores. Quando você define um objetivo de disponibilidade para um determinado serviço de rede e mede a disponibilidade, sua organização de rede pode entender os componentes e os níveis de serviço necessários para atingir os SLAs projetados.
Defina os objetivos da capacidade de gerenciamento para garantir que o gerenciamento geral da rede não falte à funcionalidade de gerenciamento. Para definir objetivos de capacidade de gerenciamento, você deve entender o processo de suporte e as ferramentas de gerenciamento de rede associadas à sua organização. Os objetivos da capacidade de gerenciamento devem incluir o conhecimento de como as novas soluções se encaixam no modelo atual de suporte e ferramenta com referências a quaisquer diferenças potenciais ou novos requisitos. Isso é fundamental para a disponibilidade da rede, pois a capacidade de oferecer suporte a novas soluções é fundamental para o sucesso da implantação e para atender às metas de disponibilidade.
Os objetivos da capacidade de gerenciamento devem revelar todas as informações importantes da MIB ou da ferramenta de rede necessárias para suportar uma rede em potencial, o treinamento necessário para suportar o novo serviço de rede, os modelos de pessoal para o novo serviço e quaisquer outros requisitos de suporte. Muitas vezes, essas informações não são descobertas antes da implantação e a disponibilidade geral é afetada como resultado da falta de recursos atribuídos para suportar o novo projeto de rede.
Os SLAs e as métricas de desempenho ajudam a definir e medir o desempenho de novas soluções de rede para garantir que elas atendam aos requisitos de desempenho. O desempenho da solução proposta pode ser medido com ferramentas de monitoramento de desempenho ou com um simples ping na infraestrutura de rede proposta. Os SLAs de desempenho devem incluir o volume médio de tráfego esperado, o volume de pico de tráfego, o tempo médio de resposta e o tempo máximo de resposta permitido. Essas informações podem ser usadas posteriormente na seção de validação da solução e, por fim, ajudam a determinar o desempenho e a disponibilidade necessários da rede.
Um aspecto importante do projeto de rede é quando você define o serviço para usuários ou clientes. As empresas chamam esses contratos de nível de serviço, enquanto os provedores de serviços se referem a eles como gerenciamento de nível de serviço. O gerenciamento de nível de serviço normalmente inclui definições de tipos de problemas e gravidade e responsabilidades de help desk, como caminho de escalonamento e tempo antes do escalonamento em cada nível de suporte, tempo para começar a trabalhar no problema e tempo para fechar alvos com base na prioridade. Outros fatores importantes são o serviço fornecido na área de planejamento de capacidade, gerenciamento pró-ativo de falhas, notificação de gerenciamento de alterações, limites, critérios de atualização e substituição de hardware.
Quando as organizações não definem os níveis de serviço antecipadamente, torna-se difícil melhorar ou obter os requisitos de recursos identificados posteriormente. Também fica difícil entender quais recursos adicionar para ajudar a oferecer suporte à rede. Em muitos casos, esses recursos são aplicados somente após a descoberta de problemas.
Gerenciamento de desempenho é um termo abrangente que incorpora a configuração e a medição de áreas de desempenho distintas. Esta seção descreve estes seis conceitos de gerenciamento de desempenho:
A maioria das intranets corporativas tem largura de banda suficiente. No entanto, sem dados adequados, talvez não seja possível descartar o congestionamento da rede como um contribuinte para o mau desempenho do aplicativo. Uma das pistas para congestionamento ou erros é se o mau desempenho é intermitente ou dependente do horário. Um exemplo dessa condição é quando o desempenho é adequado no final da noite, mas muito lento de manhã e durante o horário comercial de pico.
Depois de definir o conceito de gerenciamento de rede das operações e os dados de implementação necessários, é necessário coletar esses dados ao longo do tempo. Esse tipo de coleta é a base da linha de base da rede.
Executar uma linha de base da rede atual antes da implantação de uma nova solução (alteração de aplicativo ou IOS) e após a implantação para medir as expectativas definidas para a nova solução. Essa linha de base ajuda a determinar se a solução atende aos objetivos de desempenho e disponibilidade e avalia a capacidade. Um relatório típico de linha de base de roteador/switch inclui problemas de capacidade relacionados à CPU, memória, gerenciamento de buffer, utilização de link/mídia e throughput. Há outros tipos de dados de linha de base que você também pode incluir, com base nos objetivos definidos no conceito de operações. Por exemplo, uma linha de base de disponibilidade demonstra maior estabilidade/disponibilidade do ambiente de rede. Execute uma comparação de linha de base entre ambientes antigos e novos para verificar os requisitos da solução.
Outra linha de base especializada é a linha de base do aplicativo, que é valiosa quando você cria uma tendência para os requisitos de rede do aplicativo. Essas informações podem ser usadas para fins de cobrança e/ou orçamento no ciclo de atualização. As linhas de base de aplicação também podem ser importantes na área de disponibilidade de aplicações em relação aos serviços preferidos ou às qualidades de serviço por aplicação. As informações de linha de base de aplicativos consistem principalmente na largura de banda usada pelos aplicativos por período de tempo. Alguns aplicativos de gerenciamento de rede também podem estabelecer uma linha de base para o desempenho dos aplicativos. Uma divisão do tipo de tráfego (Telnet ou FTP) também é importante para o planejamento. Em algumas organizações, as áreas mais críticas da rede com restrições de recursos são monitoradas para os principais locutores. Os administradores de rede podem usar essas informações para orçar, planejar ou ajustar a rede. Ao ajustar a rede, você pode modificar a qualidade do serviço ou os parâmetros de fila do serviço ou aplicativo de rede.
Uma das principais métricas usadas pelos gerentes de rede é a disponibilidade. Disponibilidade é a medida de tempo durante a qual um sistema de rede ou aplicativo está disponível para um usuário. Da perspectiva da rede, a disponibilidade representa a confiabilidade dos componentes individuais de uma rede.
Por exemplo, para medir a disponibilidade, você pode coordenar as chamadas telefônicas de help desk com as estatísticas coletadas dos dispositivos gerenciados. No entanto, as ferramentas de disponibilidade não podem determinar todos os motivos da falha.
A redundância de rede é outro fator a ser considerado ao medir a disponibilidade. A perda de redundância indica degradação do serviço em vez de falha total da rede. O resultado pode ser um tempo de resposta mais lento e uma perda de dados devido a pacotes descartados. Também é possível que os resultados apareçam em outras áreas de medição de desempenho, como utilização e tempo de resposta.
Por fim, se você cumprir um SLA, deve levar em conta as interrupções programadas. Essas interrupções podem ser o resultado de movimentações, adições e alterações, desligamentos de fábricas ou outros eventos que você talvez não queira relatar. Esta não é apenas uma tarefa difícil, mas também pode ser uma tarefa manual.
O tempo de resposta da rede é o tempo necessário para que o tráfego viaje entre dois pontos. Tempos de resposta mais lentos que o normal, observados através de uma comparação de linha de base ou que excedem um limite, podem indicar congestionamento ou uma falha de rede.
O tempo de resposta é a melhor medida de uso da rede do cliente e pode ajudá-lo a medir a eficácia da sua rede. Não importa qual seja a origem da resposta lenta, os usuários ficam frustrados como resultado do atraso no tráfego. Em redes distribuídas, muitos fatores afetam o tempo de resposta, como:
Congestionamento de rede
Menos que a rota desejável para o destino (ou nenhuma rota)
Dispositivos de rede sem energia
Falhas de rede, como uma tempestade de broadcast
Ruído ou erros de CRC
Em redes que empregam enfileiramento relacionado a QoS, a medição do tempo de resposta é importante para determinar se os tipos corretos de tráfego se movem pela rede como esperado. Por exemplo, quando você implementa o tráfego de voz em redes IP, os pacotes de voz devem ser entregues no prazo e em uma taxa constante para manter uma boa qualidade de voz. Você pode gerar tráfego classificado como tráfego de voz para medir o tempo de resposta do tráfego como ele aparece para os usuários.
Você pode medir o tempo de resposta para ajudar a resolver as batalhas entre servidores de aplicativos e gerenciadores de rede. Os administradores de rede geralmente são considerados culpados quando um aplicativo ou servidor parece ser lento. O administrador de rede deve provar que a rede não é o problema. A coleta de dados de tempo de resposta fornece um meio indiscutível de provar ou refutar que a rede é a origem dos problemas dos aplicativos.
Sempre que possível, você deve medir o tempo de resposta da maneira como ele aparece para os usuários. Um usuário percebe a resposta como o tempo desde quando pressiona Enter ou clica em um botão até que a tela seja exibida. Esse tempo decorrido inclui o tempo necessário para que cada dispositivo de rede, a estação de trabalho do usuário e o servidor de destino processem o tráfego.
Infelizmente, a medição nesse nível é quase impossível devido ao número de usuários e à falta de ferramentas. Além disso, quando você incorpora o tempo de resposta do usuário e do servidor, ele fornece pouco valor quando você determina o crescimento futuro da rede ou a solução de problemas de rede.
Você pode usar os dispositivos de rede e servidores para medir o tempo de resposta. Você também pode usar ferramentas como o ICMP para medir transações, embora ele não leve em conta quaisquer atrasos introduzidos em um sistema à medida que as camadas superiores o processam. Essa abordagem resolve o problema do conhecimento do desempenho da rede.
Em um nível simplista, você pode cronometrar a resposta aos pings da estação de gerenciamento de rede para pontos-chave na rede, como uma interface de mainframe, o ponto final de uma conexão do provedor de serviços ou os endereços IP do usuário-chave, para medir o tempo de resposta. O problema desse método é que ele não reflete com precisão a percepção do usuário do tempo de resposta entre sua máquina e a máquina de destino. Ele simplesmente coleta informações e relata o tempo de resposta da perspectiva da estação de gerenciamento de rede. Esse método também mascara problemas de tempo de resposta em uma base salto por salto em toda a rede.
Uma alternativa para a pesquisa centralizada no servidor é distribuir o esforço mais perto da origem e do destino que você deseja simular para a medida. Use pollers de gerenciamento de rede distribuída e implemente a funcionalidade Cisco IOS Service Assurance Agent (SAA). Você pode ativar o SAA nos roteadores para medir o tempo de resposta entre um roteador e um dispositivo de destino, como um servidor ou outro roteador. Você também pode especificar uma porta TCP ou UDP, que força o tráfego a ser encaminhado e direcionado da mesma maneira que o tráfego simulado.
Com a integração de voz, vídeo e dados em redes multisserviço, os clientes implementam a priorização de QoS em suas redes. A medição simples de ICMP ou UDP não reflete com precisão o tempo de resposta, já que diferentes aplicativos recebem prioridades diferentes. Além disso, com a comutação de tag, o roteamento de tráfego pode variar com base no tipo de aplicativo contido em um pacote específico. Assim, um ping ICMP pode receber prioridades diferentes em como cada roteador lida com ele e pode receber rotas diferentes e menos eficientes.
Nesse caso, a única maneira de medir o tempo de resposta é gerar tráfego que se assemelhe à aplicação específica ou tecnologia de interesse. Isso força os dispositivos de rede a lidar com o tráfego como fariam com o tráfego real. Talvez você consiga atingir esse nível com o SAA ou usando sondas de reconhecimento de aplicativos de terceiros.
A precisão é a medida do tráfego de interface que não resulta em erro e pode ser expressa em termos de uma porcentagem que compara a taxa de sucesso com a taxa total de pacotes durante um período de tempo. Você deve primeiro medir a taxa de erros. Por exemplo, se dois em cada 100 pacotes resultarem em erro, a taxa de erro seria de 2% e a taxa de precisão seria de 98%.
Com as tecnologias de rede anteriores, especialmente na área ampla, um certo nível de erros era aceitável. No entanto, com redes de alta velocidade e serviços de WAN atuais, a transmissão é consideravelmente mais precisa e as taxas de erro são próximas de zero, a menos que haja um problema real. Algumas causas comuns de erros de interface incluem:
Fiação fora da especificação
Interferência elétrica
Hardware ou software defeituoso
Use uma taxa de precisão reduzida para iniciar uma investigação mais detalhada. Você pode descobrir que uma interface específica apresenta problemas e decide que os erros são aceitáveis. Nesse caso, você deve ajustar o limite de precisão para essa interface a fim de refletir onde a taxa de erro é inaceitável. A taxa de erro inaceitável pode ter sido relatada em uma linha de base anterior.
As variáveis descritas nesta tabela são usadas em fórmulas de precisão e de taxa de erro:
Notação | Descrição |
---|---|
ΔifInErrors | O delta (ou diferença) entre dois ciclos de poll que coletam o objeto snmp ifInErrors, que representa a contagem de pacotes de entrada com um erro. |
ΔifInUcastPkts | O delta entre dois ciclos de sondagem que coletam o objeto snmp ifInUcastPkts, que representa a contagem de pacotes unicast de entrada. |
ΔifInNUcastPkts | O delta entre os dois ciclos de sondagem que coletam o objeto ifInNUcastPkts snmp, que representa a contagem de pacotes não unicast de entrada (multicast e broadcast). |
A fórmula para a taxa de erro é geralmente expressa em percentagem:
Taxa de erro = (ΔifInErrors) *100
-------------------------------------
ΔifInUcastPkts + (ΔifInNUcastPkts)
Observe que os erros de saída não são considerados nas fórmulas de precisão e taxa de erros. Isso ocorre porque um dispositivo nunca deve intencionalmente colocar pacotes com erros na rede, e as taxas de erro da interface de saída nunca devem aumentar. Portanto, o tráfego de entrada e os erros são as únicas medidas de interesse para erros e precisão de interface.
A fórmula de precisão obtém a taxa de erro e a subtrai de 100 (novamente, na forma de uma porcentagem):
Precisão = 100 - (ΔifInErrors) *100
-----------------------------------------
ΔifInUcastPkts + (ΔifInNUcastPkts)
Essas fórmulas refletem erros e precisão em termos de contadores genéricos de interface MIB II (RFC 2233). O resultado é expresso em termos de uma porcentagem que compara os erros com o total de pacotes vistos e enviados. A taxa de erros resultante é subtraída de 100, que produz a taxa de precisão. Uma taxa de precisão de 100% é perfeita.
Como as variáveis MIB II são armazenadas como contadores, você deve realizar dois ciclos de poll e descobrir a diferença entre os dois (daí o Delta usado na equação).
A utilização mede o uso de um determinado recurso ao longo do tempo. A medida é geralmente expressa sob a forma de uma percentagem em que a utilização de um recurso é comparada com a sua capacidade operacional máxima. Por meio de medidas de utilização, você pode identificar congestionamentos (ou possíveis congestionamentos) em toda a rede. Você também pode identificar recursos subutilizados.
A utilização é a principal medida para determinar o quão cheios estão os pipes (links) da rede. Meça a CPU, a interface, o enfileiramento e outras medidas de capacidade relacionadas ao sistema para determinar a extensão do consumo de recursos do sistema de rede.
A alta utilização não é necessariamente ruim. A baixa utilização pode indicar fluxos de tráfego em locais inesperados. À medida que as linhas se tornam superutilizadas, os efeitos podem se tornar significativos. A superutilização ocorre quando há mais tráfego enfileirado para passar por uma interface do que ela pode tratar. Saltos repentinos na utilização de recursos podem indicar uma condição de falha.
À medida que uma interface fica congestionada, o dispositivo de rede deve armazenar o pacote em uma fila ou descartá-lo. Se um roteador tentar armazenar um pacote em uma fila cheia, o pacote será descartado. Pacotes descartados resultam quando o tráfego é encaminhado de uma interface rápida para uma interface mais lenta. Isso é indicado na fórmula Q = u / (1-u) onde u é a utilização e Q é a profundidade média da fila (tráfego aleatório assumido). Portanto, altos níveis de utilização em links resultam em altas profundidades médias de fila, que são latências previsíveis se você souber o tamanho do pacote. Alguns dos fornecedores de relatórios de rede indicam que você pode solicitar menos largura de banda e pagar menos pela sua WAN. No entanto, as implicações de latência aparecem quando você executa links de WAN em 95% de utilização. Além disso, à medida que as redes são migradas para VoIP, os administradores de rede podem precisar alterar suas políticas e executar links de WAN com aproximadamente 50% de utilização.
Quando um pacote é descartado, o protocolo de camada superior pode forçar uma retransmissão do pacote. Se vários pacotes forem descartados, poderá haver excesso de tráfego de repetição. Esse tipo de reação pode resultar em backups em dispositivos mais adiante. Para resolver esse problema, você pode definir diferentes graus de limites.
A medida principal usada para a utilização da rede é a utilização da interface. Use as fórmulas descritas nesta tabela com base no fato de a conexão medida ser half-duplex ou full-duplex:
Notação | Descrição |
---|---|
ΔifInOctets | O delta (ou diferença) entre dois ciclos de pesquisa que coletam o objeto snmp ifInOctets, que representa a contagem de octetos de entrada de tráfego. |
ΔifOutOctets | O delta entre dois ciclos de sondagem que coletam o objeto snmp ifOutOctets que representa a contagem de octetos de saída de tráfego. |
ifSpeed | A velocidade da interface conforme relatada no objeto snmp ifSpeed. Observe que ifSpeed pode não refletir com precisão a velocidade de uma interface WAN. |
As conexões LAN compartilhadas tendem a ser half-duplex, principalmente porque a detecção de contenção exige que um dispositivo ouça antes de transmitir. As conexões WAN são tipicamente full duplex porque a conexão é ponto a ponto; ambos os dispositivos podem transmitir e receber ao mesmo tempo, pois sabem que há apenas um outro dispositivo que compartilha a conexão.
Como as variáveis MIB II são armazenadas como contadores, você deve realizar dois ciclos de poll e descobrir a diferença entre os dois (daí o Delta usado na equação).
Para meios half-duplex, use esta fórmula para utilização de interface:
ΔifInOctets + ΔifOutOctets * 8 * 100
----------------------------------------------------
(número de segundos em Δ) * ifSpeed
Para mídia full-duplex, o cálculo de utilização é mais complexo. Por exemplo, com uma conexão serial T-1 completa, a velocidade da linha é de 1,544 Mbps. Isso significa que uma interface T-1 pode receber e transmitir 1,544 Mbps para uma largura de banda combinada possível de 3,088 Mbps.
Ao calcular a largura de banda da interface para conexões full-duplex, você pode usar esta fórmula na qual você obtém o maior dos valores in e out e gera uma porcentagem de utilização:
max(ΔifInOctets, (ΔifOutOctets) * 8 * 100
-----------------------------------------
(número de segundos em Δ) * ifSpeed
No entanto, esse método oculta a utilização da direção que tem o menor valor e fornece resultados menos precisos. Um método mais preciso é medir a utilização de entrada e a utilização de saída separadamente, como:
Utilização de entrada = ΔifInOctets *8 * 100
-------------------------------------
(número de segundos em Δ) * ifSpeed
E
Utilização de saída = ΔifOutOctets *8 * 100
------------------------------------
(número de segundos em Δ) * ifSpeed
Embora essas fórmulas sejam um pouco simplificadas, elas não levam em consideração a sobrecarga associada a um protocolo específico. Existem fórmulas mais precisas para lidar com os aspectos únicos de cada protocolo. Como exemplo, o RFC 1757 contém fórmulas de utilização de Ethernet que levam em consideração a sobrecarga de pacotes. No entanto, a equipe de alta disponibilidade descobriu que as fórmulas gerais apresentadas aqui podem ser usadas com segurança nas interfaces de LAN e WAN na maioria dos casos.
Conforme mencionado anteriormente, o planejamento de capacidade é o processo no qual você determina os prováveis requisitos futuros de recursos de rede para evitar um impacto no desempenho ou na disponibilidade de aplicativos essenciais aos negócios. Consulte a seção Gerenciamento de capacidade e desempenho: White paper sobre práticas recomendadas para obter informações mais detalhadas sobre esse tópico.
A análise proativa de falhas é essencial para o gerenciamento de desempenho. O mesmo tipo de dados coletados para gerenciamento de desempenho pode ser usado para análise proativa de falhas. No entanto, a temporização e o uso desses dados são diferentes entre o gerenciamento pró-ativo de falhas e o gerenciamento de desempenho.
O gerenciamento pró-ativo de falhas é a maneira como o sistema de gerenciamento de rede ideal pode atingir as metas que você determinou. A relação com o gerenciamento de desempenho ocorre por meio da linha de base e das variáveis de dados que você usa. O gerenciamento pró-ativo de falhas integra eventos personalizados, um mecanismo de correlação de eventos, tíquetes de problemas e a análise estatística dos dados de linha de base para unir o gerenciamento de falhas, desempenho e alterações em um sistema de gerenciamento de rede ideal e eficaz.
Onde o polling de dados de desempenho é normalmente realizado a cada 10, 15 ou até mesmo 30 minutos, o reconhecimento de uma condição de falha deve ocorrer em um intervalo de tempo muito mais curto. Um método de gerenciamento de falhas pró-ativo é através do uso de alarmes RMON e grupos de eventos. Você pode definir limites em seus dispositivos que não são pesquisados por dispositivos externos, portanto, os limites são muito mais curtos. Outro método, que não é abordado neste documento, é através do uso de um sistema de gerenciamento distribuído que permite a interrogação em um nível local com agregação de dados em um gerente de gerentes.
Limite é o processo no qual você define pontos de interesse em fluxos de dados específicos e gera eventos quando os limites são disparados. Use os dados de desempenho da rede para definir esses limites.
Existem vários tipos diferentes de limiares, alguns dos quais são mais aplicáveis a determinados tipos de dados. Os limites só são aplicáveis a dados numéricos, portanto, converta quaisquer dados textuais em valores numéricos discretos. Mesmo que você não saiba todas as strings de texto possíveis para um objeto, ainda poderá enumerar as strings "interessantes" e atribuir todas as outras strings a um valor definido.
Há duas classes de limites para as duas classes de dados numéricos: contínua e discreta. Limites contínuos se aplicam a dados contínuos ou de série temporal, como dados armazenados em contadores ou medidores SNMP. Limites discretos se aplicam a objetos enumerados ou a quaisquer dados numéricos discretos. Os objetos booleanos são valores enumerados com dois valores: verdadeiro ou falso. Os dados discretos também podem ser chamados de dados de evento porque os eventos marcam a transição de um valor para o seguinte.
Os limites contínuos podem disparar eventos quando o objeto de série temporal ultrapassa o valor especificado do limite. O valor do objeto aumenta acima do limite ou cai abaixo dele. Também pode ser útil definir limites separados para elevação e queda. Essa técnica, conhecida como mecanismo de histerese, ajuda a reduzir o número de eventos gerados a partir dessa classe de dados. O mecanismo de histerese funciona para reduzir o volume de eventos gerados por limiares em dados de séries temporais com variação rápida. Esse mecanismo pode ser usado com qualquer técnica de limite em dados de séries temporais.
O volume de eventos é reduzido por um alarme gerado para rastrear o valor de um objeto. Os limiares de elevação e queda são atribuídos a este alarme. O alarme só é acionado quando o limiar de elevação é ultrapassado. Quando esse limite é ultrapassado, um alarme crescente não é gerado novamente até que o limite de queda seja ultrapassado. E o mesmo mecanismo impede a geração de limiares de queda até que o limiar de elevação seja novamente ultrapassado. Esse mecanismo pode reduzir drasticamente o volume de eventos e não elimina as informações necessárias para determinar se existe uma falha.
Os dados de série temporal podem ser representados como contadores, onde cada novo ponto de dados é adicionado à soma dos pontos de dados anteriores, ou como um medidor, onde os dados são representados como uma taxa ao longo de um intervalo de tempo. Há duas formas diferentes de limiares contínuos aplicáveis a cada tipo de dados: limiares contínuos absolutos e limiares contínuos relativos. Use limites contínuos absolutos com medidores e limites contínuos relativos com contadores.
Para determinar os valores de limite para sua rede, siga estas etapas:
Selecione os objetos.
Selecione os dispositivos e as interfaces.
Determine os valores de limite para cada objeto ou tipo de objeto/interface.
Determine a gravidade do evento gerado por cada limite.
É necessário bastante trabalho para determinar quais limites usar em quais objetos (e para quais dispositivos e interfaces). Felizmente, se você coletou uma linha de base de dados de desempenho, já realizou uma quantidade significativa desse trabalho. Além disso, a NSA e o programa de serviço de alta disponibilidade (HAS) podem fazer recomendações que ajudam você a definir objetos e criar intervalos. No entanto, você deve personalizar essas recomendações para a sua rede específica.
Como você coletou dados de desempenho para a rede, o programa HAS recomenda que você agrupe suas interfaces por categorias. Isso simplifica a definição de limites, pois talvez seja necessário determinar limites para o tipo de mídia de cada categoria, em vez de cada dispositivo e objeto nesse dispositivo. Por exemplo, você desejaria definir limites diferentes para redes Ethernet e FDDI. Geralmente, pensa-se que você pode executar redes FDDI com uma utilização de 100% mais próxima do que um segmento Ethernet compartilhado. No entanto, a Ethernet full-duplex pode ser executada muito mais perto de 100% de utilização porque não está sujeita a colisões. Talvez você queira definir seus limites para colisões muito baixos para links full-duplex, pois você nunca deve ver uma colisão.
Você também pode considerar a combinação da importância da interface e a categoria/severidade do tipo de limiar. Use esses fatores para definir a prioridade do evento e, portanto, a importância do evento e sua atenção pela equipe de operações de rede.
O agrupamento e a categorização de dispositivos e interfaces de rede não podem ser enfatizados demais. Quanto mais você puder agrupar e categorizar, mais fácil será a integração dos eventos de limite na plataforma de gerenciamento de rede. Use a linha de base como o recurso principal para essas informações. Consulte a seção Gerenciamento de capacidade e desempenho: White paper sobre práticas recomendadas para obter mais informações.
A organização deve ter um sistema de gerenciamento de rede implementado que seja capaz de detectar os valores de limite definidos e relatar os valores para períodos de tempo especificados. Use um sistema de gerenciamento de rede RMON que possa arquivar mensagens de limite em um arquivo de registro para revisão diária ou uma solução de banco de dados mais completa que permita pesquisas de exceções de limite para um determinado parâmetro. As informações devem estar continuamente à disposição do pessoal e do gestor das operações de rede. A implementação do gerenciamento de rede deve incluir a capacidade de detectar travamentos de software/hardware ou tracebacks, confiabilidade de interface, CPU, utilização de link, erros de fila ou buffer, volume de broadcast, transições de portadora e reinicializações de interface.
Uma área final do gerenciamento pró-ativo de falhas que se sobrepõe ao gerenciamento de desempenho são as métricas de operações de rede. Essas métricas fornecem dados valiosos para a melhoria do processo de gerenciamento de falhas. No mínimo, essas métricas devem incluir uma análise de todos os problemas ocorridos durante um determinado período. A desagregação deve incluir informações como:
Número de problemas que ocorrem por prioridade de chamada
Tempo mínimo, máximo e médio para fechamento em cada prioridade
Análise dos problemas por tipo de problema (hardware, travamento de software, configuração, energia, erro do usuário)
Detalhamento do tempo de fechamento para cada tipo de problema
Disponibilidade por grupo de disponibilidade ou SLA
Com que frequência você atendeu ou não atendeu aos requisitos do SLA
O help desk geralmente tem um sistema de relatórios com a capacidade de gerar métricas ou relatórios. Outro meio de coletar esses dados é o uso de uma ferramenta de monitoramento de disponibilidade. As métricas gerais devem ser disponibilizadas mensalmente. A melhoria do processo com base na discussão deve ser implementada para melhorar os requisitos do contrato de nível de serviço perdido ou para melhorar a forma como determinados tipos de problemas são tratados.
Os indicadores de desempenho oferecem o mecanismo pelo qual uma organização mede os fatores de sucesso importantes.
Este documento pode ser um conceito formal de operações para gerenciamento de rede ou uma declaração menos formal dos recursos e objetivos necessários. No entanto, o documento deve auxiliar o gerente de rede à medida que ele avalia o sucesso.
Este documento é a estratégia de gerenciamento de rede da organização e deve coordenar os objetivos comerciais (não quantitativos) gerais das operações de rede, engenharia, projeto, outras unidades de negócios e os usuários finais. Esse foco permite que a organização forme atividades de planejamento de longo alcance para gerenciamento e operação de rede, o que inclui o processo de orçamento. Ele também fornece orientação para a aquisição de ferramentas e o caminho de integração necessários para atingir as metas de gerenciamento de rede, como SLAs.
Este documento estratégico não pode se concentrar muito estritamente na gestão de problemas específicos de rede, mas nos itens importantes para a organização geral, que incluem questões orçamentárias. Por exemplo:
Identificar um plano abrangente com metas alcançáveis.
Identifique cada serviço/aplicativo empresarial que precise de suporte de rede.
Identifique as métricas baseadas em desempenho necessárias para medir o serviço.
Planejar a coleta e a distribuição dos dados de métrica de desempenho.
Identificar o suporte necessário para avaliação da rede e feedback do usuário.
Ter objetivos de nível de serviço documentados, detalhados e mensuráveis.
Para documentar adequadamente os SLAs, você deve definir completamente as métricas de objetivo de nível de serviço. Esta documentação deve estar disponível para avaliação pelos utilizadores. Ele fornece o loop de feedback para garantir que a organização de gerenciamento de rede continue a medir as variáveis necessárias para manter o nível do contrato de serviço.
Os SLAs são documentos "vivos" porque o ambiente empresarial e a rede são dinâmicos por natureza. O que funciona hoje para medir um SLA pode se tornar obsoleto amanhã. Somente quando eles instituem um loop de feedback dos usuários e agem sobre essas informações é que as operações de rede podem manter os números de alta disponibilidade exigidos pela organização.
Essa lista inclui itens como intervalo de polling, overhead de gerenciamento de rede incorrido, possíveis limites de gatilho, se a variável é usada como um gatilho para uma interceptação e análise de tendências usada em relação a cada variável.
Essas variáveis não se limitam às métricas necessárias para os objetivos de nível de serviço mencionados acima. Devem incluir, no mínimo, as seguintes variáveis: integridade do roteador, integridade do switch, informações de roteamento, dados específicos da tecnologia, utilização e atraso. Essas variáveis são pesquisadas periodicamente e armazenadas em um banco de dados. Os relatórios podem ser gerados com base nesses dados. Esses relatórios podem auxiliar as operações de gerenciamento de rede e a equipe de planejamento das seguintes maneiras:
Problemas reativos podem ser resolvidos mais rapidamente com um banco de dados histórico.
A emissão de relatórios de desempenho e o planejamento de capacidade exigem esse tipo de dados.
Os objetivos de nível de serviço podem ser medidos em relação a ele.
O pessoal de gerenciamento de rede deve conduzir reuniões para passar periodicamente por relatórios específicos. Isso fornece feedback adicional, bem como uma abordagem proativa para problemas potenciais na rede.
Essas reuniões devem incluir pessoal operacional e de planejamento. Isso oferece uma oportunidade para que os planejadores recebam uma análise operacional dos dados de linha de base e de tendências. Ele também coloca a equipe operacional "em loop" para algumas das análises de planejamento.
Outro tipo de item a ser incluído nessas reuniões são os objetivos de nível de serviço. À medida que os limiares objetivos são atingidos, o pessoal de gestão da rede pode tomar medidas para evitar perder um objetivo e, em alguns casos, estes dados podem ser utilizados como justificação orçamental parcial. Os dados podem mostrar onde os objetivos de nível de serviço serão violados se não forem tomadas medidas adequadas. Além disso, como esses objetivos foram identificados por serviços e aplicativos empresariais, eles são mais fáceis de justificar em uma base financeira.
Faça essas análises a cada duas semanas e realize uma reunião analítica mais completa a cada seis a doze semanas. Essas reuniões permitem que você aborde questões de curto e longo prazo.
Uma análise hipotética envolve modelagem e verificação de soluções. Antes de adicionar uma nova solução à rede (um novo aplicativo ou uma alteração na versão do Cisco IOS), documente algumas das alternativas.
A documentação para esta análise inclui as principais perguntas, a metodologia, os conjuntos de dados e os arquivos de configuração. O ponto principal é que a análise de hipóteses é um experimento que outra pessoa deve ser capaz de recriar com as informações fornecidas no documento.
Esta documentação inclui largura de banda WAN adicional e uma tabela de custos que ajuda a aumentar a largura de banda para um tipo específico de link. Essas informações ajudam a organização a perceber quanto tempo e dinheiro são gastos para aumentar a largura de banda. A documentação formal permite que especialistas em desempenho e capacidade descubram como e quando aumentar o desempenho, bem como o cronograma e os custos de tal empreendimento.
Reveja periodicamente essa documentação, talvez como parte da análise de desempenho trimestral, para garantir que ela permaneça atualizada.
A única maneira de atingir os objetivos do sistema de gerenciamento de rede ideal é integrar ativamente os componentes do gerenciamento de desempenho no sistema. Esse objetivo deve incluir o uso de métricas de disponibilidade e tempo de resposta vinculadas a um sistema de notificação quando os limites são excedidos. Teria que incluir o uso de uma linha de base para o planejamento de capacidade que teria vínculos com um modelo heurístico para provisionamento e relatório de exceções. Ele pode ter um mecanismo integrado de modelagem ou simulação que permite que o modelo seja atualizado em tempo real e fornece um nível de planejamento e solução de problemas por meio de simulações de software.
Embora grande parte desse sistema possa parecer um ideal impossível que nunca poderia ser alcançado, cada um dos componentes está disponível atualmente. Além disso, as ferramentas para integrar esses componentes também existem em programas como o MicroMuse. Devemos continuar a trabalhar em direção a esse ideal, já que ele é mais realista hoje do que nunca.
Revisão | Data de publicação | Comentários |
---|---|---|
1.0 |
02-Dec-2013
|
Versão inicial |