La administración de rendimiento implica la optimización del tiempo de respuesta del servicio de red y la administración de la coherencia y la calidad de los servicios de red individuales y totales. El servicio más importante es la necesidad de medir el tiempo de respuesta de usuario/aplicación. Para la mayoría de los usuarios, el tiempo de respuesta es el factor de éxito del rendimiento crítico. Esta variable da forma a la percepción del éxito de la red tanto por los usuarios como por los administradores de aplicaciones.
La planificación de la capacidad es el proceso mediante el cual se determinan los requisitos de los recursos de red futuros a fin de evitar un impacto en el rendimiento o la disponibilidad de las aplicaciones críticas para la empresa. En el área de planificación de la capacidad, la línea de base de la red (CPU, memoria, búferes, octetos de entrada/salida, etc.) puede afectar el tiempo de respuesta. Por lo tanto, tenga en cuenta que los problemas de rendimiento suelen estar relacionados con la capacidad. En las redes, esto suele ser el ancho de banda y los datos que deben esperar en las colas antes de que puedan transmitirse a través de la red. En las aplicaciones de voz, este tiempo de espera casi con certeza afecta a los usuarios, dado que factores tales como la demora y la fluctuación afectan la calidad de la llamada de voz.
Otro problema importante que complica la administración del rendimiento es que, si bien la alta disponibilidad de la red es fundamental para las redes de las grandes empresas y los proveedores de servicios, la tendencia es perseguir las ganancias económicas a corto plazo a riesgo de que se generen costos más altos (a menudo imprevistos) a largo plazo. Durante cada ciclo presupuestario, los administradores de red y el personal de implementación de proyectos luchan por encontrar un equilibrio entre el rendimiento y la implementación rápida. Además, los administradores de red enfrentan desafíos que incluyen el desarrollo rápido de productos para satisfacer ventanas de mercado estrechas, tecnologías complejas, consolidación empresarial, mercados competidores, tiempo de inactividad no programado, falta de experiencia y, a menudo, herramientas insuficientes.
A la luz de estos desafíos, ¿cómo encaja el rendimiento en el marco de trabajo de administración de la red? La función principal de un sistema de administración de red ideal es optimizar las capacidades operativas de la red. Una vez que acepta esto como el objetivo final de la administración de la red, el enfoque consiste en mantener el funcionamiento de la red al máximo rendimiento.
Un sistema de administración de red ideal incluye estas operaciones principales:
Informa al operador del inminente deterioro del rendimiento.
Proporciona routing alternativo y soluciones simples cuando se produce un deterioro o falla el rendimiento.
Proporciona las herramientas para identificar las causas del deterioro o la falla del rendimiento.
Funciona como estación principal para la capacidad de recuperación y la resiliencia de la red.
Comunica el rendimiento en tiempo real.
Según esta definición de sistema ideal, la administración del rendimiento se vuelve esencial para la administración de la red. Estos problemas de administración del rendimiento son fundamentales:
Rendimiento del usuario
Rendimiento de las aplicaciones
Planificación de capacidad
Administración de fallas proactiva
Es importante tener en cuenta que con las aplicaciones más nuevas, como las de voz y video, el rendimiento es la variable clave para el éxito y, si no puede lograr un rendimiento uniforme, el servicio se considera de bajo valor y falla. En otros casos, los usuarios simplemente padecen un rendimiento variable con tiempos de espera intermitentes que degradan su productividad y satisfacción.
En este documento se detallan los problemas de administración del rendimiento más críticos, que incluyen factores de éxito cruciales, indicadores clave de rendimiento y un mapa de procesos de alto nivel para la administración del rendimiento. También se analizan los conceptos de disponibilidad, tiempo de respuesta, precisión, utilización y planificación de la capacidad y se incluye una breve discusión sobre la función del análisis de fallas proactivo dentro de la administración del rendimiento y el sistema de administración de red ideal.
Los factores de éxito críticos identifican los requisitos para llevar a cabo las mejores prácticas de implementación. Para poder considerarse un factor de éxito crítico, un proceso o procedimiento debe mejorar la disponibilidad o la ausencia de dicho procedimiento debe disminuir la disponibilidad. Además, el factor de éxito crítico debe ser medible para que la organización pueda determinar el alcance de su éxito.
Nota: Consulte Indicadores de administración del rendimiento para obtener información detallada.
Estos son los factores de éxito críticos para la administración del rendimiento:
Recopilar una línea de base para los datos de la red y las aplicaciones.
Realizar un análisis hipotético de la red y las aplicaciones.
Realizar informes de excepciones para los problemas de capacidad.
Determinar la sobrecarga de administración de red para todos los servicios de administración de red propuestos o posibles.
Analizar la información de la capacidad.
Revisar periódicamente la información de la capacidad de la red y las aplicaciones, así como la línea de base y las excepciones.
Tener procedimientos de actualización o ajuste configurados para manejar problemas de capacidad tanto de manera reactiva como a largo plazo.
Los indicadores de rendimiento brindan el mecanismo por el cual una organización puede medir los factores de éxito críticos. Los indicadores de rendimiento para la planificación del rendimiento incluyen:
Documentar los objetivos empresariales de administración de redes. Esto podría ser un concepto formal de operaciones para la administración de redes o una declaración menos formal de las características y los objetivos requeridos.
Crear objetivos de nivel de servicio detallados y medibles.
Proporcionar documentación de los acuerdos de nivel de servicio con tablas o gráficos que muestren el éxito o el fracaso de cómo se cumplen estos acuerdos a lo largo del tiempo.
Recopilar una lista de las variables para la línea de base, como el intervalo de sondeo, la sobrecarga de administración de red generada, los posibles umbrales de activación, si la variable se utiliza como activador para una captura y el análisis de tendencias utilizado para cada variable.
Organizar una reunión periódica para revisar el análisis de la línea de base y las tendencias.
Documentar una metodología de análisis hipotético. Esto debe incluir el modelado y la verificación cuando corresponda.
Desarrollar documentación sobre la metodología utilizada para aumentar los recursos de red cuando se superan los umbrales. Un elemento que se debe documentar es la línea de tiempo requerida para agregar ancho de banda de WAN adicional y la tabla de costos.
Estos pasos proporcionan un flujo de proceso de alto nivel para la administración del rendimiento:
Antes de definir las variables detalladas de rendimiento y capacidad para una red, debe observar el concepto general de funcionamiento en la administración de la red dentro de su organización. Cuando define este concepto general, proporciona una base empresarial sobre la que puede crear definiciones precisas de las características deseadas en su red. Si no desarrolla un concepto operativo para la administración de la red, esto puede conducir a la falta de objetivos o a que los objetivos cambien constantemente debido a las demandas de los clientes.
Por lo general, el concepto de administración de red se presenta como el primer paso en la fase de definición del sistema del programa de administración de red. El propósito es describir las características generales deseadas del sistema desde un punto de vista operativo. El uso de este documento es para coordinar los objetivos empresariales generales (no cuantitativos) de las operaciones de red, la ingeniería, el diseño, otras unidades comerciales y los usuarios finales. El enfoque de este documento es formar las actividades de planificación operativa a largo plazo para la administración y el funcionamiento de la red. También proporciona orientación para el desarrollo de toda la documentación de definiciones posteriores, como los acuerdos de nivel de servicio. Obviamente, este conjunto inicial de definiciones no puede centrarse demasiado en la administración de problemas de red específicos, sino en aquellos elementos que enfatizan la importancia para la organización en general y en relación con los costos que también deben administrarse. Algunos objetivos son:
Identificar las características esenciales para el uso eficiente de la infraestructura de red.
Identificar los servicios o las aplicaciones que sostiene la red.
Iniciar la administración de servicios de extremo a extremo.
Iniciar métricas basadas en el rendimiento para mejorar el servicio en general.
Recopilar y distribuir información sobre la administración del rendimiento.
Apoyar la evaluación estratégica de la red con comentarios de los usuarios.
En otras palabras, el concepto de administración de la red de las operaciones debe centrarse en los objetivos generales de la organización y su filosofía para alcanzar esos objetivos. Los ingredientes principales consisten en definiciones generales de la misión, los objetivos de la misión, las metas del sistema, la participación de la organización y la filosofía operativa general.
Como administrador de red, usted se encuentra en condiciones de unificar las expectativas de rendimiento, a menudo inconsistentes, de los usuarios. Por ejemplo, si el requisito principal para la red es la transferencia de archivos grandes de una ubicación a otra, le convendrá centrarse más en el alto rendimiento y menos en los tiempos de respuesta de los usuarios interactivos. Tenga cuidado de no limitar su visión del rendimiento, a menos que considere una variedad de cuestiones. Por ejemplo, cuando prueba una red, observe los niveles de carga que se utilizan. La carga, a menudo, se basa en paquetes muy pequeños y el rendimiento en paquetes muy grandes. Cualquiera de estas pruebas de rendimiento puede producir una imagen muy positiva, pero según la carga de tráfico de la red, es posible que las pruebas no presenten una imagen real del rendimiento. Estudie el rendimiento de la red en la mayor cantidad posible de condiciones de carga de trabajo y documéntelo.
Además, si bien muchas organizaciones de administración de redes tienen técnicas de alarma eficaces para notificar a los técnicos sobre las fallas de los dispositivos, es mucho más difícil definir e implementar un proceso de evaluación para el rendimiento de las aplicaciones de extremo a extremo. Por lo tanto, si bien el centro de operaciones de red (NOC) puede responder rápidamente a un router o un switch caído, las condiciones de la red que pueden socavar su rendimiento y afectar la percepción del usuario pueden pasar inadvertidas hasta que esa percepción se vuelva negativa. Por difícil que sea, este segundo proceso puede proporcionar enormes beneficios tanto a la organización empresarial como a la administración de la red.
Por último, asegúrese de no crear expectativas poco realistas sobre el rendimiento de la red. En general, se crean expectativas poco realistas cuando no se comprenden bien los detalles de los protocolos de red o las aplicaciones. A menudo, el rendimiento deficiente no es culpa de la red, sino más bien el resultado de un diseño deficiente de las aplicaciones. La única manera de documentar y medir el rendimiento de las aplicaciones es tener una línea de base como referencia del rendimiento de la red antes de la instalación de las aplicaciones.
El primer paso de la administración del rendimiento, la planificación continua de la capacidad y el diseño de la red es definir las características o los servicios requeridos. Este paso requiere comprender las aplicaciones, los flujos de tráfico básicos, los recuentos de usuarios y sitios, y los servicios de red requeridos. El primer uso de esta información consiste en determinar la importancia de la aplicación para los objetivos de la organización. También puede aplicar esta información para crear una base de conocimientos que se utilice en el diseño lógico a fin de comprender los requisitos de ancho de banda, interfaz, conectividad, configuración y dispositivos físicos. Con este paso inicial, los arquitectos de la red pueden crear un modelo.
Cree objetivos de escalabilidad de la solución para que los ingenieros de redes puedan diseñar con más facilidad redes que satisfagan los futuros requisitos de crecimiento y asegurarse de que los diseños propuestos no experimenten limitaciones en los recursos debido al crecimiento o la extensión de la red. Las restricciones de recursos pueden incluir:
Tráfico general
Volumen
Cantidad de rutas
Cantidad de circuitos virtuales
Cantidad de vecinos
Dominios de difusión
Rendimiento de los dispositivos
Capacidad de medios
Los planificadores de la red deben determinar el tiempo de vida requerido para el diseño, la expectativa de extensiones o sitios que se solicitarán durante ese tiempo de vida, el volumen de usuarios nuevos y el volumen o cambio de tráfico esperado. Este plan ayuda a garantizar que la solución propuesta cumpla con los requisitos de crecimiento durante la vida útil proyectada del diseño.
Si no investiga la escalabilidad de la solución, es posible que se vea obligado a implementar cambios de diseño reactivos importantes. Estos cambios de diseño pueden incluir jerarquías adicionales, actualizaciones de medios o actualizaciones de hardware. En organizaciones que dependen de ciclos presupuestarios bastante precisos para las compras de hardware importantes, estos cambios pueden ser un obstáculo importante para el éxito general. En términos de disponibilidad, las redes pueden experimentar limitaciones de recursos inesperadas que provocan períodos de no disponibilidad y medidas reactivas.
La interoperabilidad y la evaluación de la interoperabilidad pueden ser factores críticos en la instrumentación de nuevas soluciones. La interoperabilidad puede hacer referencia a diferentes proveedores de hardware o diferentes topologías o soluciones que deben combinarse durante o después de una implementación de red. Los problemas de interoperabilidad pueden incluir desde la señalización de hardware a través de la pila de protocolos hasta problemas de routing o transporte. Los problemas de interoperabilidad pueden ocurrir antes, durante o después de la migración de una solución de red. La planificación de interoperabilidad debe incluir la conectividad entre los diferentes dispositivos y los problemas de tipología que pueden ocurrir durante las migraciones.
La comparación de soluciones es la práctica en que se comparan diseños potenciales diferentes con otras prácticas relativas a los requisitos de la solución. Esta práctica ayuda a garantizar que la solución sea la mejor opción para un entorno en particular y que los prejuicios personales no interfieran en el proceso de diseño. La comparación puede incluir diferentes factores, como el costo, la resiliencia, la disponibilidad, el riesgo, la interoperabilidad, la capacidad de administración, la escalabilidad y el rendimiento. Todos ellos pueden tener un efecto significativo en la disponibilidad general de la red una vez que el diseño está implementado. También puede comparar protocolos de medios, jerarquía, redundancia, protocolos de routing y capacidades de características similares. Crear un gráfico con factores en el eje X y soluciones potenciales en el eje Y ayuda a resumir las comparaciones entre soluciones. Las comparaciones de soluciones detalladas en un ambiente de laboratorio también ayudan a investigar objetivamente nuevas soluciones y características en relación con los diferentes factores de comparación.
Como parte del concepto de operaciones de administración de red, es esencial definir los objetivos para la red y los servicios admitidos de manera que todos los usuarios puedan comprenderlos. Las actividades que siguen al desarrollo del concepto operativo están muy influenciadas por la calidad de ese documento.
Estos son los objetivos de rendimiento estándar:
Tiempo de respuesta
Utilización
Rendimiento de procesamiento
Capacidad (tasa de rendimiento máxima)
Si bien estas mediciones pueden ser triviales para una LAN simple, pueden ser muy difíciles en una red de campus con switching o una red empresarial de varios proveedores. Cuando se aplica un concepto bien pensado al plan de operaciones, cada uno de los objetivos de rendimiento se define de manera medible. Por ejemplo, el tiempo de respuesta mínimo para la aplicación "x" es de 500 ms o menos durante las horas pico. Esto define la información para identificar la variable, la forma de medirla y el período del día en el que debe centrarse la aplicación de administración de red.
Los objetivos de disponibilidad definen el nivel de servicio o los requisitos de nivel de servicio para un servicio de red. Esto ayuda a garantizar que la solución cumpla con los requisitos de disponibilidad final. Defina diferentes clases de servicio para una organización en particular y detalle los requisitos de red para cada clase que sean adecuados para el requisito de disponibilidad. Las diferentes áreas de la red también pueden requerir diferentes niveles de disponibilidad. Un objetivo mayor de disponibilidad podría requerir más procedimientos de redundancia y soporte. Al definir un objetivo de disponibilidad para un servicio de red particular y medir la disponibilidad, su organización de red puede entender los componentes y los requisitos de nivel de servicio para lograr los SLA proyectados.
Defina los objetivos de capacidad de administración para garantizar que la administración general de la red no carezca de funcionalidad. Para establecer objetivos de capacidad de administración, debe comprender el proceso de soporte y las herramientas de administración de red asociadas para su organización. Los objetivos de capacidad de administración deben incluir el conocimiento de cómo las nuevas soluciones se adaptan al modelo actual de herramientas y soporte con referencias a cualquier diferencia potencial o nuevo requisito. Esto es crítico para la disponibilidad de la red dado que la capacidad de admitir soluciones nuevas es esencial para lograr una implementación exitosa y para cumplir con los objetivos de disponibilidad.
Los objetivos de capacidad de administración deben descubrir toda la información importante de la herramienta de red o MIB requerida para admitir una red potencial, la capacitación requerida para habilitar el nuevo servicio de red, los modelos de personal para el nuevo servicio y cualquier otro requisito de soporte. A menudo, esta información no se descubre antes de la implementación y la disponibilidad general se ve afectada como resultado de la falta de recursos asignados para admitir el nuevo diseño de red.
Los SLA y las métricas de rendimiento ayudan a definir y medir el rendimiento de las nuevas soluciones de red para asegurarse de que cumplan con los requisitos de rendimiento. El rendimiento de la solución propuesta puede medirse con herramientas de monitoreo de rendimiento o con un simple ping en la infraestructura de red propuesta. Los SLA de rendimiento deben incluir el volumen de tráfico promedio esperado, el volumen pico de tráfico, el tiempo promedio de respuesta y el tiempo máximo de respuesta permitidos. Esta información se puede utilizar más adelante en la sección de validación de la solución y, en última instancia, ayuda a determinar el rendimiento y la disponibilidad requeridos de la red.
Un aspecto importante del diseño de redes es la definición de los servicios a los usuarios o clientes. Las empresas los denominan acuerdos de nivel de servicio, mientras que los proveedores de servicios se refieren a ellos como administración del nivel de servicio. La administración del nivel de servicio generalmente incluye definiciones de los tipos de problemas, la gravedad y las responsabilidades de la mesa de ayuda, como la ruta de escalamiento y el tiempo antes del escalamiento en cada nivel de soporte, el momento para comenzar a trabajar en el problema y el momento para cerrar los objetivos según la prioridad. Otros factores importantes son qué tipo de servicio se presta en el área de planificación de la capacidad, la administración proactiva de fallas, la notificación de la administración de cambios, los umbrales, los criterios de actualización y el reemplazo del hardware.
Cuando las organizaciones no definen los niveles de servicio por adelantado, resulta difícil mejorar u obtener los requisitos de recursos identificados en una fecha posterior. También resulta difícil comprender qué recursos agregar para respaldar la red. En muchos casos, estos recursos se aplican solo después de que se detectan los problemas.
La administración del rendimiento es un término general que abarca la configuración y medición de distintas áreas de rendimiento. En esta sección se describen estos seis conceptos de administración del rendimiento:
La mayoría de las intranets corporativas tienen suficiente ancho de banda. Sin embargo, sin los datos adecuados, es posible que no pueda descartar la congestión de la red como factor de deficiencia en el rendimiento de las aplicaciones. Una de las pistas de la congestión o los errores es si el bajo rendimiento es intermitente o depende de la hora del día. Un ejemplo de esta condición es cuando el rendimiento es adecuado a última hora de la tarde, pero muy lento por la mañana y durante las horas pico de trabajo.
Una vez que haya definido el concepto de operaciones de administración de red y los datos de implementación necesarios, deberá recopilar estos datos a lo largo del tiempo. Este tipo de recopilación es fundamental para contar con la línea de base de la red.
Realice una línea de base de la red actual antes de la implementación de una nueva solución (aplicación o cambio de IOS) y después de la implementación para medir las expectativas establecidas para la nueva solución. Esta línea de base ayuda a determinar si la solución cumple con los objetivos de rendimiento y disponibilidad y con la capacidad de referencia. Un informe de línea de base de router/switch típico incluye problemas de capacidad relacionados con la CPU, la memoria, la administración del búfer, el uso de enlaces y medios, y el rendimiento. Existen otros tipos de datos de referencia que también puede incluir en función de los objetivos definidos en el concepto de operaciones. Por ejemplo, una línea de base de disponibilidad demuestra una mayor estabilidad/disponibilidad del entorno de red. Realice una comparación de la línea de base del entorno antiguo y del entorno nuevo para verificar los requisitos de la solución.
Otra línea de base especializada es la línea de base de la aplicación, que es muy útil cuando se determinan las tendencias de los requisitos de red de las aplicaciones. Esta información se puede utilizar para la facturación o la presupuestación en el ciclo de actualización. Las líneas de base de las aplicaciones también pueden ser importantes en el área de la disponibilidad de las aplicaciones en relación con los servicios preferidos o las calidades de servicio por aplicación. La información de línea de base de las aplicaciones consta principalmente del ancho de banda utilizado por las aplicaciones por período. Algunas aplicaciones de administración de red también pueden ser una línea de base para el rendimiento de las aplicaciones. Un desglose del tipo de tráfico (Telnet o FTP) también es importante para la planificación. En algunas organizaciones, las áreas más críticas de la red con recursos limitados se monitorean para detectar a los principales interlocutores. Los administradores de red pueden utilizar esta información para presupuestar, planificar o ajustar la red. Al ajustar la red, puede modificar la calidad del servicio o los parámetros de la cola para el servicio o la aplicación de red.
Una de las métricas principales utilizadas por los administradores de red es la disponibilidad. La disponibilidad es la medida de tiempo durante el cual un sistema de red o una aplicación están disponibles para un usuario. Desde una perspectiva de red, la disponibilidad representa la confiabilidad de los componentes individuales en una red.
Por ejemplo, para medir la disponibilidad, puede coordinar las llamadas telefónicas del servicio de soporte técnico con las estadísticas recopiladas de los dispositivos administrados. Sin embargo, las herramientas de disponibilidad no pueden determinar todos los motivos de las fallas.
La redundancia de la red es otro factor que se debe tener en cuenta al medir la disponibilidad. La pérdida de redundancia indica una degradación del servicio en lugar de una falla total de la red. El resultado puede ser un tiempo de respuesta más lento y una pérdida de datos debido a los paquetes descartados. También es posible que los resultados se muestren en otras áreas de la medición del rendimiento, como la utilización y el tiempo de respuesta.
Por último, si debe cumplir un SLA, debe tener en cuenta las interrupciones programadas. Estas interrupciones pueden ser el resultado de movimientos, adiciones y cambios, interrupciones de la planta u otros eventos que es posible que no desee informar. Esta no es solo una tarea difícil, sino también manual.
El tiempo de respuesta de la red es el tiempo necesario para que el tráfico viaje entre dos puntos. Cuando los tiempos de respuesta son más lentos que lo normal, lo que se detecta con una comparación con la línea de base o porque superan un umbral, es posible que exista congestión o una falla de la red.
El tiempo de respuesta es la mejor medida del uso de la red de un cliente y puede ayudarlo a medir la eficacia de su red. No importa cuál sea el origen de la respuesta lenta, para los usuarios, la demora del tráfico es una situación frustrante. En las redes distribuidas, muchos factores afectan el tiempo de respuesta, como:
Congestión de red
Ruta menos deseada hacia el destino (o ninguna ruta)
Dispositivos de red con baja potencia
Fallas de red, como tormentas de difusión
Errores de ruido o CRC
En las redes que emplean la puesta en espera relacionada con la QoS, la medición del tiempo de respuesta es importante para determinar si los tipos correctos de tráfico se mueven por la red como se espera. Por ejemplo, cuando implementa tráfico de voz a través de redes IP, los paquetes de voz deben entregarse a tiempo y a una velocidad constante para mantener una buena calidad de voz. Puede generar tráfico clasificado como tráfico de voz para medir su tiempo de respuesta tal como aparece para los usuarios.
Puede medir el tiempo de respuesta para ayudar a resolver las batallas entre los servidores de aplicaciones y los administradores de red. A menudo, se presume que los culpables son los administradores de red cuando una aplicación o un servidor funcionan con lentitud. El administrador de red debe probar que la red no es el problema. La recopilación de datos del tiempo de respuesta proporciona un medio indiscutible para probar o refutar que la red es el origen de los problemas de las aplicaciones.
Siempre que sea posible, debe medir el tiempo de respuesta tal como aparece para los usuarios. Un usuario percibe la respuesta como el tiempo desde que presiona Enter o hace clic en un botón hasta que aparece la pantalla. Ese tiempo que transcurre incluye el tiempo necesario para que cada dispositivo de red, la estación de trabajo del usuario y el servidor de destino procesen el tráfico.
Desafortunadamente, la medición en este nivel es casi imposible debido a la cantidad de usuarios y la falta de herramientas. Además, cuando incorpora el tiempo de respuesta del usuario y el servidor, no es de mucha utilidad cuando se determina el crecimiento futuro de la red o la solución de problemas de red.
Puede utilizar los dispositivos de red y los servidores para medir el tiempo de respuesta. También puede utilizar herramientas, como ICMP, para medir las transacciones, aunque no tiene en cuenta las demoras introducidas en un sistema a medida que las capas superiores lo procesan. Este enfoque resuelve el problema del conocimiento del rendimiento de la red.
En un nivel simplista, puede cronometrar la respuesta a los pings desde la estación de administración de red hasta los puntos clave de la red, como una interfaz de computadora central, el terminal de la conexión de un proveedor de servicios o las direcciones IP de usuarios clave, para medir el tiempo de respuesta. El problema con este método es que no refleja con precisión la percepción del usuario del tiempo de respuesta entre su máquina y la máquina de destino. Simplemente recopila información e informa el tiempo de respuesta desde la perspectiva de la estación de administración de red. Este método también enmascara los problemas de tiempo de respuesta salto por salto en toda la red.
Una alternativa al sondeo centrado en el servidor es distribuir el esfuerzo más cerca del origen y el destino que desea simular para la medición. Utilice sondas de administración de red distribuidas e implemente la funcionalidad del agente de aseguramiento de servicio (SAA) de Cisco IOS. Puede habilitar el SAA en los routers para medir el tiempo de respuesta entre un router y un dispositivo de destino, como un servidor u otro router. También puede especificar un puerto TCP o UDP, que obliga a reenviar y dirigir el tráfico de la misma manera que el tráfico que simula.
Con la integración de voz, video y datos en redes multiservicio, los clientes implementan la priorización de QoS en su red. La medición simple de ICMP o UDP no refleja con precisión el tiempo de respuesta, ya que las diferentes aplicaciones reciben diferentes prioridades. Además, con el switching con etiquetas, el routing del tráfico puede variar según el tipo de aplicación contenida en un paquete específico. Por lo tanto, un ping ICMP puede recibir diferentes prioridades según la forma en que lo maneje cada router y puede recibir diferentes rutas menos eficientes.
En este caso, la única manera de medir el tiempo de respuesta es generar tráfico que se asemeje a la aplicación o tecnología de interés. Esto obliga a los dispositivos de red a manejar el tráfico como lo harían con el tráfico real. Es posible que pueda alcanzar este nivel con SAA o mediante el uso de sondas con reconocimiento de aplicaciones de terceros.
La precisión es la medida del tráfico de la interfaz que no genera errores y se puede expresar en una cifra porcentual que compara la tasa de éxito con la tasa total de paquetes durante un período. Primero debe medir la tasa de error. Por ejemplo, si dos de cada 100 paquetes dan como resultado un error, la tasa de error sería del 2% y la tasa de precisión sería del 98%.
Con las tecnologías de red anteriores, especialmente en el área amplia, un cierto nivel de errores era aceptable. Sin embargo, con las redes de alta velocidad y los servicios de WAN actuales, la transmisión es considerablemente más precisa y las tasas de error son cercanas a cero, a menos que efectivamente haya un problema. Algunas causas comunes de errores de interfaz son:
Cableado fuera de especificación
Interferencia eléctrica
Hardware o software defectuoso
Utilice una tasa de precisión reducida para iniciar una investigación más detallada. Puede descubrir que una interfaz en particular presenta problemas y decide que los errores son aceptables. En este caso, debe ajustar el umbral de precisión de esta interfaz a fin de reflejar dónde es inaceptable la tasa de error. Es posible que la tasa de error inaceptable se haya informado en una línea de base anterior.
Las variables descritas en esta tabla se utilizan en las fórmulas de precisión y tasas de error:
Notación | Descripción |
---|---|
ΔifInErrors | La letra delta (o diferencial) entre dos ciclos de sondeo que recopilan el objeto ifInErrors del protocolo SNMP, que representa el recuento de paquetes entrantes con error. |
ΔifInUcastPkts | La letra delta entre dos ciclos de sondeo que recopilan el objeto ifInUcastPkts del protocolo SNMP, que representa el recuento de paquetes de unidifusión entrantes. |
ΔifInNUcastPkts | La letra delta entre los dos ciclos de sondeo que recopilan el objeto ifInNUcastPkts del protocolo SNMP, que representa el recuento de paquetes entrantes que no son de unidifusión (multidifusión y difusión). |
La fórmula para obtener la tasa de error suele expresarse como porcentaje:
Tasa de error = (ΔifInErrors) * 100
-------------------------------------
(ΔifInUcastPkts) + (ΔifInNUcastPkts)
Observe que los errores salientes no se tienen en cuenta en las fórmulas de tasa de error y precisión. Esto se debe a que un dispositivo nunca debe colocar a sabiendas paquetes con errores en la red y las tasas de error de la interfaz de salida nunca deben aumentar. Por lo tanto, el tráfico entrante y los errores son las únicas medidas de interés para los errores y la precisión de la interfaz.
La fórmula para obtener la precisión toma la tasa de error y se la resta a 100 (nuevamente, en forma de porcentaje):
Precisión = 100 – (ΔifInErrors) * 100
-----------------------------------------
(ΔifInUcastPkts) + (ΔifInNUcastPkts)
Estas fórmulas reflejan el error y la precisión en términos de contadores genéricos de la interfaz MIB II (RFC 2233). El resultado se expresa en términos de porcentaje que compara los errores con el total de paquetes vistos y enviados. La tasa de error resultante se resta de 100, lo que produce la tasa de precisión. Una tasa de precisión del 100% es perfecta.
Dado que las variables de MIB II se almacenan como contadores, debe tomar dos ciclos de sondeo y calcular la diferencia entre los dos (de ahí la letra delta utilizada en la ecuación).
La utilización mide el uso de un recurso en particular a lo largo del tiempo. La medida suele expresarse en forma de porcentaje en el que se compara el uso de un recurso con su capacidad operativa máxima. Mediante las medidas de utilización, puede identificar la congestión (o la congestión potencial) en toda la red. También puede identificar los recursos infrautilizados.
La utilización es la medida principal para determinar cuán llenos están los canales de la red (enlaces). Mida la CPU, la interfaz, las filas y otros parámetros de capacidad relacionados con el sistema para determinar hasta qué punto se consumen los recursos del sistema de red.
Una utilización alta no es necesariamente mala. Una utilización baja puede indicar que existen flujos de tráfico en lugares inesperados. Cuanto más se presenta una utilización excesiva de las líneas, los efectos pueden ser importantes. La sobreutilización se produce cuando hay más tráfico en espera para pasar por una interfaz del que la cola puede manejar. Los saltos repentinos en la utilización de recursos pueden indicar una condición de falla.
A medida que una interfaz se congestiona, el dispositivo de red debe almacenar el paquete en una cola o descartarlo. Si un router intenta almacenar un paquete en una cola completa, el paquete se descarta. Los paquetes se descartan cuando el tráfico se reenvía de una interfaz rápida a una interfaz más lenta. Esto se indica en la fórmula Q = u / (1 – u) donde u es la utilización y Q es la profundidad promedio de la cola (se supone que hay tráfico aleatorio). Por lo tanto, los altos niveles de utilización en los enlaces dan como resultado profundidades de cola promedio altas, que es una latencia predecible si conoce el tamaño de los paquetes. Algunos de los proveedores de informes de red indican que puede solicitar menos ancho de banda y pagar menos por su WAN. Sin embargo, surgen implicaciones relativas a la latencia cuando se ejecutan enlaces de WAN con una utilización del 95%. Además, a medida que las redes se migran a VoIP, es posible que los administradores de red necesiten cambiar sus políticas y ejecutar enlaces de WAN aproximadamente al 50% de la utilización.
Cuando se descarta un paquete, el protocolo de capa superior puede forzar una retransmisión del paquete. Si se descartan varios paquetes, pueden producirse reintentos de tráfico de forma excesiva. Este tipo de reacción puede generar copias de respaldo en los dispositivos que se encuentran más adelante. Para resolver este problema, puede establecer diferentes grados de umbrales.
La medida principal de la utilización de la red es la utilización de la interfaz. Use las fórmulas descritas en esta tabla según si la conexión que desea medir es semidúplex o dúplex completo:
Notación | Descripción |
---|---|
ΔifInOctets | La letra delta (o diferencial) entre dos ciclos de sondeo que recopilan el objeto ifInOctets del protocolo SNMP, que representa el recuento de octetos entrantes de tráfico. |
ΔifOutOctets | La letra delta entre dos ciclos de sondeo que recopilan el objeto ifOutOctets del protocolo SNMP, que representa el recuento de octetos salientes de tráfico. |
ifSpeed | La velocidad de la interfaz como se informa en el objeto ifSpeed del protocolo SNMP. Tenga en cuenta que es posible que ifSpeed no refleje con precisión la velocidad de una interfaz de WAN. |
Las conexiones de LAN compartidas tienden a ser semidúplex, principalmente porque la detección de contención requiere que un dispositivo escuche antes de transmitir. Las conexiones de WAN suelen ser de dúplex completo porque la conexión es punto a punto; ambos dispositivos pueden transmitir y recibir al mismo tiempo, ya que saben que solo hay otro dispositivo que comparte la conexión.
Dado que las variables de MIB II se almacenan como contadores, debe tomar dos ciclos de sondeo y calcular la diferencia entre los dos (de ahí la letra delta utilizada en la ecuación).
En el caso de los medios semidúplex, use esta fórmula para calcular la utilización de la interfaz:
(ΔifInOctets + ΔifOutOctets) * 8 * 100
----------------------------------------------------
(cantidad de segundos en Δ) * ifSpeed
Para los medios de dúplex completo, el cálculo de la utilización es más complejo. Por ejemplo, con una conexión serial T-1 completa, la velocidad de línea es de 1,544 Mbps. Esto significa que una interfaz T-1 puede recibir y transmitir 1,544 Mbps, lo que da un ancho de banda combinado posible de 3,088 Mbps.
Cuando calcula el ancho de banda de la interfaz para las conexiones de dúplex completo, puede utilizar esta fórmula en la que toma el mayor de los valores de entrada y salida y genera un porcentaje de utilización:
max(ΔifInOctets, (ΔifOutOctets) * 8 * 100
-----------------------------------------
(cantidad de segundos en Δ) * ifSpeed
Sin embargo, este método oculta la utilización de la dirección que tiene el valor menor y proporciona resultados menos precisos. Un método más preciso es medir la utilización de entrada y la utilización de salida por separado, de la siguiente manera:
Utilización de entrada = ΔifInOctets * 8 * 100
-------------------------------------
(cantidad de segundos en Δ) * ifSpeed
Y
Utilización de salida = ΔifOutOctets * 8 * 100
------------------------------------
(cantidad de segundos en Δ) * ifSpeed
Si bien estas fórmulas están algo simplificadas, no tienen en cuenta la sobrecarga asociada con un protocolo en particular. Existen fórmulas más precisas para manejar los aspectos únicos de cada protocolo. Por ejemplo, RFC 1757 contiene fórmulas de utilización de Ethernet que tienen en cuenta la sobrecarga de paquetes. Sin embargo, el equipo de alta disponibilidad descubrió que las fórmulas generales que se presentan aquí se pueden utilizar de manera confiable en las interfaces de LAN y WAN en la mayoría de los casos.
Como se mencionó anteriormente, la planificación de la capacidad es el proceso por el que se determinan los requisitos de recursos de red probables a futuro para evitar un impacto en el rendimiento o la disponibilidad en las aplicaciones críticas para la empresa. Consulte Administración de capacidad y rendimiento: Informe técnico de mejores prácticas para obtener información más detallada sobre este tema.
El análisis de fallas proactivo es esencial para la administración del rendimiento. El mismo tipo de datos que se recopila para la administración del rendimiento se puede utilizar para el análisis de fallas proactivo. Sin embargo, la sincronización y el uso de estos datos son diferentes entre la administración proactiva de fallas y la administración del rendimiento.
La administración proactiva de fallas es la forma en que el sistema de administración de red ideal puede lograr los objetivos que se determinaron. La relación con la administración del rendimiento es a través de la línea de base y las variables de datos que se utilizan. La administración proactiva de fallas integra eventos personalizados, un motor de correlación de eventos, los tickets de problemas y el análisis estadístico de los datos de la línea de base para unir la administración de fallas, del rendimiento y de los cambios en un sistema de administración de red ideal y eficaz.
Cuando el sondeo de datos de rendimiento se realiza normalmente cada 10, 15 o incluso 30 minutos, el reconocimiento de una condición de falla debe realizarse en un intervalo de tiempo mucho más corto. Un método de administración proactiva de fallas es mediante el uso de alarmas y grupos de eventos de RMON. Puede establecer umbrales en los dispositivos que no sondeen los dispositivos externos, de modo que los umbrales sean mucho más cortos. Otro método, que no se aborda en este documento, es mediante el uso de un sistema de administración distribuida que permite el sondeo a nivel local con agregación de datos en un administrador de administradores.
La creación de umbrales es el proceso en el que se definen puntos de interés en flujos de datos específicos y se generan eventos cuando se activan los umbrales. Utilice los datos de rendimiento de la red para establecer esos umbrales.
Existen varios tipos diferentes de umbrales, algunos de los cuales son más aplicables a determinados tipos de datos. Los umbrales solo se aplican a los datos numéricos; por lo tanto, convierta los datos textuales en valores numéricos discretos. Aunque no conozca todas las cadenas de texto posibles para un objeto, puede enumerar las cadenas "interesantes" y asignar todas las demás cadenas a un valor establecido.
Existen dos clases de umbrales para las dos clases de datos numéricos: continuos y discretos. Los umbrales continuos se aplican a los datos continuos o de series de tiempo, como los datos almacenados en contadores o medidores del protocolo SNMP. Los umbrales discretos se aplican a los objetos enumerados o a cualquier dato numérico discreto. Los objetos booleanos son valores enumerados con dos valores: true o false. Los datos discretos también se pueden denominar datos de eventos porque son eventos lo que marca la transición de un valor al siguiente.
Los umbrales continuos pueden desencadenar eventos cuando el objeto de serie temporal cruza el valor especificado del umbral. El valor del objeto supera el umbral o desciende por debajo de él. También puede ser útil establecer umbrales ascendentes y descendentes separados. Esta técnica, conocida como mecanismo de histéresis, ayuda a reducir la cantidad de eventos generados a partir de esta clase de datos. El mecanismo de histéresis funciona para reducir el volumen de eventos generados por los umbrales en datos de series temporales que varían rápidamente. Este mecanismo se puede utilizar con cualquier técnica de umbral en datos de series temporales.
El volumen de eventos se reduce mediante una alarma que se genera para rastrear el valor de un objeto. Se asignan umbrales ascendentes y descendentes a esta alarma. La alarma solo se activa cuando se supera el umbral ascendente. Una vez que se atraviesa este umbral, no se genera una nueva alarma ascendente hasta que se atraviese el umbral descendente. El mismo mecanismo evita la generación de umbrales descendentes hasta que se vuelve a cruzar el umbral ascendente. Este mecanismo puede reducir drásticamente el volumen de eventos y no elimina la información requerida para determinar si existe una falla.
Los datos de series temporales se pueden representar como contadores, donde cada nuevo punto de datos se agrega a la suma de los puntos de datos anteriores, o como un medidor, donde los datos se representan como una tasa en un intervalo de tiempo. Existen dos formas diferentes de umbrales continuos aplicables a cada tipo de datos: umbrales continuos absolutos y umbrales continuos relativos. Utilice umbrales continuos absolutos con los medidores y umbrales continuos relativos con los contadores.
Para determinar los valores de umbral para su red, siga estos pasos:
Seleccione los objetos.
Seleccione los dispositivos y las interfaces.
Determine los valores de umbral para cada objeto o tipo de objeto/interfaz.
Determine la gravedad del evento generado por cada umbral.
Se requiere mucho trabajo para determinar qué umbrales utilizar en qué objetos (y para qué dispositivos e interfaces). Afortunadamente, si recopiló una línea de base de datos de rendimiento, ya ha realizado una cantidad significativa de ese trabajo. Además, la NSA y el programa de servicio de alta disponibilidad (HAS) pueden hacer recomendaciones que lo ayuden a establecer objetos y crear rangos. Sin embargo, debe adaptar estas recomendaciones a su red en particular.
Dado que ha recopilado datos de rendimiento para la red, el programa de HAS recomienda que agrupe las interfaces por categorías. Esto simplifica la configuración de umbrales porque es posible que los deba determinar para el tipo de medio de cada categoría en lugar de para cada dispositivo y objeto en ese dispositivo. Por ejemplo, le convendrá establecer diferentes umbrales para las redes Ethernet y FDDI. Comúnmente se piensa que se pueden ejecutar redes FDDI con una utilización más cercana al 100% que con un segmento de Ethernet compartido. Sin embargo, Ethernet de dúplex completo se puede ejecutar mucho más cerca del 100% de utilización porque no está sujeta a colisiones. Es posible que desee establecer los umbrales para las colisiones en niveles muy bajos para los enlaces de dúplex completo a fin de evitar colisiones.
También puede considerar la combinación de la importancia de la interfaz y la categoría/gravedad del tipo de umbral. Utilice estos factores para establecer la prioridad del evento y, por lo tanto, su importancia y la atención que requiere del personal de operaciones de red.
No se puede dejar de enfatizar la agrupación y la categorización de los dispositivos y las interfaces de red. Cuanto más pueda agrupar y categorizar, más fácil podrá integrar los eventos de umbral en su plataforma de administración de red. Utilice la línea de base como recurso principal para obtener esta información. Consulte Administración de capacidad y rendimiento: Informe técnico de mejores prácticas para obtener más información.
La organización debe tener implementado un sistema de administración de red que sea capaz de detectar los valores de umbral definidos e informar los valores de períodos especificados. Utilice un sistema de administración de red RMON que pueda archivar mensajes de umbral en un archivo de registro para la revisión diaria o una solución de base de datos más completa que permita búsquedas de excepciones de umbral para un parámetro determinado. La información debe estar disponible de manera continua para el personal de operaciones de red y el administrador. La implementación de administración de red debe incluir la capacidad de detectar fallas o rastreos de origen de software/hardware, confiabilidad de la interfaz, CPU, uso de enlaces, fallas en la cola o el búfer, el volumen de difusión, las transiciones de la portadora y los restablecimientos de la interfaz.
Un área final de la administración proactiva de fallas que se superpone con la administración del rendimiento son las métricas de las operaciones de red. Estas métricas proporcionan datos valiosos para la mejora del proceso de administración de fallas. Como mínimo, estas métricas deben incluir un desglose de todos los problemas que ocurrieron durante un período determinado. El desglose debe incluir información como la siguiente:
Cantidad de problemas que ocurren por prioridad de llamada
Tiempo mínimo, máximo y promedio hasta el cierre de cada problema en cada prioridad
Desglose de problemas por tipo (hardware, bloqueo del software, configuración, alimentación, error del usuario)
Desglose del tiempo hasta el cierre para cada tipo de problema
Disponibilidad por grupo de disponibilidad o SLA
Con qué frecuencia se cumplieron o no los requisitos del SLA
La mesa de ayuda a menudo tiene un sistema de informes con la capacidad de generar métricas o reportes. Otro medio para recopilar estos datos es el uso de una herramienta de monitoreo de disponibilidad. Las métricas generales deben estar disponibles mensualmente. La mejora de procesos basada en la discusión debe implementarse a fin de mejorar los requisitos de los acuerdos de nivel de servicio o mejorar la forma en que se manejan ciertos tipos de problemas.
Los indicadores de rendimiento brindan el mecanismo por el cual una organización mide los factores de éxito críticos.
Este documento puede ser un concepto formal de operaciones para la administración de redes o una declaración menos formal de las características y los objetivos requeridos. Sin embargo, el documento debe ayudar al administrador de la red a medir el éxito.
Este documento es la estrategia de administración de red de la organización y debe coordinar los objetivos empresariales generales (no cuantitativos) de las operaciones de red, la ingeniería, el diseño, otras unidades comerciales y los usuarios finales. Mediante este enfoque, la organización puede formar las actividades de planificación a largo plazo para la administración y el funcionamiento de la red, lo que incluye el proceso de presupuestación. También proporciona orientación para la adquisición de herramientas y la ruta de integración requerida para lograr los objetivos de administración de red, como los SLA.
Este documento estratégico no puede centrarse demasiado en la administración de problemas de red específicos, sino en aquellos elementos importantes para la organización en general, que incluyen cuestiones presupuestarias. Por ejemplo:
Identifique un plan integral con metas alcanzables.
Identifique cada servicio o aplicación empresarial que requiera soporte de red.
Identifique las métricas basadas en el rendimiento necesarias para medir el servicio.
Planifique la recopilación y distribución de los datos de métricas de rendimiento.
Identifique el soporte necesario para la evaluación de la red y los comentarios de los usuarios.
Tenga objetivos de nivel de servicio documentados, detallados y medibles.
Para documentar correctamente los SLA, debe definir completamente las métricas de los objetivos del nivel de servicio. Esta documentación debe estar a disposición de los usuarios para su evaluación. Proporciona el bucle de retroalimentación para garantizar que la organización de administración de red continúe midiendo las variables necesarias para mantener el nivel del acuerdo de servicio.
Los SLA son documentos "activos" porque el entorno empresarial y la red son dinámicos por naturaleza. Lo que hoy sirve para medir un SLA podría quedar obsoleto mañana. Solo cuando se establece un bucle de retroalimentación de los usuarios y se actúa a partir de esa información, las operaciones de red pueden mantener las cifras de alta disponibilidad requeridas por la organización.
Esta lista incluye elementos como el intervalo de sondeo, la sobrecarga de administración de la red, los posibles umbrales de activación, si la variable se utiliza como activador para una captura y el análisis de tendencias utilizado para cada variable.
Estas variables no se limitan a las métricas necesarias para los objetivos de nivel de servicio mencionados anteriormente. Como mínimo, se deben incluir estas variables: el estado de los routers, el estado de los switches, la información de routing, los datos específicos de la tecnología, la utilización y la demora. Estas variables se sondean periódicamente y se almacenan en una base de datos. Luego, se pueden generar informes con estos datos. Estos informes pueden ayudar al personal de planificación y operaciones de administración de red de estas maneras:
Los problemas reactivos a menudo se pueden resolver más rápido con una base de datos histórica.
Los informes de rendimiento y la planificación de la capacidad requieren este tipo de datos.
Los objetivos de nivel de servicio se pueden medir con referencia a ellos.
El personal de administración de la red debe realizar reuniones para revisar informes específicos periódicamente. Esto genera comentarios adicionales, así como un enfoque proactivo frente a los posibles problemas de la red.
Estas reuniones deben incluir al personal operativo y de planificación. Esto proporciona una oportunidad para que los planificadores reciban un análisis operativo de la línea de base y los datos de las tendencias. También pone al personal operativo al tanto de parte del análisis de planificación.
Otro tipo de elemento que se puede incluir en estas reuniones son los objetivos de nivel de servicio. A medida que se acercan los umbrales de los objetivos, el personal de administración de la red puede tomar medidas para evitar el incumplimiento de un objetivo y, en algunos casos, estos datos se pueden utilizar como justificación presupuestaria parcial. Los datos pueden mostrar dónde se van a infringir los objetivos de nivel de servicio si no se toman las medidas pertinentes. Además, dado que estos objetivos han sido identificados por los servicios y las aplicaciones empresariales, son más fáciles de justificar desde el punto de vista financiero.
Realice estas revisiones cada dos semanas y realice una reunión analítica más exhaustiva cada seis a doce semanas. Estas reuniones le permiten abordar problemas tanto a corto como a largo plazo.
Un análisis hipotético implica el modelado y la verificación de soluciones. Antes de agregar una nueva solución a la red (ya sea una nueva aplicación o un cambio en la versión de Cisco IOS), documente algunas de las alternativas.
La documentación para este análisis incluye las preguntas principales, la metodología, los conjuntos de datos y los archivos de configuración. El punto principal es que el análisis de hipótesis es un experimento que otra persona debería poder recrear con la información proporcionada en el documento.
Esta documentación incluye ancho de banda de WAN adicional y una tabla de costos que ayuda a aumentar el ancho de banda para un tipo de enlace en particular. Esta información ayuda a la organización a darse cuenta de cuánto tiempo y dinero cuesta aumentar el ancho de banda. La documentación formal permite que los expertos en rendimiento y capacidad descubran cómo y cuándo aumentar el rendimiento, así como la línea de tiempo y los costos para tal iniciativa.
Revise periódicamente esta documentación, quizás como parte de la revisión de rendimiento trimestral, para asegurarse de que se mantenga actualizada.
La única manera de lograr los objetivos del sistema de administración de red ideal es integrar activamente los componentes de administración del rendimiento en el sistema. Este objetivo debe incluir el uso de métricas de disponibilidad y tiempo de respuesta vinculadas a un sistema de notificación cuando se superan los umbrales. Tendría que incluir el uso de una línea de base para la planificación de la capacidad que esté vinculada con un modelo heurístico para el aprovisionamiento y los informes de excepciones. Podría tener un motor integrado de modelado o simulación que permita actualizar el modelo en tiempo real y proporcionar un nivel de planificación y solución de problemas a través de simulaciones de software.
Si bien gran parte de este sistema puede parecer un ideal imposible que nunca se lograría, actualmente cada uno de los componentes está disponible. Además, las herramientas para integrar estos componentes también existen en programas como MicroMuse. Debemos seguir trabajando en pos de este ideal, ya que es más realista que nunca.
Revisión | Fecha de publicación | Comentarios |
---|---|---|
1.0 |
02-Dec-2013
|
Versión inicial |