Das Leistungsmanagement umfasst die Optimierung der Reaktionszeit von Netzwerkservices sowie die Verwaltung der Konsistenz und Qualität einzelner und allgemeiner Netzwerkservices. Der wichtigste Service ist die Notwendigkeit, die Reaktionszeit von Benutzern/Anwendungen zu messen. Für die meisten Benutzer ist die Reaktionszeit der entscheidende Erfolgsfaktor. Diese Variable beeinflusst die Wahrnehmung des Netzwerkerfolgs durch Benutzer und Anwendungsadministratoren.
Bei der Kapazitätsplanung werden die Anforderungen an zukünftige Netzwerkressourcen festgelegt, um Leistungseinbußen oder Verfügbarkeitsbeeinträchtigungen für geschäftskritische Anwendungen zu vermeiden. Im Bereich der Kapazitätsplanung kann die Netzwerk-Baseline (CPU, Arbeitsspeicher, Puffer, In/Out-Oktetts usw.) die Reaktionszeit beeinflussen. Bedenken Sie daher, dass Leistungsprobleme häufig mit der Kapazität korrelieren. In Netzwerken sind dies normalerweise Bandbreite und Daten, die in Warteschlangen warten müssen, bevor sie über das Netzwerk übertragen werden können. Bei Sprachanwendungen wirkt sich diese Wartezeit fast mit Sicherheit auf die Benutzer aus, da Faktoren wie Verzögerungen und Jitter die Qualität von Sprachanrufen beeinflussen.
Ein weiteres wichtiges Problem, das das Leistungsmanagement kompliziert, ist, dass eine hohe Netzwerkverfügbarkeit zwar für große Unternehmens- und Service Provider-Netzwerke von entscheidender Bedeutung ist, dass aber die Tendenz besteht, kurzfristige wirtschaftliche Gewinne anzustreben, die mit dem Risiko (oft unvorhergesehener) höherer Kosten langfristig verbunden sind. Während jedes Budgetzyklus haben Netzwerkadministratoren und das Personal für die Projektimplementierung Schwierigkeiten damit, ein Gleichgewicht zwischen Leistung und schneller Implementierung zu finden. Darüber hinaus stehen Netzwerkadministratoren vor Herausforderungen wie der schnellen Produktentwicklung, um knappe Marktbedingungen zu erfüllen, komplexe Technologien, die Konsolidierung von Geschäftsprozessen, konkurrierende Märkte, ungeplante Ausfallzeiten, mangelnde Fachkenntnisse und häufig unzureichende Tools.
Wie passt die Leistung angesichts dieser Herausforderungen in das Netzwerkmanagement-Framework? Die primäre Funktion eines idealen Netzwerkmanagementsystems ist die Optimierung der Betriebsfunktionen eines Netzwerks. Wenn Sie dies als letztes Ziel für das Netzwerkmanagement akzeptieren, liegt der Schwerpunkt des Netzwerkmanagements darin, den Netzwerkbetrieb bei optimaler Leistung aufrechtzuerhalten.
Ein ideales Netzwerkmanagementsystem umfasst folgende Hauptvorgänge:
Informiert den Bediener über eine bevorstehende Leistungsverschlechterung.
Ermöglicht einfaches Alternativrouting und Problemumgehungen, wenn die Leistung beeinträchtigt oder ausfällt.
Stellt Tools bereit, mit denen Sie die Ursachen von Leistungseinbußen oder -ausfällen ermitteln können.
Dient als Hauptstation für Ausfallsicherheit und Ausfallsicherheit des Netzwerks.
Überträgt Leistung in Echtzeit.
Basierend auf dieser Definition für ein ideales System wird das Performance-Management für das Netzwerkmanagement unverzichtbar. Diese Leistungsverwaltungsprobleme sind entscheidend:
Benutzerleistung
Anwendungsleistung
Kapazitätsplanung
Proaktives Fehlermanagement
Es ist zu beachten, dass bei neueren Anwendungen wie Sprache und Video die Leistung die Schlüsselvariable für den Erfolg ist. Wenn Sie keine konsistente Leistung erzielen können, wird der Service als gering eingestuft und schlägt fehl. In anderen Fällen leiden Benutzer einfach unter variabler Leistung mit zeitweiligen Anwendungs-Timeouts, die die Produktivität und Benutzerzufriedenheit beeinträchtigen.
In diesem Dokument werden die wichtigsten Probleme des Performance-Managements beschrieben. Dazu gehören wichtige Erfolgsfaktoren, wichtige Leistungsindikatoren und eine allgemeine Prozessübersicht für das Performance-Management. Darüber hinaus werden die Konzepte der Verfügbarkeit, Reaktionszeit, Genauigkeit, Auslastung und Kapazitätsplanung erläutert und die Rolle proaktiver Fehleranalysen im Leistungsmanagement und dem idealen Netzwerkmanagementsystem erläutert.
Kritische Erfolgsfaktoren bestimmen die Anforderungen für die Implementierung von Best Practices. Um als kritischer Erfolgsfaktor eingestuft zu werden, muss ein Prozess oder ein Verfahren die Verfügbarkeit verbessern, oder das Fehlen eines Verfahrens muss die Verfügbarkeit verringern. Darüber hinaus sollte der kritische Erfolgsfaktor messbar sein, damit das Unternehmen das Ausmaß ihres Erfolgs bestimmen kann.
Hinweis: Detaillierte Informationen finden Sie unter Leistungsmanagement-Indikatoren.
Dies sind die entscheidenden Erfolgsfaktoren für das Leistungsmanagement:
Sammeln Sie eine Baseline für Netzwerk- und Anwendungsdaten.
Führen Sie eine Wi-Fi-Analyse für Ihr Netzwerk und Ihre Anwendungen durch.
Erstellen Sie Ausnahmeberichte für Kapazitätsprobleme.
Bestimmen Sie den Netzwerkmanagement-Overhead für alle vorgeschlagenen oder potenziellen Netzwerkmanagement-Services.
Analysieren Sie die Kapazitätsinformationen.
Regelmäßige Überprüfung der Kapazitätsinformationen für Netzwerk und Anwendungen sowie der Baseline- und Ausnahmeinformationen.
Es müssen Upgrade- oder Abstimmungsverfahren eingerichtet werden, um Kapazitätsprobleme sowohl reaktiv als auch langfristig zu bewältigen.
Leistungsindikatoren bieten einen Mechanismus, mit dem ein Unternehmen kritische Erfolgsfaktoren messen kann. Leistungsindikatoren für die Leistungsplanung:
Dokumentieren der Geschäftsziele für das Netzwerkmanagement Dies kann ein formales Betriebskonzept für das Netzwerkmanagement oder eine weniger formale Darstellung der erforderlichen Funktionen und Ziele sein.
Erstellen Sie detaillierte und messbare Service-Level-Ziele.
Dokumentation der Service Level Agreements mit Diagrammen oder Diagrammen, die den Erfolg oder Misserfolg dieser Vereinbarungen im Laufe der Zeit aufzeigen.
Sammeln Sie eine Liste der Variablen für die Basislinie, z. B. Abfrageintervall, Netzwerkmanagement-Overhead, mögliche Trigger-Schwellenwerte, ob die Variable als Auslöser für ein Trap verwendet wird, und Trendanalysen, die für jede Variable verwendet werden.
Führen Sie eine regelmäßige Sitzung, die die Analyse der Baseline und Trends überprüft.
eine Was-wäre-wenn-Analysemethode dokumentiert. Dies sollte gegebenenfalls Modellierung und Überprüfung umfassen.
Wenn die Schwellenwerte überschritten werden, erstellen Sie Dokumentation zur Methodik zur Erhöhung der Netzwerkressourcen. Ein zu dokumentierender Punkt ist die Zeitspanne, die für die Bereitstellung zusätzlicher WAN-Bandbreite und einer Kostentabelle erforderlich ist.
Diese Schritte stellen einen allgemeinen Prozessablauf für das Leistungsmanagement bereit:
Bevor Sie die detaillierten Leistungs- und Kapazitätsvariablen für ein Netzwerk definieren, müssen Sie sich das Gesamtkonzept des Netzwerkmanagements in Ihrem Unternehmen ansehen. Wenn Sie dieses Gesamtkonzept definieren, bietet es eine Geschäftsgrundlage, auf der Sie präzise Definitionen der im Netzwerk gewünschten Funktionen erstellen können. Wenn Sie ein Betriebskonzept für das Netzwerkmanagement nicht entwickeln, kann dies zu einem Mangel an Zielen führen, der sich aufgrund der Kundenanforderungen ständig ändert.
Normalerweise erstellen Sie das Betriebskonzept für das Netzwerkmanagement als ersten Schritt in der Systemdefinitionsphase des Netzwerkmanagementprogramms. Der Zweck besteht darin, die insgesamt gewünschten Systemmerkmale aus betrieblicher Sicht zu beschreiben. Dieses Dokument dient der Koordination der (nicht quantitativen) Ziele des Netzwerkbetriebs, der Entwicklung, des Designs, anderer Geschäftsbereiche und der Endbenutzer. Im Mittelpunkt dieses Dokuments steht die Gestaltung der umfangreichen operativen Planungstätigkeiten für Netzwerkmanagement und -betrieb. Darüber hinaus bietet es Anleitungen für die Entwicklung aller nachfolgenden Definitionsdokumentationen, wie z. B. Service Level Agreements. Diese anfänglichen Definitionen können sich natürlich nicht zu sehr auf das Management spezifischer Netzwerkprobleme konzentrieren, sondern auf diejenigen Elemente, die die Bedeutung für die gesamte Organisation und im Verhältnis zu den Kosten, die auch verwaltet werden müssen, betonen. Einige Ziele sind:
Identifizieren Sie die Merkmale, die für eine effiziente Nutzung der Netzwerkinfrastruktur unerlässlich sind.
Identifizieren Sie die Services/Anwendungen, die das Netzwerk unterstützt.
End-to-End-Service-Management:
Initiieren Sie leistungsbasierte Kennzahlen, um den Service insgesamt zu verbessern.
Sammeln und Verteilen von Informationen zum Leistungsmanagement
Unterstützung der strategischen Auswertung des Netzwerks durch Feedback der Benutzer
Mit anderen Worten: Das Betriebskonzept des Netzwerkmanagements sollte sich auf die allgemeinen organisatorischen Ziele und Ihre Philosophie konzentrieren, um diese Ziele zu erreichen. Die Hauptbestandteile sind die übergeordneten Definitionen der Mission, der Missionsziele, der Systemziele, der organisatorischen Beteiligung und der allgemeinen operativen Philosophie.
Als Netzwerkmanager sind Sie in der Lage, häufig inkonsistente Leistungsanforderungen Ihrer Benutzer zu vereinheitlichen. Wenn z. B. die Übertragung großer Dateien von einem Speicherort an einen anderen die Hauptanforderung für das Netzwerk ist, sollten Sie sich auf einen hohen Durchsatz und weniger auf die Reaktionszeiten interaktiver Benutzer konzentrieren. Achten Sie darauf, dass Sie Ihre Sicht der Leistung nicht einschränken, es sei denn, Sie berücksichtigen eine Reihe von Problemen. Wenn Sie beispielsweise ein Netzwerk testen, überprüfen Sie die verwendeten Laststufen. Die Last basiert häufig auf sehr kleinen Paketen und dem Durchsatz auf sehr großen Paketen. Jeder dieser Leistungstests kann ein sehr positives Bild liefern, aber basierend auf der Auslastung des Netzwerkverkehrs zeigen die Tests möglicherweise kein wahres Bild der Leistung. Ermitteln Sie die Netzwerkleistung unter möglichst vielen Workload-Bedingungen, und dokumentieren Sie die dokumentierte Leistung.
Auch wenn viele Organisationen des Netzwerkmanagements über wirksame Alarmtechniken verfügen, um Techniker über einen Geräteausfall zu informieren, ist es viel schwieriger, einen Bewertungsprozess für die End-to-End-Anwendungsleistung zu definieren und zu implementieren. Während das Network Operations Center (NOC) schnell auf einen ausgefallenen Router oder Switch reagieren kann, können Netzwerkbedingungen, die die Netzwerkleistung beeinträchtigen und die Wahrnehmung der Benutzer beeinflussen, daher unbemerkt bleiben, bis diese Wahrnehmung negativ wird. Dieser zweite Prozess ist zwar schwierig, kann jedoch sowohl der Geschäftsorganisation als auch dem Netzwerkmanagement enorme Vorteile bringen.
Stellen Sie außerdem sicher, dass Sie keine unrealistischen Erwartungen an die Netzwerkleistung stellen. Unrealistische Erwartungen entstehen in der Regel, wenn Sie die Details der Netzwerkprotokolle oder Anwendungen missverstehen. Häufig ist eine schlechte Leistung nicht das Problem des Netzwerks, sondern das Ergebnis eines schlechten Anwendungsdesigns. Die einzige Möglichkeit, die Anwendungsleistung zu dokumentieren und zu messen, besteht darin, die Netzwerkleistung vor der Installation der Anwendung zu berücksichtigen.
Der erste Schritt von Performance-Management, kontinuierlicher Kapazitätsplanung und Netzwerkdesign besteht in der Definition der erforderlichen Funktionen und/oder Services. In diesem Schritt müssen Sie die Anwendungen, die grundlegenden Datenverkehrsflüsse, die Benutzer- und Standortanzahl sowie die erforderlichen Netzwerkservices verstehen. Die erste Verwendung dieser Informationen besteht darin, die Wichtigkeit der Anwendung für die Unternehmensziele zu bestimmen. Sie können diese Informationen auch zum Erstellen einer Wissensdatenbank verwenden, die im logischen Design verwendet werden kann, um die Anforderungen an Bandbreite, Schnittstelle, Konnektivität, Konfiguration und physische Geräte zu ermitteln. Mit diesem ersten Schritt können Netzwerkarchitekten ein Netzwerkmodell erstellen.
Erstellen Sie Skalierbarkeitsziele für die Lösung, um Netzwerktechniker bei der Entwicklung von Netzwerken zu unterstützen, die zukünftigen Wachstumsanforderungen gerecht werden und sicherstellen, dass bei vorgeschlagenen Designs keine Ressourceneinschränkungen aufgrund von Wachstum oder Erweiterung des Netzwerks auftreten. Zu den Ressourcenbeschränkungen gehören:
Gesamtverkehr
Lautstärke
Anzahl der Routen
Anzahl der virtuellen Leitungen
Nachbarn
Broadcast-Domänen
Gerätedurchsatz
Medienkapazität
Netzwerkplaner sollten die benötigte Lebensdauer des Designs, erwartete Erweiterungen oder Standorte während der Lebensdauer des Designs, die Anzahl der neuen Benutzer und das erwartete Datenverkehrsvolumen oder Änderungen ermitteln. Dieser Plan trägt dazu bei, sicherzustellen, dass die angebotene Lösung die Wachstumsanforderungen während der prognostizierten Lebensdauer des Designs erfüllt.
Wenn Sie die Skalierbarkeit der Lösung nicht untersuchen, sind Sie möglicherweise gezwungen, größere reaktive Designänderungen zu implementieren. Diese Designänderung kann zusätzliche Hierarchien, Medien-Upgrades oder Hardware-Upgrades beinhalten. In Unternehmen, die sich bei größeren Hardwarekäufen auf relativ genaue Budgetzyklen verlassen, können diese Veränderungen den Gesamterfolg erheblich behindern. Was die Verfügbarkeit angeht, so können Netzwerke unerwartete Ressourceneinschränkungen erfahren, die zu Zeiten der Nichtverfügbarkeit und reaktiver Maßnahmen führen.
Interoperabilitäts- und Interoperabilitätstests können für den Erfolg neuer Lösungsbereitstellungen entscheidend sein. Interoperabilität kann sich auf unterschiedliche Hardwareanbieter oder verschiedene Topologien oder Lösungen beziehen, die während oder nach einer Netzwerkimplementierung miteinander vernetzt werden müssen. Interoperabilitätsprobleme können die Hardwaresignalisierung über den Protokoll-Stack zur Behebung von Routing- oder Transportproblemen beinhalten. Interoperabilitätsprobleme können vor, während oder nach der Migration einer Netzwerklösung auftreten. Die Interoperabilitätsplanung sollte Verbindungen zwischen verschiedenen Geräten und Topologieproblemen umfassen, die bei Migrationen auftreten können.
Beim Vergleich von Lösungen werden verschiedene Designs im Vergleich zu anderen Verfahren für Lösungsanforderungen verglichen. Diese Vorgehensweise hilft sicherzustellen, dass die Lösung für eine bestimmte Umgebung am besten geeignet ist und dass persönliche Voreingenommenheit den Designprozess nicht beeinflusst. Der Vergleich kann verschiedene Faktoren wie Kosten, Ausfallsicherheit, Verfügbarkeit, Risiko, Interoperabilität, Verwaltbarkeit, Skalierbarkeit und Leistung einschließen. All diese Faktoren können sich nach der Implementierung des Designs erheblich auf die Gesamtverfügbarkeit des Netzwerks auswirken. Sie können auch Medien, Hierarchie, Redundanz, Routing-Protokolle und ähnliche Funktionen vergleichen. Erstellen Sie ein Diagramm mit Faktoren auf der X-Achse und potenziellen Lösungen auf der Y-Achse, um Lösungsvergleiche zusammenzufassen. Ein detaillierter Lösungsvergleich in einer Laborumgebung hilft auch, neue Lösungen und Funktionen im Verhältnis zu den verschiedenen Vergleichsfaktoren objektiv zu untersuchen.
Im Rahmen des Betriebskonzepts für das Netzwerkmanagement müssen die Ziele für das Netzwerk und die unterstützten Services so definiert werden, dass sie für alle Benutzer verständlich sind. Die Aktivitäten, die auf die Entwicklung des operativen Konzepts folgen, werden durch die Qualität dieses Dokuments stark beeinflusst.
Dies sind die standardmäßigen Leistungsziele:
Reaktionszeit
Auslastung
Durchsatz
Kapazität (maximale Durchsatzrate)
Diese Messungen sind für ein einfaches LAN vielleicht trivial, können jedoch in einem Switch-Campus-Netzwerk oder einem Unternehmensnetzwerk mit mehreren Anbietern sehr schwierig sein. Wenn Sie ein durchdachtes Konzept eines Betriebsplans verwenden, wird jedes Leistungsziel messbar definiert. Die Mindestreaktionszeit für die Anwendung "x" beträgt beispielsweise 500 ms oder weniger zu den Hauptverkehrszeiten. Dadurch werden die Informationen zum Identifizieren der Variablen, die Art ihrer Messung und die Tageszeit definiert, auf die sich die Netzwerkmanagementanwendung konzentrieren sollte.
Verfügbarkeitsziele definieren die Service- oder Service-Level-Anforderungen für einen Netzwerkservice. So kann sichergestellt werden, dass die Lösung die Anforderungen an die Endverfügbarkeit erfüllt. Definieren Sie für eine bestimmte Organisation unterschiedliche Serviceklassen, und geben Sie für jede Klasse detaillierte Netzwerkanforderungen an, die den Verfügbarkeitsanforderungen entsprechen. Unterschiedliche Bereiche des Netzwerks können auch unterschiedliche Verfügbarkeitsstufen erfordern. Ein höheres Verfügbarkeitsziel kann höhere Redundanz- und Supportverfahren erfordern. Wenn Sie ein Verfügbarkeitsziel für einen bestimmten Netzwerkservice definieren und die Verfügbarkeit messen, kann Ihre Netzwerkorganisation die Komponenten und Servicelevel verstehen, die zur Erreichung der prognostizierten SLAs erforderlich sind.
Definieren Sie Verwaltungsziele, um sicherzustellen, dass das Netzwerkmanagement insgesamt nicht über Funktionen zur Verwaltung verfügt. Um Verwaltungsziele festzulegen, müssen Sie mit dem Supportprozess und den entsprechenden Netzwerkverwaltungstools für Ihr Unternehmen vertraut sein. Die Verwaltungsziele sollten Kenntnisse darüber umfassen, wie neue Lösungen in das aktuelle Support- und Tool-Modell integriert werden können, wobei mögliche Unterschiede oder neue Anforderungen zu berücksichtigen sind. Dies ist für die Netzwerkverfügbarkeit von entscheidender Bedeutung, da die Fähigkeit zur Unterstützung neuer Lösungen für den Erfolg der Bereitstellung und die Erfüllung der Verfügbarkeitsziele von entscheidender Bedeutung ist.
Verwaltbarkeitsziele sollten alle wichtigen MIB- oder Netzwerk-Tool-Informationen aufdecken, die zur Unterstützung eines potenziellen Netzwerks erforderlich sind, Schulungen zur Unterstützung des neuen Netzwerkservice, Personalmodelle für den neuen Service und andere Support-Anforderungen. Oft werden diese Informationen vor der Bereitstellung nicht entdeckt, und die allgemeine Verfügbarkeit leidet unter dem Mangel an Ressourcen, die für die Unterstützung des neuen Netzwerkdesigns zugewiesen wurden.
Performance SLAs und Kennzahlen helfen bei der Definition und Messung der Leistung neuer Netzwerklösungen, um sicherzustellen, dass diese die Leistungsanforderungen erfüllen. Die Leistung der vorgeschlagenen Lösung kann mithilfe von Leistungsüberwachungs-Tools oder mit einem einfachen Ping über die vorgeschlagene Netzwerkinfrastruktur gemessen werden. Die Leistungs-SLAs sollten das durchschnittliche erwartete Datenverkehrsvolumen, das Spitzenvolumen des Datenverkehrs, die durchschnittliche Antwortzeit und die maximal zulässige Antwortzeit umfassen. Diese Informationen können später im Abschnitt zur Lösungsvalidierung verwendet werden und letztendlich die erforderliche Leistung und Verfügbarkeit des Netzwerks ermitteln.
Ein wichtiger Aspekt des Netzwerkdesigns ist die Definition des Service für Benutzer oder Kunden. Unternehmen bezeichnen diese Service Level Agreements als solche, während Service Provider sie als Service Level Management bezeichnen. Das Service-Level-Management umfasst in der Regel Definitionen für Problemtypen sowie für den Schweregrad und die Helpdesk-Verantwortlichkeiten, z. B. Eskalationspfad und die Zeit vor der Eskalation auf jeder Support-Ebene, die Zeit bis zum Beginn der Bearbeitung des Problems und die Zeit bis zum Abschluss von Zielen je nach Priorität. Weitere wichtige Faktoren sind die Leistungen im Bereich Kapazitätsplanung, proaktives Fehlermanagement, Änderungsmanagement-Benachrichtigung, Schwellenwerte, Upgrade-Kriterien und Hardware-Ersatz.
Wenn die Service-Level nicht im Voraus definiert werden, können die zu einem späteren Zeitpunkt ermittelten Ressourcenanforderungen nur schwer verbessert oder erhöht werden. Es wird auch schwierig zu verstehen, welche Ressourcen hinzugefügt werden müssen, um das Netzwerk zu unterstützen. In vielen Fällen werden diese Ressourcen erst angewendet, nachdem Probleme erkannt wurden.
Das Leistungsmanagement ist ein Dachbegriff, der die Konfiguration und Messung von unterschiedlichen Leistungsbereichen beinhaltet. In diesem Abschnitt werden die folgenden sechs Konzepte des Leistungsmanagements beschrieben:
Die meisten Intranets verfügen über eine ausreichende Bandbreite. Ohne angemessene Daten können Sie jedoch Netzwerküberlastungen als Ursache für eine schlechte Anwendungsleistung möglicherweise nicht ausschließen. Ein Hinweis auf Überlastungen oder Fehler ist, dass die schlechte Leistung nur gelegentlich oder zeitabhängig ist. Ein Beispiel für diese Situation ist, wenn die Leistung spät am Abend angemessen ist, aber sehr langsam am Morgen und zu den Hauptverkehrszeiten.
Nachdem Sie das Betriebskonzept des Netzwerkmanagements definiert und die erforderlichen Implementierungsdaten definiert haben, müssen diese Daten im Laufe der Zeit erfasst werden. Diese Art der Erfassung bildet die Grundlage für die Netzwerkbasis.
Führen Sie vor und nach der Bereitstellung einer neuen Lösung (Änderung von Anwendungen oder IOS) eine Baseline für das aktuelle Netzwerk aus, um die Erwartungen an die neue Lösung zu messen. Anhand dieser Baseline kann ermittelt werden, ob die Lösung die Leistungs- und Verfügbarkeitsziele erfüllt und die Benchmark-Kapazität erreicht. Ein typischer Baseline-Bericht für Router/Switches beinhaltet Kapazitätsprobleme im Zusammenhang mit CPU, Speicher, Puffer-Management, Link/Media-Nutzung und Durchsatz. Es gibt andere Arten von Basisdaten, die Sie ebenfalls einschließen können, basierend auf den definierten Zielen im Betriebskonzept. Beispielsweise zeigt eine Verfügbarkeitsgrundlage eine erhöhte Stabilität/Verfügbarkeit der Netzwerkumgebung. Führen Sie einen Baseline-Vergleich zwischen alten und neuen Umgebungen durch, um die Lösungsanforderungen zu überprüfen.
Eine weitere spezialisierte Basis ist die Anwendungsbasis, die nützlich ist, wenn Sie die Netzwerkanforderungen von Anwendungen tendieren. Diese Informationen können im Aktualisierungszyklus für Rechnungs- und/oder Budgetzwecke verwendet werden. Anwendungsgrundlagen können auch im Bereich der Anwendungsverfügbarkeit im Verhältnis zu bevorzugten Services oder Quality of Service pro Anwendung wichtig sein. Informationen zu Anwendungsgrundlagen bestehen hauptsächlich aus der Bandbreite, die von Anwendungen pro Zeitraum verwendet wird. Einige Netzwerkmanagement-Anwendungen können auch die Anwendungsleistung grundlegend beeinflussen. Eine Aufschlüsselung des Datenverkehrstyps (Telnet oder FTP) ist ebenfalls wichtig für die Planung. In einigen Unternehmen werden besonders kritische Bereiche mit beschränkten Ressourcen im Netzwerk auf Top-Talkers überwacht. Die Netzwerkadministratoren können diese Informationen verwenden, um das Netzwerk zu planen oder anzupassen. Wenn Sie das Netzwerk optimieren, können Sie Quality of Service oder Warteschlangenparameter für den Netzwerkdienst oder die Netzwerkanwendung ändern.
Eine der wichtigsten Kennzahlen, die Netzwerkmanager verwenden, ist die Verfügbarkeit. Verfügbarkeit ist die Zeitangabe, die ein Netzwerksystem oder eine Anwendung für einen Benutzer zur Verfügung stellt. Aus netzwerktechnischer Perspektive stellt die Verfügbarkeit die Zuverlässigkeit der einzelnen Komponenten in einem Netzwerk dar.
Um beispielsweise die Verfügbarkeit zu messen, können Sie die Helpdesk-Telefonanrufe mit den Statistiken der verwalteten Geräte abstimmen. Verfügbarkeitstools können jedoch nicht alle Fehlerursachen ermitteln.
Netzwerkredundanz ist ein weiterer Faktor, der bei der Messung der Verfügbarkeit berücksichtigt werden muss. Redundanzverlust weist auf eine Service-Verschlechterung hin, anstatt auf einen totalen Netzwerkausfall. Das Ergebnis kann eine langsamere Reaktionszeit und ein Datenverlust aufgrund verworfener Pakete sein. Es ist auch möglich, dass die Ergebnisse in den anderen Bereichen der Leistungsmessung wie Auslastung und Reaktionszeit angezeigt werden.
Schließlich sollten Sie bei der Einhaltung eines SLA geplante Ausfälle berücksichtigen. Diese Ausfälle können das Ergebnis von Verschiebungen, Hinzufügungen und Änderungen, Abschaltungen von Anlagen oder anderen Ereignissen sein, die nicht gemeldet werden sollen. Dies ist nicht nur eine schwierige Aufgabe, sondern kann auch eine manuelle Aufgabe sein.
Die Netzwerkreaktionszeit ist die Zeit, die für den Datenverkehr zwischen zwei Punkten erforderlich ist. Reaktionszeiten, die langsamer als normal sind, die durch einen Vergleich der Ausgangswerte ermittelt wurden oder einen Schwellenwert überschreiten, können auf eine Überlastung oder einen Netzwerkfehler hinweisen.
Die Reaktionszeit ist die beste Messgröße für die Nutzung des Kundennetzwerks und kann Ihnen dabei helfen, die Effektivität Ihres Netzwerks zu messen. Unabhängig von der Ursache für die langsame Reaktion werden die Benutzer durch den verzögerten Datenverkehr frustriert. In verteilten Netzwerken wirken sich viele Faktoren auf die Reaktionszeit aus, z. B.:
Netzwerküberlastung
Weniger als wünschenswerte Route zum Ziel (oder gar keine Route)
Geringere Netzwerkgeräte
Netzwerkfehler wie ein Broadcast-Sturm
Geräusche oder CRC-Fehler
In Netzwerken, in denen QoS-bezogene Warteschlangen eingesetzt werden, ist die Messung der Reaktionszeit wichtig, um zu bestimmen, ob die richtigen Datenverkehrsarten wie erwartet durch das Netzwerk fließen. Wenn Sie beispielsweise Sprachdatenverkehr über IP-Netzwerke implementieren, müssen Sprachpakete pünktlich und in konstanter Geschwindigkeit bereitgestellt werden, um eine gute Sprachqualität aufrechtzuerhalten. Sie können Datenverkehr generieren, der als Sprachverkehr klassifiziert ist, um die Antwortzeit des Datenverkehrs zu messen, wie er den Benutzern angezeigt wird.
Sie können die Reaktionszeit messen, um Kämpfe zwischen Anwendungsservern und Netzwerkmanagern zu lösen. Netzwerkadministratoren werden häufig für schuldig befunden, wenn eine Anwendung oder ein Server langsam zu sein scheint. Der Netzwerkadministrator muss nachweisen, dass das Netzwerk nicht das Problem ist. Die Erfassung von Daten zur Reaktionszeit bietet ein unbestreitbares Mittel, um zu beweisen oder zu entkräften, dass das Netzwerk die Quelle für Anwendungsprobleme ist.
Wenn möglich, sollten Sie die Reaktionszeit so messen, wie sie den Benutzern angezeigt wird. Ein Benutzer nimmt die Antwort als den Zeitpunkt wahr, ab dem er die Eingabetaste betätigt oder auf eine Schaltfläche klickt, bis der Bildschirm angezeigt wird. Diese verstrichene Zeit beinhaltet die Zeit, die für jedes Netzwerkgerät, die Benutzer-Workstation und den Zielserver zur Verarbeitung des Datenverkehrs erforderlich ist.
Leider ist eine Messung auf dieser Ebene aufgrund der Anzahl der Benutzer und des Mangels an Werkzeugen fast unmöglich. Wenn Sie außerdem die Reaktionszeit von Benutzern und Servern integrieren, bietet dies wenig Wert, wenn Sie zukünftiges Netzwerkwachstum ermitteln oder Netzwerkprobleme beheben.
Sie können die Netzwerkgeräte und -server verwenden, um die Reaktionszeit zu messen. Sie können auch Tools wie ICMP verwenden, um Transaktionen zu messen. Verzögerungen, die in ein System eingehen, werden jedoch bei der Verarbeitung der oberen Ebenen nicht berücksichtigt. Dieser Ansatz löst das Problem der Kenntnis der Netzwerkleistung.
Auf einer einfachen Ebene können Sie die Reaktion auf Pings von der Netzwerkmanagementstation auf Schlüsselpunkte im Netzwerk (z. B. eine Mainframe-Schnittstelle, Endpunkt einer Dienstanbieterverbindung oder IP-Adressen von Schlüsselbenutzern) einstellen, um die Reaktionszeit zu messen. Das Problem bei dieser Methode besteht darin, dass sie nicht genau die vom Benutzer wahrgenommene Reaktionszeit zwischen dem Computer und dem Zielcomputer wiedergibt. Es erfasst einfach Informationen und erstellt Berichte zur Reaktionszeit aus Sicht der Netzwerkmanagement-Station. Diese Methode maskiert außerdem die Reaktionszeit-Probleme auf Hop-by-Hop-Basis im gesamten Netzwerk.
Eine Alternative zum serverorientierten Polling ist die Verteilung des Aufwands näher an der Quelle und dem Ziel, die Sie zur Messung simulieren möchten. Verwenden Sie verteilte Abfrageprozesse für das Netzwerkmanagement, und implementieren Sie die Funktionen von Cisco IOS Service Assurance Agent (SAA). Sie können SAA auf Routern aktivieren, um die Reaktionszeit zwischen einem Router und einem Zielgerät, z. B. einem Server oder einem anderen Router, zu messen. Sie können auch einen TCP- oder UDP-Port angeben, der die Weiterleitung und Weiterleitung des Datenverkehrs auf die gleiche Weise erzwingt wie der simulierte Datenverkehr.
Durch die Integration von Sprache, Video und Daten in Multiservice-Netzwerken implementieren Kunden die QoS-Priorisierung in ihrem Netzwerk. Einfache ICMP- oder UDP-Messungen spiegeln die Reaktionszeit nicht genau wider, da für verschiedene Anwendungen unterschiedliche Prioritäten gelten. Beim Tag-Switching kann die Weiterleitung des Datenverkehrs je nach dem in einem bestimmten Paket enthaltenen Anwendungstyp variieren. Ein ICMP-Ping erhält also möglicherweise unterschiedliche Prioritäten bei der Behandlung durch jeden Router und erhält möglicherweise verschiedene, weniger effiziente Routen.
In diesem Fall ist die einzige Möglichkeit, die Reaktionszeit zu messen, die Erzeugung von Datenverkehr, der der jeweiligen Anwendung oder Technologie von Interesse ähnelt. Dies zwingt die Netzwerkgeräte, den Datenverkehr wie für den eigentlichen Datenverkehr zu verarbeiten. Sie können diese Stufe möglicherweise mit SAA oder mithilfe von anwendungssensitiven Drittanbieterproben erreichen.
Genauigkeit ist die Messgröße für den Schnittstellendatenverkehr, der nicht zu Fehlern führt und in Prozent ausgedrückt werden kann, die die Erfolgsrate mit der Gesamtpaketrate über einen bestimmten Zeitraum vergleichen. Zunächst müssen Sie die Fehlerrate messen. Wenn beispielsweise zwei von 100 Paketen zu Fehlern führen, beträgt die Fehlerquote 2 %, und die Genauigkeit beträgt 98 %.
Bei früheren Netzwerktechnologien, insbesondere im Weitverkehrsbereich, war ein gewisses Maß an Fehlern akzeptabel. Bei Hochgeschwindigkeitsnetzwerken und heutigen WAN-Diensten ist die Übertragung jedoch deutlich genauer, und die Fehlerquoten liegen nahe Null, wenn kein tatsächliches Problem vorliegt. Häufige Ursachen für Schnittstellenfehler sind:
Out-of-Specification-Verkabelung
Elektrische Störungen
Fehlerhafte Hardware oder Software
Verwenden Sie eine geringere Genauigkeit, um eine genauere Untersuchung auszulösen. Sie können feststellen, dass eine bestimmte Schnittstelle Probleme aufweist, und entscheiden, dass die Fehler akzeptabel sind. In diesem Fall sollten Sie die Genauigkeitsschwelle für diese Schnittstelle anpassen, um anzuzeigen, wo die Fehlerrate nicht akzeptabel ist. Die nicht hinnehmbare Fehlerrate könnte bereits früher gemeldet worden sein.
Die in dieser Tabelle beschriebenen Variablen werden in Formeln mit Genauigkeit und Fehlerrate verwendet:
Notation | Beschreibung |
---|---|
/span> ifInErrors < | Das Delta (oder der Unterschied) zwischen zwei Abfragezyklen, die das snmp ifInErrors-Objekt erfassen, das die Anzahl eingehender Pakete mit einem Fehler darstellt. |
/span> ifInUcastPkts | Das Delta zwischen zwei Abfragezyklen, die das Objekt snmp ifInUcastPkts erfassen, das die Anzahl der eingehenden Unicast-Pakete darstellt. |
/span> ifInNUcastPkts | Das Delta zwischen den beiden Abfragezyklen, die das Objekt snmp ifInNUcastPkts erfassen, das die Anzahl der eingehenden Nicht-Unicast-Pakete (Multicast und Broadcast) darstellt. |
Die Formel für die Fehlerquote wird in der Regel als Prozentsatz ausgedrückt:
Fehlerrate = (TR ifInErrors) *100
—
(TR ifInUcastPkts + (TR ifInNUcastPkts)
Beachten Sie, dass bei der Fehlerrate und den Genauigkeitsformeln Fehler für ausgehende Anrufe nicht berücksichtigt werden. Das liegt daran, dass ein Gerät niemals Pakete mit Fehlern wissentlich im Netzwerk platzieren sollte und die Fehlerquoten bei der ausgehenden Schnittstelle niemals steigen sollten. Daher sind eingehender Datenverkehr und Fehler die einzigen Indikatoren, die für Schnittstellenfehler und -genauigkeit von Interesse sind.
Bei der Formel für die Genauigkeit wird die Fehlerrate von 100 abgezogen (wiederum in Form eines Prozentsatzes):
Genauigkeit = 100 - (TR ifInErrors) *100
—
(TR ifInUcastPkts + (TR ifInNUcastPkts)
Diese Formeln spiegeln Fehler und Genauigkeit im Hinblick auf generische MIB II Interface (RFC 2233)-Zähler wider. Das Ergebnis wird als Prozentsatz ausgedrückt, der Fehler mit den insgesamt erkannten und gesendeten Paketen vergleicht. Die Fehlerrate wird von 100 abgezogen, was die Genauigkeit ergibt. Eine Genauigkeit von 100% ist perfekt.
Da die MIB II-Variablen als Zähler gespeichert werden, müssen zwei Abfragezyklen verwendet werden, um den Unterschied zwischen den beiden zu berechnen (daher das in der Gleichung verwendete Delta).
Bei der Nutzung wird die Nutzung einer bestimmten Ressource im Laufe der Zeit gemessen. Die Maßnahme wird in der Regel in Form eines Prozentsatzes ausgedrückt, in dem die Nutzung einer Ressource mit ihrer maximalen Betriebskapazität verglichen wird. Mithilfe von Nutzungsmaßnahmen können Sie Engpässe (oder potenzielle Überlastungen) im gesamten Netzwerk identifizieren. Sie können auch nicht ausgelastete Ressourcen identifizieren.
Die Nutzung ist die Hauptmaßnahme, um festzustellen, wie voll die Netzwerkpfeifen (Verbindungen) sind. Messen Sie die CPU, die Schnittstelle, die Warteschlange und andere systembezogene Kapazitätsmessungen, um zu bestimmen, in welchem Umfang Netzwerkressourcen beansprucht werden.
Eine hohe Auslastung ist nicht unbedingt schlecht. Eine geringe Auslastung kann auf Verkehrsflüsse an unerwarteten Orten hinweisen. Wenn Linien überlastet werden, können die Auswirkungen erheblich sein. Eine Überlastung tritt auf, wenn mehr Datenverkehr in die Warteschlange gestellt wird, der über eine Schnittstelle übertragen wird, als sie verarbeiten kann. Plötzliche Sprünge bei der Ressourcenauslastung können auf einen Fehlerzustand hinweisen.
Wenn eine Schnittstelle überlastet wird, muss das Netzwerkgerät das Paket entweder in einer Warteschlange speichern oder verwerfen. Wenn ein Router versucht, ein Paket in einer vollständigen Warteschlange zu speichern, wird das Paket verworfen. Verworfene Pakete werden ausgelöst, wenn der Datenverkehr von einer schnellen Schnittstelle an eine langsamere Schnittstelle weitergeleitet wird. Dies ist in der Formel Q = u / (1-u) angegeben, wobei u die Auslastung ist, und Q ist die durchschnittliche Warteschlangentiefe (zufälliger Datenverkehr angenommen). Die hohe Auslastung der Verbindungen führt daher zu einer hohen durchschnittlichen Warteschlangentiefe, was bei bekannter Paketgröße eine vorhersehbare Latenz bedeutet. Einige der Netzwerk-Reporting-Anbieter geben an, dass Sie weniger Bandbreite bestellen und weniger für Ihr WAN bezahlen können. Wenn Sie jedoch WAN-Verbindungen mit einer Auslastung von 95 % ausführen, treten Latenzprobleme auf. Wenn Netzwerke zu VoIP migriert werden, müssen die Netzwerkadministratoren möglicherweise ihre Richtlinien ändern und WAN-Links mit einer Auslastung von ca. 50 % ausführen.
Wenn ein Paket verworfen wird, kann das höhere Layer-Protokoll eine erneute Übertragung des Pakets erzwingen. Wenn mehrere Pakete verworfen werden, kann zu einem übermäßigen Datenverkehr bei erneutem Versuch führen. Diese Art von Reaktion kann dazu führen, dass Backups auf Geräten weiter unten in der Leitung durchgeführt werden. Um dieses Problem zu beheben, können Sie verschiedene Schwellenwerte festlegen.
Die primäre Messgröße für die Netzwerkauslastung ist die Schnittstellenauslastung. Verwenden Sie die in dieser Tabelle beschriebenen Formeln, je nachdem, ob die Verbindung, die Sie messen, Halbduplex oder Vollduplex ist:
Notation | Beschreibung |
---|---|
/span> ifInOctets | Das Delta (oder der Unterschied) zwischen zwei Abfragezyklen, die das snmp ifInOctets-Objekt erfassen, das die Anzahl der eingehenden Oktette des Datenverkehrs darstellt. |
/span> ifOutOctets | Das Delta zwischen zwei Abfragezyklen, die das snmp ifOutOctets-Objekt erfassen, das die Anzahl der ausgehenden Oktette des Datenverkehrs darstellt. |
ifSpeed | Die Geschwindigkeit der Schnittstelle, die im Objekt snmp ifSpeed gemeldet wird. Beachten Sie, dass ifSpeed möglicherweise die Geschwindigkeit einer WAN-Schnittstelle nicht korrekt wiedergibt. |
Gemeinsam genutzte LAN-Verbindungen sind in der Regel Halbduplex-Verbindungen, da die Konflikterkennung voraussetzt, dass ein Gerät vor der Übertragung abhört. WAN-Verbindungen sind in der Regel Vollduplex-Verbindungen, da die Verbindung Punkt-zu-Punkt-Verbindungen ist. Beide Geräte können gleichzeitig senden und empfangen, da sie wissen, dass nur ein anderes Gerät die Verbindung gemeinsam nutzt.
Da die MIB II-Variablen als Zähler gespeichert werden, müssen zwei Abfragezyklen verwendet werden, um den Unterschied zwischen den beiden zu berechnen (daher das in der Gleichung verwendete Delta).
Verwenden Sie für Halbduplex-Medien die folgende Formel für die Schnittstellennutzung:
(TR ifInOctets + III ifOutOctets) * 8 * 100
—
(Anzahl der Sekunden in der Höhe der Summe in der Summe) * ifSpeed
Bei Vollduplex-Medien ist die Nutzungsberechnung komplexer. Bei einer vollständigen seriellen T-1-Verbindung beträgt die Leitungsgeschwindigkeit beispielsweise 1,544 Mbit/s. Dies bedeutet, dass eine T-1-Schnittstelle 1,544 Mbit/s empfangen und übertragen kann, wobei eine Bandbreite von insgesamt 3,088 Mbit/s möglich ist.
Wenn Sie die Schnittstellenbandbreite für Vollduplex-Verbindungen berechnen, können Sie diese Formel verwenden, bei der Sie den größeren der Ein- und Ausgangs-Werte nehmen und einen Auslastungsprozentsatz generieren:
max(TR ifInOctets, (TR ifOutOctets) * 8 * 100
—
(Anzahl der Sekunden in der Höhe der Summe in der Summe) * ifSpeed
Diese Methode verbirgt jedoch die Nutzung der Richtung, die den geringeren Wert hat und weniger genaue Ergebnisse liefert. Eine genauere Methode besteht darin, die Eingangs- und Ausgangsauslastung separat zu messen, z. B.:
Input Utilization = Interior ifInOctets *8 * 100
—
(Anzahl der Sekunden in der Höhe der Summe in der Summe) * ifSpeed
und
Output Utilization = Interior ifOutOctets *8 * 100
—
(Anzahl der Sekunden in der Höhe der Summe in der Summe) * ifSpeed
Diese Formeln sind zwar etwas vereinfacht, sie berücksichtigen jedoch nicht den mit einem bestimmten Protokoll verbundenen Mehraufwand. Es gibt präzisere Formeln zur Handhabung der einzelnen Aspekte jedes Protokolls. Beispielsweise enthält RFC 1757 Ethernet-Nutzungsformeln, die den Paket-Overhead berücksichtigen. Das Hochverfügbarkeitsteam hat jedoch festgestellt, dass die hier vorgestellten allgemeinen Formeln in den meisten Fällen sowohl über LAN- als auch über WAN-Schnittstellen hinweg zuverlässig verwendet werden können.
Wie bereits erwähnt, ist die Kapazitätsplanung der Prozess, bei dem Sie die zu erwartenden zukünftigen Anforderungen an Netzwerkressourcen bestimmen, um Leistungs- oder Verfügbarkeitsbeeinträchtigungen für geschäftskritische Anwendungen zu vermeiden. Weitere Informationen finden Sie im Kapazitäts- und Leistungsmanagement: Best Practices-Whitepaper für detailliertere Informationen zu diesem Thema.
Eine proaktive Fehleranalyse ist für das Leistungsmanagement unerlässlich. Derselbe Datentyp, der für das Leistungsmanagement erfasst wird, kann auch für die proaktive Fehleranalyse verwendet werden. Der Zeitpunkt und die Verwendung dieser Daten unterscheiden sich jedoch zwischen proaktivem Fehlermanagement und Leistungsmanagement.
Proaktives Fehlermanagement ist die Methode, mit der das ideale Netzwerkmanagementsystem die von Ihnen festgelegten Ziele erreichen kann. Die Beziehung zum Performance-Management wird durch die Baseline und die von Ihnen verwendeten Datenvariablen hergestellt. Proaktives Fehlermanagement integriert benutzerdefinierte Ereignisse, eine Ereigniskorrelationsmaschine, Trouble Ticket und die statistische Analyse der Basisdaten, um Fehler-, Leistungs- und Änderungsmanagement in einem idealen, effektiven Netzwerkmanagementsystem zusammenzuführen.
Wird die Abfrage von Leistungsdaten normalerweise alle 10, 15 oder sogar 30 Minuten durchgeführt, muss die Erkennung einer Fehlerbedingung in einem wesentlich kürzeren Zeitintervall erfolgen. Eine Möglichkeit zur proaktiven Fehlerverwaltung ist die Verwendung von RMON-Alarmen und Ereignisgruppen. Sie können Grenzwerte für Geräte festlegen, die nicht von externen Geräten abgefragt werden, sodass die Grenzwerte wesentlich kürzer sind. Eine weitere Methode, die in diesem Dokument nicht behandelt wird, ist die Verwendung eines verteilten Managementsystems, das das Polling auf lokaler Ebene mit der Aggregation von Daten bei einem Manager von Managern ermöglicht.
Die Schwellenwertüberschreitung ist der Prozess, bei dem Sie für bestimmte Datenströme relevante Punkte definieren und Ereignisse generieren, wenn Schwellenwerte ausgelöst werden. Verwenden Sie Ihre Netzwerkleistungsdaten, um diese Schwellenwerte festzulegen.
Es gibt verschiedene Arten von Schwellenwerten, von denen einige eher für bestimmte Datentypen gelten. Schwellenwerte gelten nur für numerische Daten, sodass alle Textdaten in separate numerische Werte konvertiert werden. Auch wenn Sie nicht alle möglichen Textzeichenfolgen für ein Objekt kennen, können Sie die "interessanten" Zeichenfolgen auflisten und alle anderen Zeichenfolgen einem festgelegten Wert zuweisen.
Es gibt zwei Klassen von Schwellenwerten für die beiden Klassen numerischer Daten: kontinuierlich und diskret. Kontinuierliche Schwellenwerte gelten für fortlaufende Daten oder Daten aus Zeitreihen, z. B. Daten, die in SNMP-Zählern oder Messanzeigen gespeichert sind. Für aufgelistete Objekte oder einzelne numerische Daten gelten separate Schwellenwerte. Boolean-Objekte sind Enumerationswerte mit zwei Werten: true oder false. Einzelne Daten können auch als Ereignisdaten bezeichnet werden, da Ereignisse den Übergang von einem Wert zum nächsten kennzeichnen.
Kontinuierliche Schwellenwerte können Ereignisse auslösen, wenn das Zeitreihenobjekt den angegebenen Wert des Schwellenwerts überschreitet. Der Objektwert steigt entweder über den Schwellenwert oder unter diesen. Es kann auch sinnvoll sein, separate Schwellenwerte für steigende und fallende Werte festzulegen. Diese Methode, auch als Hysterese-Mechanismus bezeichnet, trägt dazu bei, die Anzahl der Ereignisse zu reduzieren, die aus dieser Datenklasse generiert werden. Der Hysterese-Mechanismus reduziert die Anzahl der Ereignisse, die durch Schwellenwerte auf schnell variierenden Daten aus Zeitreihen generiert werden. Dieser Mechanismus kann mit jedem Schwellenwert-Verfahren für Zeitreihendaten verwendet werden.
Das Ereignisvolumen wird durch einen Alarm reduziert, der generiert wird, um den Wert eines Objekts zu verfolgen. Steigende und fallende Schwellenwerte werden diesem Alarm zugewiesen. Der Alarm wird nur ausgelöst, wenn der steigende Grenzwert überschritten wird. Wenn dieser Schwellenwert überschritten wurde, wird erst wieder ein steigender Alarm generiert, wenn der fallende Grenzwert überschritten wird. Und der gleiche Mechanismus verhindert die Generierung fallender Schwellenwerte, bis die steigende Schwelle wieder überschritten wird. Dieser Mechanismus kann die Anzahl der Ereignisse drastisch reduzieren und eliminiert nicht die Informationen, die erforderlich sind, um festzustellen, ob ein Fehler vorliegt.
Daten aus Zeitreihen können entweder als Zähler dargestellt werden, wobei jeder neue Datenpunkt der Summe der vorherigen Datenpunkte hinzugefügt wird, oder als Messwert, bei dem die Daten in einem Zeitintervall als Rate dargestellt werden. Für jeden Datentyp gibt es zwei verschiedene Arten von kontinuierlichen Grenzwerten: absolute kontinuierliche Schwellenwerte und relative kontinuierliche Schwellenwerte. Verwenden Sie absolute kontinuierliche Schwellenwerte mit Messwerten und relative kontinuierliche Schwellenwerte mit Zählern.
Gehen Sie wie folgt vor, um die Schwellenwerte für Ihr Netzwerk zu bestimmen:
Wählen Sie die Objekte aus.
Wählen Sie die Geräte und Schnittstellen aus.
Bestimmen Sie die Schwellenwerte für jedes Objekt oder Objekt bzw. jeden Schnittstellentyp.
Bestimmen Sie den Schweregrad für das von jedem Schwellenwert generierte Ereignis.
Um festzustellen, welche Schwellenwerte für welche Objekte (und für welche Geräte und Schnittstellen) zu verwenden sind, ist ein angemessener Arbeitsaufwand erforderlich. Glücklicherweise haben Sie, wenn Sie eine Basis von Leistungsdaten gesammelt haben, bereits einen beträchtlichen Teil dieser Arbeit geleistet. Darüber hinaus können die NSA und das HAS-Programm (High Availability Service) Empfehlungen aussprechen, mit denen Sie Objekte festlegen und Bereiche erstellen können. Sie müssen diese Empfehlungen jedoch auf Ihr Netzwerk zuschneiden.
Da Sie Leistungsdaten für das Netzwerk gesammelt haben, empfiehlt das HAS-Programm, die Schnittstellen nach Kategorien zu gruppieren. Dies vereinfacht die Festlegung von Schwellenwerten, da Sie möglicherweise Schwellenwerte für den Medientyp jeder Kategorie und nicht für jedes Gerät und jedes Objekt auf diesem Gerät ermitteln müssen. Sie sollten beispielsweise verschiedene Schwellenwerte für Ethernet- und FDDI-Netzwerke festlegen. Es wird allgemein angenommen, dass FDDI-Netzwerke bei einer Nutzung nahe an der 100-prozentigen Auslastung ausgeführt werden können, als dies für ein gemeinsam genutztes Ethernet-Segment möglich ist. Vollduplex-Ethernet kann jedoch der 100-prozentigen Auslastung sehr viel näher kommen, da sie keiner Kollision unterliegen. Sie können Ihre Grenzwerte für Kollisionen sehr niedrig für Vollduplex-Verbindungen festlegen, da Sie niemals eine Kollision sehen sollten.
Sie können auch die Kombination der Wichtigkeit der Schnittstelle mit der Kategorie/dem Schweregrad des Schwellenwerttyps berücksichtigen. Verwenden Sie diese Faktoren, um die Priorität der Veranstaltung und damit die Bedeutung der Veranstaltung und die Aufmerksamkeit der Netzwerkbetriebsmitarbeiter festzulegen.
Die Gruppierung und Kategorisierung von Netzwerkgeräten und -schnittstellen kann nicht genug betont werden. Je mehr Sie gruppieren und kategorisieren können, desto einfacher können Sie Schwellenwertereignisse in Ihre Netzwerkverwaltungsplattform integrieren. Verwenden Sie die Basislinie als Hauptressource für diese Informationen. Weitere Informationen finden Sie im Kapazitäts- und Leistungsmanagement: Best Practices-Whitepaper für weitere Informationen
Die Organisation sollte über ein implementiertes Netzwerkmanagementsystem verfügen, das in der Lage ist, die definierten Schwellenwerte zu erkennen und über die Werte für bestimmte Zeiträume zu berichten. Verwenden Sie ein RMON-Netzwerkmanagementsystem, das Schwellenwertmeldungen in einer Protokolldatei zur täglichen Überprüfung archivieren kann, oder eine umfassendere Datenbanklösung, die die Suche nach Schwellenausnahmen für einen bestimmten Parameter ermöglicht. Die Informationen sollten dem Netzwerkbetriebspersonal und -manager laufend zur Verfügung stehen. Die Implementierung des Netzwerkmanagements sollte die Möglichkeit bieten, Software-/Hardware-Abstürze oder Nachverfolgungen, Schnittstellenzuverlässigkeit, CPU, Verbindungsauslastung, Warteschlangen- oder Pufferüberläufe, Broadcast-Volume, Carrier-Übergänge und Zurücksetzen der Schnittstellen zu erkennen.
Ein letzter Bereich des proaktiven Fehlermanagements, der sich mit dem Leistungsmanagement überschneidet, sind die Kennzahlen für den Netzwerkbetrieb. Diese Kennzahlen liefern wertvolle Daten für die Verbesserung des Fehlermanagementprozesses. Diese Kennzahlen sollten mindestens eine Aufschlüsselung aller während eines bestimmten Zeitraums aufgetretenen Probleme enthalten. Die Aufschlüsselung sollte u. a. folgende Informationen enthalten:
Anzahl der Probleme, die durch die Anrufpriorität auftreten
Minimale, maximale und durchschnittliche Abschlusszeit bei jeder Priorität
Aufschlüsselung der Probleme nach Problemtyp (Hardware, Software-Absturz, Konfiguration, Stromversorgung, Benutzerfehler)
Zeitaufwand für das Schließen für jeden Problemtyp
Verfügbarkeit nach Verfügbarkeitsgruppe oder SLA
Wie oft erfüllten oder verpasste SLA-Anforderungen
Der Helpdesk verfügt häufig über ein Reporting-System, mit dem Metriken oder Berichte erstellt werden können. Eine weitere Möglichkeit zur Erfassung dieser Daten ist die Verwendung eines Tools zur Verfügbarkeitsüberwachung. Die Gesamtmetriken sollten monatlich zur Verfügung gestellt werden. Die auf der Diskussion basierende Prozessoptimierung sollte umgesetzt werden, um die Anforderungen für verpasste Service Level Agreements zu verbessern oder um den Umgang mit bestimmten Problemtypen zu verbessern.
Leistungsindikatoren liefern den Mechanismus, mit dem ein Unternehmen kritische Erfolgsfaktoren misst.
Dieses Dokument kann ein formales Betriebskonzept für das Netzwerkmanagement oder eine weniger formale Darstellung der erforderlichen Funktionen und Ziele sein. Das Dokument sollte jedoch den Netzwerkmanager bei der Erfolgsmessung unterstützen.
Dieses Dokument beschreibt die Strategie für das Management des Unternehmensnetzwerks und sollte die (nicht quantitativen) Ziele des Netzwerkbetriebs, der Entwicklung, des Designs, anderer Geschäftsbereiche und der Endbenutzer koordinieren. Dieser Fokus ermöglicht es dem Unternehmen, die Planungstätigkeiten für Netzwerkmanagement und -betrieb über große Entfernungen hinweg auszuführen, wozu auch der Budgetierungsprozess gehört. Darüber hinaus bietet es Anleitungen für die Beschaffung von Tools und den Integrationspfad, der zur Umsetzung der Netzwerkmanagementziele wie SLAs erforderlich ist.
Dieses strategische Dokument kann sich nicht zu sehr auf die Verwaltung spezifischer Netzwerkprobleme konzentrieren, sondern auf die für die Gesamtorganisation wichtigen Punkte, zu denen auch Haushaltsfragen gehören. Beispiele:
Ermitteln Sie einen umfassenden Plan mit erreichbaren Zielen.
Identifizieren Sie alle Geschäftsservices/Anwendungen, die Netzwerksupport erfordern.
Identifizieren Sie die leistungsbasierten Kennzahlen, die zur Messung des Service erforderlich sind.
Planen Sie die Erfassung und Verteilung der Performance-Metrik-Daten.
Identifizieren Sie den Support, der für die Netzwerkbewertung und das Feedback der Benutzer erforderlich ist.
dokumentierte, detaillierte und messbare Service-Level-Ziele haben.
Um die SLAs richtig zu dokumentieren, müssen Sie die objektiven Kennzahlen für den Service-Level festlegen. Diese Dokumentation sollte den Benutzern zur Auswertung zur Verfügung stehen. Sie stellt die Feedback-Schleife bereit, um sicherzustellen, dass die Organisation für das Netzwerkmanagement die Variablen, die zur Beibehaltung des Service-Agreement-Levels erforderlich sind, weiterhin misst.
SLAs sind "lebende" Dokumente, da die Geschäftsumgebung und das Netzwerk von Natur aus dynamisch sind. Was heute funktioniert, um ein SLA zu messen, könnte morgen überholt werden. Nur wenn Benutzer eine Feedback-Schleife initiieren und auf diese Informationen reagieren, können die für den Netzwerkbetrieb erforderlichen hohen Verfügbarkeitswerte eingehalten werden.
Diese Liste enthält Elemente wie Polling-Intervall, Netzwerkmanagement-Overhead, mögliche Trigger-Schwellenwerte, ob die Variable als Trigger für ein Trap verwendet wird, und Trendanalysen, die für jede Variable verwendet werden.
Diese Variablen sind nicht auf die Metriken beschränkt, die für die oben genannten Service Level Ziele erforderlich sind. Sie sollten mindestens folgende Variablen enthalten: Routerstatus, Switch-Zustand, Routing-Informationen, technologiespezifische Daten, Auslastung und Verzögerung. Diese Variablen werden periodisch abgefragt und in einer Datenbank gespeichert. Anhand dieser Daten können dann Berichte erstellt werden. Diese Berichte unterstützen die Netzwerkmanagement- und -planungsmitarbeiter auf folgende Weise:
Reaktive Probleme lassen sich häufig schneller mit einer historischen Datenbank lösen.
Leistungsberichte und Kapazitätsplanung erfordern diese Art von Daten.
Die Service-Level-Ziele können daran gemessen werden.
Das Netzwerkmanagement-Personal sollte Meetings abhalten, in denen regelmäßig spezifische Berichte erstellt werden. Dies bietet zusätzliches Feedback sowie einen proaktiven Ansatz für potenzielle Probleme im Netzwerk.
Diese Sitzungen sollten sowohl das operative als auch das Planungspersonal umfassen. Dies bietet den Planern die Möglichkeit, betriebliche Analysen der Baseline- und Trenddaten zu erhalten. Darüber hinaus wird das Betriebspersonal für einen Teil der Planungsanalyse "in die Schleife" gesetzt.
Ein weiterer Punkt, der in diesen Meetings enthalten sein muss, sind die Service-Level-Ziele. Wenn objektive Schwellenwerte erreicht werden, kann das Netzwerkmanagement-Personal Maßnahmen ergreifen, um zu verhindern, dass ein Ziel verfehlt wird, und in einigen Fällen können diese Daten als teilweise Begründung für den Haushalt herangezogen werden. Die Daten können Aufschluss darüber geben, wo die Service-Level-Ziele verletzt werden, wenn keine geeigneten Maßnahmen ergriffen werden. Da diese Ziele auch durch Geschäftsservices und -anwendungen identifiziert wurden, lassen sich sie auch auf finanzieller Basis einfacher rechtfertigen.
Führen Sie diese Überprüfungen alle zwei Wochen durch und halten Sie alle sechs bis zwölf Wochen eine gründlichere analytische Sitzung ab. In diesen Konferenzen können Sie kurz- und langfristige Themen behandeln.
Eine What-if-Analyse beinhaltet die Modellierung und Verifizierung von Lösungen. Bevor Sie dem Netzwerk eine neue Lösung hinzufügen (entweder eine neue Anwendung oder eine Änderung in der Cisco IOS-Version), dokumentieren Sie einige der Alternativen.
Die Dokumentation für diese Analyse enthält die wichtigsten Fragen, die Methodik, Datensätze und Konfigurationsdateien. Der Hauptpunkt ist, dass die Was-falls-Analyse ein Experiment ist, das jemand anders mit den im Dokument enthaltenen Informationen rekonstruieren kann.
Diese Dokumentation enthält eine zusätzliche WAN-Bandbreite und eine Kostentabelle, die die Bandbreitenerweiterung für einen bestimmten Verbindungstyp unterstützt. Diese Informationen helfen dem Unternehmen zu erkennen, wie viel Zeit und Geld es kostet, die Bandbreite zu erhöhen. Anhand formaler Dokumentationen können Leistungs- und Kapazitätsexperten ermitteln, wie und wann sie die Leistung erhöhen können, sowie den Zeitrahmen und die Kosten für ein solches Unterfangen.
Überprüfen Sie diese Dokumentation regelmäßig, vielleicht als Teil der vierteljährlichen Performance Review, um sicherzustellen, dass sie auf dem neuesten Stand ist.
Die einzige Möglichkeit, die Ziele des idealen Netzwerkmanagementsystems zu erreichen, besteht darin, die Komponenten des Leistungsmanagements aktiv in das System zu integrieren. Dieses Ziel sollte die Verwendung von Verfügbarkeits- und Reaktionszeitmetriken umfassen, die an ein Meldesystem gebunden sind, wenn Schwellenwerte überschritten werden. Es müsste eine Grundlage für die Kapazitätsplanung enthalten, die Verbindungen zu einem heuristischen Modell für die Bereitstellung und die Meldung von Ausnahmen aufweist. Es könnte über eine integrierte Modellierungs- oder Simulationsmaschine verfügen, die es ermöglicht, das Modell in Echtzeit zu aktualisieren und ein Niveau der Planung und Fehlerbehebung durch Softwaresimulationen zu bieten.
Obwohl ein Großteil dieses Systems ein unlösbares Ideal erscheint, das niemals erreicht werden könnte, ist derzeit jede der Komponenten verfügbar. Die Tools zur Integration dieser Komponenten gibt es auch in Programmen wie MicroMuse. Wir sollten weiterhin auf dieses Ideal hinarbeiten, da es heute realistischer ist als je zuvor.