Das Performance-Management umfasst die Optimierung der Reaktionszeit von Netzwerkservices und das Management der Konsistenz und Qualität einzelner und allgemeiner Netzwerkservices. Die Notwendigkeit, die Antwortzeit des Benutzers/der Anwendung zu messen, stellt den wichtigsten Service dar. Für die meisten Benutzer ist die Reaktionszeit der entscheidende Erfolgsfaktor für die Performance. Diese Variable prägt die Wahrnehmung des Netzwerkerfolgs durch Ihre Benutzer und Anwendungsadministratoren.
Bei der Kapazitätsplanung bestimmen Sie die Anforderungen für zukünftige Netzwerkressourcen, um Beeinträchtigungen der Leistung oder Verfügbarkeit für geschäftskritische Anwendungen zu vermeiden. Im Bereich der Kapazitätsplanung kann sich die Netzwerk-Baseline (CPU, Arbeitsspeicher, Puffer, Ein-/Ausgangs-Oktetts usw.) auf die Reaktionszeit auswirken. Beachten Sie daher, dass Leistungsprobleme oft mit der Kapazität korrelieren. In Netzwerken sind dies normalerweise Bandbreite und Daten, die in Warteschlangen warten müssen, bevor sie über das Netzwerk übertragen werden können. Bei Sprachanwendungen hat diese Wartezeit mit ziemlicher Sicherheit Auswirkungen auf die Benutzer, da Faktoren wie Verzögerung und Jitter die Qualität des Sprachanrufs beeinflussen.
Ein weiteres großes Problem, das das Performance-Management erschwert, ist die Tatsache, dass eine hohe Netzwerkverfügbarkeit zwar sowohl für große Unternehmen als auch für Service Provider-Netzwerke von entscheidender Bedeutung ist, die Tendenz jedoch darin besteht, kurzfristige wirtschaftliche Gewinne zu erzielen, wobei langfristig (häufig unvorhergesehene) höhere Kosten zu befürchten sind. Netzwerkadministratoren und Implementierungspersonal haben in jedem Budgetzyklus Mühe, ein ausgewogenes Verhältnis zwischen Leistung und schneller Implementierung zu finden. Darüber hinaus stehen Netzwerkadministratoren vor Herausforderungen wie der schnellen Produktentwicklung, um enge Marktfenster, komplexe Technologien, Unternehmenskonsolidierung, konkurrierende Märkte, ungeplante Ausfallzeiten, Fachkräftemangel und häufig unzureichende Tools zu meistern.
Wie passt die Leistung angesichts dieser Herausforderungen in den Netzwerkmanagement-Rahmen? Die primäre Funktion eines idealen Netzwerkmanagementsystems besteht darin, die Betriebsfähigkeit eines Netzwerks zu optimieren. Wenn Sie dies als das eigentliche Ziel für das Netzwerkmanagement akzeptieren, liegt der Schwerpunkt des Netzwerkmanagements darin, den Netzwerkbetrieb mit maximaler Leistung aufrechtzuerhalten.
Ein ideales Netzwerkmanagementsystem umfasst folgende Hauptvorgänge:
Informiert den Bediener über drohende Leistungseinbußen.
Einfaches alternatives Routing und Workarounds bei Leistungseinbußen oder -ausfällen
Stellt die Tools zur Verfügung, um die Ursachen von Leistungseinbußen oder -ausfällen zu ermitteln.
Dient als Hauptstation für Ausfallsicherheit und Ausfallsicherheit des Netzwerks.
Kommunikation der Leistung in Echtzeit
Basierend auf dieser Definition für ein ideales System ist das Leistungsmanagement für das Netzwerkmanagement unerlässlich. Diese Probleme beim Performance-Management sind kritisch:
Benutzerleistung
Anwendungsleistung
Kapazitätsplanung
Proaktives Fehlermanagement
Bei neueren Anwendungen wie Sprach- und Videoanwendungen ist die Leistung die entscheidende Variable für den Erfolg. Wenn Sie keine konsistente Leistung erzielen können, wird der Service als gering eingestuft und schlägt fehl. In anderen Fällen leiden die Benutzer einfach unter variabler Leistung mit zeitweiligen Anwendungszeitüberschreitungen, die die Produktivität und die Benutzerzufriedenheit beeinträchtigen.
In diesem Dokument werden die wichtigsten Aspekte des Performance-Managements beschrieben. Dazu gehören wichtige Erfolgsfaktoren, wichtige Leistungsindikatoren und eine grobe Prozessübersicht für das Performance-Management. Darüber hinaus werden die Konzepte von Verfügbarkeit, Reaktionszeit, Genauigkeit, Auslastung und Kapazitätsplanung erläutert und die Rolle der proaktiven Fehleranalyse im Leistungsmanagement und im idealen Netzwerkmanagementsystem erläutert.
Kritische Erfolgsfaktoren bestimmen die Anforderungen an Best Practices für die Implementierung. Um sich als kritischer Erfolgsfaktor zu qualifizieren, muss ein Prozess oder Verfahren die Verfügbarkeit verbessern, oder das Fehlen des Verfahrens muss die Verfügbarkeit verringern. Darüber hinaus sollte der kritische Erfolgsfaktor messbar sein, damit das Unternehmen das Ausmaß seines Erfolgs bestimmen kann.
Hinweis: Ausführliche Informationen finden Sie unter Leistungsmanagement-Indikatoren.
Dies sind die entscheidenden Erfolgsfaktoren für das Performance-Management:
Ermittlung einer Baseline für Netzwerk- und Anwendungsdaten
Führen Sie eine Was-wäre-wenn-Analyse für Ihr Netzwerk und Ihre Anwendungen durch.
Erstellen Sie Ausnahmeberichte für Kapazitätsprobleme.
Bestimmen Sie den Netzwerkmanagement-Overhead für alle angebotenen oder potenziellen Netzwerkmanagement-Services.
Analysieren Sie die Kapazitätsinformationen.
Überprüfen Sie regelmäßig die Kapazitätsinformationen für Netzwerk und Anwendungen sowie Baseline und Ausnahme.
Upgrade- oder Optimierungsverfahren einrichten, um Kapazitätsprobleme sowohl reaktiv als auch langfristig zu beheben.
Anhand von Leistungsindikatoren können kritische Erfolgsfaktoren gemessen werden. Leistungsindikatoren für die Leistungsplanung sind:
Dokumentieren der Geschäftsziele für das Netzwerkmanagement Dabei könnte es sich um ein formelles Betriebskonzept für das Netzwerkmanagement oder eine weniger formelle Erklärung der erforderlichen Funktionen und Ziele handeln.
Erstellung detaillierter und messbarer Service Level Objectives.
Dokumentation der Service Level Agreements mithilfe von Diagrammen oder Diagrammen, die den Erfolg oder Misserfolg dieser Vereinbarungen im Laufe der Zeit veranschaulichen.
Sammeln Sie eine Liste der Variablen für die Baseline, z. B. Abfrageintervall, angefallener Netzwerkmanagement-Overhead, mögliche Trigger-Schwellenwerte, ob die Variable als Trigger für ein Trap verwendet wird, und für jede Variable verwendete Trendanalyse.
Halten Sie ein regelmäßiges Meeting ab, bei dem die Analyse der Baseline und der Trends besprochen wird.
Dokumentation einer "Was-wäre-wenn"-Analysemethodik Dies sollte gegebenenfalls auch die Modellierung und Überprüfung umfassen.
Wenn die Schwellenwerte überschritten werden, entwickeln Sie eine Dokumentation zu der Methodik zur Erhöhung der Netzwerkressourcen. Ein zu dokumentierender Punkt ist die Zeitleiste, die für die Bereitstellung zusätzlicher WAN-Bandbreite und einer Kostentabelle erforderlich ist.
Diese Schritte stellen einen Prozessablauf für das Performance-Management auf hoher Ebene bereit:
Bevor Sie die detaillierten Leistungs- und Kapazitätsvariablen für ein Netzwerk definieren, müssen Sie sich das allgemeine Betriebskonzept für das Netzwerkmanagement innerhalb Ihres Unternehmens ansehen. Wenn Sie dieses Gesamtkonzept definieren, bietet es eine Geschäftsgrundlage, auf der Sie präzise Definitionen der in Ihrem Netzwerk gewünschten Funktionen erstellen können. Wenn Sie es versäumen, ein Betriebskonzept für das Netzwerkmanagement zu entwickeln, kann dies dazu führen, dass Ihnen Ziele fehlen, die sich aufgrund von Kundenanforderungen ständig ändern.
Normalerweise erstellen Sie als ersten Schritt in der Systemdefinitionsphase des Netzwerkmanagementprogramms das Netzwerkmanagementkonzept des Betriebs. Ziel ist es, die insgesamt gewünschten Systemeigenschaften aus betrieblicher Sicht zu beschreiben. Dieses Dokument dient der Koordination der allgemeinen (nicht quantitativen) geschäftlichen Ziele von Netzwerkbetrieb, Entwicklung, Design, anderen Geschäftsbereichen und Endbenutzern. Der Schwerpunkt dieses Dokuments liegt auf der Erstellung einer umfassenden Betriebsplanung für Netzwerkmanagement und -betrieb. Darüber hinaus werden Richtlinien für die Entwicklung aller nachfolgenden Definitionsdokumentationen, wie z. B. Service Level Agreements, bereitgestellt. Diese ersten Definitionen dürfen sich natürlich nicht zu sehr auf das Management spezifischer Netzwerkprobleme konzentrieren, sondern auf die Punkte, die die Bedeutung für die gesamte Organisation und im Verhältnis zu den Kosten, die ebenfalls verwaltet werden müssen, hervorheben. Einige der Ziele sind:
Identifizieren Sie die Merkmale, die für eine effiziente Nutzung der Netzwerkinfrastruktur wichtig sind.
Identifizieren Sie die Dienste/Anwendungen, die vom Netzwerk unterstützt werden.
End-to-End-Service-Management
Leistungsbasierte Kennzahlen erstellen, um den Service insgesamt zu verbessern
Sammeln und Verteilen von Informationen zum Performance-Management
Unterstützen Sie die strategische Evaluierung des Netzwerks mit Feedback der Benutzer.
Mit anderen Worten: Das Betriebskonzept des Netzwerkmanagements sollte sich auf die allgemeinen Geschäftsziele und Ihre Philosophie zur Erreichung dieser Ziele konzentrieren. Die Hauptbestandteile sind die übergeordneten Definitionen der Mission, die Missionsziele, die Systemziele, die organisatorische Einbindung und die allgemeine Betriebsphilosophie.
Als Netzwerkmanager können Sie oftmals inkonsistente Leistungsansprüche Ihrer Benutzer vereinen. Wenn die Hauptanforderung für das Netzwerk beispielsweise die Übertragung großer Dateien von einem Speicherort an einen anderen ist, sollten Sie sich auf einen hohen Durchsatz und weniger auf die Reaktionszeiten interaktiver Benutzer konzentrieren. Achten Sie darauf, dass Sie die Leistung nicht einschränken, es sei denn, Sie berücksichtigen eine Reihe von Problemen. Wenn Sie beispielsweise ein Netzwerk testen, sehen Sie sich die verwendeten Laststufen an. Die Last basiert häufig auf sehr kleinen Paketen und der Durchsatzrate auf sehr großen Paketen. Beide Leistungstests ergeben möglicherweise ein sehr positives Bild. Basierend auf der Datenverkehrslast im Netzwerk ergeben die Tests jedoch möglicherweise kein echtes Bild der Leistung. Untersuchen Sie die Netzwerkleistung unter möglichst vielen Workload-Bedingungen, und dokumentieren Sie die Leistung.
Viele Netzwerkmanagement-Abteilungen verfügen zwar über effektive Alarmtechniken, um Techniker über einen Geräteausfall zu informieren, die Definition und Implementierung eines Bewertungsprozesses für die End-to-End-Anwendungsleistung ist jedoch deutlich schwieriger. Obwohl das Network Operations Center (NOC) schnell auf einen ausgefallenen Router oder Switch reagieren kann, bleiben die Netzwerkbedingungen, die die Netzwerkleistung beeinträchtigen und die Wahrnehmung der Benutzer beeinträchtigen können, möglicherweise unbemerkt, bis die Wahrnehmung negativ wird. So schwierig dieser zweite Prozess auch sein mag, er kann sowohl der Geschäftsorganisation als auch dem Netzwerkmanagement immense Vorteile bieten.
Stellen Sie außerdem sicher, dass Sie keine unrealistischen Erwartungen an die Netzwerkleistung stellen. Unrealistische Erwartungen entstehen in der Regel, wenn Sie die Details der Netzwerkprotokolle oder Anwendungen falsch verstehen. Oftmals ist eine schlechte Leistung nicht die Ursache für das Netzwerk, sondern vielmehr ein schlechtes Anwendungsdesign. Die einzige Möglichkeit, die Anwendungsleistung zu dokumentieren und zu messen, besteht darin, vor der Anwendungsinstallation eine Baseline für die Netzwerkleistung zu erstellen.
Der erste Schritt von Leistungsmanagement, kontinuierlicher Kapazitätsplanung und Netzwerkdesign besteht in der Definition der erforderlichen Funktionen und/oder Services. Für diesen Schritt müssen Sie mit Anwendungen, grundlegenden Datenverkehrsflüssen, der Benutzer- und Standortzahl und den erforderlichen Netzwerkservices vertraut sein. Die erste Verwendung dieser Informationen ist die Bestimmung der Kritikalität der Anwendung für die organisatorischen Ziele. Sie können diese Informationen auch verwenden, um eine Wissensdatenbank für das logische Design zu erstellen, in der Sie die Anforderungen an Bandbreite, Schnittstelle, Konnektivität, Konfiguration und physische Geräte nachvollziehen können. Mit diesem ersten Schritt können Ihre Netzwerkarchitekten ein Modell Ihres Netzwerks erstellen.
Erstellen Sie Skalierbarkeitsziele für die Lösung, um Netzwerktechniker beim Design von Netzwerken zu unterstützen, die zukünftigen Wachstumsanforderungen gerecht werden, und um sicherzustellen, dass die vorgeschlagenen Designs keine Ressourcenengpässe aufgrund von Wachstum oder Erweiterung des Netzwerks aufweisen. Ressourcenbeschränkungen können Folgendes umfassen:
Gesamter Verkehr
Lautstärke
Anzahl der Routen
Anzahl der virtuellen Verbindungen
Anzahl Nachbarn
Broadcast-Domänen
Gerätedurchsatz
Medienkapazität
Netzwerkplaner sollten die erforderliche Lebensdauer des Designs, erwartete Erweiterungen oder Standorte für die gesamte Lebensdauer des Designs, das Volumen neuer Benutzer und das erwartete Datenverkehrsvolumen oder die erwartete Änderung bestimmen. Dieser Plan trägt dazu bei, sicherzustellen, dass die angebotene Lösung die Wachstumsanforderungen während der projizierten Lebensdauer des Designs erfüllt.
Wenn Sie die Skalierbarkeit der Lösung nicht prüfen, müssen Sie möglicherweise größere reaktive Designänderungen implementieren. Diese Designänderung kann zusätzliche Hierarchien, Medien-Upgrades oder Hardware-Upgrades umfassen. In Unternehmen, die bei größeren Hardwarekäufen auf relativ präzise Budgetzyklen angewiesen sind, können diese Änderungen den Gesamterfolg erheblich behindern. Was die Verfügbarkeit angeht, so können in Netzwerken unerwartete Ressourceneinschränkungen auftreten, die zu Zeiten der Nichtverfügbarkeit und zu reaktiven Maßnahmen führen.
Interoperabilitäts- und Interoperabilitätstests können für den Erfolg der Bereitstellung neuer Lösungen entscheidend sein. Interoperabilität kann sich auf verschiedene Hardwareanbieter beziehen oder auf verschiedene Topologien oder Lösungen, die während oder nach einer Netzwerkimplementierung miteinander vernetzt werden müssen. Interoperabilitätsprobleme können die Hardwaresignalisierung über den Protokoll-Stack bis hin zu Routing- oder Transportproblemen umfassen. Interoperabilitätsprobleme können vor, während oder nach der Migration einer Netzwerklösung auftreten. Die Interoperabilitätsplanung sollte die Verbindung zwischen verschiedenen Geräten sowie Topologieprobleme berücksichtigen, die bei Migrationen auftreten können.
Der Vergleich von Lösungen zeigt, in welcher Praxis Sie verschiedene potenzielle Designs im Vergleich zu anderen Lösungsanforderungen vergleichen. Auf diese Weise wird sichergestellt, dass die Lösung optimal für eine bestimmte Umgebung geeignet ist und der Designprozess nicht von persönlichen Vorurteilen bestimmt wird. Ein Vergleich kann unterschiedliche Faktoren wie Kosten, Ausfallsicherheit, Verfügbarkeit, Risiko, Interoperabilität, Verwaltbarkeit, Skalierbarkeit und Leistung umfassen. All diese Faktoren können nach der Implementierung des Designs die allgemeine Netzwerkverfügbarkeit erheblich beeinträchtigen. Außerdem können Sie Medien, Hierarchien, Redundanz, Routing-Protokolle und ähnliche Funktionen vergleichen. Erstellen Sie ein Diagramm mit Faktoren auf der X-Achse und potenziellen Lösungen auf der Y-Achse, um die Lösungsvergleiche zusammenzufassen. Ein detaillierter Lösungsvergleich in einer Laborumgebung hilft auch dabei, neue Lösungen und Funktionen in Bezug auf die verschiedenen Vergleichsfaktoren objektiv zu untersuchen.
Im Rahmen des Netzwerkmanagement-Betriebskonzepts ist es wichtig, die Ziele für das Netzwerk und die unterstützten Services so zu definieren, dass sie für alle Benutzer verständlich sind. Die Aktivitäten, die auf die Entwicklung des Betriebskonzepts folgen, werden stark von der Qualität dieses Dokuments beeinflusst.
Dies sind die standardmäßigen Leistungsziele:
Reaktionszeit
Auslastung
Durchsatz
Kapazität (maximale Durchsatzrate)
Auch wenn diese Messungen für ein einfaches LAN trivial sein mögen, können sie in einem Switched Campus-Netzwerk oder einem Unternehmensnetzwerk mit mehreren Anbietern sehr schwierig sein. Wenn Sie ein gut durchdachtes Konzept von Betriebsplänen verwenden, wird jedes der Leistungsziele auf messbare Weise definiert. Beispielsweise beträgt die minimale Reaktionszeit für Anwendung "x" zu den Hauptgeschäftszeiten weniger als 500 ms. Dies definiert die Informationen zur Identifizierung der Variablen, die Art ihrer Messung und den Zeitraum, auf den sich die Netzwerkmanagement-Anwendung konzentrieren sollte.
Verfügbarkeitsziele definieren die Service-Level- oder Service-Level-Anforderungen für einen Netzwerkservice. Auf diese Weise wird sichergestellt, dass die Lösung die Anforderungen an die Endverfügbarkeit erfüllt. Definieren Sie unterschiedliche Serviceklassen für eine bestimmte Organisation, und geben Sie die Netzwerkanforderungen für jede Klasse an, die den Verfügbarkeitsanforderungen entsprechen. Verschiedene Bereiche des Netzwerks erfordern möglicherweise auch unterschiedliche Verfügbarkeitsstufen. Eine höhere Verfügbarkeit kann mehr Redundanz und Support-Verfahren erfordern. Wenn Sie ein Verfügbarkeitsziel für einen bestimmten Netzwerkservice definieren und die Verfügbarkeit messen, kann Ihre Netzwerkorganisation die Komponenten und Servicelevel verstehen, die zum Erreichen der projizierten SLAs erforderlich sind.
Definieren Sie Verwaltbarkeitsziele, um sicherzustellen, dass dem Netzwerkmanagement insgesamt keine Verwaltungsfunktionen fehlen. Um Verwaltbarkeitsziele festzulegen, müssen Sie den Supportprozess und die zugehörigen Netzwerkverwaltungstools für Ihr Unternehmen verstehen. Zu den Zielen der Verwaltbarkeit sollten Kenntnisse darüber gehören, wie neue Lösungen in den aktuellen Support und das aktuelle Tool-Modell passen, einschließlich Verweise auf mögliche Unterschiede oder neue Anforderungen. Dies ist für die Netzwerkverfügbarkeit von entscheidender Bedeutung, da die Möglichkeit zur Unterstützung neuer Lösungen für eine erfolgreiche Bereitstellung und die Erfüllung der Verfügbarkeitsziele von entscheidender Bedeutung ist.
Zu den Zielen der Verwaltbarkeit sollten alle wichtigen MIB- oder Netzwerk-Tool-Informationen gehören, die für die Unterstützung eines potenziellen Netzwerks erforderlich sind, erforderliche Schulungen für die Unterstützung des neuen Netzwerkdienstes, Personalmodelle für den neuen Dienst und sonstige Support-Anforderungen. Häufig werden diese Informationen vor der Bereitstellung nicht aufgedeckt, und die Gesamtverfügbarkeit leidet, weil keine Ressourcen für den Support des neuen Netzwerkdesigns zur Verfügung stehen.
Performance SLAs und Kennzahlen helfen bei der Definition und Messung der Leistung neuer Netzwerklösungen, um sicherzustellen, dass diese die Leistungsanforderungen erfüllen. Die Leistung der vorgeschlagenen Lösung kann mit Leistungsüberwachungstools oder mit einem einfachen Ping über die vorgeschlagene Netzwerkinfrastruktur gemessen werden. Die Leistungs-SLAs müssen das durchschnittliche erwartete Datenverkehrsvolumen, das Spitzenverkehrsvolumen, die durchschnittliche Reaktionszeit und die maximal zulässige Reaktionszeit umfassen. Diese Informationen können später im Abschnitt zur Lösungsvalidierung verwendet werden und helfen letztendlich dabei, die erforderliche Leistung und Verfügbarkeit des Netzwerks zu ermitteln.
Ein wichtiger Aspekt des Netzwerkdesigns besteht darin, den Service für Benutzer oder Kunden zu definieren. Unternehmen nennen diese Service Level Agreements, während Service Provider sie als Service Level Management bezeichnen. Das Servicelevel-Management umfasst in der Regel Definitionen für Problemtypen und Schweregrad sowie Helpdesk-Verantwortlichkeiten, wie Eskalationspfad und Zeit vor der Eskalation auf jeder Support-Ebene, Zeit für den Beginn der Problembehebung und Zeit bis zum Abschluss der Ziele basierend auf der Priorität. Weitere wichtige Faktoren sind der bereitgestellte Service in den Bereichen Kapazitätsplanung, proaktives Fehlermanagement, Benachrichtigung beim Änderungsmanagement, Schwellenwerte, Upgrade-Kriterien und Hardware-Ersatz.
Wenn Organisationen die Service-Level nicht von vornherein definieren, wird es schwierig, die zu einem späteren Zeitpunkt identifizierten Ressourcenanforderungen zu verbessern oder zu erlangen. Außerdem wird es immer schwieriger zu verstehen, welche Ressourcen hinzugefügt werden müssen, um den Support des Netzwerks zu unterstützen. In vielen Fällen werden diese Ressourcen erst angewendet, nachdem Probleme erkannt wurden.
Performance-Management ist ein übergeordneter Begriff, der die Konfiguration und Messung unterschiedlicher Performance-Bereiche umfasst. In diesem Abschnitt werden die folgenden sechs Konzepte des Performance-Managements beschrieben:
Die meisten Intranets des Unternehmens verfügen über ausreichend Bandbreite. Ohne angemessene Daten können Sie Netzwerküberlastungen jedoch nicht ausschließen, da sie zu einer schlechten Anwendungsleistung führen. Einer der Hinweise für Überlastungen oder Fehler ist, ob die schlechte Leistung unregelmäßig oder von der Tageszeit abhängig ist. Ein Beispiel hierfür ist, wenn die Leistung spät am Abend ausreichend ist, aber morgens und zu Spitzenzeiten sehr langsam.
Nachdem Sie das Netzwerkmanagement-Betriebskonzept definiert und die erforderlichen Implementierungsdaten definiert haben, müssen diese Daten im Laufe der Zeit erfasst werden. Diese Art der Erfassung bildet die Grundlage für die Netzwerkgrundlage.
Vor und nach der Bereitstellung einer neuen Lösung (Anwendung oder IOS-Änderung) sollten Sie eine Baseline für das aktuelle Netzwerk erstellen, um die Erwartungen an die neue Lösung zu messen. Anhand dieser Baseline kann festgestellt werden, ob die Lösung die Leistungs- und Verfügbarkeitsziele sowie die Benchmark-Kapazität erfüllt. Ein typischer Router-/Switch-Basisbericht enthält Kapazitätsprobleme in Bezug auf CPU, Arbeitsspeicher, Pufferverwaltung, Link-/Mediennutzung und Durchsatz. Es gibt weitere Arten von Basisdaten, die Sie basierend auf den definierten Zielen im Konzept von Operationen ebenfalls einbeziehen können. So lässt sich beispielsweise eine höhere Stabilität/Verfügbarkeit der Netzwerkumgebung an einer Verfügbarkeitsbasislinie ablesen. Vergleichen Sie die Anforderungen der Lösung anhand eines Vergleichsverfahrens zwischen alten und neuen Umgebungen.
Eine weitere spezialisierte Baseline ist die Anwendungsbasislinie, die für die Entwicklung der Netzwerkanforderungen von Anwendungen hilfreich ist. Diese Informationen können für Rechnungs- und/oder Budgetzwecke im Upgrade-Zyklus verwendet werden. Anwendungsgrundlagen können auch im Bereich der Anwendungsverfügbarkeit im Verhältnis zu bevorzugten Services oder Quality of Service pro Anwendung wichtig sein. Die Informationen zur Anwendungsbasis bestehen hauptsächlich aus der Bandbreite, die die Anwendungen für einen bestimmten Zeitraum nutzen. Einige Anwendungen für das Netzwerkmanagement können auch eine Basis für die Anwendungsleistung schaffen. Eine Aufschlüsselung des Verkehrstyps (Telnet oder FTP) ist ebenfalls wichtig für die Planung. In einigen Unternehmen werden besonders kritische Bereiche des Netzwerks überwacht, in denen nur eingeschränkte Ressourcen zur Verfügung stehen. Die Netzwerkadministratoren können diese Informationen nutzen, um das Netzwerk zu budgetieren, zu planen oder anzupassen. Wenn Sie das Netzwerk abstimmen, können Sie die Quality of Service oder die Warteschlangenparameter für den Netzwerkdienst oder die Anwendung ändern.
Eine der wichtigsten Metriken für Netzwerkmanager ist die Verfügbarkeit. Verfügbarkeit ist die Maßeinheit für die Zeit, für die ein Netzwerksystem oder eine Anwendung für einen Benutzer verfügbar ist. Aus Netzwerksicht stellt Verfügbarkeit die Zuverlässigkeit der einzelnen Komponenten in einem Netzwerk dar.
Um beispielsweise die Verfügbarkeit zu messen, können Sie die Helpdesk-Anrufe mit den Statistiken koordinieren, die von den verwalteten Geräten erfasst werden. Verfügbarkeitstools können jedoch nicht alle Fehlerursachen ermitteln.
Bei der Messung der Verfügbarkeit ist auch die Netzwerkredundanz zu berücksichtigen. Der Verlust der Redundanz deutet auf eine Verschlechterung des Service hin, nicht auf einen vollständigen Netzwerkausfall. Dies kann zu einer langsameren Reaktionszeit und einem Datenverlust aufgrund verlorener Pakete führen. Es ist auch möglich, dass die Ergebnisse in den anderen Bereichen der Leistungsmessung, wie Auslastung und Reaktionszeit, auftauchen.
Wenn Sie gegen ein SLA liefern, sollten Sie geplante Ausfälle berücksichtigen. Diese Ausfälle können das Ergebnis von Standortwechseln, Zugängen und Änderungen, Betriebsunterbrechungen oder anderen Ereignissen sein, über die Sie möglicherweise nicht Bericht erstatten möchten. Dies ist nicht nur eine schwierige Aufgabe, sondern kann auch eine manuelle Aufgabe sein.
Die Reaktionszeit des Netzwerks ist die Zeit, die der Datenverkehr zwischen zwei Punkten benötigt. Reaktionszeiten, die langsamer als normal sind und anhand eines Baseline-Vergleichs gemessen werden oder einen Schwellenwert überschreiten, können auf eine Überlastung oder einen Netzwerkfehler hinweisen.
Die Reaktionszeit ist die beste Messgröße für die Nutzung des Kundennetzwerks und kann Ihnen helfen, die Effektivität Ihres Netzwerks zu messen. Unabhängig von der Ursache der langsamen Reaktion werden die Benutzer durch den verzögerten Datenverkehr frustriert. In verteilten Netzwerken haben zahlreiche Faktoren Einfluss auf die Reaktionszeit, z. B.:
Netzwerküberlastung
Weniger als die gewünschte Route zum Ziel (oder überhaupt keine Route)
Unterversorgte Netzwerkgeräte
Netzwerkfehler, z. B. ein Broadcast-Sturm
Rauschen oder CRC-Fehler
In Netzwerken, die QoS-bezogene Warteschlangen verwenden, ist die Messung der Reaktionszeit wichtig, um zu bestimmen, ob die richtigen Datenverkehrstypen wie erwartet durch das Netzwerk geleitet werden. Wenn Sie beispielsweise Sprachdatenverkehr über IP-Netzwerke implementieren, müssen Sprachpakete pünktlich und mit konstanter Geschwindigkeit übermittelt werden, um eine gute Sprachqualität zu gewährleisten. Sie können als Sprachdatenverkehr klassifizierten Datenverkehr generieren, um die Reaktionszeit des Datenverkehrs zu messen, die den Benutzern angezeigt wird.
Sie können die Reaktionszeit messen, um Auseinandersetzungen zwischen Anwendungsservern und Netzwerkmanagern zu lösen. Netzwerkadministratoren werden oft für schuldig befunden, wenn eine Anwendung oder ein Server langsam zu laufen scheint. Der Netzwerkadministrator muss nachweisen, dass das Netzwerk nicht das Problem ist. Die Erfassung von Daten zur Reaktionszeit ist ein unbestreitbares Mittel, um zu beweisen oder zu widerlegen, dass das Netzwerk die Ursache für Anwendungsprobleme ist.
Wenn möglich, sollten Sie die Reaktionszeit messen, wie sie den Benutzern angezeigt wird. Ein Benutzer nimmt die Antwort als den Zeitpunkt wahr, ab dem er die Eingabetaste drückt oder auf eine Schaltfläche klickt, bis der Bildschirm angezeigt wird. Diese verstrichene Zeit umfasst die Zeit, die jedes Netzwerkgerät, die Benutzer-Workstation und der Zielserver benötigen, um den Datenverkehr zu verarbeiten.
Leider ist eine Messung auf diesem Niveau aufgrund der Anzahl der Nutzer und des Mangels an Tools fast unmöglich. Darüber hinaus bietet die Integration der Reaktionszeit von Benutzern und Servern wenig Nutzen, wenn Sie das zukünftige Netzwerkwachstum ermitteln oder Netzwerkprobleme beheben.
Sie können die Reaktionszeit mit den Netzwerkgeräten und Servern messen. Sie können auch Tools wie ICMP verwenden, um Transaktionen zu messen, obwohl es keine Verzögerungen berücksichtigt, die in ein System eingeführt werden, wenn es von den oberen Schichten verarbeitet wird. Dieser Ansatz löst das Problem der Kenntnis der Netzwerkleistung.
Auf einer einfachen Ebene können Sie die Antwortzeit für Pings von der Netzwerkmanagementstation zu Schlüsselpunkten im Netzwerk, wie einer Mainframe-Schnittstelle, einem Endpunkt einer Service Provider-Verbindung oder wichtigen Benutzer-IP-Adressen, zeitlich festlegen, um die Antwortzeit zu messen. Das Problem bei diesem Verfahren besteht darin, dass es die vom Benutzer wahrgenommene Reaktionszeit zwischen seiner Maschine und der Zielmaschine nicht genau wiedergibt. Es erfasst lediglich Informationen und meldet die Reaktionszeit aus Sicht einer Netzwerkmanagement-Station. Diese Methode überdeckt zudem die Antwortzeiten auf Hop-by-Hop-Basis im gesamten Netzwerk.
Eine Alternative zum serverbasierten Polling besteht darin, den Aufwand näher an der Quelle und dem Ziel zu verteilen, die für die Messung simuliert werden sollen. Verwenden Sie verteilte Netzwerkmanagement-Poller, und implementieren Sie die Cisco IOS Service Assurance Agent (SAA)-Funktion. Sie können SAA auf Routern aktivieren, um die Reaktionszeit zwischen einem Router und einem Zielgerät wie einem Server oder einem anderen Router zu messen. Sie können auch einen TCP- oder UDP-Port angeben, der die Weiterleitung und Weiterleitung des Datenverkehrs auf die gleiche Weise erzwingt wie der simulierte Datenverkehr.
Durch die Integration von Sprach-, Video- und Datenfunktionen in Multiservice-Netzwerke können Kunden QoS-Priorisierung in ihrem Netzwerk implementieren. Einfache ICMP- oder UDP-Messungen spiegeln die Antwortzeit nicht genau wider, da verschiedene Anwendungen unterschiedliche Prioritäten erhalten. Beim Tag-Switching variiert die Datenverkehrsweiterleitung möglicherweise je nach dem Anwendungstyp in einem bestimmten Paket. Ein ICMP-Ping kann daher unterschiedliche Prioritäten bei der Verarbeitung durch die einzelnen Router erhalten und unterschiedliche, weniger effiziente Routen empfangen.
In diesem Fall besteht die einzige Möglichkeit zur Messung der Reaktionszeit darin, Datenverkehr zu generieren, der der gewünschten Anwendung oder Technologie ähnelt. Dies zwingt die Netzwerkgeräte, den Datenverkehr so zu verarbeiten, wie sie es für den realen Datenverkehr tun würden. Diese Stufe können Sie möglicherweise mit SAA oder durch den Einsatz von anwendungssensitiven Drittanbietertests erreichen.
Die Genauigkeit ist das Maß für den Schnittstellenverkehr, der nicht zu Fehlern führt und als Prozentsatz ausgedrückt werden kann, der die Erfolgsrate mit der Gesamtpaketrate über einen bestimmten Zeitraum vergleicht. Sie müssen zunächst die Fehlerrate messen. Wenn beispielsweise zwei von 100 Paketen zu Fehlern führen, beträgt die Fehlerrate 2 % und die Genauigkeitsrate 98 %.
Bei älteren Netzwerktechnologien war insbesondere im Weitverkehrsbereich eine gewisse Fehlerquote akzeptabel. Bei Hochgeschwindigkeitsnetzwerken und heutigen WAN-Diensten ist die Übertragung jedoch wesentlich genauer, und die Fehlerquoten liegen nahe Null, es sei denn, es liegt ein tatsächliches Problem vor. Zu den häufigsten Ursachen für Schnittstellenfehler gehören:
Verdrahtung außerhalb der Spezifikationen
Elektrische Interferenz
Fehlerhafte Hardware oder Software
Verwenden Sie eine geringere Genauigkeit, um eine genauere Untersuchung auszulösen. Möglicherweise stellen Sie fest, dass eine bestimmte Schnittstelle Probleme aufweist, und entscheiden, dass die Fehler akzeptabel sind. In diesem Fall sollten Sie den Genauigkeitsschwellenwert für diese Schnittstelle anpassen, um anzugeben, wo die Fehlerrate nicht akzeptabel ist. Die unannehmbare Fehlerquote wurde möglicherweise in einer früheren Baseline gemeldet.
Die in dieser Tabelle beschriebenen Variablen werden in Genauigkeits- und Fehlerratenformeln verwendet:
Anmerkung | Beschreibung |
---|---|
Verhältnis ifInErrors | Das Delta (oder die Differenz) zwischen zwei Abfragezyklen, die das snmp-ifInErrors-Objekt erfassen, das die Anzahl eingehender Pakete mit einem Fehler darstellt. |
% wennInUcastPkts | Das Delta zwischen zwei Abfragezyklen, die das ifInUcastPkts-Objekt "snmp" erfassen. Dieses stellt die Anzahl eingehender Unicast-Pakete dar. |
% wennInNUcastPkte | Das Delta zwischen den beiden Abfragezyklen, in denen das ifInNUcastPkts-Objekt "snmp" erfasst wird. Dieses Delta stellt die Anzahl eingehender Nicht-Unicast-Pakete (Multicast und Broadcast) dar. |
Die Formel für die Fehlerquote wird in der Regel in Prozent ausgedrückt:
Fehlerquote = (Verhältnis ifInErrors) *100
-------------------------------------
(Verhältnis ifInUcastPkts + (ifInNUcastPkts)
Beachten Sie, dass ausgehende Fehler in den Formeln für Fehlerrate und Genauigkeit nicht berücksichtigt werden. Das liegt daran, dass ein Gerät Pakete mit Fehlern niemals wissentlich im Netzwerk platzieren sollte und die Fehlerraten der ausgehenden Schnittstelle niemals steigen sollten. Daher sind eingehender Datenverkehr und Fehler die einzigen Messgrößen, die für Schnittstellenfehler und deren Genauigkeit von Interesse sind.
Die Formel für die Genauigkeit nimmt die Fehlerrate und subtrahiert sie von 100 (wiederum in Form eines Prozentsatzes):
Genauigkeit = 100 - (Verhältnis ifInErrors) *100
-----------------------------------------
(Verhältnis ifInUcastPkts + (ifInNUcastPkts)
Diese Formeln spiegeln Fehler und Genauigkeit in Bezug auf generische MIB II-Schnittstellen-Zähler (RFC 2233) wider. Das Ergebnis wird als Prozentsatz ausgedrückt, der die Fehler mit der Gesamtzahl der gesendeten und empfangenen Pakete vergleicht. Die resultierende Fehlerrate wird von 100 abgezogen, wodurch die Genauigkeitsrate erzeugt wird. Eine Genauigkeit von 100% ist perfekt.
Da die MIB II-Variablen als Zähler gespeichert werden, müssen Sie zwei Abfragezyklen durchführen und die Differenz zwischen den beiden ermitteln (daher das Delta, das in der Gleichung verwendet wird).
Die Auslastung misst die Nutzung einer bestimmten Ressource im Zeitverlauf. Die Maßnahme wird in der Regel in Form eines Prozentsatzes ausgedrückt, in dem die Nutzung einer Ressource mit ihrer maximalen Betriebskapazität verglichen wird. Durch Nutzungsmessungen können Sie Überlastungen (oder potenzielle Überlastungen) im gesamten Netzwerk erkennen. Sie können auch nicht ausgelastete Ressourcen identifizieren.
Die Auslastung ist die Hauptmaßnahme, um festzustellen, wie voll die Netzwerkrohre (Verbindungen) sind. Messen der CPU, der Schnittstelle, der Warteschlange und anderer systembezogener Kapazitätsmessungen, um zu ermitteln, in welchem Umfang Netzwerksystemressourcen beansprucht werden.
Eine hohe Auslastung ist nicht unbedingt schlecht. Eine niedrige Auslastung kann auf unerwartete Datenverkehrsflüsse hinweisen. Wenn Leitungen überlastet werden, können die Auswirkungen erheblich werden. Überauslastung tritt auf, wenn mehr Datenverkehr in die Warteschlange für die Weiterleitung über eine Schnittstelle eingestellt wird, als diese bewältigen kann. Plötzliche Sprünge in der Ressourcennutzung können auf einen Fehler hinweisen.
Bei Überlastung einer Schnittstelle muss das Netzwerkgerät das Paket entweder in einer Warteschlange speichern oder verwerfen. Wenn ein Router versucht, ein Paket in einer vollen Warteschlange zu speichern, wird das Paket verworfen. Verworfene Pakete werden generiert, wenn der Datenverkehr von einer schnellen Schnittstelle an eine langsamere Schnittstelle weitergeleitet wird. Dies wird in der Formel Q = u / (1-u) angegeben, wobei u die Auslastung ist, und Q die durchschnittliche Warteschlangentiefe (angenommen durch zufälligen Datenverkehr). Eine hohe Verbindungsauslastung führt zu einer hohen durchschnittlichen Warteschlangentiefe, was bei Kenntnis der Paketgröße eine vorhersehbare Latenz bedeutet. Einige Netzwerkanbieter berichten, dass Sie weniger Bandbreite bestellen und weniger für Ihr WAN bezahlen können. Auswirkungen auf die Latenz treten jedoch auf, wenn Sie WAN-Links bei 95 % Auslastung betreiben. Darüber hinaus müssen Netzwerkadministratoren bei der Migration von Netzwerken zu VoIP unter Umständen ihre Richtlinien ändern und WAN-Verbindungen mit einer Auslastung von ca. 50 % ausführen.
Wenn ein Paket verworfen wird, kann das Protokoll der höheren Schicht eine erneute Übertragung des Pakets erzwingen. Wenn mehrere Pakete verworfen werden, kann es zu einem übermäßigen Datenverkehr durch wiederholte Versuche kommen. Diese Art von Reaktion kann zu Backups von Geräten führen, die sich weiter unten befinden. Um dieses Problem zu beheben, können Sie unterschiedliche Schwellenwerte festlegen.
Die wichtigste Kennzahl für die Netzwerkauslastung ist die Schnittstellennutzung. Verwenden Sie die in dieser Tabelle beschriebenen Formeln, je nachdem, ob es sich um eine Halb- oder eine Vollduplex-Verbindung handelt:
Anmerkung | Beschreibung |
---|---|
Verhältnis wennInOktette | Das Delta (oder die Differenz) zwischen zwei Abfragezyklen, die das snmp-ifInOctets-Objekt erfassen, das die Anzahl eingehender Oktette des Datenverkehrs darstellt. |
Anz. wennAusOktette | Das Delta zwischen zwei Abfragezyklen, die das snmp-ifOutOctets-Objekt erfassen, das die Anzahl der ausgehenden Oktette des Datenverkehrs darstellt. |
ifGeschwindigkeit | Die Geschwindigkeit der Schnittstelle, wie im snmp-ifSpeed-Objekt angegeben. Beachten Sie, dass ifSpeed die Geschwindigkeit einer WAN-Schnittstelle möglicherweise nicht genau wiedergibt. |
Gemeinsam genutzte LAN-Verbindungen sind in der Regel Halbduplex-Verbindungen, da die Konflikterkennung erfordert, dass ein Gerät überwacht, bevor es sendet. WAN-Verbindungen sind in der Regel Vollduplex-Verbindungen, da es sich um eine Punkt-zu-Punkt-Verbindung handelt; können beide Geräte gleichzeitig senden und empfangen, da sie wissen, dass nur ein weiteres Gerät die Verbindung gemeinsam nutzt.
Da die MIB II-Variablen als Zähler gespeichert werden, müssen Sie zwei Abfragezyklen durchführen und die Differenz zwischen den beiden ermitteln (daher das Delta, das in der Gleichung verwendet wird).
Verwenden Sie für Halbduplex-Medien diese Formel für die Schnittstellennutzung:
(inOktetten + inOktetten) * 8 * 100
----------------------------------------------------
(Anzahl der Sekunden in) * ifSpeed
Bei Vollduplex-Medien ist die Berechnung der Auslastung komplexer. Bei einer vollständigen seriellen T-1-Verbindung beträgt die Leitungsgeschwindigkeit beispielsweise 1,544 Mbit/s. Das bedeutet, dass eine T-1-Schnittstelle 1,544 Mbit/s für eine kombinierte Bandbreite von 3,088 Mbit/s sowohl empfangen als auch übertragen kann.
Wenn Sie die Schnittstellenbandbreite für Vollduplex-Verbindungen berechnen, können Sie diese Formel verwenden, in der Sie den größeren der Werte in und out verwenden und einen Auslastungsprozentsatz generieren:
max(Verhältnis ifInOctets, (Verhältnis ifOutOctets) * 8 * 100
-----------------------------------------
(Anzahl der Sekunden in) * ifSpeed
Diese Methode verbirgt jedoch die Ausnutzung der Richtung, die den geringeren Wert hat, und liefert weniger genaue Ergebnisse. Eine genauere Methode besteht darin, die Eingangs- und Ausgangsauslastung getrennt zu messen, z. B.:
Input-Auslastung = Verhältnis ifInOctets *8 * 100
-------------------------------------
(Anzahl der Sekunden in) * ifSpeed
und
Auslastung = Verhältnis ifOutOctets *8 * 100
------------------------------------
(Anzahl der Sekunden in) * ifSpeed
Diese Formeln sind zwar etwas vereinfacht, berücksichtigen jedoch nicht den Aufwand, der mit einem bestimmten Protokoll verbunden ist. Es gibt genauere Formeln, um die einzelnen Aspekte der einzelnen Protokolle zu handhaben. Beispielsweise enthält RFC 1757 Formeln zur Ethernet-Nutzung, die den Paket-Overhead berücksichtigen. Das Hochverfügbarkeitsteam hat jedoch festgestellt, dass die hier vorgestellten allgemeinen Formeln in den meisten Fällen zuverlässig über LAN- und WAN-Schnittstellen hinweg verwendet werden können.
Wie bereits erwähnt, ist die Kapazitätsplanung der Prozess, bei dem Sie die voraussichtlichen zukünftigen Anforderungen an die Netzwerkressourcen bestimmen, um Beeinträchtigungen der Leistung oder Verfügbarkeit für geschäftskritische Anwendungen zu vermeiden. Weitere Informationen finden Sie im Kapazitäts- und Leistungsmanagement: Best Practices-Whitepaper für detailliertere Informationen zu diesem Thema.
Eine proaktive Fehleranalyse ist für das Performance-Management unverzichtbar. Der gleiche Datentyp, der für das Performance-Management erfasst wird, kann für die proaktive Fehleranalyse verwendet werden. Der Zeitpunkt und die Verwendung dieser Daten unterscheiden sich jedoch zwischen proaktivem Fehler- und Leistungsmanagement.
Mit dem proaktiven Fehlermanagement kann das ideale Netzwerkmanagementsystem die von Ihnen festgelegten Ziele erreichen. Die Beziehung zum Performance-Management basiert auf der Baseline und den Datenvariablen, die Sie verwenden. Proaktives Fehlermanagement integriert benutzerdefinierte Ereignisse, eine Ereigniskorrelations-Engine, das Erstellen von Fehlertickets und die statistische Analyse der Basisdaten, um Fehler-, Leistungs- und Änderungsmanagement in einem idealen, effektiven Netzwerkmanagementsystem zu vereinen.
Wenn das Polling der Leistungsdaten in der Regel alle 10, 15 oder sogar 30 Minuten durchgeführt wird, muss die Erkennung eines Fehlerzustands in einem viel kürzeren Zeitintervall erfolgen. Eine Möglichkeit zur proaktiven Fehlerverwaltung besteht in der Verwendung von RMON-Alarmen und Ereignisgruppen. Sie können Grenzwerte auf Ihren Geräten festlegen, die nicht von externen Geräten abgefragt werden, sodass die Grenzwerte wesentlich kürzer sind. Eine weitere, in diesem Dokument nicht behandelte Methode ist die Verwendung eines verteilten Managementsystems, das das Polling auf lokaler Ebene mit der Aggregation von Daten bei einem Manager von Managern ermöglicht.
Schwellenwerte sind der Prozess, bei dem Sie Interessenpunkte in bestimmten Datenströmen definieren und Ereignisse generieren, wenn Schwellenwerte ausgelöst werden. Verwenden Sie Ihre Netzwerkleistungsdaten, um diese Grenzwerte festzulegen.
Es gibt verschiedene Arten von Schwellenwerten, von denen einige eher für bestimmte Datentypen gelten. Schwellenwerte gelten nur für numerische Daten, d. h., sie konvertieren alle Textdaten in diskrete numerische Werte. Auch wenn Sie nicht alle möglichen Textzeichenfolgen für ein Objekt kennen, können Sie die "interessanten" Zeichenketten immer noch aufzählen und alle anderen Zeichenketten einem festgelegten Wert zuweisen.
Es gibt zwei Klassen von Schwellenwerten für die beiden Klassen von numerischen Daten: kontinuierlich und diskret. Durchgängige Grenzwerte gelten für Daten, die fortlaufend sind oder in Zeitreihen auftreten, z. B. Daten, die in SNMP-Zählern oder Messanzeigen gespeichert sind. Diskrete Schwellenwerte gelten für aufgelistete Objekte oder für diskrete numerische Daten. Boolesche Objekte sind aufgezählte Werte mit zwei Werten: true oder false. Diskrete Daten können auch als Ereignisdaten bezeichnet werden, da Ereignisse den Übergang von einem Wert zum nächsten kennzeichnen.
Kontinuierliche Schwellenwerte können Ereignisse auslösen, wenn das Zeitreihenobjekt den angegebenen Wert des Schwellenwerts überschreitet. Der Objektwert steigt entweder über den Schwellwert oder unterschreitet diesen. Es kann auch sinnvoll sein, getrennte Schwellen für steigende und fallende Schwellen festzulegen. Diese Technik, die als Hysteresemechanismus bezeichnet wird, trägt dazu bei, die Anzahl der Ereignisse zu reduzieren, die aus dieser Datenklasse generiert werden. Der Hysteresemechanismus reduziert die Anzahl der Ereignisse, die durch Schwellenwerte in schnell variierenden Zeitreihendaten generiert werden. Dieser Mechanismus kann mit jeder Schwellentechnik für Zeitreihendaten verwendet werden.
Die Anzahl der Ereignisse wird durch einen Alarm reduziert, der generiert wird, um den Wert eines Objekts zu verfolgen. Steigende und fallende Schwellenwerte werden diesem Alarm zugewiesen. Der Alarm wird nur ausgelöst, wenn die steigende Schwelle überschritten wird. Nach Überschreiten dieser Schwelle wird erst wieder ein steigender Alarm generiert, wenn die fallende Schwelle überschritten wird. Und derselbe Mechanismus verhindert die Erzeugung fallender Schwellen, bis die steigende Schwelle wieder überschritten wird. Dieser Mechanismus kann die Anzahl von Ereignissen drastisch reduzieren und macht die für die Fehlererkennung erforderlichen Informationen nicht überflüssig.
Zeitreihendaten können entweder als Zähler dargestellt werden, wobei jeder neue Datenpunkt zur Summe der vorherigen Datenpunkte addiert wird, oder als Messanzeige, wobei die Daten als Rate über ein Zeitintervall dargestellt werden. Für jeden Datentyp gibt es zwei verschiedene Formen kontinuierlicher Schwellenwerte: absolute kontinuierliche Schwellenwerte und relative kontinuierliche Schwellenwerte. Verwenden Sie absolute kontinuierliche Schwellenwerte mit Messanzeigen und relative kontinuierliche Schwellenwerte mit Zählern.
Führen Sie die folgenden Schritte aus, um die Schwellenwerte für Ihr Netzwerk zu bestimmen:
Wählen Sie die Objekte aus.
Auswählen der Geräte und Schnittstellen
Bestimmen Sie die Schwellenwerte für jedes Objekt bzw. jeden Objekt-/Schnittstellentyp.
Bestimmen Sie den Schweregrad für das von den einzelnen Grenzwerten generierte Ereignis.
Es ist relativ viel Arbeit erforderlich, um zu bestimmen, welche Schwellenwerte für welche Objekte (und für welche Geräte und Schnittstellen) verwendet werden sollen. Glücklicherweise haben Sie, wenn Sie eine Baseline mit Leistungsdaten erfasst haben, bereits einen erheblichen Teil dieser Arbeit geleistet. Darüber hinaus können die NSA und das HAS-Programm (High Availability Service) Empfehlungen abgeben, die Ihnen beim Festlegen von Objekten und beim Erstellen von Bereichen helfen. Sie müssen diese Empfehlungen jedoch auf Ihr Netzwerk zuschneiden.
Da Sie Leistungsdaten für das Netzwerk gesammelt haben, empfiehlt das HAS-Programm, die Schnittstellen nach Kategorien zu gruppieren. Dies vereinfacht das Festlegen von Schwellenwerten, da Sie möglicherweise Schwellenwerte für den Medientyp jeder Kategorie und nicht für jedes Gerät und Objekt auf diesem Gerät festlegen müssen. Sie sollten beispielsweise unterschiedliche Schwellenwerte für Ethernet- und FDDI-Netzwerke festlegen. Es wird allgemein angenommen, dass FDDI-Netzwerke näher an der 100-prozentigen Auslastung betrieben werden können als gemeinsam genutzte Ethernet-Segmente. Vollduplex-Ethernet kann jedoch viel näher an die 100-prozentige Auslastung herangeführt werden, da es nicht zu Kollisionen kommt. Sie sollten die Grenzwerte für Kollisionen für Vollduplex-Verbindungen sehr niedrig ansetzen, da Kollisionen niemals sichtbar sind.
Sie können auch die Kombination aus Schnittstellenbedeutung und Kategorie/Schweregrad des Schwellenwerttyps berücksichtigen. Legen Sie anhand dieser Faktoren die Priorität des Ereignisses und damit die Bedeutung des Ereignisses und die Aufmerksamkeit fest, die dem Netzwerkpersonal gewidmet wird.
Die Gruppierung und Kategorisierung von Netzwerkgeräten und -schnittstellen kann nicht überbetont werden. Je mehr Gruppierungen und Kategorisierungen möglich sind, desto einfacher können die Grenzwertereignisse in die Netzwerkmanagementplattform integriert werden. Verwenden Sie die Baseline als wichtigste Ressource für diese Informationen. Weitere Informationen finden Sie im Kapazitäts- und Leistungsmanagement: Best Practices-Whitepaper für weitere Informationen
Die Organisation sollte über ein implementiertes Netzwerkmanagementsystem verfügen, das in der Lage ist, die definierten Schwellenwerte zu erkennen und über die Werte für festgelegte Zeiträume zu berichten. Verwenden Sie ein RMON-Netzwerkmanagementsystem, das Schwellenwertnachrichten in einer Protokolldatei archivieren kann, um sie täglich zu überprüfen, oder eine umfassendere Datenbanklösung, die die Suche nach Schwellenwertausnahmen für einen bestimmten Parameter ermöglicht. Die Informationen sollten dem Betriebspersonal und dem Betriebsleiter des Netzwerks kontinuierlich zur Verfügung stehen. Die Implementierung des Netzwerkmanagements sollte die Fähigkeit umfassen, Software-/Hardwareabstürze oder Tracebacks zu erkennen, die Zuverlässigkeit der Schnittstelle, die CPU-Auslastung, Verbindungsausfälle, Warteschlangen- oder Pufferausfälle, das Broadcast-Volumen, Betreiberübergänge und Schnittstellenrücksetzvorgänge.
Ein letzter Bereich des proaktiven Fehlermanagements, der sich mit dem Leistungsmanagement überschneidet, sind die Netzwerkbetriebs-Kennzahlen. Diese Metriken liefern wertvolle Daten für die Verbesserung des Fehlermanagementprozesses. Diese Kennzahlen sollten mindestens eine Aufschlüsselung aller Probleme enthalten, die in einem bestimmten Zeitraum aufgetreten sind. Die Aufschlüsselung sollte Informationen wie:
Anzahl der Probleme nach Anrufpriorität
Mindest-, Maximum- und Durchschnittsdauer für das Schließen in jeder Priorität
Aufschlüsselung der Probleme nach Problemtyp (Hardware, Software-Absturz, Konfiguration, Stromversorgung, Benutzerfehler)
Aufschlüsselung der Zeit bis zum Abschluss für jeden Problemtyp
Verfügbarkeit nach Verfügbarkeitsgruppe oder SLA
Wie oft haben Sie die SLA-Anforderungen erfüllt oder verfehlt?
Der Helpdesk verfügt häufig über ein Berichtssystem, mit dem Kennzahlen oder Berichte erstellt werden können. Eine weitere Möglichkeit zum Sammeln dieser Daten ist die Verwendung eines Tools zur Verfügbarkeitsüberwachung. Allgemeine Kennzahlen sollten monatlich zur Verfügung gestellt werden. Auf den Gesprächen basierende Prozessverbesserungen sollten implementiert werden, um Anforderungen an nicht erfüllte Service Level Agreements zu verbessern oder um die Art und Weise zu verbessern, wie bestimmte Problemtypen behandelt werden.
Leistungsindikatoren bieten den Mechanismus, mit dem ein Unternehmen kritische Erfolgsfaktoren misst.
Dieses Dokument kann ein formales Betriebskonzept für die Netzwerkverwaltung oder eine weniger formale Beschreibung der erforderlichen Funktionen und Ziele sein. Das Dokument sollte den Netzwerkmanager jedoch bei der Erfolgsmessung unterstützen.
Dieses Dokument beschreibt die Netzwerkmanagementstrategie der Organisation und sollte die (nicht quantitativen) allgemeinen geschäftlichen Ziele des Netzwerkbetriebs, der Entwicklung, des Designs, anderer Geschäftsbereiche und der Endbenutzer koordinieren. Dieser Fokus ermöglicht es dem Unternehmen, die weit reichenden Planungsaktivitäten für Netzwerkmanagement und -betrieb, einschließlich des Budgetprozesses, zu gestalten. Sie bietet auch Hilfestellung bei der Anschaffung von Tools und beim Integrationspfad, der für die Umsetzung von Netzwerkmanagementzielen, z. B. SLAs, erforderlich ist.
Dieses Strategiepapier darf sich nicht zu sehr auf die Bewältigung spezifischer Netzwerkprobleme konzentrieren, sondern auf die Punkte, die für die gesamte Organisation wichtig sind, zu denen auch Haushaltsfragen gehören. Beispiele:
Erstellen Sie einen umfassenden Plan mit erreichbaren Zielen.
Identifizieren Sie alle Geschäftsservices/Anwendungen, die Netzwerksupport benötigen.
Identifizieren Sie die Performance-basierten Metriken, die zur Servicemessung erforderlich sind.
Planen Sie die Erfassung und Verteilung von Daten zur Leistungsmetrik.
Ermitteln Sie den benötigten Support für die Netzwerkbewertung und das Feedback der Benutzer.
Dokumentierte, detaillierte und messbare Service Level-Ziele
Um die SLAs richtig zu dokumentieren, müssen Sie die Service Level Objective-Metriken vollständig definieren. Diese Dokumentation sollte Benutzern zur Evaluierung zur Verfügung stehen. Sie stellt den Feedback-Loop bereit, um sicherzustellen, dass das Netzwerkmanagement weiterhin die Variablen misst, die zur Einhaltung des Servicevertragsniveaus erforderlich sind.
SLAs sind "lebende" Dokumente, da die Geschäftsumgebung und das Netzwerk von Natur aus dynamisch sind. Was heute bei der SLA-Messung funktioniert, kann morgen schon obsolet sein. Nur wenn sie eine Feedback-Schleife von Benutzern einrichten und auf diese Informationen reagieren, kann der Netzwerkbetrieb die hohe Verfügbarkeit aufrechterhalten, die für das Unternehmen erforderlich ist.
Diese Liste enthält Elemente wie Polling-Intervall, angefallener Netzwerkmanagement-Overhead, mögliche Trigger-Schwellenwerte, ob die Variable als Trigger für ein Trap verwendet wird, und Trendanalysen für jede Variable.
Diese Variablen beschränken sich nicht auf die für die oben genannten Service-Level-Ziele erforderlichen Kennzahlen. Sie sollten mindestens folgende Variablen enthalten: Router-Zustand, Switch-Zustand, Routing-Informationen, technologiespezifische Daten, Auslastung und Verzögerung. Diese Variablen werden periodisch abgefragt und in einer Datenbank gespeichert. Anhand dieser Daten können Berichte erstellt werden. Diese Berichte unterstützen das Netzwerkmanagement und die Planer wie folgt:
Reaktive Probleme können oft schneller mit einer Verlaufsdatenbank gelöst werden.
Für Performance-Berichte und Kapazitätsplanung ist diese Art von Daten erforderlich.
Die Service Level Objectives können damit verglichen werden.
Die Mitarbeiter der Netzwerkverwaltung sollten in regelmäßigen Abständen Meetings abhalten, um bestimmte Berichte zu durchlaufen. Dies bietet zusätzliches Feedback und einen proaktiven Ansatz für potenzielle Probleme im Netzwerk.
Diese Sitzungen sollten sowohl Betriebs- als auch Planungspersonal umfassen. Dies bietet den Planern die Möglichkeit, betriebliche Analysen der Basis- und Trenddaten zu erhalten. Außerdem versetzt es die Betriebspersonal für einige Planungsanalysen in den "Loop".
Eine weitere Art von Elementen, die in diesen Meetings berücksichtigt werden sollten, sind die Service-Level-Ziele. Werden objektive Schwellenwerte erreicht, kann das Netzwerkmanagement Maßnahmen ergreifen, um das Verfehlen eines Ziels zu verhindern, und in einigen Fällen können diese Daten als teilweise finanzielle Begründung verwendet werden. Die Daten können zeigen, wo Service-Level-Ziele verletzt werden, wenn keine geeigneten Maßnahmen ergriffen werden. Da Business-Services und -Anwendungen diese Ziele identifiziert haben, ist es zudem einfacher, sie auf finanzieller Basis zu rechtfertigen.
Führen Sie diese Überprüfungen alle zwei Wochen durch, und halten Sie alle sechs bis zwölf Wochen eine gründlichere analytische Sitzung ab. Bei diesen Meetings können Sie kurz- und langfristige Probleme ansprechen.
Eine Was-wäre-wenn-Analyse beinhaltet die Modellierung und Verifizierung von Lösungen. Bevor Sie dem Netzwerk eine neue Lösung hinzufügen (entweder eine neue Anwendung oder eine Änderung in der Cisco IOS-Version), dokumentieren Sie einige der Alternativen.
Die Dokumentation für diese Analyse umfasst die wichtigsten Fragen, die Methodik, Datensätze und Konfigurationsdateien. Der Hauptpunkt ist, dass die Was-wäre-wenn-Analyse ein Experiment ist, das jemand anders mit den in diesem Dokument bereitgestellten Informationen rekonstruieren kann.
Diese Dokumentation enthält zusätzliche WAN-Bandbreite und eine Kostentabelle, die Ihnen hilft, die Bandbreite für einen bestimmten Verbindungstyp zu erhöhen. Anhand dieser Informationen kann das Unternehmen feststellen, wie viel Zeit und Geld eine Erhöhung der Bandbreite kostet. Anhand der formellen Dokumentation können Leistungs- und Kapazitätsexperten feststellen, wie und wann die Leistung erhöht werden soll, und den Zeitrahmen und die Kosten für eine solche Aufgabe ermitteln.
Überprüfen Sie diese Dokumentation regelmäßig, möglicherweise vierteljährlich im Rahmen der Leistungsüberprüfung, um sicherzustellen, dass sie stets auf dem neuesten Stand ist.
Die Ziele des idealen Netzwerkmanagementsystems lassen sich nur erreichen, wenn die Komponenten des Performance-Managements aktiv in das System integriert werden. Dieses Ziel sollte die Verwendung von Metriken zur Verfügbarkeit und Reaktionszeit beinhalten, die in ein Benachrichtigungssystem eingebunden sind, wenn Schwellenwerte überschritten werden. Dazu gehört auch die Verwendung einer Baseline für die Kapazitätsplanung mit Verknüpfungen zu einem heuristischen Modell für die Bereitstellung und die Ausnahmeberichterstattung. Es könnte über eine integrierte Modellierungs- oder Simulationsengine verfügen, die es ermöglicht, das Modell in Echtzeit zu aktualisieren und durch Softwaresimulationen einen Level sowohl der Planung als auch der Fehlerbehebung bereitzustellen.
Obwohl ein Großteil dieses Systems ein unmögliches Ideal zu sein scheint, das nie erreicht werden konnte, ist derzeit jede der Komponenten verfügbar. Die Werkzeuge zur Integration dieser Komponenten gibt es auch in Programmen wie MicroMuse. Wir sollten weiter auf dieses Ideal hinarbeiten, da es heute realistischer ist denn je.
Überarbeitung | Veröffentlichungsdatum | Kommentare |
---|---|---|
1.0 |
02-Dec-2013
|
Erstveröffentlichung |