Unternehmen erstellen und verschieben heute mehr Daten als je zuvor in der Menschheitsgeschichte. Der Netzwerkverkehr nimmt weiter zu, und globale Internetbandbreite 2021 um 29 % gewachsen und erreichte 786 Tbps. Neben dem Rekord-Traffic-Volumen werden mittlerweile 95 % des Traffics verschlüsselt Google. Da Bedrohungsakteure ihre Taktiken und Techniken weiterentwickeln (z. B. das Verstecken von Angriffen in verschlüsseltem Datenverkehr), wird der Schutz von Organisationen immer schwieriger.
Um diese Probleme anzugehen, verlassen sich viele Netzwerksicherheits- und Betriebsteams stärker auf Technologien für maschinelles Lernen (ML), um Fehler, Anomalien und Bedrohungen im Netzwerkverkehr zu identifizieren. Da verschlüsselter Datenverkehr jedoch zunehmend zur Norm wird, müssen sich auch traditionelle ML-Technologien weiterentwickeln. In diesem Artikel möchte ich die Art der heute verwendeten ML-Modelle betrachten und untersuchen, wie sie mit der Deep Packet Dynamics (DPD)-Technologie gekoppelt werden können, um einen Einblick in Bedrohungen zu erhalten, die in verschlüsseltem Datenverkehr verborgen sein könnten.
Um mit ML erfolgreich zu sein, brauchen NOC- und SOC-Teams drei Dinge: Datensammlung, Data Engineering und Model Scoring.
Die Datenerfassung umfasst das Extrahieren von Metadaten direkt aus dem Netzwerkpaketstrom. Data Engineering ist der Prozess, Rohdaten an die richtige Stelle zu verschieben und sie für die Eingabe in ein Modell umzuwandeln. Dazu gehören Aufgaben wie Datenstandardisierung und Feature-Erstellung. Model Scoring ist die letzte Phase, in der ML-Algorithmen auf die Daten angewendet werden. Dazu gehören die notwendigen Schritte zum Trainieren und Testen von Modellen.
In der Vergangenheit hat sich ML auf Batching-Modelle verlassen. Bei Big Data der Gartenvielfalt funktionieren herkömmliche Datenpipelines recht gut. Modelle werden offline mit historischen, retrospektiven Daten trainiert. Später wird es auf Daten angewendet, die zur Analyse gespeichert wurden.
Es funktioniert ungefähr so: Zuerst erstellt das Team eine hochentwickelte Datenpipeline, um alle Daten zurück in einen riesigen Data Lake zu portieren. Als Nächstes werden historische Features erstellt, indem Abfragen und Vorverarbeitungsskripts ausgeführt werden. Schließlich werden die Modelle auf der großen Datensammlung trainiert. Sobald es fertig ist, wird das trainierte Modell in die Produktion verschoben, was die Übersetzung jedes Datenverarbeitungsschritts in eine nach außen gerichtete Anwendung erfordert.
Die Kosten für das Speichern und Verarbeiten schwerer Daten (das sind „große“ Daten, die spezielle Tools zum Speichern und Verarbeiten erfordern und nicht in herkömmlichen Datenbankdatensatzformaten gespeichert werden) wie Netzwerkdaten können unerschwinglich sein. Diese ML-Methode erfordert eine erhebliche Skalierung und Ressourcen. Es ist nützlich für die Modellentwicklung und Vorhersagemodelle mit einem großen Zeithorizont.
Da der Netzwerkverkehr jedoch zugenommen hat, gibt es eine neuere Alternative namens Streaming ML. Es nutzt einen viel geringeren Ressourcenbedarf und übertrifft gleichzeitig die Leistungsanforderungen der Netzwerke mit der höchsten Bandbreite. In Kombination mit der Analyse des verschlüsselten Datenverkehrs verfügen Unternehmen über ein leistungsstarkes Tool, das Netzwerkbedrohungen sichtbar macht. In der Vergangenheit wurde der Netzwerkverkehr mit Deep Packet Inspection (DPI) untersucht, aber da mehr von diesem Verkehr jetzt verschlüsselt ist, wird er immer weniger nützlich. Dies hat den Markt zu einer neuen Technologie namens Deep Packet Dynamics (DPD) geführt, die einen umfangreichen Metadatensatz bietet, der ohne Payload-Inspektion erstellt wird.
Zu den DPD-Funktionen gehören Verkehrseigenschaften wie Producer/Consumer-Verhältnis, Jitter, RSTs, Neuübertragungen, Sequenz von Paketlängen und -zeiten (SPLT), Byte-Verteilungen, Verbindungsaufbauzeit, Roundtrip-Zeit und mehr. Es bietet überlegene Funktionen, die gut für ML geeignet sind und Muster und Anomalien effektiv identifizieren, die einfache und erweiterte Ansätze nicht erkennen können. Aber sie können nicht rückwirkend berechnet werden, sie müssen erfasst werden, während der Verkehr in Echtzeit durchfließt. Diese Form der Kryptoanalyse stärkt die Privatsphäre, indem die verarbeitungsintensive Man-in-the-Middle-Technik (MITM) zur Entschlüsselung und Untersuchung des Datenverkehrs eliminiert wird.
Durch die Kombination von Streaming-ML mit DPD können SOC- und NOC-Teams fortgeschrittene Bedrohungen leichter in Echtzeit erkennen. Dieser Ansatz kann beispielsweise laufende Ransomware-Angriffe auf das Netzwerk aufdecken, einschließlich Lateral Movements, fortgeschrittene Phishing- und Watering-Hole-Angriffe, Insider-Bedrohungsaktivitäten und vieles mehr. Dieser Ansatz beseitigt auch Verschlüsselungsblindheit und stellt die Sichtbarkeit für Netzwerkverteidiger wieder her.
Bis 2025 wird fast der gesamte Netzwerkverkehr verschlüsselt sein. Da die Verschlüsselung (zusammen mit neuen Bedrohungen) zunimmt, müssen sich Unternehmen stärker auf das Streamen von ML (einschließlich Machine-Learning-Engines) und die Analyse des verschlüsselten Datenverkehrs verlassen, um den erforderlichen Einblick in anomalen Datenverkehr zu erhalten. Ohne sie werden Angreifer weiterhin herkömmliche Sicherheitsmechanismen umgehen, sich in Verschlüsselung verstecken und Angriffe erfolgreich abschließen.