Auf Tec-Bite wurden mittlerweile über 200 Artikel mit Wissen und Erfahrungen zu verschiedenen Aspekten der Cyber-Security von AVANTEC Mitarbeitenden und diversen Gastautoren publiziert. Was kann ein aufmerksamer Leser aus all diesen Blog-Posts lernen? Insbesondere wenn vorgängig keine IT-Security Kenntnisse vorhanden sind?
Wir machen den Test mit einem unfreiwilligen Kandidaten mit dem Pseudonym RNN. Unser Proband soll als Endresultat das Gelernte anhand von Satzvervollständigungen aufzeigen. Beispiel: «Der beste Schutz vor Malware ist … [RNNs Antwort folgt hier]».
Neben den fehlenden IT und Security Kenntnissen kommt für RNN noch leicht erschwerend hinzu, dass er der deutschen Sprache nicht mächtig ist, was grundsätzlich ja keine Einschränkung bezüglich Aufstieg zum Security-Experten darstellt. RNN hat sich aber leider auch noch nie mit einer anderen Sprache beschäftigt und mag eigentlich viel lieber Zahlen als Buchstaben und Wörter. Als Entgegenkommen stellen wir RNN deshalb die Blog-Posts bestehend aus total 416’000 Zeichen, 12’500 einmaligen Wörtern und 104 einmaligen Zeichen als numerische Tokens zur Verfügung.
RNN bemängelt vorab, dass er eigentlich gerne mindestens 10x so viele Zeichen und besseres Pre-Processing (z.B. einheitliche Schreibweisen und Stil über Autoren hinweg) haben würde, um gute Resultate erzeugen zu können, lässt sich aber trotzdem auf das Experiment ein. Er besteht jedoch darauf, alle 200 Blog-Posts bis zu 300 Mal (Mal nennt RNN «Epoche») durchlesen zu dürfen, was für uns in Ordnung geht, solange RNN das auf der GPU macht und unsere CPUs damit nicht gross belästigt.
Zur Steuerung unserer Erwartungshaltung weist RNN eingangs noch darauf hin, dass er relativ einfach gestrickt sei, respektive nur aus zwei LSTM Schichten à je 500 Einheiten bestünde und sich somit irgendwo zwischen Fadenwurm und Qualle einreihe bezüglich neuronaler Kapazität. Auch sei er eigentlich nicht mehr SOTA und habe neuere Kollegen, die besser für die Aufgabe geeignet seien und spricht von Transformern und BERT (und meint damit keine Figuren aus Fernseh-Sendungen).
Anyways [und hier fällt RNN ins Wort und weist darauf hin, dass ihm Mix von Sprachen und falsche Schreibweisen das Leben schwer machen], beginnen wir nun mit dem Experiment, lassen RNN die Blog-Artikel lesen und uns von Zeit zu Zeit einen aktuellen Zwischenstand seines Lernfortschritts anhand von einem generierten Satz-Beispiel mit zufällig gewähltem Anfangsbuchstaben aufzeigen:
Ok, danke RNN, das ist zwar eine oft gehörte Antwort darauf, ob ein amerikanischer Hersteller ein Data-Centre in der Schweiz hat, aber ansonsten wenig aussagekräftig. Der Buchstabe e ist statistisch im Deutschen am häufigsten, deshalb als erster Rateversuch gar nicht so schlecht.
Nach 25 Mal alle Blog-Posts durchlesen bringt RNN nun erste korrekte Wörter hervor, scheint aber noch relativ offensiv fokussiert.
Erste Satzbausteine lassen sich nach 50 Iterationen erkennen, RNN versteift sich aber rasch auf Cloud Security.
In Epoche 100 beschert uns RNN mit Haiku-ähnlicher Struktur und ebenso meditationsfördernden Inhalten. Om.
Zur Halbzeit von 150 der 300 Epochen verwendet RNN erstmals kreative Abkürzungen und erwähnt auch den Aloud Service, der von Gartner in Kürze noch erfunden werden wird.
Hut ab – das klingt nach 250 Epochen doch schon regelrecht nach validem Marketing-Material.
Obschon mittlerweile etwas Skepsis bzgl. Security-Verständnis von RNN durchaus angebracht ist, lassen wir nun RNN trotzdem wie angekündigt als «Wissenstest» ein paar Satzanfänge vervollständigen:
Grammatikalisch und orthographisch ist das praktisch einwandfrei, der Konnex von Malware zu Advanced Threats sinnvoll und auch das Konzept bzgl. «Schutz vor Anforderungen» an sich überzeugend. Ansonsten aber herrlich sinnfrei.
Das scheint mir so absolut korrekt zu sein. 🙂
Klingt plausibel – aber meines Wissens können die AVANTEC Security Groups durchaus jederzeit «nomaliert» werden. Deshalb ist die Antwort leider nicht korrekt und der Security-Verständnis-Test leider damit knapp nicht bestanden.
Wer’s bisher noch nicht selber erraten hat: RNN steht natürlich für Recurrent Neural Network, einer Familie von Machine Learning Modellen, die mittels Rückkopplung Strukturen und Muster in Datensequenzen erkennen kann. Das Lernen erfolgt über rein statistische Methoden und der Schätzung des höchstwahrscheinlichen nächsten Buchstabens in der Sequenz basierend auf den gesehenen Trainingsdaten. Es ist erstaunlich, dass trotz an sich zu kleinem Datensatz und unbereinigtem Input ein simples RNN-Modell halbwegs korrekte Syntax und Satzbausteine hervorbringt. Von Sprache und Semantik hat dieses Modell jedoch keine interne Repräsentation, d.h. echtes Wissen ist nicht abgebildet und entsprechend auch kein logisches Kombinieren oder Schlussfolgern möglich. Das Projekt unsere Mitarbeitenden durch Bots zu ersetzen, werden wir deshalb basierend auf diesem einfachen Experiment 2022 noch nicht gerade umsetzen.
Christian Schwarzer
Christian Schwarzer war von Dezember 2016 bis Januar 2023 Co-CEO bei AVANTEC. Er interessiert sich u.a. für Technologie- und Geschäftsmodell-Innovationen.