„Bitte erklären Sie einem 10-Jährigen…“: Hadoop Cluster
Immer mehr Daten in immer größerer Geschwindigkeit speichern und bearbeiten?
Ein Server allein schafft das irgendwann nicht mehr. Die Devise lautet deswegen Teamwork: Mehrere Rechner teilen die Aufgaben untereinander auf. Klingt einleuchtend? Ist aber knifflig. Philipp Böcker, Big Data Consultant bei ITGAIN, erklärt Ihnen Hadoop Cluster so, dass es jeder versteht. Sogar ein 10-Jähriger.
YARN, HDFS oder Map-Reduce-Algorithmus… Wer verstehen will, wie ein Hadoop Cluster funktioniert, stößt ganz schnell auf unverständliche Begriffe. Dabei ist die Sache eigentlich ganz einfach.
Stell dir vor, du musst eine Mathearbeit schreiben. Verflixt. Aber diesmal ist alles anders: Du schreibst sie nicht allein. Deine Klasse nimmt nämlich an einem Mathewettbewerb teil. Die Klasse, die am schnellsten ist und am besten abschneidet, gewinnt. Deswegen soll jeder nur die Aufgaben rechnen, die er gut schaffen kann. Klingt gut? Ist es auch! Und deswegen macht man das Gleiche, wenn man so irrsinnig viel zu berechnen hat, dass es ein Computer allein nicht mehr schafft. Dann verteilt man die Aufgaben auf viele Rechner. Das Ganze nennt man dann ein Hadoop Cluster. Und es funktioniert eigentlich genauso wie du und deine Klasse bei einer Mathearbeit. Nur nicht mit Matheaufgaben, Schülern und Lehrern, sondern mit Daten, Computern und Computerprogrammen.
Aber zurück zu dir. Du und deine Klassenkameraden – die Computer – sitzt also im Klassenzimmer auf euren Plätzen und seid bereit loszulegen. Die Arbeit liegt auf dem Pult beim Lehrer – im Hadoop Cluster würde das „Hadoop Distributed File System“ heißen. Die Aufgabe des Lehrers übernimmt ein Computerprogramm namens YARN. Der Lehrer jedenfalls kennt nicht nur die einzelnen Aufgaben der Mathearbeit gut, sondern weiß auch, welche deiner Mitschüler besonders fit sind und wer nicht ganz so schnell rechnen kann. Deswegen überlegt er sich vorher schon mal, wie er die Aufgaben verteilen möchte. Also wer mehr Aufgaben rechnen soll, wer weniger. Wer die schwereren Aufgaben bekommt und wer die leichteren. Schließlich kommt es heute nicht darauf an herauszufinden, wer der größte Mathecrack ist, sondern ein Gesamtergebnis mit der Note 1 zu bekommen. Du findest, das könnte ruhig immer so sein…
Die Aufgaben müssen also sinnvoll verteilt werden. Dabei hilft eure Klassensprecherin Luise dem Lehrer. Natürlich, wie immer... Der Lehrer hat Luise gesagt, dass Philipp vier mittelschwere Aufgaben erledigen soll. Die schlaue Rike soll ein kleineres, aber kniffligeres Aufgabenpaket bekommen. Und Marina, die beim letzten Mal nicht so schnell war, bekommt zwei leichte Aufgaben. Luise schnipselt die Klassenarbeit deswegen erstmal auseinander und legt die Aufgaben auf verschiedene Stapel, einen für leichte, einen für mittelschwere und einen für schwierige Aufgaben. Dann ruft sie jeden Schüler einzeln auf und sagt ihm, welche Aufgaben er sich nehmen soll. Später, wenn ihr dann fertig seid, wird Luise eure Aufgaben wieder zusammenfügen. Dieses ganze Auseinanderschnipseln und wieder Zusammenkleben nennt man im Hadoop Cluster „Map-Reduce“. Aber egal, was für dich als Rechner zählt, ist: Von insgesamt 30 Aufgaben musst du nur drei erledigen. Toll!
Während nun alle Schüler so vor sich hinrechnen, geht Luise rum und sieht nach, ob auch wirklich jeder mit seinen Aufgaben klarkommt. Dabei sieht sie zum Beispiel, dass Rike viel flotter ist als gedacht und du mit deinen Aufgaben mal wieder ganz schön ins Schwitzen kommst. Also nimmt sie dir eine Aufgabe weg und schiebt sie zu Rike rüber. Wirklich, dieses System gefällt dir! Und Rike auch.
Als alle fertig sind, legt jeder seine Aufgaben auf Luises Tisch. Die fügt sie dann wieder zu einer kompletten Arbeit zusammen. Wenn sie fertig ist, sagt sie dem Lehrer Bescheid. Der schickt sie dann an andere Erwachsene, die sich den ganzen Wettbewerb ausgedacht haben. Klar, schließlich sind Berechnungen ja meist zu irgendwas gut – und wenn es nur ein Wettbewerb ist.
Eine Woche später bekommt ihr das Ergebnis. Leider hat’s diesmal nur für Platz 2 gereicht, weil eine andere Klasse schneller war. Aber nächstes Mal wird’s sicher was mit dem Sieg! Euer Lehrer hat nämlich euch und eure Fähigkeiten wieder ein bisschen besser kennengelernt. Und du darfst in Zukunft deswegen auch hundertprozentig nur deine Lieblingsaufgaben rechnen.