Leyh, M.
¬Das Google File System
Münster : Institut für Wirtschaftsinformatik der Westfälische Wilhelms-Universität Münster
23 S
Die Bedeutung der Suchmaschine Google hat in den letzten Jahren sehr stark zuge-nommen. Durch die immer komplexer werdenden Googleapplikationen sowie die im-mer stärkere Nutzung der Suchmaschine ist die zu verwaltende Datenmenge in den letzten Jahren stark angewachsen. Dies war die Ursache für die Entwicklung neuer Konzepte, um eine konsistente Datenhaltung und -verwaltung sowie eine schnelle Da-tenrettung zu ermöglichen. Im Mittelpunkt dieser Entwicklung steht die Sicherung der Performance des Systems, das Milliarden von Dokumenten verwaltet und mehrere Tausende Treffer pro Suchanfrage nach Relevanz ordnet. Der Umfang und die Komple-xität des Systems stellen dabei sowohl besondere Herausforderungen an die einzuset-zende Hardware, als auch an die Konzepte der Datenverteilung und -sicherung. Eine neue Entwicklung ist dabei der Verzicht auf teure Spezialhardware. Alle Anwendungen laufen auf gewöhnlicher PC-Hardware und sind somit sehr wirtschaftlich im Vergleich zu teurerer Spezialhardware. Durch den Einsatz gewöhnlicher PC-Hardware sind Aus-fälle von Festplatten oder ganzer Server wesentlich wahrscheinlicher, es wird sogar mit dem Ausfall von Systemen gerechnet. Dass Anwendungen dennoch so zuverlässig und schnell funktionieren, liegt an der Struktur des von Google entwickelten Dateisystems. Das Google File Systems (kurz GFS) bietet eine hohe Fehlertoleranz, Fehler werden automatisch entdeckt und Wiederherstellungen automatisiert ausgeführt, so dass die Nachteile der Hardwarekonfiguration abgefangen werden können. Dieser Fehlertoleranz kommt bei multiplen Clustern mit Größen von bis zu 300 TB sowie mehreren hunderten Clientzugriffen sehr große Bedeutung zu. Eine weitere strukturelle Besonderheit des Google File Systems stellt die Verwaltung von Schreibzugriffen dar. Bestehende Dateien werden nicht durch schwer zu kontrollie-rende Schreiboperationen, sondern vielmehr durch leichter zu verwaltende "Append" Operationen erweitert. Es ist somit möglich, dass viele Nutzer gleichzeitig auf größere Dateien schreibend zugreifen, ohne dass eine ständige Synchronisation zwischen diesen Nutzern stattfinden muss. Die dadurch realisierten Vorteile bezüglich Performance, Verlässlichkeit und Verfüg-barkeit sowie die daraus resultierenden Anforderungen an das System sollen im Mittel-punkt dieser Arbeit stehen. Es soll ein Einblick in die Funktionsweisen und Komplexitä-ten des Google File Systems gegeben und weiterhin die strukturelle Umsetzung der Anforderungen aufgezeigt werden.
Ausarbeitung im Rahmen des Seminars Suchmaschinen und Suchalgorithmen, Institut für Wirtschaftsinformatik Praktische Informatik in der Wirtschaft, Westfälische Wilhelms-Universität Münster.

