/ OSS / Hashfunktion: Der schwierige Abschied von SHA-1

Hashfunktion: Der schwierige Abschied von SHA-1

127041-137660-i_rc.jpg
Gerfried Steube an März 30, 2017 - 9:22 pm in OSS

Das Schicksal der Hashfunktion SHA-1 ist vor kurzem endgültig besiegelt woden. Der Kryptograph Marc Stevens erzeugte in einem Kooperationsprojekt mit Google zwei unterschiedliche PDF-Dateien, die den selben SHA-1-Hash besitzen. Damit verletzt SHA-1 eine wichtige Eigenschaft kryptographischer Hashfunktionen: die sogenannte Kollisionsresistenz.

Doch SHA-1 aus der Welt zu schaffen, wird nicht ganz einfach. In vielen Softwareprodukten erfüllt sie wichtige Funktionen, und ein Austausch ist aus Kompatibilitätsgründen oft nicht trivial. Und die möglichen Probleme wurden lange Zeit von vielen Entwicklern heruntergespielt und ignoriert.

Unsichere Hashes in Git

Ein prominenter Nutzer von SHA-1-Hashes ist das Versionskontrollsystem Git. Es wurde von Linus Torvalds für die Bedürfnisse der Kernel-Community entwickelt. Inzwischen ist Git das mit Abstand beliebteste Werkzeug zur Verwaltung von Quellcodes.

Git nutzt intern ein sogenanntes Content-addressable Storage-System. Ein Git-Repository besteht aus verschiedenen Objekten. Die eigentlichen Dateien in einem Repositor sind als „Blob“-Objekte abgelegt. Daneben gibt es verschiedene andere Objekte, die die Struktur abbilden. Tree-Objekte enthalten eine Liste von Dateien, sie bilden also Verzeichnisse ab. Daneben gibt es Commits, die eine Änderung des Repository-Inhalts beschreiben und Tag-Objekte, die einen bestimmten Zustand des Repositories festhalten.

Alle diese Objekte werden mit einem Header versehen gehasht. Anhand ihres Hashes werden die Objekte gespeichert. Sichtbar ist das im .git/objects-Verzeichnis, das sich in jedem Git-Repository befindet. Darin befinden sich Unterverzeichnisse, die mit den ersten beiden Hexadezimalwerten des Hashes benannt sind, und darin die eigentlichen Objektdateien, die vorher noch mit Zlib gepackt werden. Ein Objekt mit dem Hash e69de29bb2d1d6434b8b29ae775ad8c2e48c5391 landet also im Verzeichnis .git/objects/e6/9de29bb2d1d6434b8b29ae775ad8c2e48c5391. Bei größeren Repositories findet man dort jedoch nicht alle Objekte, da manchmal mehrere Objekte gepackt und anders abgelegt werden.

Linus Torvalds hatte in der Vergangenheit mehrfach gesagt, dass die Sicherheitseigenschaften von SHA-1 für Git nicht relevant sind. An anderer Stelle hatte er diese Ansicht jedoch auch wieder relativiert. Denn es gibt durchaus Angriffsszenarien.

PGP-signierte Commits nur so sicher wie SHA-1

Ein Feature von Git ist es, Commits mittels OpenPGP zu signieren. Signiert werden dabei aber eben nur Commit-Objekte, die wiederum nur Referenzen auf die SHA-1-Hashes von Tree-Objekten und indirekt Blobs enthalten. Somit ist die Sicherheit der Signaturen direkt von der Sicherheit von SHA-1 abhängig.

Ein denkbarer Angriff: Jemand könnte zwei Dateien erstellen, die innerhalb von Git den selben SHA-1-Hash erhalten. Dabei könnte es sich etwa um Bilder oder PDF-Dateien handeln. Bei reinen Text-Dateien ist ein Angriff nicht direkt machbar, zumindest Teile des Dokuments müssen beliebige Daten enthalten können, die beim Interpretieren ignoriert werden. Die von Google bereitgestellten Dateien lassen sich für so einen Angriff nicht nutzen, da Git jedem Objekt noch einen Header voranstellt.

Eine der Dateien ist harmlos und kann an jemanden geschickt werden, der ein Git-Repository betreibt. Wenn dieser die Datei in das Repository signiert eincheckt, ist diese Signatur auch für eine bösartige Kopie des Repositories gültig, das die andere Datei enthält.

Das ist nur ein denkbarer Angriff. Problematisch ist ebenfalls die Nutzung von Submodulen, die über ihre Hashes identifiziert werden, oder die Deduplikation von Services wie Github.

Hardcodierte Arrays werden entfernt

Die Nutzung von alternativen Hash-Algorithmen war in Git nie vorgesehen. An vielen Stellen im Code werden Arrays mit einer fest eingestellten Größe von 20 Bytes für die Hashes verwendet, was genau für die 160 Bit von SHA-1 reicht. Sichere Hash-Funktionen nutzen üblicherweise 256 oder 512 Bit. Git-Entwickler Brian Carlson fing bereits vor einigen Jahren damit an, diesen Code auf einen generischen Objekttyp umzustellen, doch diese Arbeiten sind längst nicht abgeschlossen.

Aber diese Restrukturierung des Codes ist nur der allererste Schritt einer Migration. Relativ einfach wäre es, neue Repositories zu erstellen, die ein neues Datenformat und eine sichere Hashfunktion nutzen. Aber es gibt unzählige bestehende Repositories. Und der Umgang mit diesen ist nicht trivial. Linus Torvalds hat in einer E-Mail einen groben Plan zur Umstellung vorgestellt.

Der Content-addressable Storage sorgt dafür, dass eine Datei an einer eindeutigen Stelle abgelegt ist. Wie würde das jedoch nach einer Umstellung aussehen? Sollen alle Dateien zusätzlich mit einem besseren Hash an anderer Stelle abgelegt werden? Torvalds Plan sieht das vor. Demnach wäre es bei allen neuen Tree- und Commit-Objekten verboten, alte Objekte zu referenzieren. Das dürfte einmalig dazu führen, dass Repositories in ihrer Größe deutlich anwachsen, da viele Objekte dann doppelt vorgehalten werden müssen.

Die Probleme hätten leicht vermieden werden können. Denn Git ist nicht so alt. Die erste Version wurde 2005 veröffentlicht. Damals waren die Schwächen von SHA-1 bereits bekannt. John Gilmore hatte bereits früh darauf hingewiesen, Linus Torvalds ignorierte die Warnungen jedoch und machte sich über sie lustig.

Übrigens: Bei den Konkurrenten zu Git sieht es überwiegend nicht viel besser aus. Auch Mercurical nutzt SHA-1. Selbst Subversion, das nach außen überhaupt keine Hashes nutzt, hatte Ärger mit Hashkollisionen. Beim Versuch des Webkit-Teams, zu Testzwecken die kollidierenden PDF-Dateien einzuchecken, verursachte Subversion einen Fehler und das Repository wurde unbenutzbar.

Read more on: Source

Kommentare sind deaktiviert