Welcher Hashing-Algorithmus eignet sich am besten für Eindeutigkeit und Geschwindigkeit?

Question

Welcher Hashing-Algorithmus eignet sich am besten für Eindeutigkeit und Geschwindigkeit? Beispiel (gute) Verwendungen umfassen Hash-Wörterbücher.

Ich weiß, dass es Dinge wie SHA-256 und dergleichen gibt, aber diese Algorithmen sind als sicher konzipiert, was normalerweise bedeutet, dass sie langsamer als Algorithmen sind das sind weniger einzigartig . Ich möchte einen Hash-Algorithmus, der schnell ausgelegt ist und dennoch ziemlich einzigartig bleibt, um Kollisionen zu vermeiden.

Kommentare

Zu welchem Zweck, zu welcher Sicherheit oder zu anderen Zwecken?
@Orbling, zur Implementierung eines Hash-Wörterbuchs. Kollisionen sollten daher auf ein Minimum beschränkt werden, haben jedoch überhaupt keinen Sicherheitszweck.
Beachten Sie, dass Sie mindestens einige Kollisionen in Ihrer Hash-Tabelle erwarten müssen, andernfalls die Der Tisch muss riesig sein, um auch nur eine relativ kleine Anzahl von Schlüsseln verarbeiten zu können …
Großartiger Beitrag! Könnten Sie auch ‚ s Yann Collet ‚ s xxHash (Schöpfer oder LZ4) überprüfen, das doppelt so schnell ist wie Murmeln? Startseite: code.google.com/p/xxhash Weitere Informationen: fastcompression.blogspot.fr/2012/ 04 / …
@zvrba Abhängig vom Algorithmus. bcrypt ist so konzipiert, dass es langsam ist.

Answer 1

Ich habe verschiedene Algorithmen getestet, um die Geschwindigkeit und die Anzahl der Kollisionen zu messen

Ich habe drei verschiedene Schlüsselsätze verwendet:

Eine Liste von 216.553 englischen Wörtern ^{🕗 Archiv} (in Kleinbuchstaben)
Die Zahlen "1" bis "216553" (denken Sie an Postleitzahlen und , wie ein schlechter Hash msn.com eruntergefahren hat ^{🕗 Archiv})
216.553 “ zufällige „(dh Typ 4-UUID ) GUIDs

Für jeden Korpus die Anzahl der Kollisionen und die durchschnittliche Zeit, die für das Hashing aufgewendet wurde wurde aufgezeichnet.

Ich habe getestet:

DJB2
DJB2a (Variante mit xor anstelle von +)
FNV-1 (32-Bit)
FNV-1a (32-Bit)
SDBM
CRC32
Murmur2 (32-Bit)
SuperFastHash

Ergebnisse

Jedes Ergebnis enthält die durchschnittliche Hash-Zeit und die Anzahl der Kollisionen

Hash Lowercase Random UUID Numbers ============= ============= =========== ============== Murmur 145 ns 259 ns 92 ns 6 collis 5 collis 0 collis FNV-1a 152 ns 504 ns 86 ns 4 collis 4 collis 0 collis FNV-1 184 ns 730 ns 92 ns 1 collis 5 collis 0 collis▪ DBJ2a 158 ns 443 ns 91 ns 5 collis 6 collis 0 collis▪▪▪ DJB2 156 ns 437 ns 93 ns 7 collis 6 collis 0 collis▪▪▪ SDBM 148 ns 484 ns 90 ns 4 collis 6 collis 0 collis** SuperFastHash 164 ns 344 ns 118 ns 85 collis 4 collis 18742 collis CRC32 250 ns 946 ns 130 ns 2 collis 0 collis 0 collis LoseLose 338 ns - - 215178 collis

Hinweise :

Die Der LoseLose-Algorithmus (wobei Hash = Hash + Zeichen) ist wirklich schrecklich . Alles kollidiert in denselben 1.375 Eimern.
SuperFastHash ist schnell und die Dinge sehen ziemlich verstreut aus. Meine Güte, die Zahl Kollisionen. Ich hoffe, der Typ, der es portiert hat, hat etwas falsch gemacht; es ist ziemlich schlecht
CRC32 ist ziemlich gut . Langsamer und eine 1k-Nachschlagetabelle

Treten tatsächlich Kollisionen auf?

Ja. Ich habe angefangen, mein Testprogramm zu schreiben, um festzustellen, ob Hash-Kollisionen tatsächlich auftreten – und nicht nur ein theoretisches Konstrukt sind.Sie treten tatsächlich auf:

FNV-1-Kollisionen

creamwove kollidiert mit quists

FNV -1a Kollisionen

costarring kollidiert mit liquid
declinate kollidiert mit macallums
altarage kollidiert mit zinke
altarages kollidiert mit zinkes

Murmel2-Kollisionen

cataract kollidiert mit periti
roquette kollidiert mit skivie
shawl kollidiert mit stormbound
dowlases kollidiert mit tramontane
cricketings kollidiert mit twanger
longans kollidiert mit whigs

DJB2-Kollisionen

hetairas kollidiert mit mentioner
heliotropes kollidiert mit neurospora
depravement kollidiert mit serafins
stylist kollidiert mit subgenera
joyful kollidiert mit synaphea
redescribed kollidiert mit urites
dram kollidiert mit vivency

DJB2a-Kollisionen

haggadot kollidiert mit loathsomenesses
adorablenesses kollidiert mit rentability
playwright kollidiert mit snush
playwrighting kollidiert mit snushing
treponematoses kollidiert mit waterbeds

CRC32-Kollisionen

codding kollidiert mit gnu
exhibiters kollidiert mit schlager

SuperFastHash-Kollisionen

dahabiah kollidiert mit drapability
encharm kollidiert mit enclave
grahams kollidiert mit gramary
… schnitt 79 Kollisionen ab …
night kollidiert mit vigil
kollidiert mit vigils
finks kollidiert mit vinic

Randomnessification

Das andere subjektive Maß ist die zufällige Verteilung der Hashes. Die Zuordnung der resultierenden HashTables zeigt, wie gleichmäßig die Daten verteilt sind. Alle Hash-Funktionen zeigen eine gute Verteilung, wenn die Tabelle linear zugeordnet wird: