Quale algoritmo di hashing è il migliore per unicità e velocità?

Question

Qual è lalgoritmo di hashing migliore per unicità e velocità? Gli usi di esempio (buoni) includono dizionari hash.

So che ci sono cose come SHA-256 e simili, ma questi algoritmi sono progettato per essere secure , il che di solito significa che sono più lenti degli algoritmi che sono meno unici . Voglio un algoritmo hash progettato per essere veloce, ma che rimanga abbastanza unico per evitare collisioni.

Commenti

Per quale scopo, sicurezza o altro?
@Orbling, per limplementazione di un dizionario hash. Quindi le collisioni dovrebbero essere ridotte al minimo, ma non ha alcuno scopo di sicurezza.
Nota che dovrai aspettarti almeno alcune collisioni nella tua tabella hash, altrimenti il table dovrà essere enorme per poter gestire anche un numero relativamente piccolo di chiavi …
Ottimo post! Potresti anche controllare ‘ s Yann Collet ‘ s xxHash (creator o LZ4), che è due volte più veloce di Murmur? Home page: code.google.com/p/xxhash Altre informazioni: fastcompression.blogspot.fr/2012/ 04 / …
@zvrba Dipende dallalgoritmo. bcrypt è progettato per essere lento.

Answer 1

Ho testato diversi algoritmi, misurando la velocità e il numero di collisioni .

Ho utilizzato tre diversi set di chiavi:

Un elenco di 216.553 parole inglesi ^{🕗 archivio} (in minuscolo)
I numeri "1" a "216553" (pensa ai codici postali e come un hash scadente ha eliminato msn.com ^{🕗 archivio})
216,553 ” random “(ie type 4 uuid ) GUID

Per ogni corpus, il numero di collisioni e il tempo medio impiegato per lhashing è stato registrato.

Ho testato:

DJB2
DJB2a (variante che utilizza xor anziché +)
FNV-1 (32 bit)
FNV-1a (32 bit)
SDBM
CRC32
Murmur2 (32 bit)
SuperFastHash

Risultati

Ogni risultato contiene il tempo hash medio e il numero di collisioni

Hash Lowercase Random UUID Numbers ============= ============= =========== ============== Murmur 145 ns 259 ns 92 ns 6 collis 5 collis 0 collis FNV-1a 152 ns 504 ns 86 ns 4 collis 4 collis 0 collis FNV-1 184 ns 730 ns 92 ns 1 collis 5 collis 0 collis▪ DBJ2a 158 ns 443 ns 91 ns 5 collis 6 collis 0 collis▪▪▪ DJB2 156 ns 437 ns 93 ns 7 collis 6 collis 0 collis▪▪▪ SDBM 148 ns 484 ns 90 ns 4 collis 6 collis 0 collis** SuperFastHash 164 ns 344 ns 118 ns 85 collis 4 collis 18742 collis CRC32 250 ns 946 ns 130 ns 2 collis 0 collis 0 collis LoseLose 338 ns - - 215178 collis

Note :

Il Lalgoritmo LoseLose (dove hash = hash + character) è veramente orribile . Tutto collide negli stessi 1.375 bucket
SuperFastHash è veloce, con le cose che sembrano piuttosto sparse; per mio Dio le numero collisioni. Spero che il tizio che ha eseguito il port abbia sbagliato qualcosa; è piuttosto brutto
CRC32 è abbastanza buono . Più lento e una tabella di ricerca di 1k

Le collisioni si verificano effettivamente?

Sì. Ho iniziato a scrivere il mio programma di test per vedere se le collisioni di hash effettivamente si verificano – e non sono solo un costrutto teorico.In effetti accadono:

Collisioni FNV-1

creamwove collide con quists

FNV -1a collisioni

costarring collide con liquid
declinate si scontra con macallums
altarage collide con zinke
altarages collide con zinkes

Collisioni Murmur2

cataract collide con periti
roquette collide con skivie
shawl entra in conflitto con stormbound
dowlases entra in conflitto con tramontane
cricketings collide con twanger
longans con whigs

collisioni DJB2

hetairas entra in collisione con mentioner
heliotropes collide con neurospora
depravement collide con serafins
stylist entra in conflitto con subgenera
joyful collide con synaphea
redescribed collide con urites
dram si scontra con vivency

DJB2a collisioni

haggadot collide con loathsomenesses
adorablenesses collide con rentability
playwright collide con snush
playwrighting collide con snushing
treponematoses collide con waterbeds

collisioni CRC32

codding entra in collisione con gnu
exhibiters collide con schlager

collisioni SuperFastHash

dahabiah si scontra con drapability
encharm collide con enclave
grahams collide con gramary
… snip 79 collisioni …
night collide con vigil
collide con vigils
finks collide con vinic

Randomnessification

Laltra misura soggettiva è la distribuzione casuale degli hash. La mappatura degli HashTables risultanti mostra la distribuzione uniforme dei dati. Tutte le funzioni hash mostrano una buona distribuzione durante la mappatura lineare della tabella: