Hvilken hashingalgoritme er best for unikhet og hastighet?

Question

Hvilken hashingalgoritme er best for unikhet og hastighet? Eksempel (gode) bruksområder inkluderer hash-ordbøker.

Jeg vet at det er ting som SHA-256 og slikt, men disse algoritmene er designet for å være sikker , noe som vanligvis betyr at de er langsommere enn algoritmer som er mindre unike . Jeg vil ha en hash-algoritme designet for å være rask, men likevel være ganske unik for å unngå kollisjoner.

Kommentarer

For hvilket formål, sikkerhet eller annet?
@Orbling, for implementering av en hashordbok. Så kollisjoner bør holdes på et minimum, men det har ingen sikkerhetsformål i det hele tatt.
Merk at du må forvente minst noen kollisjoner i hasjbordet ditt, ellers bordet må være enormt for å kunne håndtere selv et relativt lite antall nøkler …
Flott innlegg! Kan du også sjekke ‘ s Yann Collet ‘ s xxHash (skaper eller LZ4), som er dobbelt så raskt som Murmur? Hjemmeside: code.google.com/p/xxhash Mer info: fastcompression.blogspot.fr/2012/ 04 / …
@zvrba Avhenger av algoritmen. bcrypt er designet for å være tregt.

Answer 1

Jeg testet noen forskjellige algoritmer, og målte hastighet og antall kollisjoner .

Jeg brukte tre forskjellige nøkkelsett:

En liste med 216 553 engelske ord ^{🕗 arkiv} (med små bokstaver)
Tallene "1" til "216553" (tenk postnummer, og hvordan en dårlig hash tok ned msn.com ^{🕗 arkiv})
216,553 » tilfeldig «(dvs. type 4 uuid ) GUIDer

For hvert korpus, antall kollisjoner og gjennomsnittlig tid brukt hashing ble spilt inn.

Jeg testet:

DJB2
DJB2a (variant som bruker xor i stedet for +)
FNV-1 (32-bit)
FNV-1a (32-bit)
SDBM
CRC32
Murmur2 (32-bit)
SuperFastHash

Resultater

Hvert resultat inneholder gjennomsnittlig hashtid og antall kollisjoner

Hash Lowercase Random UUID Numbers ============= ============= =========== ============== Murmur 145 ns 259 ns 92 ns 6 collis 5 collis 0 collis FNV-1a 152 ns 504 ns 86 ns 4 collis 4 collis 0 collis FNV-1 184 ns 730 ns 92 ns 1 collis 5 collis 0 collis▪ DBJ2a 158 ns 443 ns 91 ns 5 collis 6 collis 0 collis▪▪▪ DJB2 156 ns 437 ns 93 ns 7 collis 6 collis 0 collis▪▪▪ SDBM 148 ns 484 ns 90 ns 4 collis 6 collis 0 collis** SuperFastHash 164 ns 344 ns 118 ns 85 collis 4 collis 18742 collis CRC32 250 ns 946 ns 130 ns 2 collis 0 collis 0 collis LoseLose 338 ns - - 215178 collis

Merknader :

LoseLose-algoritmen (der hash = hash + tegn) er virkelig forferdelig . Alt kolliderer i de samme 1 375 bøttene
SuperFastHash er rask, med ting som ser ganske spredt ut; av min godhet antall kollisjonene. Jeg håper fyren som porterte det, fikk noe galt. Det er ganske ille
CRC32 er ganske bra . Tregere og en oppslagstabell på 1k

Skjer kollisjoner egentlig?

Ja. Jeg begynte å skrive testprogrammet mitt for å se om hasjkollisjoner faktisk skjer – og ikke bare er en teoretisk konstruksjon.De skjer faktisk:

FNV-1 kollisjoner

creamwove kolliderer med quists

FNV -1a kollisjoner

costarring kolliderer med liquid
declinate kolliderer med macallums
altarage kolliderer med zinke
altarages kolliderer med zinkes

Murmur2-kollisjoner

cataract kolliderer med periti
roquette kolliderer med skivie
shawl kolliderer med stormbound
dowlases kolliderer med tramontane
cricketings kolliderer med twanger
longans kolliderer med whigs

DJB2-kollisjoner

hetairas kolliderer med mentioner
heliotropes kolliderer med neurospora
depravement kolliderer med serafins
stylist kolliderer med subgenera
joyful kolliderer med synaphea
redescribed kolliderer med urites
dram kolliderer med vivency

DJB2a kollisjoner

haggadot kolliderer med loathsomenesses
adorablenesses kolliderer med rentability
playwright kolliderer med snush
playwrighting kolliderer med snushing
treponematoses kolliderer med waterbeds

CRC32-kollisjoner

codding kolliderer med gnu
exhibiters kolliderer med schlager

SuperFastHash-kollisjoner

dahabiah kolliderer med drapability
encharm kolliderer med enclave
grahams kolliderer med gramary
… klipp 79 kollisjoner …
night kolliderer med vigil
kolliderer med vigils
finks kolliderer med vinic

Randomnessification

Det andre subjektive målet er hvor tilfeldig fordelt hasjene er. Kartlegging av de resulterende HashTables viser hvor jevnt dataene distribueres. Alle hashfunksjonene viser god fordeling når du kartlegger tabellen lineært: