Care algoritm de hash este cel mai bun pentru unicitate și viteză?

Question

Care algoritm de hash este cel mai bun pentru unicitate și viteză? Exemple de utilizări (bune) includ dicționare hash.

Știu că există lucruri precum SHA-256 și altele, dar acești algoritmi sunt proiectat pentru a fi sigur , ceea ce înseamnă, de obicei, că este mai lent decât algoritmii care sunt mai puțin unice . Vreau ca un algoritm hash proiectat să fie rapid, dar să rămână destul de unic pentru a evita coliziunile.

Comentarii

În ce scop, securitate sau altele?
@Orbling, pentru implementarea unui dicționar hash. Deci, coliziunile ar trebui să fie reduse la un nivel minim, dar nu are deloc un scop de securitate.
Rețineți că va trebui să vă așteptați la cel puțin unele coliziuni în tabelul dvs. hash, altfel tabelul va trebui să fie enorm pentru a putea gestiona chiar și un număr relativ mic de chei …
Post excelent! Ați putea verifica și ‘ s Yann Collet ‘ s xxHash (creator sau LZ4), care este de două ori mai rapid decât Murmur? Pagina principală: code.google.com/p/xxhash Mai multe informații: fastcompression.blogspot.fr/2012/ 04 / …
@zvrba Depinde de algoritm. bcrypt este conceput pentru a fi lent.

Answer 1

Am testat câțiva algoritmi diferiți, măsurând viteza și numărul de coliziuni .

Am folosit trei seturi de chei diferite:

O listă de 216.553 de cuvinte în limba engleză ^{🕗 arhivă} (cu litere mici)
Numerele "1" până la "216553" (gândiți-vă la coduri poștale și cum un hash slab a luat jos msn.com / a> 🕗 arhivă )
216.553 ” aleatoriu „(de exemplu, tip 4 uuid ) GUID-uri

Pentru fiecare corpus, numărul de coliziuni și timpul mediu petrecut în hash a fost înregistrat.

Am testat:

DJB2
DJB2a (varianta care utilizează xor mai degrabă decât +)
FNV-1 (32 de biți)
FNV-1a (32 de biți)
SDBM
CRC32
Murmur2 (32 de biți)
SuperFastHash

Rezultate

Fiecare rezultat conține timpul de hash mediu și numărul de coliziuni

Hash Lowercase Random UUID Numbers ============= ============= =========== ============== Murmur 145 ns 259 ns 92 ns 6 collis 5 collis 0 collis FNV-1a 152 ns 504 ns 86 ns 4 collis 4 collis 0 collis FNV-1 184 ns 730 ns 92 ns 1 collis 5 collis 0 collis▪ DBJ2a 158 ns 443 ns 91 ns 5 collis 6 collis 0 collis▪▪▪ DJB2 156 ns 437 ns 93 ns 7 collis 6 collis 0 collis▪▪▪ SDBM 148 ns 484 ns 90 ns 4 collis 6 collis 0 collis** SuperFastHash 164 ns 344 ns 118 ns 85 collis 4 collis 18742 collis CRC32 250 ns 946 ns 130 ns 2 collis 0 collis 0 collis LoseLose 338 ns - - 215178 collis

Note :

Algoritmul LoseLose (unde hash = hash + caracter) este cu adevărat îngrozitor . Totul se ciocnește în aceleași 1.375 de găleți
SuperFastHash este rapid, lucrurile arătând destul de împrăștiate; după bunătatea mea, coliziunile număr . Sper că tipul care l-a portat a greșit ceva; este destul de rău
CRC32 este destul de bun . Mai lent și un tabel de căutare de 1k

Se întâmplă efectiv coliziunile?

Da. Am început să scriu programul meu de testare pentru a vedea dacă se întâmplă coliziuni hash de fapt – și nu sunt doar o construcție teoretică.Într-adevăr, se întâmplă:

Coliziuni FNV-1

creamwove se ciocnește de quists

FNV -1a coliziuni

costarring se ciocnește cu liquid
declinate se ciocnește cu macallums
altarage se ciocnește cu zinke
altarages se ciocnește cu zinkes

Coliziuni Murmur2

cataract se ciocnește cu periti
roquette se ciocnește cu skivie
shawl se ciocnește cu stormbound
dowlases se ciocnește cu tramontane
cricketings se ciocnește cu twanger
longans se ciocnește cu whigs

coliziuni DJB2

hetairas se ciocnește cu mentioner
heliotropes se ciocnește cu neurospora
depravement se ciocnește cu serafins
stylist se ciocnește cu subgenera
joyful se ciocnește cu synaphea
redescribed se ciocnește cu urites
dram se ciocnește cu vivency

coliziuni DJB2a

haggadot se ciocnește cu loathsomenesses
adorablenesses se ciocnește cu rentability
playwright se ciocnește cu snush
playwrighting se ciocnește cu snushing
treponematoses se ciocnește cu waterbeds

coliziuni CRC32

codding se ciocnește cu gnu
exhibiters se ciocnește cu schlager

coliziuni SuperFastHash

dahabiah se ciocnește cu drapability
encharm se ciocnește cu enclave
grahams se ciocnește cu gramary
… trage 79 de coliziuni …
night se ciocnește cu vigil
se ciocnește cu vigils
finks se ciocnește cu vinic

Randomnessification

Cealaltă măsură subiectivă este cât de distribuite aleatoriu sunt hashurile. Cartarea HashTables rezultate arată cât de uniform sunt distribuite datele. Toate funcțiile hash prezintă o distribuție bună la maparea liniară a tabelului: