¿Qué algoritmo de hash es mejor para la singularidad y la velocidad?

Question

¿Qué algoritmo hash es mejor para la singularidad y la velocidad? Ejemplos de usos (buenos) incluyen diccionarios hash.

Sé que hay cosas como SHA-256 y cosas así, pero estos algoritmos son diseñado para ser seguro , lo que generalmente significa que son más lentos que los algoritmos que son menos únicos . Quiero un algoritmo hash diseñado para ser rápido, pero que siga siendo bastante único para evitar colisiones.

Comentarios

¿Con qué propósito, seguridad u otro?
@Orbling, para la implementación de un diccionario hash. Por lo tanto, las colisiones deben mantenerse al mínimo, pero no tiene ningún propósito de seguridad.
Tenga en cuenta que deberá esperar al menos algunas colisiones en su tabla hash; de lo contrario, el La tabla deberá ser enorme para poder manejar incluso un número relativamente pequeño de claves …
¡Excelente publicación! ¿Podrías también comprobar ‘ s Yann Collet ‘ s xxHash (creator o LZ4), que es dos veces más rápido que Murmur? Página de inicio: code.google.com/p/xxhash Más información: fastcompression.blogspot.fr/2012/ 04 / …
@zvrba Depende del algoritmo. bcrypt está diseñado para ser lento.

Answer 1

Probé algunos algoritmos diferentes, midiendo la velocidad y el número de colisiones .

Usé tres conjuntos de claves diferentes:

Una lista de 216,553 palabras en inglés ^{🕗 archivo} (en minúsculas)
Los números "1" a "216553" (piense en los códigos postales y cómo un hash deficiente acabó con msn.com ^{🕗 archivo})
216,553 » GUID aleatorios «(es decir, tipo 4 uuid )

Para cada corpus, el número de colisiones y el tiempo medio empleado en el hash fue grabado.

Probé:

DJB2
DJB2a (variante que usa xor en lugar de +)
FNV-1 (32 bits)
FNV-1a (32 bits)
SDBM
CRC32
Murmur2 (32 bits)
SuperFastHash

Resultados

Cada resultado contiene el tiempo hash promedio y el número de colisiones

Hash Lowercase Random UUID Numbers ============= ============= =========== ============== Murmur 145 ns 259 ns 92 ns 6 collis 5 collis 0 collis FNV-1a 152 ns 504 ns 86 ns 4 collis 4 collis 0 collis FNV-1 184 ns 730 ns 92 ns 1 collis 5 collis 0 collis▪ DBJ2a 158 ns 443 ns 91 ns 5 collis 6 collis 0 collis▪▪▪ DJB2 156 ns 437 ns 93 ns 7 collis 6 collis 0 collis▪▪▪ SDBM 148 ns 484 ns 90 ns 4 collis 6 collis 0 collis** SuperFastHash 164 ns 344 ns 118 ns 85 collis 4 collis 18742 collis CRC32 250 ns 946 ns 130 ns 2 collis 0 collis 0 collis LoseLose 338 ns - - 215178 collis

Notas :

El El algoritmo LoseLose (donde hash = hash + carácter) es realmente horrible . Todo choca en los mismos 1375 cubos
SuperFastHash es rápido, y las cosas se ven bastante dispersas; Dios mío, el número colisiones. Espero que el tipo que lo transfirió se haya equivocado; es bastante malo
CRC32 es bastante bueno . Más lento y una tabla de búsqueda de 1k

¿Se producen realmente las colisiones?

Sí. Comencé a escribir mi programa de prueba para ver si las colisiones hash realmente ocurren, y no son solo una construcción teórica.De hecho, ocurren:

Colisiones FNV-1

creamwove choca con quists

FNV -1a colisiones

costarring colisiona con liquid
declinate choca con macallums
altarage choca con zinke
altarages choca con zinkes

Murmur2 colisiones

cataract choca con periti
roquette choca con skivie
shawl choca con stormbound
dowlases choca con tramontane
cricketings choca con twanger
longans choca con whigs

colisiones DJB2

hetairas choca con mentioner
heliotropes choca con neurospora
depravement choca con serafins
stylist choca con subgenera
joyful choca con synaphea
redescribed choca con urites
dram choca con vivency

DJB2a collisions

haggadot choca con loathsomenesses
adorablenesses colisiona con rentability
playwright colisiona con snush
playwrighting choca con snushing
treponematoses choca con waterbeds

colisiones CRC32

codding choca con gnu
exhibiters choca con schlager

colisiones SuperFastHash

dahabiah choca con drapability
encharm choca con enclave
grahams choca con gramary
… snip 79 colisiones …
night choca con vigil
choca con vigils
finks choca con vinic

Aleatoriedad

La otra medida subjetiva es la distribución aleatoria de los hashes. El mapeo de las HashTables resultantes muestra cuán uniformemente se distribuyen los datos. Todas las funciones hash muestran una buena distribución al mapear la tabla linealmente: