Skillnaden mellan två liknande stora råa binära filer

Question

Låt oss säga att jag har en 4 GB-fil abc på min lokal dator. Jag har laddat upp den till en avlägsen server via SFTP, det tog några timmar.

Nu har jag modifierat filen lite (troligen 50 MB maximalt, men inte på varandra följande byte i den här filen) lokalt, och sparade den i abc2. Jag behöll också originalfilen abc på min lokala dator.

Hur man beräknar en binär diff på abc och abc2?

Applikationer:

Jag kunde bara skicka en patch -fil (troligen max 100 MB) till den avlägsna servern istället för att ladda upp hela abc2 -filen (det skulle ta några timmar igen!) och återskapa abc2 på den avlägsna endast från abc och patch.
Lokalt, istället för att slösa bort 8 GB för att säkerhetskopiera både abc och abc2, kunde jag bara spara abc + patch, så det tar < endast 4100 MB.

Hur gör man det?

PS: för text vet jag diff, men här letar jag efter något som kan fungera för alla råa binära format, det kan vara zip-filer eller körbara filer eller till och med andra typer av filer.

PS2: Om möjligt vill jag inte använda rsync; Jag vet att det kan replikera ändringar mellan två datorer på ett effektivt sätt (inte skicka data som inte har ändrats), men här vill jag verkligen ha en patch -fil, som kan reproduceras senare om Jag har både abc och patch.

Answer 1

Hur man beräknar en binär diff av abc och abc2?

Med bsdiff / bspatch eller xdelta och andra.

$ bsdiff older newer patch.bin # patch.bin is created [...] $ bspatch older newer patch.bin # newer is created

Dessa förmaningar från man-sidorna bör dock noteras:

bsdiff använder minne som är lika med 17 gånger storleken på oldfile , och kräver en absolut minsta arbetsuppsättningsstorlek på 8 gånger storleken på oldfile .
bspatch använder minne som är lika med storleken på oldfile plus storleken på newfile , men tål en mycket liten arbetsuppsättning utan en dramatisk förlust av prestanda.

Kommentarer

Kan du eventuellt visa ett exempel?
Tack för ditt svar. bsdiff uses memory equal to 17 times the size of oldfile så det här vinner ’ fungerar vanligtvis inte för 4 GB-filer (åtminstone på min 8 GB RAM-maskin).
@Basj Vad som är möjligt är att hugga upp 4 GB-filen i mindre (säg 128 MB vardera) och göra enskilda deltor. Detta kan läggas in i ett manus. chopped-bsdiff: hugga filerna, gör parvis bsdiffs, tjära upp dem i ett arkiv. chopped-bspatch: läs parvisa fläckar från arkivet, tillämpas på bitar av inmatningsfilen, catenate output.
@Kaz ser jag, men jag ’ m mer ute ett färdigt verktyg som kan anropas på en rad (mydiff abc abc2 > patchfile och mypatch abc patchfile > abc3) oavsett storlek. Om jag hackar i 128 MB bitar, vad händer om den första 1 GB abc == den sista (efterföljande) 1 GB abc2 ? När vi ’ jämför abc-first128mb med abc2-first128mb, kommer ingen matchning att hittas, så det kanske inte är effektiv?

Answer 2

Har du försökt att bara tvinga diff för att behandla filerna som text:

diff -ua abc abc2

Som förklaras här .

-u utgång NUM (standard 3) rader i enhetligt sammanhang
-a behandla alla filer som text

Detta skulle ge dig en korrigering. Nackdelen med detta är att ”raderna” kan vara ganska långa och det kan svälla plåstret. id = ”c166a34583”>

Answer 3

Använd xdelta , det skapades exakt för denna typ av användning. Baserat på VCDIFF (RFC 3284) i de senaste versionerna.

Kommentarer

Länken fungerar inte (finns det en annan URL?). Kan du också lägga till ett exempel på några rader för att visa hur du: 1) beräknar diff patch -filen och 2) återställer abc2 , ges endast abc och patch?
Tyvärr, fixad webbadress
Tack @vonbrand . Skulle du ha ett sådant exempel?

Answer 4

Kompletterar andra svar enligt mina tester:

Med `diff`

skapade jag två mycket lika 256 MB-filer abc och abc2. Låt oss sedan skapa diff-filen:

diff -ua abc abc2 > abc-abc2.diff

Låt oss försöka återställa abc2 tack vare original abc fil och abc-abc2.diff:

cp abc abc3 patch abc3 < abc-abc2.diff

eller

cp abc abc3 patch abc3 -i abc-abc2.diff

eller

patch abc -i abc-abc2.diff -o abc3

Det fungerar på Linux. Jag försökte också på Windows (patch.exe och diff.exe finns också), men av okänd anledning misslyckades det: den producerade abc3 -filen är bara 1KB istället för 256MB (I ” Uppdaterar det här svaret senare här).

Med `rsync`

Som detaljerat i det accepterade svaret fungerar detta:

rsync --only-write-batch=abc-abc2-diff abc2 abc cp abc abc3 rsync --read-batch=abc-abc2-diff abc3

Med `rdiff`

Så detaljerat i detta svara , det här är också en lösning:

rdiff signature abc abc-signature rdiff delta abc-signature abc2 abc-abc2-delta rdiff patch abc abc-abc2-delta abc3

Testat också på Windows med rdiff.exe från här och det fungerar.

Kommentarer

Jag ’ jag gissar att korrigeringen misslyckades i Windows eftersom den läste inmatningsfilen i ” text ” -läge som signalerar slutet på filen när den möter en KONTROLL -Z (byte 0x18) i inmatningsfilen. Detta är ett äldre läge från tidiga DOS-dagar då katalogen inte registrerade längden på filen och så beräknades fillängden baserat på antalet 512 byte sektorer. Om du kan säga till patch att öppna filen i binärt läge, bör den inte ’ inte ha detta fel.

Skillnaden mellan två liknande stora råa binära filer

Svar

Kommentarer

Svar

Kommentarer

Svar

Svar

Kommentarer

Svar

Med `diff`

Med `rsync`

Med `rdiff`

Kommentarer

Lämna ett svar Avbryt svar

Svar

Kommentarer

Svar

Kommentarer

Svar

Svar

Kommentarer

Svar

Med diff

Med rsync

Med rdiff

Kommentarer

Lämna ett svar Avbryt svar

Med `diff`

Med `rsync`

Med `rdiff`