Przeglądasz pliki ze spacjami w nazwach? [duplicate]

To pytanie ma już tutaj odpowiedzi :

Komentarze

Nie zgadzam się, że to byłby duplikat. Zaakceptowana odpowiedź to sposób na zapętlenie nazw plików ze spacjami; to nie ma nic wspólnego z ", dlaczego zapętla się po wyjściu find ' s zły sposób postępowania ". Znalazłem to pytanie (nie drugie), ponieważ muszę przeglądać nazwy plików ze spacjami, jak w: dla pliku w $ LIST_OF_FILES; do … gdzie $ LIST_OF_FILES nie jest wynikiem działania find; to ' to tylko lista nazw plików (oddzielonych znakami nowego wiersza).
@CarloWood – nazwy plików mogą zawierać znaki nowej linii, więc Twoje pytanie jest raczej niepowtarzalne: lista nazw plików, które mogą zawierać spacje, ale nie mogą zawierać znaków nowej linii. Myślę, że ' będziesz musiał użyć techniki IFS, aby wskazać, że przerwa ma miejsce w ' \ n '
@ Diagon-woah, nigdy nie zdawałem sobie sprawy, że nazwy plików mogą zawierać znaki nowej linii. Używam głównie (tylko) linux / UNIX, a nawet spacje są rzadkie; Z pewnością nigdy w całym moim życiu nie widziałem używania nowych linii: str. Równie dobrze mogliby tego zabronić imho.
@CarloWood – nazwy plików kończą się wartością zerową (' \ 0 ' , tak samo jak ' '). Wszystko inne jest dopuszczalne.
@CarloWood Musisz pamiętać, że ludzie głosują jako pierwsi, a czytają jako drudzy …

Odpowiedz

Krótka odpowiedź (najbliższa Twojej odpowiedzi, ale zawiera spacje)

OIFS="$IFS" IFS=$"\n" for file in `find . -type f -name "*.csv"` do echo "file = $file" diff "$file" "/some/other/path/$file" read line done IFS="$OIFS"

Lepsza odpowiedź (obsługuje również symbole wieloznaczne i znaki nowej linii w nazwach plików)

find . -type f -name "*.csv" -print0 | while IFS= read -r -d "" file; do echo "file = $file" diff "$file" "/some/other/path/$file" read line </dev/tty done

Najlepsza odpowiedź (na podstawie Gilles ” answer )

find . -type f -name "*.csv" -exec sh -c " file="$0" echo "$file" diff "$file" "/some/other/path/$file" read line </dev/tty " exec-sh {} ";"

Lub nawet lepiej, aby uniknąć uruchamiania jednego sh na plik:

find . -type f -name "*.csv" -exec sh -c " for file do echo "$file" diff "$file" "/some/other/path/$file" read line </dev/tty done " exec-sh {} +

Długa odpowiedź

Masz trzy problemy:

Domyślnie powłoka dzieli wyjście polecenia na spacje, tabulatory i znaki nowej linii
Nazwy plików mogą zawierać symbole wieloznaczne, które zostanie rozwinięty
Co się stanie, jeśli istnieje katalog, którego nazwa kończy się na *.csv?

1. Dzielenie tylko na nowej linii

Aby dowiedzieć się, na co ustawić file, powłoka musi pobrać dane wyjściowe find i jakoś zinterpretować, w przeciwnym razie file będzie po prostu całym wynikiem find .

Powłoka czyta zmienną IFS, która jest domyślnie ustawiona na <space><tab><newline>.

Następnie sprawdza każdy znak w wyniku find. Gdy tylko zobaczy dowolny znak znajdujący się „w IFS, myśli, że oznacza on koniec nazwy pliku, więc ustawia file do dowolnych znaków, które widział do tej pory i uruchamia pętlę. Następnie zaczyna się od miejsca, w którym zostało przerwane, aby pobrać nazwę następnego pliku i uruchamia następną pętlę itd., aż osiągnie koniec wyniku.

Więc to skutecznie robi to:

for file in "zquery" "-" "abc" ...

Aby nakazać mu dzielenie wejścia tylko na znaki nowej linii, musisz zrobić

IFS=$"\n"

przed poleceniem for ... find.

To ustawia IFS na pojedyncza nowa linia, więc dzieli się tylko na nowe linie, a nie spacje i tabulatory.

Jeśli używasz sh lub dash zamiast ksh93, bash lub zsh, musisz napisać IFS=$"\n" w ten sposób:

IFS=" "

To prawdopodobnie wystarczy aby skrypt działał, ale jeśli chcesz poprawnie obsłużyć inne przypadki narożne, czytaj dalej …

2. Rozwijanie $file bez symboli wieloznacznych

Wewnątrz pętli, gdzie robisz

diff $file /some/other/path/$file

powłoka próbuje rozwinąć $file (ponownie!).

Może zawierać spacje, ale ponieważ ustawiliśmy już IFS powyżej, to nie będzie tutaj problemem.

Ale może też zawierać symbole wieloznaczne, takie jak * lub ?, co prowadziłoby do nieprzewidywalnego zachowania. (Dzięki Gillesowi za wskazanie tego.)

Aby powiedzieć powłoce, aby nie rozwijała znaków wieloznacznych, umieść zmienną w podwójnych cudzysłowach, np.

diff "$file" "/some/other/path/$file"

Ten sam problem może nas również ugryźć

for file in `find . -name "*.csv"`

Na przykład, gdybyś miał te trzy pliki

file1.csv file2.csv *.csv

(bardzo mało prawdopodobne, ale nadal możliwe)

To byłoby tak, jakbyś uruchomił

for file in file1.csv file2.csv *.csv

który zostanie rozwinięty do

for file in file1.csv file2.csv *.csv file1.csv file2.csv

powodując file1.csv i file2.csv do przetworzenia dwukrotnie.

Zamiast tego musimy zrobić

find . -name "*.csv" -print | while IFS= read -r file; do echo "file = $file" diff "$file" "/some/other/path/$file" read line </dev/tty done

read czyta wiersze ze standardowego wejścia, dzieli je na słowa zgodnie z IFS i zapisuje je w nazwach zmiennych, które określisz.

Tutaj mówimy o tym nie dzielić wiersza na słowa i przechowywać wiersz w $file.

Należy również pamiętać, że zmieniło się na read line </dev/tty.

Dzieje się tak, ponieważ wewnątrz pętli standardowe wejście pochodzi z find przez potok.

Gdybyśmy właśnie wykonali read, zużywałoby to część lub całość nazwy pliku, a niektóre pliki zostałyby pominięte .

/dev/tty to terminal, z którego użytkownik uruchamia skrypt. Zauważ, że spowoduje to błąd, jeśli skrypt zostanie uruchomiony przez cron, ale zakładam, że w tym przypadku nie ma to znaczenia.

A co, jeśli nazwa pliku zawiera znaki nowej linii?

Możemy sobie z tym poradzić, zmieniając -print na -print0 i używając read -d "" na końcu pipeline:

find . -name "*.csv" -print0 | while IFS= read -r -d "" file; do echo "file = $file" diff "$file" "/some/other/path/$file" read char </dev/tty done

To sprawia, że find umieszcza pusty bajt na końcu nazwy każdego pliku. Puste bajty to jedyne znaki niedozwolone w nazwach plików, więc powinno obsługiwać wszystkie możliwe nazwy plików, nieważne jak dziwne.

Aby uzyskać nazwę pliku z drugiej strony, używamy IFS= read -r -d "".

Tam, gdzie powyżej użyliśmy read, użyliśmy domyślnego ogranicznika linii nowej linii, ale teraz find używa null jako separatora linii. W bash nie można „przekazać znaku NUL w argumencie do polecenia (nawet wbudowanych), ale bash rozumie -d "" w znaczeniu rozdzielany NUL . Dlatego używamy -d "", aby utworzyć read użyj tego samego separatora linii co find. Pamiętaj, że -d $"\0", nawiasem mówiąc, też działa, ponieważ bash brak obsługi bajtów NUL traktuje go jako pusty ciąg.

Aby być poprawnym, dodajemy również -r, który mówi, że nie obsługuj odwrotnych ukośników w nazwy plików specjalnie. Na przykład bez -r, \<newline> są usuwane, a \n jest konwertowane na n.

Bardziej przenośny sposób pisania, który nie wymaga bash ani zsh lub pamiętając o wszystkich powyższych zasadach dotyczących bajtów zerowych (ponownie dzięki Gilles):

find . -name "*.csv" -exec sh -c " file="$0" echo "$file" diff "$file" "/some/other/path/$file" read char </dev/tty " exec-sh {} ";"

* 3. Pomijanie katalogów, których nazwy kończą się na .csv

find . -name "*.csv"

będą również pasować do katalogów o nazwie something.csv.

Aby tego uniknąć, dodaj -type f do polecenia find.

find . -type f -name "*.csv" -exec sh -c " file="$0" echo "$file" diff "$file" "/some/other/path/$file" read line </dev/tty " exec-sh {} ";"

Jak wskazuje glenn jackman , w obu tych przykładach polecenia do wykonania dla każdego pliku to są uruchamiane w podpowłoce, więc jeśli zmienisz jakiekolwiek zmienne wewnątrz pętli, zostaną one zapomniane.

Jeśli musisz ustawić zmienne i nadal je ustawiać na końcu pętli możesz go przepisać tak, aby używał podstawiania procesów w następujący sposób:

i=0 while IFS= read -r -d "" file; do echo "file = $file" diff "$file" "/some/other/path/$file" read line </dev/tty i=$((i+1)) done < <(find . -type f -name "*.csv" -print0) echo "$i files processed"

Zauważ, że jeśli spróbujesz skopiować i wkleić to z linii poleceń , read line zużyje echo "$i files processed", więc to polecenie nie zostanie uruchomione.

Aby tego uniknąć, może usunąć read line </dev/tty i wysłać wynik na pager, taki jak less.

UWAGI

Usunąłem średniki (;) wewnątrz pętla. Jeśli chcesz, możesz je odłożyć z powrotem, ale nie są one potrzebne.

Obecnie $(command) jest bardziej powszechne niż `command`. Dzieje się tak głównie dlatego, że łatwiej jest napisać $(command1 $(command2)) niż `command1 \`command2\``.

read char tak naprawdę nie czyta znaku.Czyta cały wiersz, więc zmieniłem go na read line.

Komentarze

umieszczając while w potoku może powodować problemy z utworzoną podpowłoką (na przykład zmienne w bloku pętli są niewidoczne po zakończeniu polecenia). W przypadku basha użyłbym przekierowania danych wejściowych i podstawiania procesów: while read -r -d $'\0' file; do ...; done < <(find ... -print0)
Jasne, lub używając heredoc: while read; do; done <<EOF "$(find)" EOF . Nie jest to jednak takie łatwe do odczytania.
@glenn jackman: Właśnie próbowałem dodać więcej wyjaśnień. Czy właśnie to poprawiłem czy gorzej?
Nie ' nie potrzebujesz IFS, -print0, while i read jeśli obsłużysz find do końca, jak pokazano poniżej w moim rozwiązaniu.
Twoje pierwsze rozwiązanie poradzi sobie z każdym znakiem z wyjątkiem nowej linii jeśli wyłączysz również globbing za pomocą set -f.

Odpowiedz

Ten skrypt kończy się niepowodzeniem, jeśli jakakolwiek nazwa pliku zawiera spacje lub znaki globalizacji powłoki \[?*. Polecenie find wyświetla jedną nazwę pliku w każdym wierszu. Następnie podstawienie polecenia `find …` jest oceniane przez powłokę w następujący sposób:

Wykonaj polecenie find, pobierz jego wynik.
Podziel wyjście find na osobne słowa. Każdy biały znak jest separatorem wyrazów.
Dla każdego słowa, jeśli jest to wzorzec globowania, rozwiń go do listy plików, do których pasuje.

Na przykład: załóżmy, że w bieżącym katalogu znajdują się trzy pliki o nazwach `foo* bar.csv, foo 1.txt i foo 2.txt.

Polecenie find zwraca ./foo* bar.csv.
Powłoka dzieli ten ciąg w miejscu, tworząc dwa słowa: ./foo* i bar.csv.
Ponieważ ./foo* zawiera globujący metaznak, jest on rozszerzany do listy pasujących plików: ./foo 1.txt i ./foo 2.txt.
Dlatego pętla for jest wykonywana kolejno z ./foo 1.txt, ./foo 2.txt i bar.csv.

Większość problemów na tym etapie można uniknąć, stonując podział na słowa i obracając wypuszczanie globbingu. Aby złagodzić podział na słowa, ustaw zmienną IFS na pojedynczy znak nowej linii; w ten sposób wynik find zostanie podzielony tylko na znaki nowej linii, a spacje pozostaną. Aby wyłączyć globowanie, uruchom set -f. Wtedy ta część kodu będzie działać tak długo, jak długo żadna nazwa pliku nie zawiera znaku nowej linii.

IFS=" " set -f for file in $(find . -name "*.csv"); do …

(To nie jest część twojego problemu, ale ja zalecamy używanie $(…) zamiast `…`. Mają to samo znaczenie, ale wersja z cudzysłowami ma dziwne zasady cytowania.)

Jest jeszcze jeden problem poniżej: diff $file /some/other/path/$file powinno być

diff "$file" "/some/other/path/$file"

W przeciwnym razie wartość $file jest podzielone na słowa, a słowa są traktowane jako wzorce glob, tak jak w powyższym poleceniu substutio. Jeśli musisz pamiętać o programowaniu powłoki, pamiętaj o tym: zawsze używaj podwójnych cudzysłowów wokół rozszerzeń zmiennych ($foo) i podstawień poleceń ( $(bar)) , chyba że wiesz, że chcesz podzielić. (Powyżej wiedzieliśmy, że chcemy podzielić wynik find na wiersze).

Niezawodny sposób wywoływania find mówi mu, aby uruchomił polecenie dla każdego znalezionego pliku:

find . -name "*.csv" -exec sh -c " echo "$0" diff "$0" "/some/other/path/$0" " {} ";"

W tym przypadku innym podejściem jest porównanie dwóch katalogów, chociaż musisz jawnie wyklucz wszystkie „nudne” pliki.

diff -r -x "*.txt" -x "*.ods" -x "*.pdf" … . /some/other/path

Komentarze

I ' d zapomniałem o znakach wieloznacznych jako kolejnym celu do poprawnego cytowania. Dzięki! 🙂
zamiast find -exec sh -c 'cmd 1; cmd 2' ";" należy użyć find -exec cmd 1 {} ";" -exec cmd 2 {} ";", ponieważ powłoka musi maskować parametry, ale nie znajduje ' t. W tym szczególnym przypadku echo " $ 0 " nie ' nie musi być część skryptu, po prostu dołącz -print po ';'. Nie ' nie zawierał pytania, aby kontynuować, ale nawet to można zrobić za pomocą funkcji find, jak pokazano poniżej w moim soulution. 😉
@userunknown: użycie {} jako podłańcucha parametru w find -exec nie jest przenośne, że ' jest powodem, dla którego ta powłoka jest potrzebna.Nie ' nie rozumiem, co masz na myśli, mówiąc „powłoka musi maskować parametry”; jeśli ' dotyczy cytowania, moje rozwiązanie jest poprawnie cytowane. Masz ' masz rację, że część echo mogłaby zostać wykonana przez -print. -okdir to całkiem nowe rozszerzenie GNU find, ' nie wszędzie jest dostępne. Nie ' nie uwzględniam czasu oczekiwania na kontynuację, ponieważ uważam, że bardzo słaby interfejs użytkownika, a osoba pytająca może łatwo umieścić read we fragmencie powłoki, on chce.
Cytowanie jest formą maskowania, czy to nie ' prawda? Nie ' nie rozumiem twojej uwagi na temat tego, co jest przenośne, a co nie. Twój przykład (drugi od dołu) używa -exec do wywołania sh i używa {} – więc gdzie jest mój przykład (obok -okdir) mniej przenośny? find . -name "*.csv" -exec diff {} /some/other/path/{} ";" -print
„Maskowanie” nie jest ' t popularną terminologią w literaturze powłoki, więc ' Będę musiał wyjaśnić, co masz na myśli, jeśli chcesz być zrozumiany. W moim przykładzie {} użyto tylko raz i jako oddzielny argument; inne przypadki (używane dwukrotnie lub jako podciąg) nie są przenośne. „Przenośny” oznacza, że ' będzie działać na wszystkich systemach uniksowych; dobrą wskazówką jest specyfikacja POSIX / Single Unix .

Odpowiedź

Zaskoczyło mnie, że nie wspomniano o readarray. Dzięki temu jest to bardzo łatwe w połączeniu z <<< operator:

$ touch oneword "two words" $ readarray -t files <<<"$(ls)" $ for file in "${files[@]}"; do echo "|$file|"; done |oneword| |two words|

Użycie konstrukcji <<<"$expansion" umożliwia również dzielenie zmiennych zawierających znaki nowej linii na tablice, na przykład :

$ string=$(dmesg) $ readarray -t lines <<<"$string" $ echo "${lines[0]}" [ 0.000000] Initializing cgroup subsys cpuset

readarray jest w Bash od lat, więc prawdopodobnie powinno to być kanoniczne rozwiązanie to w Bash.

Odpowiedź

Afaik find ma wszystko, czego potrzebujesz.

find . -okdir diff {} /some/other/path/{} ";"

find dba o to, aby wywoływać programy w sposób rozsądny. -okdir zapyta Cię przed różnicą (czy na pewno tak / nie).

Bez powłoki, bez globowania, jokerów pi, pa, po.

Na marginesie: jeśli połączysz find z for / while / do / xargs, w większości przypadków y robisz to źle. 🙂

Komentarze

Dziękuję za odpowiedź. Dlaczego robisz to źle, jeśli połączysz znajdowanie z for / while / do / xargs?
Find już iteruje po podzbiorze plików. Większość osób, które pojawiają się z pytaniami, może po prostu użyć jednej z akcji (-ok (dir) -exec (dir), -delete) w połączeniu z "; " lub + (później dla wywołań równoległych). Głównym powodem jest to, że nie ' nie musisz majstrować przy parametrach plików, maskując je dla powłoki. Nie jest to takie ważne: nie potrzebujesz ' nowych procesów przez cały czas, mniej pamięci, więcej szybkości. krótszy program.
Nie tutaj, aby zmiażdżyć Twojego ducha, ale porównaj: time find -type f -exec cat "{}" \; z time find -type f -print0 | xargs -0 -I stuff cat stuff. Wersja xargs była szybsza o 11 sekund podczas przetwarzania 10000 pustych plików. Zachowaj ostrożność, gdy zapewniasz, że w większości przypadków połączenie find z innymi narzędziami jest błędne. -print0 i -0 służą do radzenia sobie ze spacjami w nazwach plików, używając bajtu zerowego jako separatora pozycji zamiast spacji.
@JonathanKomar: Twoje polecenie find / exec zajęło 11,7 s na moim systemie z 10.000 plików, wersja xargs 9.7 s, time find -type f -exec cat {} + jak sugerowałem w moim poprzednim komentarzu, zajęło 0,1 s. Zwróć uwagę na różnicę między " jest nieprawidłowy " i " Ty ' robię to źle ", zwłaszcza gdy jest ozdobiony uśmiechem. Czy na przykład zrobiłeś to źle? 😉 BTW, spacje w nazwie pliku nie stanowią problemu dla powyższego polecenia i znajdują się w ogóle. Kultowy programista Cargo? Nawiasem mówiąc, połączenie znajdowania z innymi narzędziami jest w porządku, po prostu xargs jest przez większość czasu zbyteczny.
@userunknown Wyjaśniłem, jak mój kod radzi sobie z przestrzeniami dla potomności (edukacja przyszłych widzów) i nie oznacza to, że Twój kod nie. Jak wspomniałeś, + dla połączeń równoległych jest bardzo szybki. Nie powiedziałbym, że jest to kultowy programista cargo, ponieważ ta możliwość wykorzystania xargs w ten sposób przydaje się przy wielu okazjach. Bardziej zgadzam się z filozofią Uniksa: rób jedną rzecz i rób to dobrze (używaj programów oddzielnie lub w połączeniu, aby wykonać zadanie). find idzie tam po cienkiej linii.

Odpowiedź

Przejrzyj dowolne pliki ( dowolny znak specjalny, włączając w to całkowicie bezpieczne znalezienie (zobacz link do dokumentacji):

exec 9< <( find "$absolute_dir_path" -type f -print0 ) while IFS= read -r -d "" -u 9 do file_path="$(readlink -fn -- "$REPLY"; echo x)" file_path="${file_path%x}" echo "START${file_path}END" done

Komentarze

Dziękujemy za wspomnienie o -d ''. Nie ' nie zdawałem sobie sprawy, że $'\0' to to samo co '', ale wydaje się, że być. Również dobre rozwiązanie.
Podoba mi się oddzielenie funkcji find i while, dzięki.

Odpowiedź

Jestem zaskoczony, że nikt jeszcze nie wspomniał tutaj o oczywistym zsh rozwiązaniu:

for file (**/*.csv(ND.)) { do-something-with $file }

((D), aby uwzględnić również ukryte pliki, (N), aby uniknąć błędu w przypadku braku dopasowania, (.), aby ograniczyć do zwykłych plików.)

bash4.3 i nowsze również obsługują go częściowo:

shopt -s globstar nullglob dotglob for file in **/*.csv; do [ -f "$file" ] || continue [ -L "$file" ] && continue do-something-with "$file" done

Odpowiedź

Nazwy plików ze spacjami wyglądają jak wiele nazw w wierszu poleceń, jeśli ” nie są cytowane. Jeśli plik nosi nazwę „Hello World.txt”, linia różnic rozwija się do:

diff Hello World.txt /some/other/path/Hello World.txt

, co wygląda jak cztery nazwy plików. Po prostu wstaw cudzysłowy wokół argumentów:

diff "$file" "/some/other/path/$file"

Komentarze

To pomaga, ale nie ' t rozwiąż mój problem. Nadal widzę przypadki, w których plik jest dzielony na wiele tokenów.
Ta odpowiedź jest myląca. Problemem jest polecenie for file in `find . -name "*.csv"`. Jeśli istnieje plik o nazwie Hello World.csv, file zostanie ustawiony na ./Hello, a następnie na World.csv. Cytując $file wygrałem ' t pomoc.

Odpowiedź

Podwójne cudzysłowy to twój przyjaciel.

diff "$file" "/some/other/path/$file"

W przeciwnym razie zawartość zmiennej zostanie podzielona na słowa.

Komentarze

To jest mylące. Problemem jest polecenie for file in `find . -name "*.csv"`. Jeśli istnieje plik o nazwie Hello World.csv, file zostanie ustawiony na ./Hello, a następnie na World.csv. Cytując $file won ' t help.

Odpowiedź

W bash4 możesz również użyć wbudowanej funkcji mapfile, aby ustawić tablicę zawierającą poszczególne wiersze i wykonać iterację na tej tablicy.

$ tree . ├── a │ ├── a 1 │ └── a 2 ├── b │ ├── b 1 │ └── b 2 └── c ├── c 1 └── c 2 3 directories, 6 files $ mapfile -t files < <(find -type f) $ for file in "${files[@]}"; do > echo "file: $file" > done file: ./a/a 2 file: ./a/a 1 file: ./b/b 2 file: ./b/b 1 file: ./c/c 2 file: ./c/c 1

Odpowiedź

Spacji w wartościach można uniknąć dzięki tak prostej konstrukcji pętli for

for CHECK_STR in `ls -l /root/somedir` do echo "CHECKSTR $CHECK_STR" done

ls -l root / somedir c ontains mój plik ze spacjami

Wyjście powyższego pliku ze spacjami

Aby uniknąć tego wyjścia, proste rozwiązanie (zwróć uwagę na podwójne cudzysłowy)

for CHECK_STR in "`ls -l /root/somedir`" do echo "CHECKSTR $CHECK_STR" done

wyślij mój plik ze spacjami

wypróbowano na bash

Komentarze

„Zapętlanie plików ”- tak brzmi pytanie. Twoje rozwiązanie zwróci całe ls -l dane wyjściowe naraz . Jest to odpowiednik echo "CHECKSTR `ls -l /root/somedir`".

Dodaj komentarz Anuluj pisanie odpowiedzi