Jsem nováček v konvolučních neuronových sítích a učím se 3D konvoluci. Mohl bych pochopit, že 2D konvoluce nám poskytuje vztahy mezi nízkoúrovňovými prvky v dimenzi XY, zatímco 3D konvoluce pomáhá detekovat nízkoúrovňové prvky a vztahy mezi nimi ve všech 3 dimenzích.
Zvažte a CNN využívající 2D konvoluční vrstvy k rozpoznávání ručně psaných číslic. Pokud byla číslice, například 5, napsána různými barvami:
Bude striktně 2D CNN fungovat špatně (protože patří do různých kanálů v dimenzi z)?
Existují také praktické dobře známé neurální sítě využívající 3D konvoluce?
Komentáře
- 3D konvoluce se běžně používají ke zpracování 3D obrazů, jako jsou MRI skeny.
- Existují nějaké publikace na architekturách 3D Conv?
- @Shobhit vzhledem k odpovědi ashenoy, existuje nějaká část vaší otázky, která dosud nebyla zodpovězena?
odpověď
3D CNN se používají, když chcete extrahovat prvky ve 3 dimenzích nebo navázat vztah mezi 3 dimenzemi.
V podstatě je to stejné jako 2D konvoluce, ale pohyb jádra je nyní 3-dimenzionální, což způsobuje lepší zachycení závislostí ve 3 dimenzích a rozdíl v o dimenze utput po konvoluci.
Jádro při konvoluci se bude pohybovat ve 3-dimenzích, pokud je hloubka jádra menší než hloubka mapy prvků.
Na druhé straně 2-D konvoluce na 3-D datech znamenají, že jádro bude procházet pouze ve 2-D. K tomu dochází, když je hloubka mapy prvků stejná jako hloubka jádra (kanály)
Některé případy použití pro lepší pochopení are – MRI skeny, kde je třeba chápat vztah mezi hromadou obrázků; a nízkoúrovňový extraktor funkcí pro časoprostorová data, jako jsou videa pro rozpoznávání gest, předpověď počasí atd. (3D-CNN se používají jako nízkoúrovňové extraktory funkcí pouze v několika krátkých intervalech, protože 3D CNN nedokážou dlouhodobě zachytit časoprostorové závislosti – další informace najdete ConvLSTM nebo alternativní perspektivu zde . ) Většina modelů CNN, které se učí z videodat, má téměř vždy 3D CNN jako nízkoúrovňový extraktor funkcí.
Ve výše uvedeném příkladu týkajícím se čísla 5 – 2D konvoluce by pravděpodobně fungovaly lépe, protože každou intenzitu kanálu považujete za souhrn informací, které obsahuje, což znamená, že učení by bylo téměř stejně jako na černobílém obrázku. Použití 3D konvoluce by na druhou stranu způsobilo učení vztahů mezi kanály, které v tomto případě neexistují! (Také 3D konvoluce na obrázku s hloubkou 3 by vyžadovaly velmi neobvyklé jádro, které se má použít, zejména pro případ použití)
Doufám, že váš dotaz byl vymazán!
Odpověď
3D konvoluce by se měly použít, pokud chcete ze svého vstupu extrahovat prostorové prvky ve třech rozměrech. U počítačového vidění se obvykle používají u objemových obrázků , které jsou 3D.
Některé příklady jsou klasifikace 3D vykreslených obrázků a segmentace lékařských obrazů