Quando dovrei usare la convoluzione 3D?

Sono nuovo alle reti neurali convoluzionali e sto imparando la convoluzione 3D. Quello che ho potuto capire è che la convoluzione 2D ci fornisce relazioni tra le caratteristiche di basso livello nella dimensione XY, mentre la convoluzione 3D aiuta a rilevare le caratteristiche di basso livello e le relazioni tra loro in tutte e 3 le dimensioni.

Considera un CNN che utilizza strati convoluzionali 2D per riconoscere le cifre scritte a mano. Se una cifra, ad esempio 5, è stata scritta in colori diversi:

inserisci qui la descrizione dellimmagine

Una CNN rigorosamente 2D avrebbe prestazioni scadenti (poiché appartengono a canali diversi nella dimensione z)?

Inoltre, esistono reti neurali ben note che impiegano il 3D convoluzione?

Commenti

  • Le convoluzioni 3D sono comunemente utilizzate per lelaborazione di immagini 3D come le scansioni MRI.
  • Esistono delle pubblicazioni su architetture 3D Conv?
  • @Shobhit ha dato la risposta da ashenoy, cè qualche parte della tua domanda a cui non è stata ancora data risposta?

Risposta

Le CNN 3D vengono utilizzate quando desideri estrarre elementi in 3 dimensioni o stabilire una relazione tra 3 dimensioni.

Essenzialmente è la stessa di Convoluzioni 2D ma il movimento del kernel è ora tridimensionale, causando una migliore cattura delle dipendenze allinterno delle 3 dimensioni e una differenza in o dimensioni di output dopo la convoluzione.

Il kernel su convoluzione si sposterà in 3 dimensioni se la profondità del kernel è inferiore alla profondità della mappa delle caratteristiche.

questo

Daltra parte le convoluzioni 2-D su dati 3-D significano che il kernel attraverserà solo 2-D. Ciò accade quando la profondità della mappa delle caratteristiche è la stessa della profondità del kernel (canali)

qui

Alcuni casi duso per una migliore comprensione are – scansioni MRI in cui deve essere compresa la relazione tra una pila di immagini; e un estrattore di funzionalità di basso livello per dati spazio-temporali come video per riconoscimento gestuale, previsioni del tempo, ecc. (le CNN tridimensionali vengono utilizzate come estrattori di funzionalità di basso livello solo su più intervalli brevi poiché le CNN 3D non riescono a catturare a lungo termine dipendenze spazio-temporali: per ulteriori informazioni, controlla ConvLSTM o una prospettiva alternativa qui . ) La maggior parte dei modelli CNN che apprendono dai dati video hanno quasi sempre la CNN 3D come estrattore di funzionalità di basso livello.

Nellesempio che hai citato sopra per quanto riguarda il numero 5 – le convoluzioni 2D probabilmente funzionerebbero meglio, poiché “stai trattando lintensità di ogni canale come un aggregato delle informazioni che contiene, il che significa che lapprendimento sarebbe quasi il come se fosse su unimmagine in bianco e nero. Luso della convoluzione 3D per questo, daltra parte, provocherebbe lapprendimento delle relazioni tra i canali che in questo caso non esistono! (Anche le convoluzioni 3D su unimmagine con profondità 3 richiederebbero un kernel non comune da utilizzare, specialmente per il caso duso)

Spero che la tua query sia stata cancellata!

Risposta

Le convoluzioni 3D dovrebbero essere utili quando si desidera estrarre elementi spaziali dallinput su tre dimensioni. Per la visione artificiale, vengono generalmente utilizzate su immagini volumetriche , che sono 3D.

Alcuni esempi sono classificare immagini 3D renderizzate e segmentazione di immagini mediche

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *