私は畳み込みニューラルネットワークを初めて使用し、3D畳み込みを学習しています。私が理解できたのは、2D畳み込みはXY次元の低レベルの特徴間の関係を提供し、3D畳み込みは3次元すべての低レベルの特徴とそれらの間の関係を検出するのに役立つということです。
手書きの数字を認識するために2D畳み込み層を採用するCNN。たとえば5の数字が異なる色で書かれている場合:
厳密に2DのCNNは(z次元の異なるチャネルに属しているため)パフォーマンスが低下しますか?
また、3Dを使用する実用的なよく知られたニューラルネットはありますか?畳み込み?
コメント
- 3D畳み込みは、MRIスキャンなどの3D画像の処理に一般的に使用されます。
- 出版物はありますか3D変換アーキテクチャについて?
- @Shobhitがashenoyから回答を得ましたが、まだ回答されていない質問の一部はありますか?
回答
3D CNNは、3次元で特徴を抽出したり、3次元間の関係を確立したりする場合に使用されます。
基本的には2D畳み込みですが、カーネルの動きは3次元になり、3次元内の依存関係とoの違いをより適切にキャプチャできるようになりました。畳み込み後の出力次元。
カーネルの深さがフィーチャマップの深さよりも小さい場合、畳み込みのカーネルは3次元で移動します。
一方、3Dデータの2D畳み込みは、カーネルが2Dでのみトラバースすることを意味します。これは、フィーチャマップの深さがカーネルの深さ(チャネル)と同じである場合に発生します
理解を深めるためのいくつかのユースケースは-画像のスタック間の関係を理解する必要があるMRIスキャン。ジェスチャ認識、天気予報などのビデオなどの時空間データ用の低レベルの特徴抽出器(3D CNNは長期間キャプチャできないため、3D CNNは複数の短い間隔でのみ低レベルの特徴抽出器として使用されます)時空間依存関係-詳細については、 ConvLSTM または別のパースペクティブこちらをご覧ください。 )ビデオデータから学習するほとんどのCNNモデルには、ほとんどの場合、低レベルの特徴抽出器として3DCNNがあります。
上記の例では、5〜2Dの畳み込みの数について前述した例では、すべてのチャネル強度を保持する情報の集合として扱うため、おそらくパフォーマンスが向上します。つまり、学習はほぼ白黒画像の場合と同じです。一方、これに3D畳み込みを使用すると、この場合には存在しないチャネル間の関係が学習されます!(また、深度3の画像での3D畳み込みには、非常に多くのことが必要になります。特にユースケースで使用される珍しいカーネル)
クエリがクリアされたことを願っています!
回答
3D畳み込みは、入力から3次元で空間的特徴を抽出する場合に必要です。コンピュータービジョンの場合、3D畳み込みは通常、ボリューム画像は3Dです。
いくつかの例は、 3Dレンダリングされた画像の分類と医療画像のセグメンテーション