Andrew Ng Stanfordの講義から機械学習を勉強していて、VC次元の理論に出くわしました。講義と私が理解したことによると、定義VC次元のは、次のように指定できます。
$ n $ポイントのセットが見つかった場合、分類子によって粉砕されます(つまり、可能なすべての$ 2 ^ n $ラベリングを正しく分類します)、粉砕できる$ n + 1 $ポイントのセットを見つけることができません(つまり、$ n + 1 $ポイントのセットには、少なくとも1つのラベリング順序があるため、分類子はすべてのポイントを正しく分離できない場合)、VC次元は$ n $です。
また、教授は例を挙げてこれをうまく説明しました。これは次のとおりです。
みましょう、
$ H = \ {{set \ of \ linear \ classifiers \ in \ 2 \ Dimensions \}} $
次に、任意の3つのポイントで次の図に示すように、ハイパープレーンを分離して$ H $で正しく分類されます。
これが、$ H $のVC次元が3である理由です。2D平面内の任意の4点に対して、線形分類器は次のことができます。ポイントのすべての組み合わせを粉砕するわけではありません。例:
Forこの点のセット、このセットを分類するために分離超平面を描画することはできません。したがって、VC次元は3です。
ここまでアイデアが浮かびます。しかし、「次のタイプのパターンがある場合はどうなりますか?
または3点が一致するパターン、ここでも3点間で分離超平面を描くことはできませんが、それでもこのパターンはVC次元の定義では考慮されていません。なぜですか?同じ点について、私がここで16:24 に見ている講義についても説明していますが、教授はこの背後にある正確な理由については言及していません。
説明の直感的な例があれば幸いです。ありがとう
コメント
- datascience.stackexchange.com/a/16146/23305から取得
- / a>
回答
VC次元の定義は次のとおりです。if分類子によって粉砕される可能性のあるn個のポイントのセットが存在します 存在しません分類器によって粉砕できるn + 1ポイントのセットの場合、分類器のVC次元はnです。
定義には次のようには書かれていません。の場合のn点のセットは分類器によって粉砕される可能性があります。 ..
分類器のVC次元が3の場合、可能な限りすべてを粉砕する必要はありません 3ポイントの配置。
3ポイントの配置すべての場合、少なくとも1つを見つけることができます。分類器によって粉砕される可能性があり、粉砕される可能性のある4つのポイントを見つけることができないような配置の場合、VC次元は3です。
コメント
- 次にこの場合、直線で分類できる任意の数の点のパターンを少なくとも1つ取得できます。たとえば、4つの点について考えます。左側に2つの赤い点、右側に2つの青い点があると、分類が可能になります。 VC次元は4になります。では、なぜこれを考慮しないのですか?
- 分類-はい。粉砕-いいえ
- では、の意味は何ですか。ポイントの配置を粉砕しますか?私は'ここで本当に混乱しています。ありがとう
- この配置のサブセットを分離して1つのクラスに入れることができれば、ポイントの配置を粉砕することができます。たとえば、n個のポイントの特定の配置(すべての可能な配置ではなく、1つの特定の配置のみ)が特定のタイプの分類器によって粉砕できるかどうかをテストするとします。次に、最初に単一のポイントを分離できるかどうかをテストします。次に、2つのポイントを分離できる場合は、3つのポイントなど、その特定の配置のn-1ポイントまで分離できます。こちらをご覧ください en.wikipedia.org/wiki/Shattered_set
- 8つのサブプロットの図は、何が粉砕されているかを非常によく表しています。ここでは、3つのポイント、2つのクラスがあるため、これら3つのポイントの2 ^ 3 = 8の可能なラベル付けが可能です。 8つのラベリングはすべて線で行い、分離できるため、このセットは線で粉砕できます。 4点の図:線で分離できるラベルがいくつかありますが(たとえば、左2つは赤、右2つは青)、線で分離できないラベルもあります(図のように:上部と下の青;左と右は左です)。線で分離できないラベルが付いているので、このセットは粉々になりません。