Andrew Ng Stanford 강의에서 머신 러닝을 공부하고 있는데 방금 VC 차원의 이론을 발견했습니다. 강의와 제가 이해 한 내용에 따르면 정의는 VC 차원의 길이는 다음과 같이 주어질 수 있습니다.
$ n $ 포인트 집합을 찾을 수 있다면 분류 자 (예 : 가능한 모든 $ 2 ^ n $ 라벨링을 올바르게 분류하고) 부서 질 수있는 $ n + 1 $ 포인트 세트를 찾을 수 없습니다 (즉, $ n + 1 $ 포인트 세트에 대해 적어도 하나의 라벨링 순서가 있으므로 분류자가 모든 점을 올바르게 분리 할 수 없음), VC 차원은 $ n $입니다.
또한 교수님이 예를 들어이를 잘 설명했습니다. 즉,
Let,
$ H = \ {{set \ of \ linear \ classifiers \ in \ 2 \ Dimensions \}} $
그러면 3 개의 포인트가 다음 그림과 같이 하이퍼 플레인을 분리하여 $ H $로 올바르게 분류됩니다.
그래서 $ H $의 VC 차원이 3입니다. 2D 평면의 4 개 점에 대해 선형 분류기는 포인트의 모든 조합을 깨뜨리지 마십시오. 예 :
이 점 세트, 이 세트를 분류하기 위해 별도의 하이퍼 평면을 그릴 수 없습니다. 따라서 VC 차원은 3입니다.
여기까지 아이디어를 얻었습니다. 하지만 패턴 유형을 “따르면 어떻게 될까요?
또는 세 점이 서로 일치하는 패턴, 여기서도 세 점 사이에 분리 된 하이퍼 평면을 그릴 수 없습니다. 그러나 여전히이 패턴은 VC 차원의 정의에서 고려되지 않습니다. 왜? 같은 요점은 제가 여기 16:24 에서보고있는 강의에서도 논의되지만 교수님은 정확한 이유를 언급하지 않았습니다.
설명의 직관적 인 예를 들어 주시면 감사하겠습니다. 감사합니다.
댓글
- datascience.stackexchange.com/a/16146/23305에서 가져옴
답변
VC 차원의 정의는 다음과 같습니다. if 분류 자에 의해 산산이 부서 질 수있는 n 개의 포인트 세트가 있으며 없음 분류 자에 의해 산산이 부서 질 수있는 n + 1 점의 집합 인 경우 분류 자의 VC 차원은 n입니다.
정의에는 다음과 같이 명시되어 있지 않습니다. n 개 포인트 중 가 분류기에 의해 산산조각이 날 수있는 경우. ..
분류 자의 VC 차원이 3 인 경우 가능한 모든 3 점 배열.
모든 3 점 배열 중 적어도 하나 를 찾을 수 있습니다. 분류 자에 의해 산산이 부서 질 수 있고 산산조각이 날 수있는 4 개의 점을 찾을 수없는 경우 VC 차원은 3입니다.
댓글
- 그런 다음 이 경우 직선으로 분류 할 수있는 점의 수에 관계없이 최소한 하나의 패턴을 얻을 수 있습니다. 예를 들어 4 개의 점에 대해 생각해보십시오. 왼쪽에 두 개의 빨간색 점과 오른쪽에있는 두 개의 파란색 점이 분류를 가능하게합니다. 그리고 VC 차원은 4가 될 것입니다. 그러면 왜 이것을 고려하지 않습니까?
- 분류 됨-예. 산산조각-아니요
- 그러면 포인트 배열을 깨뜨리는 것? 여기서 ' 정말 혼란 스럽습니다. 감사합니다
- 이 배열의 하위 집합을 분리하여 하나의 클래스에 넣을 수 있으면 포인트 배열이 산산조각이 날 수 있습니다. n 포인트의 특정 배열 (가능한 모든 배열은 아니지만 하나의 특정 배열 만)이 특정 유형의 분류기에 의해 산산이 부서 질 수 있는지 테스트하고 싶습니다. 그런 다음 먼저 단일 지점을 분리 할 수 있는지 테스트합니다. 그런 다음 2 개 지점이 분리 될 수 있다면 3 개 지점 등이 특정 배열의 n-1 개 지점까지 분리됩니다. 여기를 참조하십시오. en.wikipedia.org/wiki/Shattered_set
- 8 개의 서브 플롯이있는 그림은 산산조각이 나는 것을 아주 잘 보여줍니다. 여기에 3 개의 포인트, 2 개의 클래스가 있으므로이 3 개의 포인트에 대해 2 ^ 3 = 8 개의 가능한 라벨링이 가능합니다. 8 개의 라벨링을 모두 한 줄로 분리 할 수 있으므로이 세트는 한 줄로 산산이 조각 날 수 있습니다. 4 개의 점이있는 그림 : 선으로 분리 할 수있는 몇 가지 레이블 (예 : 왼쪽 2 개는 빨간색, 오른쪽 2 개는 파란색)이 있지만 선으로 분리 할 수없는 레이블도 있습니다 (그림에서와 같이 : 위쪽 및 아래쪽 파란색, 왼쪽과 오른쪽이 왼쪽). 선으로 분리 할 수없는 라벨링이있어 산산조각이 나지 않습니다.