기계 학습의 맥락에서 “ 기준 ”은 무엇을 의미합니까?

머신 러닝 및 데이터 과학의 맥락에서 “기준”은 무엇을 의미합니까?

누군가가 저를 썼습니다.

힌트 : 적절한 기준선은 약 200의 RMSE를 제공합니다.

그렇지 않습니다. 학습 데이터에 대한 내 예측 모델의 RMSE가 500 미만이면 좋다는 뜻입니까?

그리고 “기본 접근 방식”은 무엇일까요?

답변

기준은 매우 기본적인 모델 / 솔루션의 결과입니다. 일반적으로 기준선을 만든 다음 더 나은 결과를 얻기 위해 더 복잡한 솔루션을 만들려고합니다. 기준점보다 더 높은 점수를 얻으면 좋은 것입니다.

댓글

  • 그렇지만 이것이 내 요점에 정확히 무엇을 의미합니까? 두 인용구
  • 기준이 200이므로 더 나은 점수를 원합니다. 귀하의 경우 점수가 높을수록 낮을수록 좋습니다. 200 미만을 원합니다. 저는 ' 당신이 회귀를 다루고 있다고 가정합니다. 기준선에 가장 먼저 사용하는 것은 일반적인 최소 제곱 회귀입니다.

답변

기준선은 휴리스틱, 단순 요약 통계, 임의성 또는 기계 학습을 사용하여 데이터 세트에 대한 예측을 생성하는 방법입니다. 이러한 예측을 사용하여 기준의 성능 (예 : 정확도)을 측정 할 수 있습니다. 그러면이 측정 항목이 다른 머신 러닝 알고리즘과 비교되는 값이됩니다.

자세히 알아보기 :

머신 러닝 알고리즘은 입력 (특성) 데이터와 대상 변수 (또는 레이블) 간의 관계를 모델링하는 함수를 학습하려고합니다. 테스트 할 때 일반적으로 성능을 측정합니다. 예를 들면 다음과 같습니다. 알고리즘이 75 % 정확할 수 있습니다.하지만 이것은 무엇을 의미합니까? 기준선의 성능과 비교하여이 의미를 추론 할 수 있습니다.

일반적인 기준선에는 scikit-learn “의”더미 “추정량 :

분류 기준 :

  • stratified: 학습 세트의 클래스 분포를 고려하여 예측을 생성합니다.
  • most_frequent: 항상 학습 세트에서 가장 빈번한 라벨을 예측합니다.
  • prior: 항상 clas를 예측 클래스 사전을 최대화합니다.
  • “uniform”: 무작위로 균일하게 예측을 생성합니다.
  • “constant”: 항상 사용자가 제공하는 상수 레이블을 예측합니다.

비 다수 클래스를 평가하는 측정 항목에 유용합니다.

회귀 기준 :

  • “median”: 항상 훈련 세트의 중앙값을 예측합니다.
  • “quantile”: 항상 quantile 매개 변수와 함께 제공되는 훈련 세트의 지정된 분위수를 예측합니다.
  • “constant”: 항상 사용자가 제공하는 상수 값을 예측합니다.

일반적으로 접근 방식이 선택한 기준보다 성능이 더 좋기를 원할 것입니다. 위의 예에서 동일한 데이터에 대해 실행 한 기준보다 75 % 정확도가 더 높기를 원할 것입니다.

마지막으로 특정 기계 학습 영역 (예 : 추천인)을 다루는 경우 시스템), 그런 다음 일반적으로 현재의 최신 (SoTA) 접근 방식 인 기준선을 선택합니다. 일반적으로 접근 방식이 이러한 접근 방식보다 더 낫다는 것을 보여주고 싶기 때문입니다. 예를 들어, 새로운 협업 필터링 알고리즘을 평가하는 동안 매트릭스 인수 분해 (그 자체가 학습 알고리즘이지만 추천 시스템 연구에서 매우 성공적이기 때문에 현재 인기있는 기준이 됨)와 비교할 수 있습니다.

답변

머신 러닝 알고리즘이 많으므로 문제에 가장 적합한 ML 알고리즘을 알아야합니다. 이는 Baseline Prediction 알고리즘으로 식별됩니다.

Baseline Prediction 알고리즘은 분류 정확도 또는 RMSE와 같은 문제에 대한 예측과 마찬가지로 평가할 수있는 예측 세트를 제공합니다.

이러한 알고리즘의 점수는 문제에 대한 다른 모든 기계 학습 알고리즘을 평가할 때 필요한 비교 지점을 제공합니다.

자세한 내용은 ML에 대한 매우 좋은 블로그가 있습니다. 기계 학습의 맥락에서 " 기준 "은 무엇을 의미하나요?

답글 남기기

이메일 주소를 발행하지 않을 것입니다. 필수 항목은 *(으)로 표시합니다