Wanneer is precisie belangrijker dan terugroepen?

Kan iemand mij enkele voorbeelden geven waarbij precisie belangrijk is en enkele voorbeelden waarbij herinnering belangrijk is?

Opmerkingen

  • f1-score is de juiste keuze, mijn vriend.
  • Meer dan wat ‘ is belangrijker tussen de twee die je zou moeten vraag wat de gevallen zijn waarin u de ene boven de andere wilt maximaliseren (wat niet ‘ niet noodzakelijkerwijs de andere ” minder ” belangrijk).

Antwoord

  • Voor zeldzame kankergegevens modellering is alles wat geen rekening houdt met fout-negatieven een misdaad. Recall is een betere maat dan precisie.
  • Voor YouTube-aanbevelingen zijn fout-negatieven minder een probleem. Precisie is hier beter.

Reacties

  • @fate h Het belangrijkste verschil is FP versus FN. YouTube-aanbeveling legt ‘ geen nadruk op FN, maar klinische beslissingen in ziekenhuizen moeten.

Antwoord

Ik kan u mijn echte geval geven wanneer terugroepen belangrijker is:

We hebben elke week duizenden gratis klanten die zich op onze website registreren. Het callcenterteam wil ze allemaal bellen, maar dat is onmogelijk, dus vragen ze me om degenen te selecteren met goede kansen om een koper te worden (met hoge temperatuur is hoe we ze noemen). Het kan ons niet schelen iemand te bellen die niet gaat kopen (precisie is dus niet belangrijk) maar voor ons is het erg belangrijk dat ze allemaal met hoge temperaturen altijd in mijn selectie zitten, dus ze gaan niet zonder te kopen. Dat betekent dat mijn model een hoge recall moet hebben, ongeacht of de precisie naar de hel gaat.

Ik hoop dat het helpt! Miguel.

Antwoord

Hoewel herinneren in sommige situaties belangrijker kan zijn dan precisie (of vice versa), je hebt beide nodig voor een beter interpreteerbare beoordeling.

Bijvoorbeeld, zoals opgemerkt door @SmallChess, in de medische gemeenschap is een vals-negatief meestal rampzaliger dan een vals-positief voor voorlopige diagnoses. Daarom zou men het terugroepen als een belangrijkere meting kunnen beschouwen. U kunt echter 100% terugroepactie hebben, maar toch een nutteloos model hebben: als uw model altijd een positieve voorspelling uitvoert, zou het 100% terugroepactie hebben, maar volledig niet-informatief zijn.

Dit is waarom we naar meerdere statistieken kijken:

Antwoord

Wat belangrijker is, hangt gewoon af van wat de kosten van elke fout zijn.

Precisie brengt meestal directe kosten met zich mee; hoe meer vals-positieven u heeft, hoe meer kosten per echt positief u heeft. Als uw kosten laag zijn, maakt precisie niet zoveel uit. Als u bijvoorbeeld 1 miljoen e-mailadressen heeft en het kost $ 10 om een e-mail naar alle adressen te sturen, is het waarschijnlijk niet de moeite waard om te proberen identificeer de mensen die het meest geneigd zijn om te reageren, in plaats van ze allemaal te spammen.

Recall daarentegen brengt vaak alternatieve kosten met zich mee; je geeft elke keer kansen op als je een vals negatief hebt. Herinnering is dus het minst belangrijk als de marginale waarde van aanvullende correcte identificatie klein is, bijv. er zijn meerdere mogelijkheden, er is weinig verschil tussen hen, en er kan slechts een beperkt aantal worden nagestreefd. Stel dat u een appel wilt kopen. Er zijn 100 appels in de winkel, en 10 daarvan zijn slecht. Als je een methode hebt om rotte appels te onderscheiden die 80% van de goede appels mist, dan zul je ongeveer 18 goede appels identificeren. Normaal gesproken zou een terugroepactie van 20% verschrikkelijk zijn, maar als je maar 5 appels wilt, dan maakt het niet echt uit die andere 72 appels te missen.

Dus herinneren is het belangrijkst wanneer:

-Het aantal kansen is klein (als er maar 10 goede appels waren, dan zou je waarschijnlijk niet 5 goede vinden met een terugroepingspercentage van slechts 20%)
-Er zijn significante verschillen tussen kansen (als er enkele appels zijn beter dan andere, dan is een terugroeppercentage van 20% genoeg om 5 goede appels te krijgen, maar het zijn niet per se de beste appels)
OF
-De het marginale voordeel van kansen blijft hoog, zelfs voor een groot aantal kansen. Terwijl de meeste kopers bijvoorbeeld niet veel baat hebben bij meer dan 18 goede appels, wil de winkel meer dan 18 appels verkopen.

Precisie zal dus belangrijker zijn dan herinneren wanneer de kosten van handelen hoog zijn, maar de kosten van niet handelen laag.Merk op dat dit de kosten zijn van handelen / niet handelen per kandidaat, niet “kosten om helemaal geen actie te ondernemen” versus “kosten om helemaal geen actie te ondernemen”. In het appelvoorbeeld zijn het de kosten van het kopen / niet kopen van een bepaalde appel, niet de kosten van het kopen van appels versus de kosten van het niet kopen van een bepaalde appel; de kosten van het niet kopen van een bepaalde appel zijn laag omdat er veel andere appels. Aangezien de kosten van het kopen van een slechte appel hoog zijn, maar de kosten van het weglaten van een bepaalde goede appel laag zijn, is precisie belangrijker in dat voorbeeld. Een ander voorbeeld is het inhuren als er veel vergelijkbare kandidaten zijn. / p>

Recall is belangrijker dan precisie wanneer de kosten van handelen laag zijn, maar de alternatieve kosten van het mislopen van een kandidaat zijn hoog. Er is het spamvoorbeeld dat ik eerder heb gegeven (de kosten van het missen van een e-mailadres zijn niet hoog, maar de kosten van het verzenden van een e-mail naar iemand die niet reageert, zijn nog lager), en een ander voorbeeld is het identificeren kandidaten voor de griepprik: geef de griepprik aan iemand die het niet nodig heeft, en het kost een paar dollar, geef het niet aan iemand die het wel nodig heeft, en ze zouden kunnen overlijden. biedt over het algemeen iedereen de griepprik, waarbij precisie volledig wordt genegeerd.

Antwoord

Accumulation heeft een goed antwoord op hoe u met meer voorbeelden kunt komen die het belang van precisie boven terugroepen uitleggen en vice versa.

De meeste van de andere antwoorden pleiten voor het belang Ik dacht dat ik een voorbeeld zou geven van het belang van precisie. Dit is een volledig hypothetisch voorbeeld, maar het maakt de zaak duidelijk.

Laten we zeggen dat een machine learning-model is gemaakt om te voorspellen of een bepaalde dag een goede dag is om satellieten te lanceren op basis van het weer.

  • Als het model per ongeluk voorspelt dat een goede dag om satellieten te lanceren slecht is ( fout-negatief ), missen we de kans om te lanceren. Dit is niet zo erg.

  • Als het model echter voorspelt dat het een goede dag is, maar het eigenlijk een slechte dag is om de satellieten te lanceren ( vals positief ), dan kunnen de satellieten worden vernietigd en zullen de schade miljarden bedragen.

Dit is een geval waarin precisie belangrijker is dan herinneren.

Antwoord

Ik vond het moeilijk om me het verschil tussen precisie en herinnering te herinneren, totdat ik dit geheugensteuntje voor mezelf bedacht:

PREcision is voor PREgnancy-tests zoals reCALL voor CALL-center is.

Bij een zwangerschapstest moet de testfabrikant er zeker van zijn dat een positief resultaat betekent dat de vrouw echt zwanger is. Mensen kunnen op een positieve test reageren door plotseling te trouwen of een huis te kopen (als veel consumenten valse positieven krijgen en zonder reden hoge kosten moeten maken, zou de testfabrikant geen klanten hebben). Ik kreeg een keer een vals-negatieve zwangerschapstest en het betekende gewoon dat het nog een paar weken duurde voordat ik erachter kwam dat ik zwanger was … de waarheid werd uiteindelijk duidelijk. (Bedoelde woordspeling.)

Stel je nu een callcenter voor voor verzekeringsclaims. De meeste frauduleuze claims worden op maandag gebeld, nadat de fraudeurs contact hebben gemaakt met medewerkers en hun verzonnen verhalen hebben verzonnen (laten we zeggen dat de auto is gestolen) tijdens het weekend. Wat is het beste voor een verzekeringsmaatschappij om te doen? op maandagen? Misschien moeten ze afstemmen om terugroepen te verkiezen boven precisie. Het is veel beter om meer claims als positief (waarschijnlijke fraude) te markeren voor verder onderzoek dan een deel van de fraude te missen en contant geld uit te betalen dat nooit had mogen worden betaald. Een vals-positief (gemarkeerd voor aanvullend onderzoek als mogelijk fraude, maar het verlies van de klant was reëel) kan waarschijnlijk worden verholpen door een ervaren expert aan te wijzen, die kan aandringen op een politierapport, een beveiligingsvideo van het gebouw kan aanvragen, enz. een valse claim van een fraudeur en uitbetaling in contanten) is puur verlies voor de verzekeringsmaatschappij, en moedigt meer fraude aan.

F1 is geweldig, maar het is erg belangrijk om te begrijpen hoe de test / voorspelling zal worden gebruikt, omdat er is altijd een risico om ongelijk te hebben … je wilt weten hoe erg de gevolgen zullen zijn als het fout is.

Antwoord

E-mailspamdetectie : dit is een van de voorbeelden waarbij Precisie is belangrijker dan Recall .

Korte samenvatting :

  • Precisie : dit geeft aan wanneer je iets positiefs voorspelt, hoe vaak het ook daadwerkelijk positief was.terwijl,

  • Recall : dit blijkt uit daadwerkelijke positieve gegevens, hoe vaak je correct hebt voorspeld.

Bovenstaand gezegd, in het geval van detectie van spam-e-mail, zou het in orde moeten zijn als een spam-e-mail (positief geval) onopgemerkt blijft en niet ” ga niet naar de spammap maar , als een e-mail goed (negatief) is, dan moet het ga niet naar de spammap. ie Precison is belangrijker. (Als het model iets positiefs voorspelt (bijv. spam), is het beter spam. anders mis je misschien belangrijke e-mails).

Ik hoop dat het verduidelijkt.

Antwoord

Wanneer we hebben een ongebalanceerde klasse en we hebben hoge waar-positieven nodig, precisie heeft de voorkeur boven terugroepen. omdat precisie geen vals-negatief in zijn formule heeft, wat van invloed kan zijn.

Antwoord

Hier “is een eenvoudig voorbeeld dat ik nam uit het boek van Aurelion Geron, Hands-on Machine Learning met Scikit-Learn en Tensorflow. Stel je voor dat we ervoor willen zorgen dat onze websiteblokkering voor ons kind alleen toelaat dat “veilige” websites worden weergegeven.

In dit geval is een “veilige” website de positieve klasse. Hier willen we dat de blokker absoluut zeker weet dat de website veilig is, zelfs als wordt voorspeld dat sommige veilige websites deel uitmaken van de negatieve of onveilige klasse en als gevolg daarvan worden geblokkeerd. Dat wil zeggen: we willen hoge precisie ten koste van terugroepen.

In het geval van luchthavenbeveiliging, waar een veiligheidsrisico de positieve klasse is, willen we ervoor zorgen dat elk mogelijk veiligheidsrisico wordt onderzocht. In dit geval hebben we een hoge terugroepactie ten koste van de precisie (veel tassen waar geen veiligheidsrisicos zijn, worden onderzocht).

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *