När är precision viktigare än återkallande?

Kan någon ge mig några exempel där precision är viktig och några exempel där återkallande är viktigt?

Kommentarer

  • f1-poäng är vägen att gå, min vän
  • Mer än vad ’ är viktigare mellan de två du borde fråga vad är de fall där du vill maximera varandra (vilket inte ’ t nödvändigtvis gör det andra ” mindre ” viktigt).

Svar

  • För sällsynta canceruppgifter modellering, allt som inte tar hänsyn till falska negativ är ett brott. Återkall är ett bättre mått än precision.
  • För YouTube-rekommendationer är falska negativ mindre bekymmer. Precision är bättre här.

Kommentarer

  • @fate h Den största skillnaden är FP vs FN. YouTubes rekommendation lägger inte ’ tonvikt på FN men sjukhuskliniska beslut måste.

Svar

Jag kan ge dig mitt verkliga fall när återkallelse är viktigare:

Vi har tusentals gratiskunder som registrerar sig på vår webbplats varje vecka. Call center-teamet vill ringa dem alla, men det är omöjligt, så de ber mig att välja de med goda chanser att bli köpare (med hög temperatur är det vi hänvisar till dem). Vi bryr oss inte om att ringa en kille som inte ska köpa (så precision är inte viktigt) men för oss är det mycket viktigt att alla med hög temperatur alltid är i mitt val, så de går inte utan att köpa. Det betyder att min modell måste ha en hög återkallning , oavsett om precisionen går till helvetet.

Jag hoppas att det hjälper! Miguel.

Svar

Även om återkallelse i vissa situationer kan vara viktigare än precision (eller vice versa), du behöver båda för att få en mer tolkbar bedömning.

Till exempel, som noteras av @SmallChess, inom det medicinska samfundet , en falsk negativ är vanligtvis mer katastrofal än en falsk positiv för preliminära diagnoser. Därför kan man betrakta återkallande som en viktigare mätning. Du kan dock ha 100% återkallande men ändå ha en värdelös modell: om din modell alltid ger en positiv förutsägelse skulle den ha 100% återkallelse men vara helt informativ.

Det är därför vi tittar på flera mått:

Svar

Vilket är viktigare beror helt enkelt på vad kostnaderna för varje fel är.

Precision tenderar att medföra direkta kostnader; ju mer falskt positivt du har, desto mer kostnad per sant positivt har du. Om dina kostnader är låga spelar inte precision lika mycket. Om du till exempel har 1 miljon e-postadresser och det kostar $ 10 att skicka ett mejl till dem alla, är det förmodligen inte värt din tid att försöka identifiera de människor som är mest benägna att svara, snarare bara att skräpposta dem alla.

Återkallelse, å andra sidan, tenderar att medföra tillfälliga kostnader; du ger upp möjligheter varje gång du har ett falskt negativt. Så återkallande är minst viktigt när marginalvärdet för ytterligare korrekt identifiering är litet, t.ex. det finns flera möjligheter, det är lite annorlunda mellan dem, och endast ett begränsat antal kan eftersträvas. Antag till exempel att du vill köpa ett äpple. Det finns 100 äpplen i butiken, och 10 av dem är dåliga. Om du har en metod för att skilja dåliga äpplen som saknar 80% av de goda, kommer du att identifiera cirka 18 bra äpplen. Normalt skulle en återkallelse på 20% vara hemsk, men om du bara vill ha 5 äpplen, så saknar de andra 72 äpplen ingen roll.

Så återkallelse är viktigast när:

-Antalet möjligheter är litet (om det bara fanns 10 bra äpplen, skulle du troligtvis inte hitta 5 bra med en återkallningshastighet på bara 20%)
-Det finns signifikanta skillnader mellan möjligheter (om vissa äpplen är bättre än andra, då räcker en återkallningsgrad på 20% för att få 5 bra äpplen, men de kommer inte nödvändigtvis att vara de bästa äpplen)
ELLER
-Den marginell nytta av möjligheter är fortfarande hög, även för ett stort antal möjligheter. Till exempel, medan de flesta shoppare inte har mycket nytta av mer än 18 bra äpplen, vill butiken ha mer än 18 äpplen att sälja.

Således kommer precision att vara viktigare än att komma ihåg när kostnaden för att spela är hög, men kostnaden för att inte spela är låg.Observera att detta är kostnaderna för att agera / inte agera per kandidat, inte ”kostnaden för att ha någon åtgärd alls” mot ”kostnaden för att inte ha någon åtgärd alls”. I apple-exemplet är det kostnaden för att köpa / inte köpa ett visst äpple, inte kostnaden för att köpa några äpplen kontra kostnaden för att inte köpa några äpplen. Kostnaden för att inte köpa ett särskilt äpple är låg eftersom det finns massor av andra äpplen. Eftersom kostnaden för att köpa ett dåligt äpple är hög, men kostnaden för att lämna ett särskilt bra äpple är låg, är precision viktigare i det exemplet. Ett annat exempel skulle vara att anställa när det finns många liknande kandidater.

Återkallande är viktigare än precision när kostnaden för att agera är låg, men möjlighetskostnaden för att vidarebefordra en kandidat är hög. Det är skräppostexemplet jag gav tidigare (kostnaden för att missa en e-postadress är inte hög, men kostnaden för att skicka ett e-postmeddelande till någon som inte svarar är ännu lägre), och ett annat exempel skulle vara att identifiera kandidater för influensaskottet: ge influensaskottet till någon som inte behöver det, och det kostar några dollar, ge det inte till någon som behöver det, och de kan dö. På grund av detta planerar vården kommer i allmänhet att erbjuda influensaval för alla, utan att helt bortse från precision.

Svar

Ackumulering har ett bra svar på hur du kan komma med fler exempel som förklarar vikten av precision framför återkallande och vice versa.

De flesta andra svar ger ett övertygande argument för vikten av återkallande så jag trodde att jag skulle ge ett exempel på vikten av precision. Detta är ett helt hypotetiskt exempel, men det är fallet.

Låt oss säga att en maskininlärningsmodell skapas för att förutsäga om en viss dag är en bra dag för att starta satelliter eller inte baserat på vädret.

  • Om modellen av misstag förutspår att en bra dag för att starta satelliter är dålig ( falskt negativ ), vi missar chansen att starta. Det här är inte så stort.

  • Men om modellen förutspår att det är en bra dag, men det är faktiskt en dålig dag att starta satelliterna ( falskt positivt ) då kan satelliterna förstöras och skadekostnaden kommer att vara i miljarder.

Detta är ett fall där precision är viktigare än återkallande.

Svar

Jag hade svårt att komma ihåg skillnaden mellan precision och återkallande, tills jag kom fram till detta minnesmärke för mig själv:

PREcision is to PREgnancy tests as reCALL is to CALL center.

Med ett graviditetstest måste testtillverkaren vara säker på att ett positivt resultat betyder att kvinnan är riktigt gravid. Människor kan reagera på ett positivt test genom att plötsligt gifta sig eller köpa ett hus (om många konsumenter fick falska positiva resultat och fick stora kostnader utan anledning skulle testtillverkaren sakna kunder). Jag fick ett falskt negativt graviditetstest en gång, och det betydde bara att det tog några veckor till innan jag fick reda på att jag var gravid … sanningen blev i slutändan MÄRANDE. (Pun pun.)

Föreställ dig nu ett callcenter för försäkringsanspråk. De flesta bedrägliga anspråk rings in på måndagar, efter att bedragarna ansluter sig till medarbetare och skapar sina fina berättelser (”låt oss säga att bilen var stulen”) under helgen. Vad är det bästa för ett försäkringsbolag att göra på måndagar? Kanske borde de ställa in för att gynna återkallande framför precision. Det är mycket bättre att flagga fler anspråk som positiva (troligt bedrägeri) för vidare utredning än att missa en del av bedrägeriet och betala ut kontanter som aldrig borde ha betalats. En falsk positiv (flaggad för ytterligare granskning som eventuellt bedrägeri, men kundförlusten var verklig) kan sannolikt rensas upp genom att tilldela en erfaren justerare, som kan insistera på en polisrapport, begära byggnadsskyddsvideo etc. En falsk negativ (accepterar en bedragares falska anspråk och utbetalning kontant) är en ren förlust för försäkringsbolaget och uppmuntrar till mer bedrägeri.

F1 är bra men att förstå hur testet / förutsägelsen kommer att användas är verkligen viktigt, för det finns alltid en viss risk för att vara fel … du vill veta hur allvarliga konsekvenserna blir om de är felaktiga.

Svar

Spamdetektering via e-post : Detta är ett exempel där Precision är viktigare än Återkall .

Snabb sammanfattning :

  • Precision : Detta säger när du förutsäger något positivt, hur många gånger de faktiskt var positiva.

  • Återkall : Detta visar faktiska positiva data, hur många gånger du förutspådde rätt.

Med detta sagt, i händelse av upptäckt av skräppost, bör man vara okej om en skräppost (positivt fall) lämnas oupptäckt och inte ” t gå till skräppostmappen men , om ett e-postmeddelande är bra (negativt) måste det gå inte till skräppostmappen. dvs Precison är viktigare. (Om modellen förutspår något positivt (dvs. skräppost), är det bättre skräppost. annat, du kanske saknar viktiga e-postmeddelanden).

Hoppas att det klargörs.

Svar

När vi har obalanserad klass och vi behöver höga sanna positiva, precision föredras framför återkallelse. eftersom precision inte har något falskt negativt i sin formel, vilket kan påverka.

Svar

Här ”är ett enkelt exempel som jag tog från Aurelion Gerons bok, Hands-on Machine Learning with Scikit-Learn och Tensorflow. Tänk dig att vi vill se till att vår webbplatsblockerare för vårt barn endast tillåter att ”säkra” webbplatser visas.

I det här fallet är en ”säker” webbplats den positiva klassen. Här vill vi att blockeraren ska vara helt säker på att webbplatsen är säker, även om vissa säkra webbplatser förutses vara en del av den negativa eller osäkra klassen och följaktligen blockeras. Det vill säga vi vill ha hög precision på bekostnad av återkallelse.

När det gäller flygplatsens säkerhet, där en säkerhetsrisk är den positiva klassen, vill vi se till att alla potentiella säkerhetsrisker undersöks. I det här fallet kommer vi att ha hög återkallelse på bekostnad av precision (många påsar där det inte finns några säkerhetsrisker kommer att undersökas).

Lämna ett svar

Din e-postadress kommer inte publiceras. Obligatoriska fält är märkta *