Når er presisjon viktigere enn tilbakekalling?

Kan noen gi meg noen eksempler der presisjon er viktig og noen eksempler der tilbakekalling er viktig?

Kommentarer

  • f1-score er veien å gå, min venn
  • Mer enn hva ‘ er viktigere mellom de to du bør spør hva er tilfellene der du vil maksimere hverandre (som ikke ‘ t nødvendigvis gjør den andre » mindre » viktig).

Svar

  • For sjeldne kreftdata modellering, alt som ikke tar høyde for falske negativer er en forbrytelse. Recall er et bedre mål enn presisjon.
  • For YouTube-anbefalinger er falske negativer mindre bekymringsfulle. Presisjon er bedre her.

Kommentarer

  • @fate h Den største forskjellen er FP vs FN. YouTube-anbefaling legger ikke ‘ ikke vekt på FN, men sykehuskliniske beslutninger må.

Svar

Jeg kan gi deg min virkelige sak når tilbakekalling er viktigere:

Vi har tusenvis av gratis kunder som registrerer seg på nettstedet vårt hver uke. Call center teamet vil ringe dem alle, men det er umulig, så de ber meg om å velge de som har gode sjanser til å være kjøper (med høy temperatur er det vi refererer til dem). Vi bryr oss ikke om å ringe en fyr som ikke skal kjøpe (så presisjon er ikke viktig), men for oss er det veldig viktig at alle med høy temperatur alltid er i mitt valg, så de går ikke uten å kjøpe. Det betyr at modellen min må ha høy tilbakekalling , uansett om presisjonen går til helvete.

Jeg håper det hjelper! Miguel.

Svar

Selv om tilbakekalling i noen situasjoner kan være viktigere enn presisjon (eller omvendt), du trenger begge deler for å få en mer tolkbar vurdering.

For eksempel, som bemerket av @SmallChess, i det medisinske miljøet , en falsk negativ er vanligvis mer katastrofal enn en falsk positiv for foreløpige diagnoser. Derfor kan man betrakte tilbakekalling som en viktigere måling. Du kan imidlertid ha 100% tilbakekalling, men likevel ha en ubrukelig modell: Hvis modellen din alltid gir en positiv spådom, vil den ha 100% tilbakekalling, men være helt uinformativ.

Dette er grunnen til at vi ser på flere beregninger:

Svar

Hva som er viktigere, avhenger ganske enkelt av hva kostnadene for hver feil er.

Presisjon har en tendens til å medføre direkte kostnader; jo flere falske positive du har, jo mer kostnad per virkelig positiv har du. Hvis kostnadene dine er lave, betyr ikke presisjon like mye. Hvis du for eksempel har 1M e-postadresser, og det koster $ 10 å sende en e-post til dem alle, er det sannsynligvis ikke verdt tiden din å prøve å identifisere menneskene som er mest sannsynlig å svare, heller bare å spamme dem alle.

Tilbakekallelse, derimot, har en tendens til å medføre mulighetskostnader; du gir opp muligheter hver gang du har en falsk negativ. Så tilbakekalling er minst viktig når grenseverdien av ytterligere korrekt identifikasjon er liten, f.eks. det er flere muligheter, det er lite forskjellig mellom dem, og bare et begrenset antall kan forfølges. Anta for eksempel at du vil kjøpe et eple. Det er 100 epler i butikken, og 10 av dem er dårlige. Hvis du har en metode for å skille ut dårlige epler som savner 80% av de gode, vil du identifisere omtrent 18 gode epler. Normalt vil en tilbakekalling på 20% være forferdelig, men hvis du bare vil ha 5 epler, så betyr det ikke noe å savne de andre 72 eplene.

Så tilbakekalling er viktigst når:

-Antallet muligheter er lite (hvis det bare var 10 gode epler, ville du neppe finne 5 gode med en tilbakekallingsrate på bare 20%)
-Det er signifikante forskjeller mellom mulighetene (hvis noen epler er bedre enn andre, så er en tilbakekallingsfrekvens på 20% nok til å få 5 gode epler, men de vil ikke nødvendigvis være de beste eplene)
ELLER
marginale fordelen av muligheter er fortsatt høy, selv for et stort antall muligheter. For eksempel, mens de fleste kjøpere ikke vil ha stor nytte av mer enn 18 gode epler, vil butikken gjerne ha mer enn 18 epler å selge.

Dermed vil presisjon være viktigere enn å huske når kostnadene ved å opptre er høye, men kostnadene ved å ikke opptre er lave.Merk at dette er kostnadene ved å opptre / ikke opptre per kandidat, ikke «kostnad for å ha noen handling i det hele tatt» mot «kostnad for å ikke ha noen handling i det hele tatt». I epleeksemplet koster det å kjøpe / ikke kjøpe et bestemt eple, ikke kostnadene ved å kjøpe noen epler mot kostnadene ved å ikke kjøpe noen epler. Kostnaden ved å ikke kjøpe et bestemt eple er lav fordi det er mange Andre epler. Siden kostnadene ved å kjøpe et dårlig eple er høye, men kostnadene ved å gi opp et spesielt godt eple er lave, er presisjon viktigere i dette eksemplet. Et annet eksempel kan være å ansette når det er mange lignende kandidater. / p>

Tilbakekalling er viktigere enn presisjon når kostnadene ved å opptre er lave, men mulighetskostnadene ved å videresende en kandidat er høye. Det er spameksemplet jeg ga tidligere (kostnadene ved å gå glipp av en e-postadresse er ikke høye, men kostnadene ved å sende ut en e-post til noen som ikke svarer er enda lavere), og et annet eksempel vil være å identifisere kandidater til influensaskuddet: gi influensaskuddet til noen som ikke trenger det, og det koster noen få dollar, ikke gi det til noen som trenger det, og de kan dø. På grunn av dette planlegger helsevesenet vil generelt tilby influensaskudd til alle, uten å se bort fra presisjon helt.

Svar

Akkumulering har et flott svar på hvordan du kan komme med flere eksempler som forklarer viktigheten av presisjon i forhold til tilbakekalling og omvendt.

De fleste andre svar gir en overbevisende sak for viktigheten av tilbakekalling så jeg trodde jeg skulle gi et eksempel på viktigheten av presisjon. Dette er et helt hypotetisk eksempel, men det gjør saken.

La oss si at det opprettes en maskinlæringsmodell for å forutsi om en bestemt dag er en god dag for å starte satellitter eller ikke basert på været.

  • Hvis modellen ved et uhell forutsier at en god dag for å starte satellitter er dårlig ( falsk negativ ), vi savner sjansen til å lansere. Dette er ikke så stor sak.

  • Men hvis modellen forutsier at det er en god dag, men det faktisk er en dårlig dag å starte satellittene ( falske positive ) så kan satellittene bli ødelagt og kostnadene for skader vil være i milliarder.

Dette er et tilfelle der presisjon er viktigere enn tilbakekalling.

Svar

Jeg hadde vanskelig for å huske forskjellen mellom presisjon og tilbakekalling, til jeg kom opp med denne mnemonikken for meg selv:

FREMTAL er å FORTYKKE tester som reCALL er til SAMTALSENTER. bfb96bbe56 «>

Med en graviditetstest må testprodusenten være sikker på at et positivt resultat betyr at kvinnen er virkelig gravid. Folk kan reagere på en positiv test ved plutselig å gifte seg eller kjøpe et hus (hvis mange forbrukere fikk falske positive og uten enorme kostnader, ville testprodusenten mangle kunder). Jeg fikk en falsk negativ graviditetstest en gang, og det betydde bare at det tok noen flere uker før jeg fant ut at jeg var gravid … sannheten ble til slutt apARENT. (Ordspill beregnet.)

Se for deg et kundesenter for forsikringskrav. De fleste falske påstander blir ringt inn på mandager etter at svindlerne har kontakt med samarbeidspartnere og laget sine sminkehistorier («la oss si at bilen ble stjålet») i helgen. Hva er det beste for et forsikringsselskap å gjøre på mandager? Kanskje de burde stille inn for å favorisere tilbakekalling fremfor presisjon. Det er langt bedre å markere flere krav som positive (sannsynlig svindel) for videre etterforskning enn å savne noe av svindelen og betale ut kontanter som aldri burde vært betalt. Et falskt positivt (flagget for ytterligere kontroll som mulig svindel, men kundetapet var reelt) kan sannsynligvis ryddes opp ved å tilordne en erfaren justerer, som kan insistere på en politirapport, be om å bygge sikkerhetsvideo osv. En falsk negativ (godta en bedragers falske krav og utbetaling i kontanter) er et rent tap for forsikringsselskapet, og oppmuntrer til mer svindel.

F1 er bra, men det er veldig viktig å forstå hvordan testen / spådommen skal brukes, fordi det er alltid en viss risiko for å være feil … du vil vite hvor alvorlige konsekvensene blir hvis de blir feil.

Svar

Spamming av e-postmeldinger : Dette er et av eksemplene der Presisjon er viktigere enn Tilbakekall .

Rask oppsummering :

  • Presisjon : Dette forteller når du spår noe positivt, hvor mange ganger de faktisk var positive.mens,

  • Tilbakekall : Dette forteller om faktiske positive data, hvor mange ganger du har spådd riktig.

Når det er sagt ovenfor, i tilfelle spam-e-postregistrering, bør det være greit hvis en spam-e-post (positiv sak) ikke blir oppdaget og ikke » t gå til spam-mappen men , hvis en e-postadresse er bra (negativ), må den ikke gå til spam-mappen. dvs. Precison er viktigere. (Hvis modellen forutsier noe positivt (dvs. spam), er det bedre spam. annet, du kan savne viktige e-postmeldinger).

Håper det blir avklart.

Svar

Når vi har ubalansert klasse og vi trenger høye sanne positive, presisjon foretrekkes fremfor tilbakekalling. fordi presisjon ikke har noen falsk negativ i formelen, som kan påvirke.

Svar

Her «er et enkelt eksempel som jeg tok fra Aurelion Gerons bok, Hands-on Machine Learning with Scikit-Learn og Tensorflow. Tenk deg at vi ønsker å sørge for at nettstedsblokkeringen for barnet vårt bare tillater å vise «sikre» nettsteder.

I dette tilfellet er et «trygt» nettsted den positive klassen. Her vil vi at blokkeringen skal være helt sikker på at nettstedet er trygt, selv om noen sikre nettsteder antas å være en del av den negative eller usikre klassen og følgelig er blokkert. Det vil si at vi ønsker høy presisjon på bekostning av tilbakekalling.

Når det gjelder sikkerheten til flyplassen, hvor en sikkerhetsrisiko er den positive klassen, vil vi sørge for at enhver potensiell sikkerhetsrisiko blir undersøkt. I dette tilfellet vil vi ha høy tilbakekalling på bekostning av presisjon (mange poser der det ikke er noen sikkerhetsfare vil bli undersøkt).

Legg igjen en kommentar

Din e-postadresse vil ikke bli publisert. Obligatoriske felt er merket med *