Hvornår er præcision vigtigere end tilbagekaldelse?

Kan nogen give mig nogle eksempler, hvor præcision er vigtig, og nogle eksempler, hvor erindring er vigtig?

Kommentarer

  • f1-score er vejen at gå, min ven
  • Mere end hvad ‘ er vigtigere mellem de to, du skal spørg hvad er de tilfælde, hvor du vil maksimere den ene over den anden (hvilket ikke ‘ t nødvendigvis gør den anden ” mindre ” vigtigt).

Svar

  • For sjældne kræftdata modellering, alt, hvad der ikke tager højde for falske negativer, er en forbrydelse. Recall er et bedre mål end præcision.
  • For YouTube-anbefalinger er falske negativer mindre bekymrende. Præcision er bedre her.

Kommentarer

  • @fate h Den største forskel er FP vs FN. YouTube-anbefaling lægger ikke ‘ ikke vægt på FN, men kliniske beslutninger på hospitalet skal være.

Svar

Jeg kan give dig min rigtige sag, når tilbagekaldelse er vigtigere:

Vi har tusindvis af gratis kunder, der tilmelder sig på vores hjemmeside hver uge. Call-center-teamet vil kalde dem alle, men det er umuligt, så de beder mig om at vælge dem med gode chancer for at være køber (med høj temperatur henviser vi til dem). Vi bryr os ikke om at ringe til en fyr, der ikke vil købe (så præcision er ikke vigtig), men for os er det meget vigtigt, at alle med høj temperatur altid er i mit valg, så de går ikke uden at købe. Det betyder, at min model skal have en høj tilbagekaldelse , uanset om præcisionen går til helvede.

Jeg håber det hjælper! Miguel.

Svar

Selvom tilbagekaldelse i nogle situationer kan være vigtigere end præcision (eller omvendt), du har brug for begge for at få en mere fortolkelig vurdering.

For eksempel, som bemærket af @SmallChess, i det medicinske samfund , en falsk negativ er normalt mere katastrofal end en falsk positiv for foreløbige diagnoser. Derfor kan man betragte tilbagekaldelse som en vigtigere måling. Du kan dog have 100% tilbagekaldelse, men alligevel have en ubrugelig model: hvis din model altid udsender en positiv forudsigelse, ville den have 100% tilbagekaldelse, men være helt uinformativ.

Det er derfor, vi ser på flere målinger:

Svar

Hvilket er vigtigere afhænger simpelthen af, hvad omkostningerne ved hver fejl er.

Præcision medfører ofte direkte omkostninger; jo flere falske positive du har, jo flere omkostninger pr. sandt positive har du. Hvis dine omkostninger er lave, betyder præcision ikke så meget. Hvis du f.eks. Har 1M e-mail-adresser, og det koster $ 10 at sende en e-mail til dem alle, er det sandsynligvis ikke værd at bruge tid på at prøve identificere de mennesker, der er mest tilbøjelige til at reagere, snarere bare at spamme dem alle.

Husk, derimod havde en tendens til at medføre omkostninger til muligheder; du opgiver muligheder hver gang du har en falsk negativ. Så tilbagekaldelse er mindst vigtig, når marginalværdien af yderligere korrekt identifikation er lille, f.eks. der er flere muligheder, der er lidt anderledes mellem dem, og kun et begrænset antal kan forfølges. Antag for eksempel, at du vil købe et æble. Der er 100 æbler i butikken, og 10 af dem er dårlige. Hvis du har en metode til at skelne mellem dårlige æbler, der savner 80% af de gode, vil du identificere omkring 18 gode æbler. Normalt vil en tilbagekaldelse på 20% være forfærdelig, men hvis du kun vil have 5 æbler, så betyder det ikke rigtig noget at savne de andre 72 æbler.

Så husk er vigtigst når:

-Antallet af muligheder er lille (hvis der kun var 10 gode æbler, ville du sandsynligvis ikke finde 5 gode med en tilbagekaldelsesrate på kun 20%)
-Der er signifikante forskelle mellem mulighederne (hvis nogle æbler er bedre end andre, så er en tilbagekaldelsesrate på 20% nok til at få 5 gode æbler, men de bliver ikke nødvendigvis de bedste æbler)
ELLER
-Den marginale fordele ved muligheder er fortsat høje, selv for et stort antal muligheder. For eksempel, mens de fleste kunder ikke har stor fordel af mere end 18 gode æbler, vil butikken gerne have mere end 18 æbler at sælge.

Således vil præcision være vigtigere end at huske, når prisen på at handle er høj, men prisen på ikke at handle er lav.Bemærk, at dette er omkostningerne ved at handle / ikke handle pr. Kandidat, ikke “omkostninger ved at have nogen handling overhovedet” versus “omkostninger ved ikke at have nogen handling overhovedet”. I æbleeksemplet er det omkostningerne ved at købe / ikke købe et bestemt æble, ikke omkostningerne ved at købe nogle æbler versus omkostningerne ved ikke at købe nogen æbler. Omkostningerne ved ikke at købe et bestemt æble er lave, fordi der er masser af andre æbler. Da omkostningerne ved at købe et dårligt æble er høje, men omkostningerne ved at give et bestemt godt æble videre er lave, er præcision vigtigere i dette eksempel. Et andet eksempel ville være ansættelse, når der er mange lignende kandidater.

Recall er vigtigere end præcision, når prisen på at handle er lav, men muligheden for at videregive en kandidat er høj. Der er spameksemplet, jeg gav tidligere (omkostningerne ved at gå glip af en e-mail-adresse er ikke høje, men omkostningerne ved at sende en e-mail til en, der ikke svarer, er endnu lavere), og et andet eksempel ville være at identificere kandidater til influenza-skuddet: Giv influenza-skuddet til nogen, der ikke har brug for det, og det koster et par dollars, giv det ikke til nogen, der har brug for det, og de kan dø. På grund af dette planlægger sundhedsvæsenet vil generelt tilbyde influenza-skud til alle, idet man helt ser bort fra præcision.

Svar

Akkumulering har et godt svar på, hvordan du kan komme med flere eksempler, der forklarer vigtigheden af præcision i forhold til tilbagekaldelse og omvendt.

De fleste af de andre svar er en overbevisende sag for vigtigheden af tilbagekaldelse, så jeg troede, jeg ville give et eksempel på vigtigheden af præcision. Dette er et helt hypotetisk eksempel, men det er tilfældet.

Lad os sige, at der oprettes en maskinlæringsmodel for at forudsige, om en bestemt dag er en god dag til at starte satellitter eller ikke baseret på vejret.

  • Hvis modellen ved et uheld forudsiger, at en god dag til at starte satellitter er dårlig ( falsk negativ ), vi savner chancen for at starte. Dette er ikke så meget.

  • Men hvis modellen forudsiger, at det er en god dag, men det faktisk er en dårlig dag at starte satellitterne ( falsk positiv ) så kan satellitterne blive ødelagt, og omkostningerne ved skader vil være i milliarder.

Dette er et tilfælde hvor præcision er vigtigere end tilbagekaldelse.

Svar

Jeg havde svært ved at huske forskellen mellem præcision og tilbagekaldelse, indtil jeg kom op med dette mindesmærke for mig selv:

FRECision er til FORTIDSTEST, da reCALL er til CALL-center.

Med en graviditetstest skal testproducenten være sikker på, at et positivt resultat betyder, at kvinden er virkelig gravid. Folk reagerer muligvis på en positiv test ved pludselig at blive gift eller købe et hus (hvis mange forbrugere fik falske positive og lidt enorme omkostninger uden grund, manglede testproducenten kunder). Jeg fik en falsk negativ graviditetstest en gang, og det betød bare, at det tog et par uger til, før jeg fandt ud af, at jeg var gravid … sandheden blev i sidste ende MÆRDIG. (Ordspil beregnet.)

Forestil dig nu et callcenter for forsikringskrav. De fleste bedrageriske påstande ringes ind mandag, efter at svindlerne har forbindelse til samarbejdspartnere og udformet deres sammensatte historier (“lad os sige, at bilen blev stjålet”) i weekenden. Hvad er det bedste for et forsikringsselskab at gøre på mandage? Måske skulle de indstille sig på at tilbagekalde frem for præcision. Det er langt bedre at markere flere krav som positive (sandsynligvis svig) til yderligere efterforskning end at gå glip af noget af svindel og udbetale kontanter, der aldrig skulle have været betalt. En falsk positiv (markeret for yderligere kontrol som muligvis bedrageri, men kundetabet var reel) kan sandsynligvis ryddes op ved at tildele en erfaren justerer, som kan insistere på en politirapport, anmode om sikkerhedsvideo fra bygningen osv. En falsk negativ (accepterer en bedragers falske krav og udbetaling kontant) er et rent tab for forsikringsselskabet og tilskynder til mere bedrageri.

F1 er fantastisk, men det er virkelig vigtigt at forstå, hvordan testen / forudsigelsen vil blive brugt, fordi der er altid en vis risiko for at være forkert … du vil vide, hvor alvorlige konsekvenserne bliver, hvis de er forkerte.

Svar

Detektering af e-mail-spam : Dette er et af eksemplerne, hvor Præcision er vigtigere end Husk .

Hurtig opsummering :

  • Præcision : Dette fortæller, når du forudsiger noget positivt, hvor mange gange de faktisk var positive.der henviser til,

  • Recall : Dette fortæller ud fra faktiske positive data, hvor mange gange du forudsagde korrekt.

Når det er sagt ovenfor, i tilfælde af registrering af spam-e-mail, skal man være okay, hvis en spam-e-mail (positiv sag) ikke er registreret og ikke ” t gå til spam-mappen men , hvis en e-mail er god (negativ), skal den gå ikke til spam-mappen. dvs. Præcision er vigtigere. (Hvis modellen forudsiger noget positivt (dvs. spam), er det bedre spam. ellers kan du gå glip af vigtige e-mails).

Håber det bliver afklaret.

Svar

Hvornår vi har ubalanceret klasse, og vi har brug for høje sande positive, præcision foretrækkes frem for tilbagekaldelse. fordi præcision ikke har nogen falsk negativ i sin formel, som kan påvirke.

Svar

Her “er et simpelt eksempel, som jeg tog fra Aurelion Gerons bog, Hands-on Machine Learning med Scikit-Learn og Tensorflow. Forestil dig, at vi vil sikre os, at vores webstedsblokering til vores barn kun tillader visning af “sikre” websteder.

I dette tilfælde er en “sikker” webside den positive klasse. Her ønsker vi, at blokeringen skal være helt sikker på, at webstedet er sikkert, selvom nogle sikre websteder forudsiges at være en del af den negative eller usikre klasse og derfor er blokeret. Det vil sige, vi ønsker høj præcision på bekostning af tilbagekaldelse.

I tilfælde af lufthavnssikkerhed, hvor en sikkerhedsrisiko er den positive klasse, vil vi sikre os, at enhver potentiel sikkerhedsrisiko undersøges. I dette tilfælde vil vi få høj tilbagekaldelse på bekostning af præcision (mange poser, hvor der ikke er nogen sikkerhedsrisici, undersøges).

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *