Hvordan tester jeg søgemaskinens resultater?

Jeg havde et interviewspørgsmål:

Du fik at vide, at en søgemaskine resultat efter målforespørgsel opfylder ikke et krav med sin position. Hvordan ville du teste det?

Hvordan ville du teste det?

Jeg havde dog nogle tanker:

  • Du har brug for en liste med input-søgeforespørgsler
  • Du har brug for en målposition for hver af forespørgslen
  • Du matcher hver målposition med den aktuelle

Men det var ikke nok.

Kommentarer

  • Jeg vil bare tilføje dig ‘ gentest søge- / placeringsalgoritme, ikke den måde, hvorpå resultatuddrag præsenteres, eller de måde, forespørgsel på autofuldførelse fungerer på. De kan begge påvirke den ultimative effektivitet til hentning.

Svar

Jeg er ikke ekspert i søgemaskiner, men der er mange faktorer, der bidrager til, hvordan søgeresultater vises. Forespørgslen er i det væsentlige udgangspunktet, og det er vigtigt, hvordan motoren analyserer forespørgslen. Også nogle søgemaskiner “refaktorerer” forespørgslen baseret på naturlige langauge-algoritmer. Rækkefølgen af returnerede resultater afhænger ofte af forskellige målinger, såsom popularitet, antal matchende ord, nøgleord, tags osv. Også nogle af disse mål tildeles mere vægt end andre.

Så dette spørgsmål i sig selv giver det dig ikke rigtig nok kontekst, eller måske var formålet med dette spørgsmål at få dig til at stille spørgsmål for at udlede mere sammenhæng. Nogle gange vil interviewere stille vage spørgsmål for at se, om den interviewede begynder at tage “stikkene i mørket “uden at få tilstrækkelig kontekst (fx start med at slå væk fra problemer og håb på at snuble på en løsning, eller tænk over problemet og overvej potentielle løsninger med overvejelse).

Svar

Faktisk er spørgsmålet om, hvordan man tester søgemaskiner, en del af informationssøgning (IR) problem. Jeg vil bare nævne et få tilgange til, hvordan de kan evalueres / testes.

Traditionel IR-tilgang

En måde i traditionel IR er at forberede testopsætning, herunder:

  • Kandidatforespørgsler
  • Datasæt med indekserede sider
  • Forventet resultatsæt (inkluderet forventet placering) for hver forespørgsel

Derefter opnår du faktiske resultater ved at køre din søgemaskine over kandidatforespørgsler og sammenligne faktiske resultater med forventede resultater ved hjælp af en af informationshentningsmetrics , for eksempel præcision / tilbagekaldelse eller nDCG . Det ville give dig et kvantitativt svar, hvor dårlig eller god din søgemaskine er i forhold til forventet resultatsæt (krav).

Selvfølgelig vil svaret være kontekstspecifikt. Det afhænger især af valg af kandidatforespørgsler, deres hensigt og ordlyd, datasættet for indekserede sider og den måde, som forventede resultater blev bedømt på. Så hvad var sammenhængen?

Målstyret / interaktiv IR-tilgang

En anden tilgang, måske mere praktisk, ville være at involvere potentielle brugere og lade dem vurdere kvaliteten af resultaterne for en given forespørgsel. De kunne medbringe deres egne forespørgsler, eller du kunne definere forespørgsler til dem. Det kan være et par mennesker eller et helt samfund, hvorfra du kan få mere implicit feedback om resultatkvalitet (f.eks. Resultater, der klikkes på, forventes).

Problemisolering

Endelig er problemet muligvis ikke at evaluere søgemaskinens overordnede kvalitet, men kun indsnævre årsagen til lav placering af dette særlige forespørgselsresultat. Så jeg vil følge det problem, du fik:

Du fik at vide, at et søgemaskineresultat efter målforespørgsel ikke opfylder et krav med sin position.

og spurgte mig selv:

  • Hvad var de andre resultater, der blev rangeret højere end dette?
  • Hvorfor blev de rangeret højere? Kan jeg fortælle dette fra resultatuddrag? Måske matcher de søgeord, men med en anden betydning? Så måske er ordlyden forkert? Ville en anden ordlyd af forespørgselens hensigt forbedre resultatet?
  • Den samme forespørgsel er muligvis formuleret forskelligt, og de samme formuleringer kan have forskellige forespørgselsintentioner bag sig. Ved jeg virkelig, hvad der var meningen med en søger bag denne forespørgsel?
  • Hvad er kravet præcist? For at øge højere sponsorerede sider? Eller rangere højere sider, der matcher forespørgselens intentioner?

Disse kan hjælpe dig med at gengive problemet til andre lignende forespørgsler.

Svar

Jeg arbejdede for et SEO-firma i 2004.Vores mål var at få naturlige / organiske søgeresultater på den første eller anden side af Google til de målrettede nøglesætninger (Naturlige / organiske søgeresultater er de almindelige søgeresultater, ikke dem, der er sponsoreret af Google Ad Words). Virksomheden var en start-up og besluttede kun at fokusere på Google, da den havde mere end 80% af søgemarkedsmarkedet på det tidspunkt, og undersøgelser viste, at brugere meget sjældent kiggede forbi de første to sider af Google for at finde et søgeresultat.

Den måde, vi testede resultaterne på, var at skrive de målrettede nøglesætninger (kombination af nøgleord) ind i Google og se, om fortegnelsen dukkede op på første eller anden side af Google, hvis ja, blev det overvejet en succes, hvis ikke, blev det betragtet som en fiasko.

I dag har ting ændret sig med Googles målrettede reklame, så folk kan modtage forskellige resultater fra forskellige computere, og hvis de er logget ind på Google Plus, kan dette påvirke også resultaterne, så jeg ved ikke, om det endda er muligt at teste dette længere.

Kommentarer

  • Så simpelthen blev Googles resultater behandlet som en reference == forventede resultater?

Svar

Fordi spørgsmålet nævner “søg res ult af forespørgslen opfylder ikke sit krav efter position “, det ser ud til, at testmålet er at sikre, at den rigtige rangordning / relevansbaserede sortering er på plads i søgealgoritmen. For at fejle / bore dette yderligere kan jeg spørge flere detaljer om forespørgslen – var det bare en simpel tekstsøgning på et enkelt felt, eller involverede det en kombination af felter, involverede det ikke-engelske tegn (diakritik osv.). Undertiden kan årsagen til, at et resultat måske placeres lavere, være, at nogle specialtegn udelades i søgningen, eller at nogle specifikke felter ikke indekseres, hvorfor søgningen udelader disse felter.

Vi kunne teste ved

  • Brug det samme udtryk / forespørgsel med yderligere kombination af felter
  • Se om hitmap fungerer fint – dvs. gør det første dokument i søgeresultaterne har virkelig mere “antal søgeudtryk” end andre dokumenter i det søgte felt – at åbne dokumentet og tælle vil vurdere dette.
  • Fjern et tegn ad gangen eller et felt (for flere markeret søgning) og kontroller derefter, om resultaterne er relevante
  • brug et synonym for udtrykket (til termsøgning), og se om det er billeder, der doc og rangerer højere
  • Begræns søgningen efter dato eller et hvilket som helst andet felt og se om et reduceret resultatsæt rangerer det højere

En anden metode ville bare være at ringe til Search API ved hjælp af et værktøj som fiddler eller Postman og derefter sammenligne rang returneret med placeringen i brugergrænsefladen. Nogle gange under sortering og indlæsning af klientsidesiden på grund af nogle problemer med cachelagring kan sortering blive ødelagt.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *