Mikor kell egyensúlyba hozni az osztályokat egy edzésadatkészletben?

Volt egy online tanfolyamom, ahol megtanultam, hogy a kiegyensúlyozatlan osztályok a képzési adatokban problémákhoz vezethetnek, mivel az osztályozási algoritmusok a többségi szabályt követik, mint jó eredményeket ad, ha a kiegyensúlyozatlanság túl nagy. Egy feladat során ki kell egyensúlyozni az adatokat a többségi osztály alulmintázásával.

Ebben a blogban azonban valaki azt állítja, hogy a kiegyensúlyozott adatok még rosszabbak:

https://matloff.wordpress.com/2015/09/29/unbalanced-data-is-a-problem-no-balanced-data-is-worse/

Tehát melyik? Kiegyensúlyozom az adatokat, vagy sem? Ez függ a használt algoritmustól, mivel egyesek képesek lehetnek alkalmazkodni az osztályok kiegyensúlyozatlan arányához? Ha igen, melyik megbízható a kiegyensúlyozatlan adatokkal kapcsolatban?

Válasz

Az intuitív érvelést a blogbejegyzés magyarázta:

Ha célunk a Jóslás, ez határozott előítéletet okoz. És ami még rosszabb, állandó elfogultság lesz, abban az értelemben, hogy nem lesznek következetes becsléseink a minta méretének növekedésével.

Tehát vitathatatlanul a (mesterségesen) kiegyensúlyozott adatok problémája rosszabb, mint a kiegyensúlyozatlan eset .

A kiegyensúlyozott adatok jóak a besoroláshoz, de nyilvánvalóan elveszít információkat a megjelenési frekvenciákról, ami hatással lesz magukra a pontossági mutatókra, valamint a gyártási teljesítményre is. .

Engedje, hogy “s azt mondják, hogy felismeri a kézzel írott betűket az angol ábécéből (26 betű). Minden betű megjelenésének kiegyensúlyozása minden levél valószínűségét nagyjából 1/26 kategóriába sorolja (helyesen vagy nem), így az osztályozó megfeledkezik a betűk tényleges eloszlásáról az eredeti mintában. És akkor ok ha az osztályozó képes minden betűt nagy pontossággal általánosítani és felismerni .

De ha a pontosság és legfőképpen az általánosítás nem “olyan magas” (nem adhatok neked definíciót – úgy gondolhatsz rá, mint “legrosszabb esetre”), akkor a tévesen besorolt pontok leginkább – valószínűleg egyenlően oszlik el az összes betű között, például:

"A" was misclassified 10 times "B" was misclassified 10 times "C" was misclassified 11 times "D" was misclassified 10 times ...and so on 

A kiegyensúlyozás nélkül (feltételezve, hogy “A” és “C” sokkal nagyobb a valószínűsége a megjelenés a szövegben)

"A" was misclassified 3 times "B" was misclassified 14 times "C" was misclassified 3 times "D" was misclassified 14 times ...and so on 

Tehát a gyakori esetek kevesebb téves besorolást kapnak. Az, hogy jó-e vagy sem, a feladattól függ. A természetes szövegfelismeréshez azt lehetne mondani, hogy a magasabb frekvenciájú betűk életképesebbek, mivel megőrzik az eredeti szöveg szemantikáját, közelebb hozva a felismerési feladatot az előrejelzéshez (ahol a szemantika a tendenciák ). De ha valami olyasmit próbál felismerni, mint például az ECDSA-kulcs képernyőképe (több entrópia -> kevesebb előrejelzés), az adatok egyensúlyban tartása nem segít. Tehát ez megint attól függ.

A legfontosabb különbség, hogy a pontossági becslés önmagában elfogult (amint azt a kiegyensúlyozott ábécé példában láthatja), így nem tudja, hogyan befolyásolják a modell viselkedését a legritkább vagy leggyakoribb pontok.

PS A Precíziós / Visszahívás metrikákkal először nyomon követheti a kiegyensúlyozatlan osztályozás teljesítményét, és eldöntheti, hogy hozzá kell-e adnia az egyensúlyozást.


SZERKESZTÉS : További zavar van, ami a becsléselmélet pontosan a minta átlaga és a népesség átlaga közötti különbségben. Például ismerheti (vitathatóan) az angol betűk tényleges eloszlását az $ p (x_i | \ theta) $ ábécében, de a mintája (képzési készlet) nem elég nagy ahhoz, hogy helyesen megbecsülhesse (a $ p (x_i | \ hat \ theta) $ használatával). Tehát egy $ \ hat \ theta_i – \ theta_i $ kompenzálásához néha ajánlott az osztályok újbóli kiegyensúlyozása maga a populáció vagy a egy nagyobb minta (így jobb becslő). A gyakorlatban azonban nincs garancia arra, hogy a “nagyobb minta” azonos eloszlású legyen annak a kockázata miatt, hogy minden lépésben elfogult adatokat kapunk (mondjuk a szakirodalomból összegyűjtött angol betűket vs a szépirodalmat vs az egész könyvtárat), így az egyensúly még mindig káros lehet .

Ennek a válasznak tisztáznia kell az egyensúlyozás alkalmazhatósági feltételeit is:

Az osztályegyensúlyhiány problémáját az okozza, hogy nincs elég minta a kisebbségi osztályhoz, nem pedig maga a pozitív és negatív minták aránya.Általában ha elegendő adat áll rendelkezésére, az “osztály egyensúlyhiány problémája” nem merül fel

Következtetésként a mesterséges kiegyensúlyozás ritkán hasznos, ha az edzéskészlet elég nagy. Statisztikai adatok hiányoznak egy nagyobb azonos eloszlású minta azt is sugallja, hogy nincs szükség mesterséges kiegyensúlyozásra (főleg a jósláshoz), különben a becslő minősége ugyanolyan jó, mint a “valószínőség találkozni egy dinoszaurussal”:

Mennyi a valószínűsége, hogy kint az utcán dinoszaurussal találkozhat?

1/2 vagy találkozik egy dinoszaurussal, vagy nem találkozik dinoszaurussal

Megjegyzések

  • Úgy gondolom, hogy a kérdés magyarázata mellett a válasz fontos elvonása az, hogy először próbáljon kiegyensúlyozatlant és ellenőrizze az eredményeket, és csak szükség esetén végezze el az egyensúlyozást és ellenőrizze annak eredményét. +1
  • Tehát más szavakkal, ha egyenletesen osztják el az osztályokat a képzési részhalmazig, a modell elveszíti pontatlanságát láthatatlan adatokban, igaz? De ellenkezõ esetben, ha véletlenszerûen megpróbál kinyerni egy adatkészlet bejegyzéseit a képzési / tesztelési részhalmazokhoz, az osztályozója jobban teljesít?
  • @ChristosK. Mint sokan állították, amikor a problémát besorolásnak tekintik, nehéz megjósolni a jóslást. Mindenesetre, ha eltávolítja az elfogultságot (a minta „véletlenszerűen”) – nagyobb teljesítményre van szükség a teljesítmény javításához. Csak a „általában” minta elég nagy ahhoz, hogy megőrizze a szemantikát, így a túlzott egyensúlyozás csak ártana és úgy viselkedne, mint a kalapács rendszeresítése, amely mindent megfontolás nélkül „ellapít”. Továbbá, amint azt a dinoszaurusz-metafora sugallja, a “kiegyensúlyozott” nem azt jelenti, hogy “egyenletes” – csak akkor végez megfelelő egyensúlyozást, ha tudja, hogy bizonyos valószínűségeket rosszul ábrázolnak egy “véletlenszerű” mintában.
  • @ChristosK. Köszönöm a pontosításokat. Nem ugyanaz, amire gondoltam, de a megközelítés nagyon hasonló. A k-szer alkalmazhatóságának szokásos ajánlása az, hogy akkor tegye meg, amikor a kezdeti minta „kissé kicsi”. Nem biztos, de a hajtogatásnak nem szabad ártania – egyszerűen több futást igényel, és minél kevésbé érdekli a jóslat, annál kevésbé törődik az általánosítás / teljesítmény, olyan tautológiai, mint amilyennek hangzik :). De összességében – a k-szer lényegében kevesebb elfogultságot jelent.
  • @ChristosK. Ja, és figyelmeztetésképpen a spam / nem spam arány önmagában nem stacionárius véletlen változó lehet. Mindezen „álhírek”, „orosz trollok” és egyéb dolgok mellett óvatos lennék az ilyen feltételezésekkel – az arány is elfogult lehet. Először érdemes megbecsülni a PrecisionRecallt az osztályozóira, ha valami alulmintázott – inkább gyűjtenék / generálnék (?) További adatokat.

Válasz

A @ kjetil-b-halvorsen kommentárjával összhangban a gépi tanulás gyors elterjesztése megzavarta a kutatókat az előrejelzés és az osztályozás szempontjából. Amint azt részletesebben leírtam itt , az osztályozás csak esetek kisebb részében megfelelő. Ha az eredmény ritka (vagy túl gyakori), a valószínűségek minden ek, mert ebben az esetben lehet csak ésszerűen beszélni a tendenciákról , nem pedig az egyes események előrejelzéséről.

A statisztikákban egy ideje vissza tudtuk, hogy minden olyan módszer, amely megköveteli az adatok egy részének kizárását, erősen gyanús. Tehát az eredmények kiegyenlítésének célja nem megfelelő. A tendenciák (valószínűségek) előrejelzése nem igényli ezt. És ha megbecsüli a valószínűséget, akkor optimális döntést hozhat a th A haszon / költség / veszteség függvény az előre jelzett kockázatnak felel meg.

Válasz

Attól függ, hogy mit szeretne elérni a besorolásból?

Tegyük fel, hogy a rák nem rákos, ezért a rák kimutatása létfontosságú. Mivel azonban az adatok többségét a nem rák képezi, az osztályozó lényegében minden esetet nem rákos osztályba küldhet, és nagyon nagy pontosságot kaphat. De ezt nem engedhetjük meg magunknak, ezért lényegében leküzdjük a nem rákos megbetegedések mintáit, lényegében eltávolítva a döntési határt a rákos régiótól a nem rákos régióig.

Még azokban az esetekben is, amikor a pontosság az egyetlen cél, a kiegyensúlyozás elengedhetetlen lehet, ha a tesztidő egyensúlya várhatóan eltér a vonat időtartamától.

Például mondhatja el, hogy a mangókat és a narancsokat szeretné besorolni, rendelkezik egy 900 mangót és 30 narancsot tartalmazó képzési adathalmazzal, de elvárja, hogy egy olyan piacon telepítse, ahol egyenlő mangók és narancsok találhatók, ideális esetben a várt minta arányban vegyen mintát a pontosság maximalizálása érdekében.

Megjegyzések

  • Ezt megértettem az előadásaimból. Azonban nem értem, ‘ nem értem, mikor lehet rossz az egyensúlyozás, ahogy ez a blogbejegyzés sugallja. Miért lenne rossz valaha egyensúly, ha elegendő adatpont marad az egyes osztályokhoz?
  • Sajnáljuk, de a te analógiád szerint mi köze van a piaci gyümölcselosztásnak az ac modellhez káplánság?Vagy megtanultad elválasztani a mangót a narancstól, vagy sem. Más szavakkal, képesnek kell lennie arra, hogy az ugyanazt a modellt csak egy narancssárga vagy csak mangó piacon telepítse.
  • De a rákos példa problémája osztályozás nak tekintsék, kockázatbecslés ként kell kezelni. Ezután a kiegyensúlyozatlan osztályok látszólagos problémája eltűnik, lásd: stats.stackexchange.com/questions/127042/…

Válasz

Ha az adatok kiegyensúlyozottak, akkor ellenőrizheti a metrikus pontosságot. De amikor ilyen helyzetben az adatai kiegyensúlyozatlanok, akkor a pontosság nem következetes a különböző iterációknál. További mutatókat kell összpontosítania, például a Precízió (PPR), a Felidézés (érzékenység). Ennek a két mutatónak egyensúlyban kell lennie. Ellenőriznie kell az F1-pontszámot, amely a pontosság és a visszahívás harmonikus átlaga. Ez minden gépi tanulási algoritmusra alkalmazható

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük