Multiklassificering - Multiclass classification

I maskinindlæring er multiklasse eller multinomial klassifikation problemet med at klassificere forekomster i en af tre eller flere klasser (klassificering af forekomster i en af to klasser kaldes binær klassifikation ).

Mens mange klassificeringsalgoritmer (især multinomial logistisk regression ) naturligt tillader brugen af mere end to klasser, er nogle af deres natur binære algoritmer; disse kan dog omdannes til multinomiale klassifikatorer ved hjælp af en række strategier.

Multiklassificering bør ikke forveksles med klassificering af flere mærker, hvor flere etiketter skal forudsiges for hver forekomst.

Generelle strategier

De eksisterende klassificeringsteknikker i flere klasser kan kategoriseres i (i) transformation til binær (ii) udvidelse fra binær og (iii) hierarkisk klassificering.

Transformation til binær

Dette afsnit diskuterer strategier til reduktion af problemet med multiklassificering til flere binære klassificeringsproblemer. Det kan kategoriseres i en vs hvile og en vs en . De teknikker, der er udviklet baseret på at reducere multiklasseproblemet til flere binære problemer, kan også kaldes problemtransformationsteknikker.

En-mod-hvile

One-vs.-rest (OvR eller one-vs.-all , OvA eller one-against-all , OAA) strategi involverer træning af en enkelt klassificering pr. Klasse, med prøverne i den klasse som positive prøver og alle andre prøver som negativer . Denne strategi kræver, at basisklassifikatorerne producerer en reel værditillidsscore for sin beslutning snarere end blot et klasselabel; diskrete klassemærker alene kan føre til uklarheder, hvor flere klasser forudsiges for en enkelt prøve.

I pseudokode er træningsalgoritmen for en OvR-elev konstrueret ud fra en binær klassifikations-elev $L$ som følger:

Indgange:

$L$ , en elev (træningsalgoritme til binære klassifikatorer)
prøver $X$
etiketter $y$ hvor $y i$ ∈ {1,… $K$ } er etiketten til prøven $X i$

Produktion:

en liste over klassifikatorer $f k$ for $k$ ∈ {1,…, $K$ }

Procedure:

For hvert k i {1,…, K }
- Konstruer en ny etiketvektor $z$ hvor $z i$ = $y i$ hvis $y i = k$ og $z i = 0$ ellers
- Påfør $L$ til $X$ , $z for$ at opnå $f k$

At træffe beslutninger betyder at anvende alle klassifikatorer på en uset prøve $x$ og forudsige etiketten $k,$ som den tilsvarende klassifikator rapporterer den højeste tillidsscore for:

{\ displaystyle {\ hat {y}} = {\ underset {k \ in \ {1 \ ldots K \}} {\ arg \! \ max}} \; f_ {k} (x)}

Selv om denne strategi er populær, er den en heuristik, der lider af flere problemer. For det første kan omfanget af tillidsværdier variere mellem de binære klassifikatorer. For det andet, selvom klassedistributionen er afbalanceret i træningssættet, ser de binære klassifikationselever ubalancerede fordelinger, fordi det sæt negativer, de ser, typisk er meget større end det positive sæt.

Én-mod-én

I en-mod-en (OvO) reduktion træner man $K (K - 1) / 2$ binære klassifikatorer til et $K-vej$ multiklasseproblem; hver modtager prøverne fra et par klasser fra det originale træningssæt og skal lære at skelne mellem disse to klasser. På forudsigelsestidspunktet anvendes et afstemningsskema: alle $K (K - 1) / 2$ klassifikatorer anvendes på en uset prøve, og den klasse, der fik det højeste antal "+1" forudsigelser, forudsiges af den kombinerede klassifikator.

Ligesom OvR lider OvO af uklarheder ved, at nogle regioner i dets inputrum kan modtage det samme antal stemmer.

Udvidelse fra binær

Dette afsnit diskuterer strategier for at udvide de eksisterende binære klassifikatorer til at løse klassificeringsproblemer i flere klasser. Adskillige algoritmer er blevet udviklet baseret på neurale netværk , beslutningstræer , k-nærmeste naboer , naive Bayes , supportvektormaskiner og ekstreme læringsmaskiner til løsning af klassificeringsproblemer i flere klasser. Disse typer teknikker kan også kaldes algoritmetilpasningsteknikker.

Neurale netværk

Multiclass perceptrons giver en naturlig udvidelse af multi-class problemet. I stedet for kun at have en neuron i outputlaget med binær output, kunne man have N binære neuroner, der fører til klassificering i flere klasser. I praksis er det sidste lag i et neuralt netværk normalt et softmax-funktionslag , hvilket er den algebraiske forenkling af N logistiske klassifikatorer, normaliseret pr. Klasse med summen af N-1 andre logistiske klassifikatorer.

Ekstreme læringsmaskiner

Extreme learning machines (ELM) er et specielt tilfælde af enkelt skjulte lag feed-forward neurale netværk (SLFN'er), hvor inputvægte og de skjulte knudepunkter kan vælges tilfældigt. Mange varianter og udviklinger foretages til ELM til klassificering i flere klasser.

k-nærmeste naboer

k-nærmeste naboer kNN betragtes som en af de ældste ikke-parametriske klassificeringsalgoritmer. For at klassificere et ukendt eksempel måles afstanden fra dette eksempel til ethvert andet træningseksempel. De k mindste afstande identificeres, og den mest repræsenterede klasse af disse k nærmeste naboer betragtes som outputklassemærket.

Naive Bayes

Naive Bayes er en vellykket klassifikator baseret på princippet om maksimal a posteriori (MAP). Denne tilgang kan naturligvis udvides til at have mere end to klasser og viste sig at fungere godt på trods af den underliggende forenkling af antagelsen om betinget uafhængighed .

Beslutningstræer

Beslutningstræindlæring er en stærk klassificeringsteknik. Træet forsøger at udlede en opdeling af træningsdataene baseret på værdierne for de tilgængelige funktioner for at producere en god generalisering. Algoritmen kan naturligvis håndtere binære eller multiklassificeringsproblemer. Bladknudepunkterne kan henvise til enhver af de berørte K-klasser.

Support vektor maskiner

Supportvektormaskiner er baseret på ideen om at maksimere margenen, dvs. maksimere minimumsafstanden fra det adskilte hyperplan til det nærmeste eksempel. Den grundlæggende SVM understøtter kun binær klassificering, men der er også foreslået udvidelser til også at håndtere multiklasseklassifikationssagen. I disse udvidelser tilføjes yderligere parametre og begrænsninger til optimeringsproblemet for at håndtere adskillelsen af de forskellige klasser.

Hierarkisk klassifikation

Hierarkisk klassificering tackler klassificeringsproblemet i flere klasser ved at opdele outputområdet dvs. i et træ . Hver overordnet node er opdelt i flere underordnede noder, og processen fortsættes, indtil hver underordnet node kun repræsenterer en klasse. Flere metoder er blevet foreslået baseret på hierarkisk klassificering.

Læringsparadigmer

Baseret på læringsparadigmer kan de eksisterende klassificeringsteknikker i flere klasser klassificeres i batchindlæring og online læring . Batchindlæringsalgoritmer kræver, at alle dataprøverne er tilgængelige på forhånd. Den træner modellen ved hjælp af hele træningsdataene og forudsiger derefter testprøven ved hjælp af det fundne forhold. Onlinelæringsalgoritmerne bygger derimod trinvis deres modeller i sekventielle iterationer. I iteration t modtager en online algoritme en prøve, x _t og forudsiger sin etiket using _t ved hjælp af den aktuelle model; algoritmen modtager derefter y _t , den sande label for x _t og opdaterer sin model baseret på sample-label-paret: (x _t , y _t ). For nylig er der udviklet et nyt læringsparadigme kaldet progressiv læringsteknik. Den progressive læringsteknik er i stand til ikke kun at lære af nye prøver, men også i stand til at lære nye klasser af data og alligevel beholde den hidtil lærte viden.

Languages

In other projects