Feltet maskinlæring omfatter en rekke metoder og paradigmer, hver egnet for ulike typer data og problemer. Blant disse paradigmene er overvåket og uovervåket læring to av de mest grunnleggende.
Veiledet læring innebærer å trene en modell på et merket datasett, der inngangsdataene er paret med riktig utdata. Modellen lærer å kartlegge innganger til utganger ved å minimere feilen mellom dens prediksjoner og de faktiske utgangene. Uovervåket læring, derimot, omhandler umerkede data, der målet er å utlede den naturlige strukturen som er tilstede i et sett med datapunkter.
Det finnes en type læring som integrerer både veiledet og uovervåket læringsteknikker, ofte referert til som semi-veiledet læring. Denne tilnærmingen utnytter både merkede og umerkede data under opplæringsprosessen. Begrunnelsen bak semi-overvåket læring er at umerkede data, når de brukes sammen med en liten mengde merkede data, kan gi betydelig forbedring i læringsnøyaktighet. Dette er spesielt nyttig i scenarier der merkede data er knappe eller dyre å få tak i, men umerkede data er rikelig og enkle å samle inn.
Semi-veiledet læring er basert på antakelsen om at den underliggende strukturen til de umerkede dataene kan gi verdifull informasjon som er komplementær til de merkede dataene. Denne forutsetningen kan ha flere former, for eksempel klyngeforutsetningen, manifoldantakelsen eller lavtetthetsseparasjonsantakelsen. Klyngeantakelsen antyder at datapunkter i samme klynge sannsynligvis har samme etikett. Den mangfoldige antagelsen antyder at høydimensjonale data ligger på en mangfoldighet med mye lavere dimensjonalitet, og oppgaven er å lære denne mangfoldigheten. Lavtetthetsseparasjonsantakelsen er basert på ideen om at beslutningsgrensen bør ligge i et område med lav datatetthet.
En av de vanlige teknikkene som brukes i semi-veiledet læring er egentrening. I egentrening trenes en modell i utgangspunktet på de merkede dataene. Den bruker deretter sine egne spådommer på de umerkede dataene som pseudo-etiketter. Modellen er videre trent på dette utvidede datasettet, og foredler dets spådommer iterativt. En annen teknikk er co-training, hvor to eller flere modeller trenes samtidig på ulike syn på dataene. Hver modell er ansvarlig for å merke en del av de umerkede dataene, som deretter brukes til å trene de andre modellene. Denne metoden utnytter redundansen i flere visninger av dataene for å forbedre læringsytelsen.
Grafbaserte metoder er også utbredt i semi-veiledet læring. Disse metodene konstruerer en graf der noder representerer datapunkter, og kanter representerer likheter mellom dem. Læringsoppgaven omformuleres deretter som et grafbasert optimaliseringsproblem, hvor målet er å forplante etiketter fra de merkede nodene til de umerkede samtidig som grafstrukturen bevares. Disse teknikkene er spesielt effektive i domener der data naturlig danner et nettverk, for eksempel sosiale nettverk eller biologiske nettverk.
En annen tilnærming til å kombinere veiledet og uovervåket læring er gjennom fleroppgavelæring. I fleroppgavelæring løses flere læringsoppgaver samtidig, samtidig som fellestrekk og forskjeller på tvers av oppgaver utnyttes. Dette kan sees på som en form for induktiv overføring, hvor kunnskap oppnådd fra en oppgave bidrar til å forbedre læringen til en annen. Fleroppgavelæring kan være spesielt fordelaktig når det er en delt representasjon eller funksjonsplass mellom oppgaver, noe som gir mulighet for overføring av informasjon.
Et praktisk eksempel på semi-veiledet læring er innen naturlig språkbehandling (NLP). Tenk på oppgaven med sentimentanalyse, hvor målet er å klassifisere en gitt tekst som positiv eller negativ. Merkede data, for eksempel anmeldelser med sentimentetiketter, kan være begrenset. Imidlertid er det en enorm mengde umerket tekst tilgjengelig. En semi-overvåket læringstilnærming kan innebære å trene en sentimentklassifiserer på de merkede dataene og bruke den til å forutsi følelsen til de umerkede dataene. Disse spådommene kan deretter brukes som ekstra treningsdata, og forbedre klassifisererens ytelse.
Et annet eksempel finnes i bildeklassifisering. I mange tilfeller er det arbeidskrevende og kostbart å skaffe merkede bilder, mens umerkede bilder er rikelig. En semi-overvåket tilnærming kan innebære å bruke et lite sett med merkede bilder for å trene en innledende modell. Denne modellen kan deretter brukes på de umerkede bildene for å generere pseudo-etiketter, som deretter brukes til å omskolere modellen.
Integreringen av overvåket og uovervåket læring gjennom semi-overvåket læring og relaterte metoder representerer en kraftig tilnærming innen maskinlæring. Ved å utnytte styrken til begge paradigmene, er det mulig å oppnå betydelige forbedringer i modellytelsen, spesielt i domener der merkede data er begrenset, men umerkede data er rikelig. Denne tilnærmingen forbedrer ikke bare modellenes evne til å generalisere fra begrensede data, men gir også et mer robust rammeverk for å forstå den underliggende strukturen til komplekse datasett.
Andre nyere spørsmål og svar vedr EITC/AI/GCML Google Cloud Machine Learning:
- Du nevnte mange slags algoritmer som lineær regresjon, beslutningstrær. Er dette alle nevronale nettverk?
- Hva er ytelsesevalueringsberegningene til en modell?
- Hva er lineær regresjon?
- Er det mulig å kombinere forskjellige ML-modeller og bygge en master AI?
- Hva er noen av de vanligste algoritmene som brukes i maskinlæring?
- Hvordan lage en versjon av modellen?
- Hvordan bruke de 7 trinnene i ML i en eksempelsammenheng?
- Hvordan kan maskinlæring brukes på bygningstillatelsesdata?
- Hvorfor ble AutoML Tables avviklet, og hva følger etter dem?
- Hva er oppgaven med å tolke doodler tegnet av spillere i sammenheng med AI?
Se flere spørsmål og svar i EITC/AI/GCML Google Cloud Machine Learning