Konvolusjonelle nevrale nettverk (CNN) ble først designet for bildegjenkjenning innen datasyn. Disse nettverkene er en spesialisert type kunstig nevrale nettverk som har vist seg å være svært effektive i å analysere visuelle data. Utviklingen av CNN-er ble drevet av behovet for å lage modeller som nøyaktig kunne klassifisere og kategorisere bilder, og deres suksess på dette domenet har ført til utbredt bruk i forskjellige andre applikasjoner som objektgjenkjenning, bildesegmentering og til og med naturlig språkbehandling.
CNN-er er inspirert av strukturen og funksjonaliteten til den visuelle cortex i den menneskelige hjernen. I likhet med den visuelle cortex består CNN-er av flere lag med sammenkoblede nevroner som behandler forskjellige aspekter av inndataene. Nøkkelinnovasjonen til CNN ligger i deres evne til automatisk å lære og trekke ut relevante funksjoner fra bilder, og eliminere behovet for manuell funksjonsutvikling. Dette oppnås ved bruk av konvolusjonslag, som bruker filtre på inngangsbildet for å oppdage ulike visuelle mønstre og funksjoner, som kanter, hjørner og teksturer.
Det første gjennombruddet i CNN kom med introduksjonen av LeNet-5-arkitekturen av Yann LeCun et al. i 1998. LeNet-5 ble spesielt utviklet for håndskrevet siffergjenkjenning og oppnådde bemerkelsesverdig ytelse på MNIST-datasettet, et referansedatasett som er mye brukt for å evaluere bildegjenkjenningsalgoritmer. LeNet-5 demonstrerte kraften til CNN-er i å fange hierarkiske trekk fra bilder, noe som muliggjorde nøyaktig klassifisering selv i nærvær av variasjoner i skala, rotasjon og oversettelse.
Siden den gang har CNN-er utviklet seg betydelig, med dypere og mer komplekse arkitekturer som er utviklet. Et bemerkelsesverdig fremskritt var introduksjonen av AlexNet-arkitekturen av Alex Krizhevsky et al. i 2012. AlexNet oppnådde et gjennombrudd innen bildeklassifisering ved å vinne ImageNet Large Scale Visual Recognition Challenge (ILSVRC) med en betydelig lavere feilrate sammenlignet med tidligere tilnærminger. Denne suksessen banet vei for den utbredte bruken av CNN i bildegjenkjenningsoppgaver.
CNN-er har også blitt brukt på andre datasynsoppgaver. For eksempel, i objektdeteksjon, kan CNN-er kombineres med flere lag for å lokalisere og klassifisere objekter i et bilde. Det berømte Region-baserte Convolutional Neural Network (R-CNN) introdusert av Ross Girshick et al. i 2014 er et eksempel på en slik arkitektur. R-CNN oppnådde state-of-the-art resultater på objektdeteksjonsreferanser ved å utnytte kraften til CNN for funksjonsutvinning og kombinere det med regionforslagsmetoder.
Konvolusjonelle nevrale nettverk ble først designet for bildegjenkjenningsoppgaver innen datasyn. De har revolusjonert feltet ved automatisk å lære relevante funksjoner fra bilder, noe som eliminerer behovet for manuell funksjonsutvikling. Utviklingen av CNN-er har ført til betydelige fremskritt innen bildeklassifisering, gjenstandsdeteksjon og forskjellige andre datasynsoppgaver.
Andre nyere spørsmål og svar vedr EITC/AI/ADL Advanced Deep Learning:
- Hvorfor må vi bruke optimaliseringer i maskinlæring?
- Når oppstår overfitting?
- Kan konvolusjonelle nevrale nettverk håndtere sekvensielle data ved å inkorporere konvolusjoner over tid, slik det brukes i konvolusjonelle sekvens-til-sekvens-modeller?
- Stoler Generative Adversarial Networks (GAN) på ideen om en generator og en diskriminator?