Arkitekturen til det nevrale nettverket som brukes i eksemplet er et feedforward nevralt nettverk med tre lag: et inngangslag, et skjult lag og et utgangslag. Inndatalaget består av 784 enheter, som tilsvarer antall piksler i inndatabildet. Hver enhet i inputlaget representerer intensitetsverdien til en piksel i bildet.
Det skjulte laget består av 128 enheter, som er fullt koblet til inngangslaget. Hver enhet i det skjulte laget beregner en vektet sum av inngangene fra inngangslaget og bruker en aktiveringsfunksjon for å produsere en utgang. I dette eksemplet er aktiveringsfunksjonen som brukes i det skjulte laget funksjonen Rectified Linear Unit (ReLU). ReLU-funksjonen er definert som f(x) = max(0, x), hvor x er den vektede summen av inngangene til enheten. ReLU-funksjonen introduserer ikke-linearitet til nettverket, slik at det kan lære komplekse mønstre og relasjoner i dataene.
Utdatalaget består av 10 enheter, som hver representerer en av de mulige klassene i klassifiseringsproblemet. Enhetene i utgangslaget er også fullt koblet til enhetene i det skjulte laget. I likhet med det skjulte laget, beregner hver enhet i utgangslaget en vektet sum av inngangene fra det skjulte laget og bruker en aktiveringsfunksjon. I dette eksemplet er aktiveringsfunksjonen som brukes i utdatalaget softmax-funksjonen. Softmax-funksjonen konverterer den vektede summen av innganger til en sannsynlighetsfordeling over klassene, hvor summen av sannsynlighetene er lik 1. Enheten med høyest sannsynlighet representerer den predikerte klassen til inngangsbildet.
For å oppsummere består den nevrale nettverksarkitekturen som brukes i eksemplet av et inngangslag med 784 enheter, et skjult lag med 128 enheter som bruker ReLU-aktiveringsfunksjonen, og et utgangslag med 10 enheter som bruker softmax-aktiveringsfunksjonen.
Andre nyere spørsmål og svar vedr Å bygge et nevralt nettverk for å utføre klassifisering:
- Er det nødvendig å bruke en asynkron læringsfunksjon for maskinlæringsmodeller som kjører i TensorFlow.js?
- Hvordan er modellen kompilert og trent i TensorFlow.js, og hva er rollen til den kategoriske kryssentropitapsfunksjonen?
- Hva er betydningen av læringshastigheten og antall epoker i maskinlæringsprosessen?
- Hvordan deles treningsdataene inn i trenings- og testsett i TensorFlow.js?
- Hva er hensikten med TensorFlow.js for å bygge et nevralt nettverk for klassifiseringsoppgaver?