EITC/AI/ARL Advanced Reinforcement Learning er det europeiske IT-sertifiseringsprogrammet om DeepMinds tilnærming til forsterkende læring innen kunstig intelligens.
Læreplanen til EITC/AI/ARL Advanced Reinforcement Learning fokuserer på teoretiske aspekter og praktiske ferdigheter i forsterkende læringsteknikker fra perspektivet til DeepMind organisert innenfor følgende struktur, og omfatter omfattende videodidaktisk innhold som referanse for denne EITC-sertifiseringen.
Forsterkningslæring (RL) er et område med maskinlæring som er opptatt av hvordan intelligente agenter burde iverksette tiltak i et miljø for å maksimere forestillingen om kumulativ belønning. Forsterkningslæring er ett av tre grunnleggende maskinlæringsparadigmer, ved siden av veiledet læring og uten tilsyn.
Forsterkningslæring skiller seg fra veiledet læring ved ikke å kreve merkede inngangs-/utgangspar, og i å ikke trenge suboptimale handlinger som skal korrigeres eksplisitt. I stedet er fokuset på å finne en balanse mellom utforskning (av ukjent territorium) og utnyttelse (av nåværende kunnskap).
Miljøet blir vanligvis angitt i form av en Markov-beslutningsprosess (MDP), fordi mange forsterkningsinnlæringsalgoritmer for denne sammenhengen bruker dynamiske programmeringsteknikker. Hovedforskjellen mellom klassiske dynamiske programmeringsmetoder og forsterkningslæringsalgoritmer er at sistnevnte ikke antar kunnskap om en nøyaktig matematisk modell av MDP, og de retter seg mot store MDPer der nøyaktige metoder blir umulige.
På grunn av sin allmenhet studeres forsterkningslæring i mange disipliner, som spillteori, kontrollteori, operasjonsforskning, informasjonsteori, simuleringsbasert optimalisering, multi-agent-systemer, svermintelligens og statistikk. I operasjonsforskning og kontroll litteratur kalles forsterkningslæring omtrentlig dynamisk programmering, eller nevrodynamisk programmering. Problemene av interesse for forsterkningslæring er også studert i teorien om optimal kontroll, som hovedsakelig er opptatt av eksistensen og karakteriseringen av optimale løsninger, og algoritmer for deres nøyaktige beregning, og mindre med læring eller tilnærming, spesielt i fravær av en matematisk modell av miljøet. I økonomi og spillteori kan forsterkningslæring brukes til å forklare hvordan likevekt kan oppstå under begrenset rasjonalitet.
Grunnleggende forsterkning er modellert som en Markov beslutningsprosess (MDP). I matematikk er en Markov-beslutningsprosess (MDP) en diskret stokastisk kontrollprosess. Det gir et matematisk rammeverk for modellering av beslutningstaking i situasjoner der resultatene er delvis tilfeldige og delvis under kontroll av en beslutningstaker. MDP er nyttige for å studere optimaliseringsproblemer løst via dynamisk programmering. MDP var kjent minst så tidlig som på 1950-tallet. En kjerne av forskning om Markovs beslutningsprosesser resulterte fra Ronald Howards 1960-bok, Dynamic Programming and Markov Processes. De brukes i mange fagområder, inkludert robotikk, automatisk kontroll, økonomi og produksjon. Navnet på MDP kommer fra den russiske matematikeren Andrey Markov, da de er en utvidelse av Markov-kjeder.
Ved hvert tidstrinn er prosessen i en eller annen tilstand S, og beslutningstaker kan velge hvilken som helst handling a som er tilgjengelig i tilstand S. Prosessen reagerer ved neste trinn ved å tilfeldig flytte inn i en ny tilstand S ', og gi beslutningstaker en tilsvarende belønning Ra (S, S ').
Sannsynligheten for at prosessen beveger seg i sin nye tilstand S 'påvirkes av den valgte handlingen a. Spesielt er den gitt av tilstandsovergangsfunksjonen Pa (S, S '). Dermed avhenger den neste tilstanden S 'av den nåværende tilstanden S og beslutningstakerens handling a. Men gitt S og a, er det betinget uavhengig av alle tidligere stater og handlinger. Med andre ord tilfredsstiller tilstandsovergangene til en MDP Markov-eiendommen.
Markovs beslutningsprosesser er en utvidelse av Markov-kjeder; Forskjellen er tillegg av handlinger (tillater valg) og belønning (gir motivasjon). Omvendt, hvis bare en handling eksisterer for hver stat (f.eks. "Vent") og alle belønningene er de samme (f.eks. "Null"), reduseres en Markov-beslutningsprosess til en Markov-kjede.
En læringsagent for forsterkning samhandler med miljøet i diskrete tidstrinn. Ved hver gang t mottar agenten den nåværende tilstanden S (t) og belønning r (t). Deretter velger en handling a (t) fra settet med tilgjengelige handlinger, som deretter sendes til miljøet. Miljøet beveger seg til en ny tilstand S (t + 1) og belønningen r (t + 1) assosiert med overgangen bestemmes. Målet med en læringsagent for forsterkning er å lære en policy som maksimerer den forventede kumulative belønningen.
Å formulere problemet som en MDP antar at agenten direkte observerer den nåværende miljøtilstanden. I dette tilfellet sies det at problemet har full observerbarhet. Hvis agenten bare har tilgang til en delmengde av stater, eller hvis de observerte tilstandene er ødelagt av støy, sies det at agenten har delvis observerbarhet, og formelt må problemet formuleres som en delvis observerbar Markov-beslutningsprosess. I begge tilfeller kan settet med handlinger som er tilgjengelig for agenten begrenses. For eksempel kan tilstanden til en kontosaldo være begrenset til å være positiv; hvis den nåværende verdien av staten er 3 og tilstandsovergangen forsøker å redusere verdien med 4, vil ikke overgangen være tillatt.
Når agentens ytelse sammenlignes med en agent som opptrer optimalt, gir forskjellen i ytelse oppfatningen av anger. For å kunne handle nærmest optimalt, må agenten resonnere om de langsiktige konsekvensene av sine handlinger (dvs. maksimere fremtidig inntekt), selv om den umiddelbare belønningen knyttet til dette kan være negativ.
Dermed er forsterkningslæring spesielt godt egnet for problemer som inkluderer en avveining mellom langsiktig og kortsiktig belønning. Den har blitt brukt med suksess på forskjellige problemer, inkludert robotkontroll, heisplanlegging, telekommunikasjon, backgammon, brikker og Go (AlphaGo).
To elementer gjør forsterkningslæring kraftig: bruk av prøver for å optimalisere ytelse og bruk av tilnærming av funksjoner for å håndtere store miljøer. Takket være disse to nøkkelkomponentene kan forsterkningslæring brukes i store miljøer i følgende situasjoner:
- En miljømodell er kjent, men en analytisk løsning er ikke tilgjengelig.
- Bare en simuleringsmodell av miljøet er gitt (gjenstand for simuleringsbasert optimalisering).
- Den eneste måten å samle informasjon om miljøet på er å samhandle med den.
De to første av disse problemene kan betraktes som planleggingsproblemer (siden en eller annen form for modell er tilgjengelig), mens den siste kan betraktes som et reelt læringsproblem. Imidlertid konverterer forsterkningslæring begge planleggingsproblemer til maskinlæringsproblemer.
Utvekslingen mot leting mot utnyttelse har blitt grundigst studert gjennom det flerarmede bandittproblemet og for endelige statsrådsmedisiner i Burnetas og Katehakis (1997).
Forsterkningslæring krever smarte letemekanismer; tilfeldig valg av handlinger, uten referanse til en estimert sannsynlighetsfordeling, viser dårlig ytelse. Saken med (små) endelige Markov-beslutningsprosesser er relativt godt forstått. På grunn av mangel på algoritmer som skalerer godt med antall stater (eller skalerer til problemer med uendelige tilstandsrom), er enkle letemetoder imidlertid de mest praktiske.
Selv om spørsmålet om leting blir ignorert, og selv om staten var observerbar, er problemet fortsatt å bruke tidligere erfaringer for å finne ut hvilke handlinger som fører til høyere kumulative belønninger.
For å gjøre deg mer kjent med sertifiseringspensumet kan du utvide og analysere tabellen nedenfor.
EITC/AI/ARL Advanced Reinforcement Learning Certification Curriculum refererer til didaktisk materiale med åpen tilgang i et videoskjema. Læringsprosessen er delt inn i en trinnvis struktur (programmer -> leksjoner -> emner) som dekker relevante læreplandeler. Ubegrenset rådgivning med domeneeksperter tilbys også.
Sjekk for detaljer om sertifiseringsprosedyren Hvordan det fungerer.
Læreplaner Referanse Ressurser
Menneskelig nivåkontroll gjennom Deep Reinforcement Learning publikasjon
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
Åpen tilgangskurs om dyp forsterkningslæring ved UC Berkeley
http://rail.eecs.berkeley.edu/deeprlcourse/
RL gjaldt K-armbed banditproblem fra Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
Last ned det komplette offline selvlærende forberedende materialet for EITC/AI/ARL Advanced Reinforcement Learning-programmet i en PDF-fil
EITC/AI/ARL forberedende materialer – standardversjon
EITC/AI/ARL forberedende materialer – utvidet versjon med gjennomgangsspørsmål