Hogyan tanul meg egy algoritmus sakkozni

A sakk, évezredes múltjával, mindig is az emberi intellektus és stratégiai gondolkodás egyik végső próbája volt. A tábla 64 mezője, a figurák mozgásának látszólag egyszerű szabályai mögött egy olyan összetettség rejtőzik, amely évszázadok óta lenyűgözi és kihívja az emberiséget. Éppen ezért, az elmúlt évtizedekben az egyik legizgalmasabb terület a mesterséges intelligencia (MI) kutatásában az volt, hogyan taníthatók meg a gépek, az algoritmusok, erre a királyi játékra. De hogyan is történik ez a folyamat? Milyen lépcsőfokokon keresztül jutottunk el a kezdetleges programoktól a mai, emberfeletti képességű digitális nagymesterekig, mint amilyen az AlphaZero?

A kezdetek: Szabályalapú rendszerek és a Minimax

Az MI sakkal való kapcsolata már a számítógépek hajnalán elkezdődött. Az első programok, mint az 1950-es években fejlesztett „Mac Hack”, még nagyrészt előre definiált szabályokra épültek. Ezek a programok alapvetően „ha-akkor” logikával működtek: ha ez a helyzet, akkor lépj ide. Azonban hamar nyilvánvalóvá vált, hogy ez az megközelítés önmagában nem elegendő a sakk komplexitásának kezelésére. Szükség volt egy okosabb stratégiára, amely képes előre gondolkodni, akárcsak az ember.

Ezen a ponton lépett a képbe az egyik alapvető keresési algoritmus, a Minimax. A Minimax lényege, hogy egy adott állásból kiindulva felépíti a lehetséges lépések és ellenlépések fáját, azaz a játékfát. Két játékosról van szó: a „maximáló” játékos (mi), aki a saját előnyét szeretné maximalizálni, és a „minimalizáló” játékos (az ellenfél), aki a mi előnyünket próbálja minimalizálni. A Minimax algoritmusa rekurzívan vizsgálja a játékfát egészen egy bizonyos mélységig, és minden álláshoz hozzárendel egy numerikus értéket egy úgynevezett értékelő függvény segítségével.

Az értékelő függvény kulcsfontosságú volt ezekben a rendszerekben. Ez egy olyan matematikai formula, amelyet emberi sakkismeretek alapján programoztak be. Figyelembe vette a bábok értékét (pl. gyalog 1, huszár 3, vezér 9), a terek irányítását, a király biztonságát, a gyalogstruktúrát és sok más pozicionális tényezőt. A függvény célja az volt, hogy egy adott állásról egyetlen számmal megmondja, mennyire jó az a pozíció a program számára. A Minimax aztán visszaszámolt a fa leveleitől a gyökeréig, mindig azt a lépést választva, ami a maximális előnyt ígérte, feltételezve, hogy az ellenfél is a lehető legjobb lépéseket teszi.

A tiszta Minimax azonban rendkívül számításigényes. A sakk játékfája exponenciálisan növekszik a mélységgel, így még néhány lépés előretekintése is gigantikus mennyiségű számítást igényelne. Erre a problémára kínált megoldást az alfa-béta metszés. Ez egy okos optimalizáció, amely lehetővé teszi, hogy a Minimax algoritmus bizonyos ágait idő előtt levágja a játékfában, mivel már az elején tudja, hogy azok az ágak sosem vezetnének jobb eredményre, mint amit máshol már talált. Az alfa-béta metszés drámaian csökkentette a szükséges számítások mennyiségét, lehetővé téve a programoknak, hogy mélyebbre lássanak a játékfában.

Deep Blue és a nyers erő korszaka

A fenti elvek képezték az alapját az IBM legendás sakkprogramjának, a Deep Blue-nak is, amely 1997-ben történelmet írt azzal, hogy legyőzte a világ akkori sakkvilágbajnokát, Garri Kaszparovot. Deep Blue nem volt egy igazi gépi tanulás rendszere a mai értelemben, sokkal inkább egy gigantikus, speciálisan épített szuperszámítógép, amely hihetetlen számítási kapacitással rendelkezett. Másodpercenként 200 millió állást volt képes kiértékelni, és akár 12-13 lépés mélységig is előre látott a játékfában (sőt, bizonyos speciális esetekben 40 lépésig is).

Deep Blue ereje a nyers számítási sebességben és a rendkívül finomra hangolt, emberi szakértők által írt értékelő függvényekben rejlett. Habár volt benne némi adaptív képesség (például a súlyok finomhangolása a korábbi játékok elemzése alapján), alapvetően még mindig egy szabályalapú óriás volt, nem pedig egy olyan rendszer, amely önállóan „tanult” a nulláról. Kaszparov legyőzése azonban egyértelműen megmutatta, hogy a számítógépek eljutottak arra a szintre, ahol a puszta számítási teljesítmény már felveszi a versenyt, sőt, le is győzi az emberi intuíciót és tapasztalatot.

A paradigmaváltás: Neuronhálózatok és Erősítő Tanulás

A 21. század elején azonban egy új technológia kezdett elterjedni a mesterséges intelligencia területén: a neuronhálózatok és a gépi tanulás. Ezek a módszerek alapjaiban változtatták meg az MI-ről alkotott képünket, és lehetővé tették, hogy az algoritmusok ne csak végrehajtsák az utasításokat, hanem önállóan tanuljanak és fejlődjenek.

A neuronhálózatok, amelyek az emberi agy működését próbálják utánozni, képesek hatalmas mennyiségű adatból mintázatokat felismerni és döntéseket hozni. A sakk esetében ez azt jelenti, hogy egy neuronhálózat képes megtanulni egy adott állás „jóságát” anélkül, hogy minden egyes szabályt előre beprogramoznánk. Ehelyett milliószámra elemez sakkállásokat és a hozzájuk tartozó eredményeket, fokozatosan finomítva a saját belső súlyait, hogy egyre pontosabb előrejelzéseket tegyen.

Azonban a neuronhálózatok „tanításához” rengeteg adatra van szükség. Honnan szerezhetünk elegendő sakkállást és a hozzájuk tartozó optimális lépéseket? Erre ad választ az erősítő tanulás (reinforcement learning). Az erősítő tanulás során egy algoritmus (az „ügynök”) interakcióba lép egy „környezettel” (a sakktáblával), cselekvéseket hajt végre (lépéseket tesz), és visszajelzést (jutalmat vagy büntetést) kap ezekért a cselekvésekért. A cél az, hogy maximalizálja a hosszú távú jutalmat.

A sakk esetében az erősítő tanulás a következőképpen néz ki: az algoritmus egyszerűen elkezd önjátékokat játszani önmaga ellen. Kezdetben teljesen véletlenszerűen lépked, de minden játék végén megkapja a visszajelzést: nyert, vesztett vagy döntetlent játszott. Ez a visszajelzés a „jutalom”. A neuronhálózatok ezután ezt a tapasztalatot használják fel a „tudásuk” frissítéséhez. Fokozatosan megtanulják, mely lépések vezetnek a győzelemhez, és melyek a vereséghez. Milliós nagyságrendű önjáték lejátszásával az algoritmus képes felépíteni egy olyan tudásbázist, amely meghaladja az emberi tapasztalatot.

Monte Carlo Fa Keresés (MCTS) – Az okos keresés

Az erősítő tanulás és a neuronhálózatok mellett egy harmadik, kritikus komponens is feltűnt, amely a mai modern sakk MI-k alapját képezi: a Monte Carlo Fa Keresés (MCTS). Az MCTS egy olyan keresési technika, amely a véletlenszerű mintavételezést és a statisztikai becsléseket ötvözi, hogy hatékonyan feltérképezze a hatalmas játékfákat.

Az MCTS négy fő fázisból áll egy adott állásból kiindulva:

Kiválasztás (Selection): A fa gyökerétől indulva az algoritmus a már látogatott csomópontokon keresztül ereszkedik lefelé, mindig azt a gyermekcsomópontot választva, amely a legnagyobb esélyt kínálja a győzelemre a korábbi tapasztalatok alapján, miközben fenntartja az „exploration” és „exploitation” egyensúlyát (azaz próbál új lépéseket is, de igyekszik kihasználni a már beváltakat).
Kiterjesztés (Expansion): Amikor eljut egy olyan csomóponthoz, amelyet még nem vizsgált meg teljesen (azaz még nem játszott le innen elegendő játékot), kiválaszt egy nem látogatott gyermeket (egy lehetséges következő lépést), és hozzáadja a fához.
Szimuláció (Simulation / Rollout): Az újonnan kiterjesztett csomóponttól kezdve az algoritmus egy teljesen véletlenszerű (vagy egy egyszerű „gyors policy” által vezérelt) játékot játszik a játszma végéig. Ez a „rollout” ad egy gyors becslést az adott állás jóságáról.
Visszaterjesztés (Backpropagation): A szimuláció eredménye (nyerés, vesztés, döntetlen) visszaterjed a fában az újonnan kiterjesztett csomóponttól a gyökérig, frissítve az érintett csomópontok statisztikáit (hány játékot játszottak le ebből az állásból, és hány győzelem született).

Ez a ciklus sokszor megismétlődik, lehetővé téve az algoritmusnak, hogy statisztikailag egyre pontosabban megértse, mely lépések a legígéretesebbek.

Az AlphaZero forradalom: Emberi tudás nélkül a csúcsra

A fenti technológiák szintézise vezetett el a Google DeepMind cégének AlphaZero nevű algoritmusához, amely 2017-ben szó szerint forradalmasította a sakk MI világát. Az AlphaZero alapvető különbsége a Deep Blue-hoz és még a korábbi élvonalbeli programokhoz (pl. Stockfish) képest az volt, hogy tabula rasa alapon, azaz tiszta lappal indult. Nem kapott semmilyen előzetes emberi sakkismeretet, sem megnyitási adatbázisokat, sem végjáték-táblázatokat, sem ember által programozott értékelő függvényeket.

Az AlphaZero kizárólag a sakk szabályait ismerte, és mindössze órák alatt tanulta meg a játékot önjátékok milliói során, a fent említett erősítő tanulás, neuronhálózatok és az okos Monte Carlo Fa Keresés (MCTS) kombinációjával. A neuronhálózat két felelősséget látott el egyidejűleg: egyrészt egy „policy” hálózatként javasolta a valószínűleg jó lépéseket (vezetve az MCTS keresését), másrészt egy „érték” hálózatként becsülte meg az állás valószínűsíthető végeredményét (mennyire valószínű a győzelem ebből az állásból). Ez a szinergia hihetetlenül hatékony, mivel a neuronhálózat a tapasztalataival irányítja az MCTS-t, amely cserébe pontosabb adatokat szolgáltat a neuronhálózat további képzéséhez.

Az AlphaZero kevesebb mint 4 óra önjáték után már felülmúlta a Stockfish 8-at, amely az akkori legerősebb, hagyományos értelemben vett sakkprogram volt, és több évtizedes emberi sakkismerettel volt tele. Az AlphaZero játékstílusa is különleges volt: rendkívül dinamikus, taktikus és pozíciósan mélyreható, gyakran feláldozott anyagot a kezdeményezésért, oly módon, ahogyan az emberi sakk nagymesterek sem mindig gondolkodnának. Ez a jelenség rávilágított arra, hogy a gépi tanulás és az erősítő tanulás képes lehet teljesen új, emberi kategóriákkal leírhatatlan stratégiákat is felfedezni.

A sakktáblán túl: Az MI jövője

Az algoritmusok sakkban elért sikerei nem csupán a játék iránti érdeklődők számára izgalmasak. Sokkal szélesebb körű jelentőségük van a mesterséges intelligencia kutatásában. Az AlphaZero által képviselt megközelítés – ahol egy rendszer tiszta lappal indul, és önállóan tanulja meg a feladatot az erősítő tanulás és a neuronhálózatok segítségével – számos más területen is alkalmazható lehet. Gondoljunk csak a tudományos felfedezésekre, az új gyógyszerek fejlesztésére, az optimalizációs problémákra a logisztikában, vagy akár az autonóm rendszerek (pl. önvezető autók) fejlesztésére.

A sakk, mint tesztplatform, bebizonyította, hogy az algoritmusok képesek nem csak utánozni az emberi intelligenciát, hanem bizonyos területeken felülmúlni is azt, méghozzá úgy, hogy közben emberi beavatkozás nélkül fedeznek fel új tudást és stratégiákat. Ez a folyamatos fejlődés azt ígéri, hogy a jövőben az MI rendszerek egyre összetettebb problémákat lesznek képesek megoldani, és olyan területeken is áttörést hozhatnak, ahol az emberi értelem határai már korlátot szabtak.

Ahogy egy algoritmus megtanul sakkozni – először szabályok és emberi tudás alapján, majd egyre inkább önállóan, próbálgatások és hibák útján – úgy alakul át a mesterséges intelligencia fogalma is. A digitális nagymesterek nem csupán lenyűgözőek, hanem úttörők is, megmutatva, mire képes az öntanuló MI, és milyen izgalmas lehetőségeket rejt még magában a jövő.