dimecres, 17 d’octubre del 2018

Màquines que aprenen. Alpha Zero sacseja el món dels escacs.


Ja fa temps que a ningú li sorprèn que les màquines puguin emular cada cop millor les capacitats dels humans. El 1996 un superordinador anomenat Deep Blue, construït per IBM, va causar commoció derrotant als escacs el campió mundial del joc, el rus Gary Kasparov. Actualment podem disposar en el nostre telèfon mòbil un programa que juga molt bé als escacs i que pot vèncer qualsevol jugador.
Fins ara això s'aconseguia programant dins la màquina el millor coneixement humà disponible, donant-li accés a bases de dades a milers de partides i aprofitant la seva rapidesa d'actuació i gran capacitat de memòria. D'alguna manera els humans podíem pensar: fan com nosaltres mateixos, però disposen de tecnologia més potent.
Però ara, gràcies a la disciplina de la Intel·ligència Artificial, s'està produint una estratègia radicalment diferent: L'aprenentatge profund. Se li expliquen a la màquina simplement les regles del joc, se li demana que jugui milers de partides contra ella mateixa, cosa que pot realitzar a velocitats supersòniques, i que aprengui de la seva pròpia experiència, com ho fan els nens. Simplement, se li ensenya a la màquina a aprendre i a aplicar els resultats del seu aprenentatge.

L'empresa anglesa Deep Mind, creada l'any 2010, va desenvolupar un programa basat en aquest enfocament per aprendre a jugar jocs dels antics ordinadors Atari.  En el vídeo Deep Mind aprèn a jugar un joc d'Atari podeu veure que després de 10 minuts, el programa comença a saber jugar, però encara de forma tosca, al cap de 2 hores ja sap jugar molt bé, i en 4 hores descobreix l'estratègia òptima per jugar a aquest joc.

L'empresa Google (anomenada formalment Google-Alphabet) va considerar que aquest enfocament tenia molt interès tècnic, i el 2014 va comprar l'empresa Deep Mind per 500 milions de dòlars. Dues vegades el cost del jugador de futbol més car del món.
Després d'aquesta adquisició, l'equip de Deep Mind, ja dins de Google-Alphabet, va seguir treballant i va desenvolupar Alpha Go, un programa que va guanyar un jugador expert de Go, joc que es considerava força difícil per als ordinadors a causa de la seva gran quantitat de possibilitats.



Recentment, Deep Mind ha sacsejat el món dels escacs amb el desenvolupament del programa Alpha Zero. A Alpha Zero se li han ensenyat tan sols les regles dels escacs, se li ha dit que jugui milers de partides contra ell mateix i que aprengui a jugar de la millor forma possible, aprenent de la seva pròpia experiència. N'ha tingut prou amb quatre hores de joc per aprendre a jugar de tal manera que ha derrotat el més fort dels programes informàtics que juguen a escacs, Stockfish, que disposa dins seu la intel·ligència acumulada de segles de jocs d'escacs per part dels humans. No cal dir que Alpha Zero possiblement derrotaria amb facilitat qualsevol jugador humà. L'aprenentatge profund per part de les màquines està tan sols començant, però els seus resultats són sorprenents, i poden aplicar-se a molts altres àmbits. Reflexionem-hi.

El que sembla clar és que en àmbits tancats, i amb regles específiques, encara que semblin activitats "humanes", com el joc d'escacs, o la supervisió d'una planta elèctrica complicada, les màquines són imbatibles, i superaran de lluny els humans, però en activitats de "sentit comú" com les que fem contínuament cada dia, les màquines ho tenen molt més difícil.

Si voleu ampliar aquesta entrada :
·         Vídeo amb un diàleg amb un professor especialista en intel·ligència artificial.
·         Vídeo on es comenta una partida d'escacs del duel entre Alpla Zero i Stockfish.