O Go é um jogo de tabuleiro milenar vindo da China, jogado em um tabuleiro de 19×19 casas. A meta é simples: cercar mais território que o adversário. Mas não se engane com a simplicidade. A quantidade de jogadas possíveis é absurda: mais de 10^170. Pra ter uma ideia, isso é muito mais do que os ~10^80 átomos existentes no universo conhecido. Nem adianta cogitar usar força bruta.
Em 2016, o AlphaGo, criado pelo Google DeepMind, fez história ao derrotar o então campeão mundial Lee Sedol. Foi 4 a 1 pro robô. E não foi só uma vitória: foi um sinal claro de que a IA estava jogando em outro nível.
Não havia como, nos moldes do xadrez, mapear todas as jogas, precisavam de coisa maior foi então que em vez de calcular todas as jogadas (o que seria insanamente ineficiente), ele usou um combo poderoso: redes neurais profundas, aprendizado por reforço e busca Monte Carlo.
Primeiro, treinaram uma rede de política com milhões de partidas humanas. Essa rede dizia: “olha, essas jogadas aqui costumam dar certo”. Depois, veio a rede de valor, que avaliava: “dessa posição, acho que a chance de ganhar é boa”. Juntas, essas redes foram refinadas com o AlphaGo jogando contra ele mesmo (sim, ele treinou sozinho até ficar imbatível).
A cereja do bolo foi a MCTS: uma busca que simula jogadas futuras e escolhe as melhores com base nas redes neurais. Resultado? Jogadas que pareciam esquisitas pra humanos, mas que se mostraram geniais.
AlphaGo: Quando a Inteligência Artificial Venceu o Impossível
