Algoritmos para um jogador inteligente de Poker



Baixar 1,37 Mb.
Página3/6
Encontro12.07.2018
Tamanho1,37 Mb.
1   2   3   4   5   6

Tabela 3: Distribuição da decisão do jogador aleatório

3.4.2. Constantes
Esses jogadores tomam sempre a mesma decisão discretizada.
3.4.3. Mathematically Fair Strategy - MFS
Esses jogadores tomam a decisão discretizada definida por na fórmula:


Fórmula 5: decisão de um jogador MFS
Onde é a relação MFS (Fórmula 1) e é uma constante que foi testado vários valores. Para chegar em foi necessário usar outra fórmula que obtém o mesmo resultado da relação MFS (Fórmula 1) porque o programa não oferece as variáveis exatamente como descrito na fórmula. é a quantidade de dinheiro do adversário, é o POT, é o ODDS, é o RAISE, é a quantidade de dinheiro apostado pelo jogador e é a CHANCE em porcentagem. Caso o , que é o ODDS, seja igual a zero, significa começo de jogo onde o jogador não apostou nada ainda. Nesse caso, a decisão dele é sempre entrar no jogo.
3.4.4. Jean Rachlin e Gary Higgins – RH
Esses jogadores tomam a decisão discretizada definida por :


Fórmula 6: decisão de um jogador RH
Onde é a relação RH (Fórmula 2), é o POT, é o número de vezes que alguém decidiu RAISE / BET, é o número de jogadores que ainda vão jogar nesta rodada, é o número de jogadores que não fugiram, é o RAISE e é uma constante que foi testado diversos valores. O RAISE foi alterado para com o “+1” para que não houvesse divisão por zero.
3.4.5. Aprendizado por Reforço
Esse jogador internamente tem matriz com o número de dimensões iguais ao número de dimensões do estado do jogo (Tabela 1). Cada dimensão tem uma quantidade de níveis e um intervalo correspondente a cada nível e o estado do jogo se enquadrará em um nível se o intervalo do estado corresponder àquele nível. Por exemplo, se a dimensão POT da matriz tem 7 níveis e cada nível tem o intervalo de 13,3, um estado do jogo em que o POT esteja em 29 se enquadrará no 3º nível desta dimensão da matriz porque o 1º nível vai de 0 a 13,3 e o 2º nível vai de 13,3 a 26,6. Caso o valor da dimensão do estado do jogo seja maior que o limite da matriz, esse valor é colocado no último nível. Além destas dimensões, a matriz tem mais duas dimensões, uma para indicar a decisão tomada e outra para indicar se o resultado foi prejuízo ou lucro. O conteúdo de cada célula da matriz é os resultados referentes àquele estado do jogo.
A ação 'treinar' irá colocar na matriz, na posição referente ao estado do jogo, as recompensas (Fórmula 4).
A ação 'tomar decisão' consulta a matriz na posição referente ao estado do jogo e obtém uma lista de pares 'decisão discretizada' / 'recompensa'. Com essa lista, toma-se uma decisão baseado na fórmula:


Fórmula 7: decisão do jogador de aprendizado por reforço
Onde é a decisão é a decisão do jogador, que é a decisão que retorna o máximo valor na função . A função , que é a recompensa de uma decisão , é definida por:


Fórmula 8: recompensa de uma decisão
Onde é o conjunto de recompensas em que a decisão tomada foi . Portanto, o jogador decide a decisão que obteve uma melhor média de recompensas na proporção (exemplo na Figura 1).
F
igura 1: Exemplo de uma situação de jogo que o jogador por reforço consulta sua base de conhecimento e decide 2 que significa “continuar no jogo”.

O jogador de aprendizado por reforço tem diversas constantes, diferentemente dos jogadores citados até agora que tinham no máximo 1. A matriz interna desse jogador contem nove dimensões - CHANCE, POT, RAISE, ODD, QTYRAISE, NPLAYERS, FOLLOWERS, ROUND e INGAME - que precisam de uma constante para o intervalo que cada nível da matriz representa, com exceção da dimensão ROUND, que já foi pré-definida como tamanho 2, sendo o primeiro referente a primeira rodada e o segundo referente as demais rodadas. Cada variável deveria também ter a quantidade de níveis mas, para simplificar, existe apenas duas constantes “quantidade de níveis”, uma para ODDS, POT, RAISE e CHANCE, chamado de “BIG QTY” e outra para QTYRAISE, NPLAYERS, FOLLOWERS e INGAME, chamada de “LITTLE QTY”, que totaliza dez constantes. Se cada variável fossem testados apenas 5 valores diferentes, a quantidade de testes seria , o que impossibilita testar todos os casos. Para encontrar uma boa configuração destas constantes foi utilizado Algoritmo Genético. Os genes são essas dez constantes, onde os valores mínimo e máximo para cada uma das constantes são:


Variável

Mínimo

Máximo

CHANCE

5

25

POT

1

50

RAISE

1

25

ODD

1

10

QTYRAISE

1

10

NPLAYERS

1

10

FOLLOWERS

1

10

INGAME

1

10

BIG QTY

2

10

LITTLE QTY

2

4


1   2   3   4   5   6


©livred.info 2017
enviar mensagem

    Página principal