Esta página foi traduzida pela API Cloud Translation.

Conjuntos de treinamento e teste: exercício de playground

Conjuntos de treinamento e conjuntos de teste

Voltamos ao Playground para testar conjuntos de treinamento e de teste.

Clique no ícone de adição para lembrar o que significam os pontos laranja e azuis.

Na visualização:

Cada ponto azul significa um exemplo de uma classe de dados (por exemplo, spam).
Cada ponto laranja significa um exemplo de outra classe de dados (por exemplo, não é spam).
A cor de fundo representa a previsão do modelo de onde os exemplos dessa cor podem ser encontrados. Um plano de fundo azul ao redor de um ponto azul significa que o modelo está prevendo corretamente esse exemplo. Por outro lado, um fundo laranja em torno de um ponto azul significa que o modelo está fazendo uma previsão incorreta para esse exemplo.

Este exercício fornece um conjunto de teste e um conjunto de treinamento, ambos extraídos do mesmo conjunto de dados. Por padrão, a visualização mostra apenas o conjunto de treinamento. Para conferir o conjunto de testes também, clique na caixa de seleção Mostrar dados do teste logo abaixo da visualização. Na visualização, observe a seguinte distinção:

Os exemplos de treinamento têm um contorno branco.
Os exemplos de teste têm um contorno preto.

Tarefa 1:execute o Playground com as configurações determinadas da seguinte maneira:

Clique no botão Executar/Pausar:
Observe a mudança nos valores de perda de teste e de perda de treinamento.
Quando os valores de perda de teste e de perda de treinamento pararem de mudar ou mudarem apenas de vez em quando, pressione o botão Executar/Pausar novamente para pausar o Playground.

Observe o delta entre a perda de teste e a perda de treinamento. Tentaremos reduzir esse delta nas tarefas a seguir.

Tarefa 2:faça o seguinte:

Pressione o botão "Reiniciar".
Modifique a taxa de aprendizado.
Pressione o botão Executar/Pausar:
Permita que o Playground seja executado por pelo menos 150 períodos.

O delta entre a perda de teste e de treinamento é menor ou maior com essa nova taxa de aprendizado? O que acontece se você modificar a taxa de aprendizado e o tamanho do lote?

Tarefa opcional 3:um controle deslizante chamado Porcentagem dos dados de treinamento permite controlar a proporção de dados de treinamento para os de teste. Por exemplo, quando o valor é 90%, 90% dos dados são usados para o conjunto de treinamento e os 10% restantes são usados para o conjunto de teste.

Faça o seguinte:

Reduza a "Porcentagem de dados de treinamento" de 50% para 10%.
Teste a taxa de aprendizado e o tamanho do lote e anote suas descobertas.

Alterar a porcentagem de dados de treinamento muda as configurações de aprendizado ideais que você descobriu na tarefa 2? Se sim, por quê?

Clique no ícone de adição da resposta da Tarefa 1.

Com a taxa de aprendizado definida como 3 (configuração inicial), a perda de teste é significativamente maior do que a de treinamento.

Clique no ícone de adição da resposta da Tarefa 2.

Ao reduzir a taxa de aprendizado (por exemplo, para 0,001), a perda de teste cai para um valor muito mais próximo da perda de treinamento. Na maioria das execuções, aumentar o tamanho do lote não influencia significativamente a perda no treinamento nem a perda de teste. No entanto, em uma pequena porcentagem de execuções, aumentar o tamanho do lote para 20 ou mais faz com que a perda de teste caia um pouco abaixo da perda de treinamento.

Os conjuntos de dados do Playground são gerados aleatoriamente. Consequentemente, nossas respostas nem sempre concordam exatamente com a sua.

Clique no ícone de adição da resposta da Tarefa 3.

Reduzir a porcentagem de dados de treinamento de 50% para 10% diminui drasticamente o número de pontos de dados no conjunto de treinamento. Com tão poucos dados, o tamanho de lote e a alta taxa de aprendizado fazem com que o modelo de treinamento pule caoticamente (pulando repetidamente sobre o ponto mínimo).

Central de Ajuda

Como dividir dados

Confira sua intuição