Conjuntos de treinamento e teste: exercício de playground
Mantenha tudo organizado com as coleções
Salve e categorize o conteúdo com base nas suas preferências.
Conjuntos de treinamento e conjuntos de teste
Voltamos ao Playground para testar conjuntos de treinamento
e de teste.
Clique no ícone de adição para lembrar o que significam os pontos laranja e azuis.
Na visualização:
Cada ponto azul significa um exemplo de uma classe de dados (por exemplo,
spam).
Cada ponto laranja significa um exemplo de outra classe de dados (por
exemplo, não é spam).
A cor de fundo representa a previsão do modelo de onde os exemplos
dessa cor podem ser encontrados. Um plano de fundo azul ao redor de um ponto azul
significa que o modelo está prevendo corretamente esse exemplo. Por outro lado, um fundo laranja em torno de um ponto azul significa que o modelo está fazendo uma previsão incorreta para esse exemplo.
Este exercício fornece um conjunto de teste e um conjunto de treinamento, ambos extraídos do mesmo conjunto de dados. Por padrão, a visualização mostra apenas o conjunto de treinamento. Para conferir o conjunto de testes também, clique
na caixa de seleção Mostrar dados do teste logo abaixo da visualização. Na
visualização, observe a seguinte distinção:
Os exemplos de treinamento têm um contorno branco.
Os exemplos de teste têm um contorno preto.
Tarefa 1:execute o Playground com as configurações determinadas da seguinte maneira:
Clique no botão Executar/Pausar:
Observe a mudança nos valores de perda de teste e de perda de treinamento.
Quando os valores de perda de teste e de perda de treinamento pararem de mudar
ou mudarem apenas de vez em quando, pressione o botão Executar/Pausar
novamente para pausar o Playground.
Observe o delta entre a perda de teste e a perda de treinamento. Tentaremos reduzir esse
delta nas tarefas a seguir.
Permita que o Playground seja executado por pelo menos 150 períodos.
O delta entre a perda de teste e de treinamento é menor ou
maior com essa nova taxa de aprendizado? O que acontece se você modificar a taxa de aprendizado
e o
tamanho do lote?
Tarefa opcional 3:um controle deslizante chamado Porcentagem dos dados de treinamento
permite controlar a proporção de dados de treinamento para os de teste. Por exemplo, quando o valor é 90%, 90% dos dados são usados para o conjunto de treinamento e os 10% restantes são usados para o conjunto de teste.
Faça o seguinte:
Reduza a "Porcentagem de dados de treinamento" de 50% para 10%.
Teste a taxa de aprendizado e o tamanho do lote e anote suas
descobertas.
Alterar a porcentagem de dados de treinamento muda as configurações
de aprendizado ideais que você descobriu na tarefa 2? Se sim, por quê?
Clique no ícone de adição da resposta da Tarefa 1.
Com a taxa de aprendizado definida como 3 (configuração inicial),
a perda de teste é significativamente maior do que a de treinamento.
Clique no ícone de adição da resposta da Tarefa 2.
Ao reduzir a taxa de aprendizado (por exemplo, para 0,001),
a perda de teste cai para um valor muito mais próximo da perda de treinamento. Na maioria das execuções,
aumentar o tamanho do lote não influencia significativamente a perda no treinamento nem a perda
de teste. No entanto, em uma pequena porcentagem de execuções, aumentar
o tamanho do lote para 20 ou mais faz com que a perda de teste caia um pouco
abaixo da perda de treinamento.
Os conjuntos de dados do Playground são gerados aleatoriamente. Consequentemente, nossas respostas nem sempre
concordam exatamente com a sua.
Clique no ícone de adição da resposta da Tarefa 3.
Reduzir a porcentagem de dados de treinamento de 50% para 10% diminui drasticamente o número de pontos de dados no conjunto de treinamento. Com tão poucos dados,
o tamanho de lote e a alta taxa de aprendizado fazem com que o modelo de treinamento pule
caoticamente (pulando repetidamente sobre o ponto mínimo).