Esta página foi traduzida pela API Cloud Translation.

Conjuntos de dados, generalização e overfitting

Objetivos de aprendizado

Identificar quatro características diferentes de dados e conjuntos de dados.
Identifique pelo menos quatro causas diferentes de falta de confiabilidade dos dados.
Determine quando descartar dados ausentes e quando imputá-los.
Diferenciar rótulos diretos e derivados.
Identificar duas maneiras diferentes de melhorar a qualidade dos vídeos rótulos.
Explicar por que subdividir um conjunto de dados em um conjunto de treinamento, conjunto de validação, e conjunto de teste. e identificar um possível problema nas divisões de dados.
Explique o overfitting e identifique três possíveis causas.
Explicar o conceito de regularização. Em particular, explique seguinte:
- Viés versus variância (adaptação a outliers etc.)
- Regularização L₂, incluindo Lambda (regularização taxa)
- Parada antecipada
Interpretar diferentes tipos de curvas de perda. detectar a convergência e overfitting em curvas de perda.

Introdução

Este módulo começa com uma pergunta sugestiva. Escolha uma das seguintes respostas:

Se você tiver que priorizar a melhoria de uma das áreas a seguir no projeto de machine learning, que teria a maior impacto?

Como melhorar a qualidade do seu conjunto de dados

Os dados superam tudo. A qualidade e o tamanho do conjunto de dados são muito mais importantes do que algoritmo brilhante que você usa para criar seu modelo.

Como aplicar uma função de perda mais inteligente para treinar o modelo

Verdadeiro. Uma função de perda melhor pode ajudar um modelo a treinar mais rapidamente, mas ainda está a um segundo item da lista.

E aqui vai uma pergunta ainda mais sugestiva:

Tente adivinhar: em seu projeto de machine learning, quanto tempo você normalmente gasta com preparação e transformação de dados?

Mais da metade do tempo do projeto

Sim, os profissionais de ML passam a maior parte do tempo. a construção de conjuntos de dados e a engenharia de atributos.

Menos da metade do tempo do projeto

Planeje mais! Normalmente, 80% do tempo em um modelo projeto é gasto construindo conjuntos de dados e transformando dados.

Neste módulo, você vai saber mais sobre as características do machine learning conjuntos de dados e como prepará-los para garantir resultados de alta qualidade ao para treinar e avaliar seu modelo.

Central de Ajuda

Teste seus conhecimentos (10 minutos)

Avançar

Características dos dados (10 min)

Conjuntos de dados, generalização e overfitting Mantenha tudo organizado com as coleções Salve e categorize o conteúdo com base nas suas preferências.

Introdução

Conjuntos de dados, generalização e overfitting