Representação

Um modelo de machine learning não pode ver, ouvir nem detectar exemplos de entrada diretamente. Em vez disso, é necessário criar uma representação dos dados para fornecer ao modelo um ponto de vista útil sobre as principais qualidades dos dados. Ou seja, para treinar um modelo, você precisa escolher o conjunto de atributos que melhor representa os dados.

Representação

A ideia é mapear cada parte do vetor à esquerda em um ou mais campos no vetor de recurso à direita.

Os dados brutos são mapeados para um vetor de atributo com um processo chamado engenharia de atributos.
Exemplo de atributo que pode ser copiado diretamente dos dados brutos
Exemplo de um elemento de string (nome da rua) que não pode ser copiado diretamente dos dados brutos
O mapeamento de um valor de string (
  • O dicionário mapeia cada nome de rua para um int em {0, ...,V-1}.
  • Agora, represente o vetor one-hot acima como <i>

Os valores de atributos precisam aparecer com um valor diferente de zero mais do que algumas vezes no conjunto de dados.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Os atributos precisam ter um significado claro e óbvio.

user_age:23

user_age:123456789

Os atributos não podem assumir valores "mágicos".

(use um recurso booleano adicional, como watch_time_is_datasets!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

A definição de um elemento não deve mudar com o tempo.

(Cuidado ao depender de outros sistemas de ML!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

A distribuição não pode ter outliers extremos

Idealmente, todos os atributos transformados em um intervalo semelhante, como (-1, 1) ou (0, 5).

Distribuição com valores atípicos e uma distribuição com um limite
Gráfico que mostra uma distribuição com uma curva de ajuste com base na localização
Gráfico que mostra uma distribuição com uma curva de ajuste com base na localização
  • Criar vários agrupamentos booleanos, cada um mapeando para um novo atributo exclusivo
  • Permite que o modelo ajuste um valor diferente para cada agrupamento

CONHEÇA SEUS DADOS

  • Visualizar: traçar histogramas, classificar da maior para a menos comum.
  • Depuração: exemplos duplicados? Valores ausentes? Valores atípicos? Os dados estão de acordo com os painéis? Os dados de treinamento e validação são parecidos?
  • Monitorar: quantis de atributos, número de exemplos ao longo do tempo?