Representação

Um modelo de machine learning não pode ver, ouvir ou sentir exemplos de entrada diretamente. Em vez disso, é necessário criar uma representação dos dados para fornecer ao modelo um ponto de observação útil para as principais qualidades dos dados. Ou seja, para treinar um modelo, você precisa escolher o conjunto de atributos que melhor representa os dados.

Representação

A ideia é mapear cada parte do vetor à esquerda em um ou mais campos no vetor de atributos à direita.

Os dados brutos são mapeados para um vetor de atributos por meio de um processo chamado engenharia de atributos.
Um exemplo de atributo que pode ser copiado diretamente dos dados brutos
Um exemplo de recurso de string (nome da rua) que não pode ser copiado diretamente dos dados brutos
Mapear um valor de string (
  • O dicionário mapeia cada nome de rua para um int em {0, ...,V-1}
  • Agora, represente o vetor one-hot acima como <i>

Os valores do atributo precisam aparecer com um valor diferente de zero mais do que algumas vezes no conjunto de dados.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Os recursos precisam ter um significado claro e óbvio.

user_age:23

user_age:123456789

Os atributos não devem assumir valores"mágicos"

Use um recurso booleano adicional como is_watch_time_defined em vez disso.

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

A definição de um recurso não muda com o tempo.

Cuidado ao depender de outros sistemas de ML.

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

A distribuição não pode ter outliers extremos

O ideal é que todos os atributos sejam transformados em um intervalo semelhante, como (-1, 1) ou (0, 5).

Distribuição com outliers e uma distribuição com limite
Gráfico mostrando uma distribuição com uma curva adequada com base no local
Gráfico mostrando uma distribuição com uma curva adequada com base no local
  • Crie várias caixas booleanas, cada uma mapeando para um novo recurso exclusivo
  • Permite que o modelo ajuste um valor diferente para cada classe

SAIBA SEUS DADOS

  • Visualizar: histogramas de gráficos, classificação mais comum ou menos comum.
  • Depuração: há exemplos duplicados? Valores ausentes? outliers? Os dados concordam com os painéis? Os dados de treinamento e validação são semelhantes?
  • Monitorar: quantis de recursos e número de exemplos ao longo do tempo?