Esta página foi traduzida pela API Cloud Translation.

Representação

Um modelo de machine learning não pode ver, ouvir nem detectar exemplos de entrada diretamente. Em vez disso, é necessário criar uma representação dos dados para fornecer ao modelo um ponto de vista útil sobre as principais qualidades dos dados. Ou seja, para treinar um modelo, você precisa escolher o conjunto de atributos que melhor representa os dados.

Representação

De dados brutos a atributos

A ideia é mapear cada parte do vetor à esquerda em um ou mais campos no vetor de recurso à direita.

Os dados brutos são mapeados para um vetor de atributo com um processo chamado engenharia de atributos.

De dados brutos a atributos

Exemplo de atributo que pode ser copiado diretamente dos dados brutos

De dados brutos a atributos

Exemplo de um elemento de string (nome da rua) que não pode ser copiado diretamente dos dados brutos

De dados brutos a atributos

O dicionário mapeia cada nome de rua para um int em {0, ...,V-1}.
Agora, represente o vetor one-hot acima como <i>

Propriedades de um bom atributo

Os valores de atributos precisam aparecer com um valor diferente de zero mais do que algumas vezes no conjunto de dados.

my_device_id:8SK982ZZ1242Z

device_model:galaxy_s6

Propriedades de um bom atributo

Os atributos precisam ter um significado claro e óbvio.

user_age:23

user_age:123456789

Propriedades de um bom atributo

Os atributos não podem assumir valores "mágicos".

(use um recurso booleano adicional, como watch_time_is_datasets!)

watch_time: -1.0

watch_time: 1.023

watch_time_is_defined: 1.0

Propriedades de um bom atributo

A definição de um elemento não deve mudar com o tempo.

(Cuidado ao depender de outros sistemas de ML!)

city_id:"br/sao_paulo"

inferred_city_cluster_id:219

Propriedades de um bom atributo

A distribuição não pode ter outliers extremos

Idealmente, todos os atributos transformados em um intervalo semelhante, como (-1, 1) ou (0, 5).

Distribuição com valores atípicos e uma distribuição com um limite

O truque do agrupamento

Gráfico que mostra uma distribuição com uma curva de ajuste com base na localização

O truque do agrupamento

Criar vários agrupamentos booleanos, cada um mapeando para um novo atributo exclusivo
Permite que o modelo ajuste um valor diferente para cada agrupamento

Bons Hábitos

CONHEÇA SEUS DADOS

Visualizar: traçar histogramas, classificar da maior para a menos comum.
Depuração: exemplos duplicados? Valores ausentes? Valores atípicos? Os dados estão de acordo com os painéis? Os dados de treinamento e validação são parecidos?
Monitorar: quantis de atributos, número de exemplos ao longo do tempo?

Central de Ajuda

Exercício de programação

Feature Engineering