Esta página foi traduzida pela API Cloud Translation.

Glossário de machine learning: fundamentos de ML

Nesta página, você encontra os termos do glossário sobre ML Fundamentals. Para ver todos os termos do glossário, clique aqui.

A

accuracy

#fundamentals

O número de previsões de classificação corretas dividido pelo número total de previsões. Ou seja:

$$\text{Accuracy} = \frac{\text{correct predictions}} {\text{correct predictions + incorrect predictions }}$$

Por exemplo, um modelo que fez 40 previsões corretas e 10 incorretas teria uma acurácia de:

$$\text{Accuracy} = \frac{\text{40}} {\text{40 + 10}} = \text{80%}$$

Classificação binária fornece nomes específicos para as diferentes categorias de previsões corretas e previsões incorretas. A fórmula de acurácia da classificação binária é a seguinte:

$$\text{Accuracy} = \frac{\text{TP} + \text{TN}} {\text{TP} + \text{TN} + \text{FP} + \text{FN}}$$

onde:

VP é o número de verdadeiros positivos (previsões corretas).
TN é o número de verdadeiros negativos (previsões corretas).
A FP é o número de falsos positivos (previsões incorretas).
FN é o número de falsos negativos (previsões incorretas).

Compare e contraste a acurácia com a precisão e o recall.

Clique no ícone para ver mais observações.

Embora seja uma métrica valiosa para algumas situações, a precisão é altamente enganosa para outras. A acurácia geralmente é uma métrica ruim na avaliação de modelos de classificação que processam conjuntos de dados desequilibrados de classe.

Por exemplo, suponha que a neve cai apenas 25 dias por século em uma determinada cidade subtropical. Como os dias sem neve (a classe negativa) excedem em muito o número de dias com neve (a classe positiva), o conjunto de dados de neve para esta cidade não está equilibrado em relação às classes. Imagine um modelo de classificação binária que preveja neve todos os dias ou nenhuma neve, mas apenas prevê "sem neve" todos os dias. Esse modelo é altamente preciso, mas não tem poder de previsão. A tabela a seguir resume os resultados de um século de previsões:

Categoria	Número
VP	0
VN	36500
FP	25
FN	0

Portanto, a acurácia desse modelo é:

accuracy = (TP + TN) / (TP + TN + FP + FN)
accuracy = (0 + 36500) / (0 + 36500 + 25 + 0) = 0.9993 = 99.93%

Embora 99,93% de precisão pareça uma porcentagem muito impressionante, o modelo não tem poder preditivo.

Precisão e recall geralmente são métricas mais úteis do que precisão para avaliar modelos treinados em conjuntos de dados desequilibrados de classes.

função de ativação

#fundamentals

Uma função que permite que as redes neurais aprendam relações não lineares (complexas) entre atributos e o rótulo.

As funções de ativação conhecidas incluem:

ReLU
Sigmoide

Os gráficos das funções de ativação nunca são linhas retas simples. Por exemplo, o gráfico da função de ativação ReLU consiste em duas linhas retas:

Um gráfico cartesiano de duas linhas. A primeira linha tem um valor y constante de 0, correndo ao longo do eixo x de -infinity,0 a 0,-0.
A segunda linha começa em 0,0. Essa linha tem uma inclinação +1, então vai de 0,0 até +infinito,+infinito.

Um gráfico da função de ativação sigmoide tem a seguinte aparência:

Um gráfico curvo bidimensional com valores de x que abrangem o domínio -infinito até +positivo, enquanto os valores y abrangem o intervalo de quase 0 a quase 1. Quando x é 0, y é 0,5. A inclinação da curva é sempre positiva, com a maior inclinação em 0,0,5 e diminuindo gradualmente à medida que o valor absoluto de x aumenta.

Clique no ícone para ver um exemplo.

Em uma rede neural, as funções de ativação manipulam a soma de pesos de todas as entradas em um neurônio. Para calcular uma soma ponderada, o neurônio soma os produtos dos valores e pesos relevantes. Por exemplo, suponha que a entrada relevante para um neurônio seja composta pelo seguinte:

valor de entrada	peso de entrada
2	-1,3
-1	0,6
3	0,4

Portanto, a soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Suponha que o designer dessa rede neural escolha a função sigmoide como a função de ativação. Nesse caso, o neurônio calcula o sigmoide de -2,0, que é aproximadamente 0,12. Portanto, o neurônio passa 0,12 (em vez de -2,0) para a próxima camada na rede neural. A figura a seguir ilustra a parte relevante do processo:

inteligência artificial

#fundamentals

Um programa ou model não humano que pode resolver tarefas sofisticadas. Por exemplo, programas ou modelos que traduzem texto ou que identificam doenças usando imagens radiológicas usam inteligência artificial.

Oficialmente, o machine learning é um subcampo da inteligência artificial. No entanto, nos últimos anos, algumas organizações começaram a usar os termos inteligência artificial e machine learning como sinônimos.

AUC (área sob a curva ROC)

#fundamentals

Um número entre 0,0 e 1,0 que representa a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Quanto mais próxima a AUC estiver de 1,0, melhor será a capacidade do modelo de separar classes umas das outras.

Por exemplo, a ilustração a seguir mostra um modelo de classificador que separa perfeitamente as classes positivas (ovais verdes) das negativas (retângulos roxos). Esse modelo irrealistamente perfeito tem uma AUC de 1,0:

Uma linha numérica com oito exemplos positivos em um lado e nove exemplos negativos do outro.

Por outro lado, a ilustração abaixo mostra os resultados de um modelo de classificador que gerou resultados aleatórios. Este modelo tem um AUC de 0,5:

Uma linha numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é positiva, negativa,
positiva, negativa, positiva, negativa, positiva, negativa, positivo
negativo, positivo, negativo.

Sim, o modelo anterior tem uma AUC de 0,5, não 0,0.

A maioria dos modelos está em algum lugar entre os dois extremos. Por exemplo, o modelo a seguir separa parcialmente os positivos dos negativos e, portanto, tem uma AUC entre 0,5 e 1,0:

Uma linha numérica com seis exemplos positivos e seis negativos.
A sequência de exemplos é negativa, negativa, negativa, negativa,
positiva, negativa, positiva, positiva, negativa, positiva, positiva,
positiva.

A AUC ignora qualquer valor definido para o limite de classificação. Em vez disso, a AUC considera todos os limiares de classificação possíveis.

Clique no ícone para saber mais sobre a relação entre as curvas AUC e ROC.

A AUC representa a área sob uma curva ROC. Por exemplo, a curva ROC de um modelo que separa perfeitamente os positivos dos negativos tem a seguinte aparência:

AUC é a área da região cinza na ilustração anterior. Nesse caso incomum, a área é simplesmente o comprimento da região cinza (1,0) multiplicado pela largura da região cinza (1,0). Portanto, o produto de 1,0 e 1,0 gera uma AUC de exatamente 1,0, que é a maior pontuação de AUC possível.

Por outro lado, a curva ROC para um classificador que não consegue separar classes é a seguinte. A área dessa região cinza é 0,5.

Uma curva ROC mais típica tem a seguinte aparência:

Seria trabalhoso calcular a área sob essa curva manualmente, e é por isso que um programa normalmente calcula a maioria dos valores de AUC.

Clique no ícone para ver uma definição mais formal de AUC.

A AUC é a probabilidade de um classificador estar mais confiante de que um exemplo positivo escolhido aleatoriamente seja de fato positivo do que um exemplo negativo escolhido aleatoriamente seja positivo.

B

retropropagação

#fundamentals

O algoritmo que implementa o gradiente descendente em redes neurais.

O treinamento de uma rede neural envolve muitas iterações do ciclo de duas etapas a seguir:

Durante o passe de frente, o sistema processa um lote de exemplos para produzir previsões. O sistema compara cada previsão com cada valor de label. A diferença entre a previsão e o valor do rótulo é a perda desse exemplo. O sistema agrega as perdas de todos os exemplos para calcular a perda total do lote atual.
Durante o passe para trás (retropropagação), o sistema reduz a perda ajustando os pesos de todos os neurônios em todas as camadas escondidas.

As redes neurais costumam conter muitos neurônios em muitas camadas escondidas. Cada um desses neurônios contribui para a perda geral de maneiras diferentes. A retropropagação determina se é necessário aumentar ou diminuir os pesos aplicados a neurônios específicos.

A taxa de aprendizado é um multiplicador que controla o grau em que cada passagem para trás aumenta ou diminui cada peso. Uma taxa de aprendizado grande aumenta ou diminui cada peso mais do que uma taxa de aprendizado pequena.

Em termos de cálculo, a retropropagação implementa a regra da cadeia do cálculo. Ou seja, a retropropagação calcula a derivada parcial do erro em respeito a cada parâmetro.

Anos atrás, os profissionais de ML precisavam escrever código para implementar a retropropagação. APIs de ML modernas, como o TensorFlow, agora implementam a retropropagação para você. Ufa.

lote

#fundamentals

O conjunto de exemplos usados em uma iteração de treinamento. O tamanho do lote determina o número de exemplos em um lote.

Consulte época para uma explicação de como um lote se relaciona a uma época.

tamanho do lote

#fundamentals

O número de exemplos em um lote. Por exemplo, se o tamanho do lote for 100, o modelo processará 100 exemplos por iteração.

Estas são as estratégias de tamanho de lote conhecidas:

Gradiente descendente estocástico (SGD, na sigla em inglês), em que o tamanho do lote é 1.
Lote completo, em que o tamanho é o número de exemplos em todo o conjunto de treinamento. Por exemplo, se o conjunto de treinamento tiver um milhão de exemplos, o tamanho do lote será um milhão de exemplos. Geralmente, o lote completo é uma estratégia ineficiente.
minilote, em que o tamanho geralmente é entre 10 e 1.000. Geralmente, a estratégia mais eficiente é o minilote.

viés (ética/imparcialidade)

#fairness

#fundamentals

1. Estereótipos, preconceito ou favoritismo em relação a algumas coisas, pessoas ou grupos em detrimento de outras. Esses vieses podem afetar a coleta e a interpretação de dados, o design de um sistema e a forma como os usuários interagem com ele. Formas desse tipo de viés incluem:

2. Erro sistemático introduzido por um procedimento de amostragem ou de relatório. Formas desse tipo de viés incluem:

Não confunda com o termo de viés em modelos de machine learning ou com o viés de previsão.

viés (matemático) ou termo de viés

#fundamentals

Uma interceptação ou um deslocamento de uma origem. O viés é um parâmetro em modelos de machine learning, que é simbolizado por um dos seguintes:

Por exemplo, viés é o b na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Em uma linha bidimensional simples, viés significa apenas "interceptação em y". Por exemplo, o viés da linha na ilustração a seguir é 2.

O gráfico de uma linha com inclinação de 0,5 e viés (interceptação em y) de 2.

O viés existe porque nem todos os modelos começam na origem (0,0). Por exemplo, suponha que um parque de diversões custe 2 euros para entrar e um adicional de 0,5 euro para cada hora de hospedagem de um cliente. Portanto, um modelo que mapeia o custo total tem um viés de 2 porque o custo mais baixo é de 2 euros.

O viés não deve ser confundido com viés na ética e na imparcialidade ou com viés de previsão.

classificação binária

#fundamentals

Um tipo de tarefa de classificação que prevê uma das duas classes mutuamente exclusivas:

a classe positiva
a classe negativa

Por exemplo, os dois modelos de machine learning a seguir executam uma classificação binária:

Um modelo que determina se as mensagens de e-mail são spam (a classe positiva) ou não são spam (a classe negativa).
Um modelo que avalia sintomas médicos para determinar se uma pessoa tem uma doença específica (a classe positiva) ou não tem essa doença (a classe negativa).

Contraste com a classificação multiclasse.

Consulte também regressão logística e limite de classificação.

agrupamento por classes

#fundamentals

Converter um único recurso em vários recursos binários chamados buckets ou binas, normalmente com base em um intervalo de valores. O recurso cortado geralmente é um recurso contínuo.

Por exemplo, em vez de representar a temperatura como um único recurso contínuo de ponto flutuante, é possível dividir intervalos de temperaturas em intervalos discretos, como:

<= 10 graus Celsius seria o bucket "frio".
O bucket "temperado" seria de 11 a 24 graus Celsius.
>= 25 graus Celsius seria o bucket "quente".

O modelo vai tratar todos os valores do mesmo bucket de forma idêntica. Por exemplo, os valores 13 e 22 estão no bucket temperado. Portanto, o modelo trata os dois valores de maneira idêntica.

Clique no ícone para ver mais observações.

Se você representar a temperatura como um atributo contínuo, o modelo tratará a temperatura como um único atributo. Se você representar a temperatura como três buckets, o modelo tratará cada um deles como um atributo separado. Ou seja, um modelo pode aprender relações separadas de cada bucket com o rótulo. Por exemplo, um modelo de regressão linear pode aprender pesos separados para cada bucket.

Aumentar o número de buckets torna seu modelo mais complicado, aumentando o número de relações que ele precisa aprender. Por exemplo, os buckets frio, temperado e quente são essencialmente três recursos separados para o treinamento do modelo. Se você decidir adicionar mais dois buckets, por exemplo, congelando e quente, seu modelo precisará ser treinado em cinco recursos separados.

Como você sabe quantos buckets criar ou quais precisam ser os intervalos de cada bucket? As respostas normalmente exigem uma quantidade razoável de experimentos.

C

dados categóricos

#fundamentals

Atributos com um conjunto específico de valores possíveis. Por exemplo, considere um recurso categórico chamado traffic-light-state, que só pode ter um destes três valores possíveis:

red
yellow
green

Ao representar traffic-light-state como um recurso categórico, um modelo pode aprender os diferentes impactos de red, green e yellow no comportamento do motorista.

Os atributos categóricos às vezes são chamados de atributos discretos.

Contraste com dados numéricos.

classe

#fundamentals

Uma categoria a que um rótulo pode pertencer. Exemplo:

Em um modelo de classificação binária que detecta spam, as duas classes podem ser spam e não spam.
Em um modelo de classificação multiclasse que identifica raças de cães, as classes podem ser poodle, beagle, pug e assim por diante.

Um modelo de classificação prevê uma classe. Por outro lado, um modelo de regressão prevê um número em vez de uma classe.

modelo de classificação

#fundamentals

Um model com previsão que é uma model. Por exemplo, estes são todos os modelos de classificação:

Um modelo que prevê o idioma de uma frase de entrada (francês? espanhol? italiano?).
Um modelo que prevê espécies de árvores (Maple? Oak? o baobá?).
Um modelo que prevê a classe positiva ou negativa para uma condição médica específica.

Por outro lado, os modelos de regressão preveem números em vez de classes.

Dois tipos comuns de modelos de classificação são:

classificação binária
classificação multiclasse

limiar de classificação

#fundamentals

Em uma classificação binária, um número entre 0 e 1 que converte a saída bruta de um modelo de regressão logística em uma previsão da classe positiva ou da classe negativa. O limiar de classificação é um valor escolhido pelo ser humano, não pelo treinamento de modelo.

Um modelo de regressão logística gera um valor bruto entre 0 e 1. Depois, siga estas instruções:

Se esse valor bruto for maior que o limiar de classificação, a classe positiva será prevista.
Se esse valor bruto for menor que o limiar de classificação, a classe negativa será prevista.

Por exemplo, suponha que o limiar de classificação seja 0,8. Se o valor bruto for 0,9, o modelo vai prever a classe positiva. Se o valor bruto for 0,7, o modelo vai prever a classe negativa.

A escolha do limiar de classificação influencia muito o número de falsos positivos e falsos negativos.

Clique no ícone para ver mais observações.

À medida que os modelos ou conjuntos de dados evoluem, os engenheiros às vezes também alteram o limite de classificação. Quando o limiar de classificação muda, as previsões de classe positivas podem, de repente, se tornar classes negativas e vice-versa.

Por exemplo, considere um modelo de previsão de doenças de classificação binária. Suponha que, quando o sistema for executado no primeiro ano:

O valor bruto de um paciente específico é 0,95.
O limiar de classificação é 0,94.

Portanto, o sistema diagnostica a classe positiva. (O paciente suspira: "Ah, não! Estou doente!")

Um ano depois, talvez os valores agora tenham a seguinte aparência:

O valor bruto do mesmo paciente permanece em 0,95.
O limiar de classificação vai mudar para 0,97.

Portanto, o sistema agora reclassifica esse paciente como a classe negativa. ("Feliz dia! Não estou doente.") Mesmo paciente. Diagnóstico diferente.

conjunto de dados desequilibrado

#fundamentals

Um conjunto de dados de um problema de classificação em que o número total de rótulos de cada classe difere significativamente. Por exemplo, considere um conjunto de dados de classificação binária com dois rótulos divididos da seguinte maneira:

1.000.000 de rótulos negativos
10 rótulos positivos

A proporção de rótulos negativos para positivos é de 100.000 para 1, então este é um conjunto de dados desequilibrado de classes.

Por outro lado, o conjunto de dados a seguir não apresenta um desequilíbrio de classes porque a proporção de rótulos negativos e positivos é relativamente próxima de 1:

517 rótulos negativos
483 rótulos positivos

Conjuntos de dados multiclasse também podem apresentar desequilíbrio entre as classes. Por exemplo, o seguinte conjunto de dados de classificação multiclasse também apresenta um desequilíbrio de classes porque um rótulo tem muito mais exemplos que os outros dois:

1.000.000 rótulos com classe "green"
200 rótulos com classe "Roxo"
350 rótulos com classe "laranja"

Consulte também entropia, classe majoritária e classe minoritária.

recorte

#fundamentals

Uma técnica para lidar com outliers realizando uma ou ambas as ações a seguir:

Redução de valores de feature que são maiores do que um limite máximo até esse limite máximo.
Aumentar valores de atributos que são menores que um limite mínimo até esse limite mínimo.

Por exemplo, suponha que menos de 0,5% dos valores de um determinado atributo estejam fora do intervalo de 40 a 60. Nesse caso, você pode fazer o seguinte:

Corte todos os valores acima de 60 (o limite máximo) para que sejam exatamente 60.
Corte todos os valores abaixo de 40 (o limite mínimo) para que sejam exatamente 40.

Os valores atípicos podem danificar os modelos e, às vezes, causar o estouro dos pesos durante o treinamento. Alguns outliers também podem prejudicar as métricas, como acurácia. O recorte é uma técnica comum para limitar os danos.

O recorte de gradiente força os valores de gradiente em um intervalo designado durante o treinamento.

matriz de confusão

#fundamentals

Uma tabela NxN que resume o número de previsões corretas e incorretas feitas por um modelo de classificação. Por exemplo, considere a seguinte matriz de confusão para um modelo de classificação binária:

	Tumor (previsão)	Não tumor (previsto)
Tumor (informações empíricas)	18 (VP)	1 (FN)
Não tumor (informações empíricas)	6 (FP)	452 (VN)

A matriz de confusão anterior mostra o seguinte:

Das 19 previsões em que a informações empíricas era Tumor, o modelo classificou corretamente 18 e 1 incorretamente.
Das 458 previsões em que as informações empíricas eram não tumor, o modelo classificou 452 corretamente e 6 incorretamente.

A matriz de confusão de um problema de classificação multiclasse pode ajudar a identificar padrões de erros. Por exemplo, considere a seguinte matriz de confusão para um modelo de classificação multiclasse de três classes que categoriza três tipos diferentes de íris (Virgínia, Versicolor e Setosa). Quando as informações empíricas foram Virgínia, a matriz de confusão mostra que o modelo tinha muito mais chances de prever por engano a Versicolor do que Setosa:

	Setosa (previsto)	Versicolor (previsto)	Virgínia (previsto)
Setosa (informações empíricas)	88	12	0
Versicolor (informações empíricas)	6	141	7
Virgínia (informações empíricas)	2	27	109

Como outro exemplo, uma matriz de confusão pode revelar que um modelo treinado para reconhecer dígitos escritos à mão tende a prever erroneamente 9 em vez de 4 ou, por engano, 1 em vez de 7.

As matrizes de confusão contêm informações suficientes para calcular uma variedade de métricas de desempenho, incluindo precisão e recall.

atributo contínuo

#fundamentals

Um recurso de ponto flutuante com um intervalo infinito de valores possíveis, como temperatura ou peso.

Contraste com recurso discreto.

convergência

#fundamentals

Um estado alcançado quando os valores de loss mudam muito pouco ou não mudam a cada iteração. Por exemplo, a curva de perda a seguir sugere convergência em cerca de 700 iterações:

Diagrama cartesiano. O eixo X é uma perda. O eixo Y é o número de iterações
de treinamento. A perda é muito alta nas primeiras iterações, mas
cai drasticamente. Após cerca de 100 iterações, a perda ainda é decrescente, mas muito mais gradual. Após cerca de 700 iterações,
a perda permanece estável.

Um modelo converge quando não há treinamento extra para aprimorá-lo.

No aprendizado profundo, os valores de perda às vezes permanecem constantes ou quase assim por muitas iterações antes de finalmente decrescentes. Durante um longo período de valores de perda constante, você pode ter temporariamente uma falsa sensação de convergência.

Consulte também parada antecipada.

D

DataFrame

#fundamentals

Um tipo de dados pandas conhecido para representar conjuntos de dados na memória.

Um DataFrame é análogo a uma tabela ou planilha. Cada coluna de um DataFrame tem um nome (um cabeçalho) e cada linha é identificada por um número exclusivo.

Cada coluna em um DataFrame é estruturada como uma matriz 2D, mas é possível atribuir o próprio tipo de dados a cada coluna.

Consulte também a página de referência oficial do pandas.DataFrame.

conjunto de dados

#fundamentals

Uma coleção de dados brutos, geralmente (mas não exclusivamente) organizados em um dos seguintes formatos:

uma planilha
um arquivo no formato CSV (valores separados por vírgula)

modelo profundo

#fundamentals

Uma rede neural contendo mais de uma camada escondida.

Um modelo profundo também é chamado de rede neural profunda.

Contraste com o modelo amplo.

atributo denso

#fundamentals

Um atributo em que a maioria ou todos os valores são diferentes de zero, normalmente um Tensor de valores de ponto flutuante. Por exemplo, o Tensor de 10 elementos a seguir é denso porque 9 dos seus valores são diferentes de zero:

Contraste com o recurso esparso.

profundidade

#fundamentals

A soma dos seguintes itens em uma rede neural:

o número de camadas escondidas
O número de camadas de saída, que normalmente é 1
o número de camadas de incorporação

Por exemplo, uma rede neural com cinco camadas escondidas e uma camada de saída tem uma profundidade de 6.

A camada de entrada não influencia a profundidade.

atributo discreto

#fundamentals

Um atributo com um conjunto finito de valores possíveis. Por exemplo, um atributo com valores que podem ser apenas animal, vegetal ou mineral é um atributo discreto (ou categórico).

Contraste com o recurso contínuo.

dinâmico

#fundamentals

Algo feito com frequência ou continuamente. Os termos dinâmico e on-line são sinônimos em machine learning. Veja a seguir usos comuns de dinâmica e on-line no machine learning:

Um modelo dinâmico (ou modelo on-line) é um modelo retreinado com frequência ou contínua.
O treinamento dinâmico (ou treinamento on-line) é o processo de treinamento frequente ou contínuo.
A inferência dinâmica (ou inferência on-line) é o processo de gerar previsões sob demanda.

modelo dinâmico

#fundamentals

Um model que é frequentemente (talvez até continuamente treinado) novamente. Um modelo dinâmico é um "aprendizado ao longo da vida" que se adapta constantemente aos dados em evolução. Um modelo dinâmico também é conhecido como modelo on-line.

Contraste com o modelo estático.

E

parada antecipada

#fundamentals

Um método de regularização que envolve o encerramento do treinamento antes que a perda do treinamento termine de diminuir. Na parada antecipada, você para intencionalmente de treinar o modelo quando a perda em um conjunto de dados de validação começa a aumentar, ou seja, quando o desempenho da generalização piora.

Clique no ícone para ver mais observações.

A parada antecipada pode parecer contraditória. Afinal, pedir para um modelo interromper o treinamento enquanto a perda ainda está diminuindo pode ser semelhante a pedir para um chef parar de cozinhar antes que a sobremesa esteja totalmente assada. No entanto, treinar um modelo por muito tempo pode levar ao overfitting (link em inglês). Ou seja, se você treinar um modelo muito longo, ele poderá ajustar os dados de treinamento a ponto de não fazer boas previsões em novos exemplos.

camada de embedding

#language

#fundamentals

Uma camada escondida especial que é treinada em um recurso categórico de alta dimensão para aprender gradualmente um vetor de embedding de dimensão mais baixa. Uma camada de incorporação permite que uma rede neural treine com muito mais eficiência do que o treinamento apenas no atributo categórico de alta dimensão.

Por exemplo, a Terra atualmente aceita cerca de 73 mil espécies de árvores. Suponha que espécies de árvores sejam um atributo no seu modelo, portanto,a camada de entrada dele inclui um vetor one-hot de 73.000 elementos. Por exemplo, talvez baobab seja representado algo assim:

Uma matriz de 73.000 elementos. Os primeiros 6.232 elementos contêm o valor 0. O próximo elemento contém o valor 1. Os 66.767 elementos finais mantêm o valor zero.

Uma matriz de 73 mil elementos é muito longa. Se você não adicionar uma camada de embedding ao modelo, o treinamento poderá consumir muito tempo por causa da multiplicação de 72.999 zeros. Talvez você escolha a camada de embedding para consistir em 12 dimensões. Consequentemente, a camada de embedding vai aprender gradualmente um novo vetor de embedding para cada espécie de árvore.

Em determinadas situações, o hash é uma alternativa razoável a uma camada de incorporação.

época

#fundamentals

Uma passagem de treinamento completa que abrange todo o conjunto de treinamento, de modo que cada exemplo tenha sido processado uma vez.

Um período representa N/tamanho do lote de iterações de treinamento, em que N é o número total de exemplos.

Por exemplo, suponha que:

O conjunto de dados consiste em 1.000 exemplos.
O tamanho do lote é de 50 exemplos.

Portanto, um único período requer 20 iterações:

1 epoch = (N/batch size) = (1,000 / 50) = 20 iterations

exemplo.

#fundamentals

Os valores de uma linha de features e possivelmente um rótulo. Os exemplos de aprendizado supervisionado se enquadram em duas categorias gerais:

Um exemplo rotulado consiste em um ou mais recursos e um rótulo. Os exemplos rotulados são usados durante o treinamento.
Um exemplo não rotulado consiste em um ou mais recursos, mas nenhum rótulo. Exemplos não rotulados são usados durante a inferência.

Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. Aqui estão três exemplos rotulados:

Recursos			Identificador
Temperatura	Umidade	Pressão	Pontuação de teste
15	47	998	Boa
19	34	1020	Excelente
18	92	1012	Ruim

Aqui estão três exemplos não rotulados:

Temperatura	Umidade	Pressão
12	62	1014
21	47	1017
19	41	1021

A linha de um conjunto de dados normalmente é a fonte bruta de um exemplo. Ou seja, um exemplo normalmente consiste em um subconjunto das colunas no conjunto de dados. Além disso, os recursos em um exemplo também podem incluir atributos sintéticos, como cruzamentos de atributos.

F

falso negativo (FN)

#fundamentals

Um exemplo em que o modelo prevê incorretamente a classe negativa. Por exemplo, o modelo prevê que uma mensagem de e-mail específica não é spam (a classe negativa), mas ela na verdade é spam.

falso positivo (FP)

#fundamentals

Exemplo em que o modelo prevê incorretamente a classe positiva. Por exemplo, o modelo prevê que uma mensagem de e-mail específica é spam (a classe positiva), mas ela na verdade não é spam.

taxa de falsos positivos (FPR)

#fundamentals

É a proporção de exemplos negativos reais para os quais o modelo previu erroneamente a classe positiva. A fórmula a seguir calcula a taxa de falsos positivos:

$$\text{false positive rate} = \frac{\text{false positives}}{\text{false positives} + \text{true negatives}}$$

A taxa de falsos positivos é o eixo x em uma curva ROC.

recurso

#fundamentals

Uma variável de entrada para um modelo de machine learning. Um exemplo consiste em um ou mais atributos. Por exemplo, suponha que você esteja treinando um modelo para determinar a influência das condições climáticas nos resultados das avaliações dos alunos. A tabela a seguir mostra três exemplos, cada um contendo três recursos e um rótulo:

Recursos			Identificador
Temperatura	Umidade	Pressão	Pontuação de teste
15	47	998	92
19	34	1020	84
18	92	1012	87

Contraste com label.

cruzamento de atributos

#fundamentals

Um atributo sintético formado pelo "cruzamento" de atributos categóricos ou em buckets.

Por exemplo, considere um modelo de "previsão de humor" que representa a temperatura em um dos quatro buckets a seguir:

freezing
chilly
temperate
warm

E representa a velocidade do vento em um dos três buckets a seguir:

still
light
windy

Sem os cruzamentos de atributos, o modelo linear é treinado de forma independente em cada um dos sete buckets anteriores. Assim, o modelo é treinado, por exemplo, freezing independentemente do treinamento em, por exemplo, windy.

Outra opção é criar um cruzamento de atributos de temperatura e velocidade do vento. Esse recurso sintético teria os 12 valores possíveis abaixo:

freezing-still
freezing-light
freezing-windy
chilly-still
chilly-light
chilly-windy
temperate-still
temperate-light
temperate-windy
warm-still
warm-light
warm-windy

Graças aos cruzamentos de atributos, o modelo pode aprender diferenças de humor entre um dia freezing-windy e um freezing-still.

Se você criar um atributo sintético com base em dois atributos que tenham muitos buckets diferentes, o cruzamento de atributos resultante terá um grande número de combinações possíveis. Por exemplo, se um atributo tiver 1.000 buckets e o outro tiver 2.000 buckets, o cruzamento de atributos resultante terá 2.000.000 de buckets.

Oficialmente, uma cruz é um produto cartesiano.

Os cruzamentos de atributos são usados principalmente com modelos lineares e raramente com redes neurais.

e engenharia de atributos.

#fundamentals

#TensorFlow

Um processo que envolve as seguintes etapas:

Determinar quais recursos podem ser úteis no treinamento de um modelo.
converter dados brutos do conjunto de dados em versões eficientes desses atributos;

Por exemplo, você pode determinar que temperature pode ser um recurso útil. Em seguida, teste o agrupamento por classes para otimizar o que o modelo pode aprender com diferentes intervalos temperature.

A engenharia de atributos às vezes é chamada de extração de atributos ou recursos.

Clique no ícone para ver mais observações sobre o TensorFlow.

No TensorFlow, a engenharia de atributos geralmente significa converter as entradas do arquivo de registro bruto em buffers de protocolo tf.Example. Consulte também tf.Transform.

conjunto de atributos

#fundamentals

O grupo de recursos em que seu modelo de machine learning é treinado. Por exemplo, código postal, tamanho e condição da propriedade podem compor um conjunto de atributos simples para um modelo que prevê preços de imóveis.

vetor de atributo

#fundamentals

A matriz de valores de feature, composta por um exemplo. O vetor de recurso é inserido durante o treinamento e durante a inferência. Por exemplo, o vetor de atributo de um modelo com dois atributos distintos pode ser:

[0.92, 0.56]

quatro camadas: uma camada de entrada, duas camadas escondidas e uma camada final.
A camada de entrada contém dois nós, um contendo o valor 0,92 e o outro contendo o valor 0,56.

Cada exemplo fornece valores diferentes para o vetor de atributo, de modo que o vetor de atributo do próximo exemplo pode ser algo como:

[0.73, 0.49]

A engenharia de atributos determina como representar os atributos no vetor de atributos. Por exemplo, um recurso categórico binário com cinco valores possíveis pode ser representado com a codificação one-hot. Nesse caso, a parte do vetor de atributo de um exemplo específico consistiria em quatro zeros e um único 1,0 na terceira posição, da seguinte maneira:

[0.0, 0.0, 1.0, 0.0, 0.0]

Como outro exemplo, suponha que seu modelo seja composto por três atributos:

Um recurso categórico binário com cinco valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 1.0, 0.0, 0.0, 0.0]
outro atributo categórico binário com três valores possíveis representados com codificação one-hot. Por exemplo: [0.0, 0.0, 1.0]
Um atributo de ponto flutuante, por exemplo: 8.3.

Nesse caso, o vetor de recurso de cada exemplo seria representado por nove valores. Considerando os valores de exemplo da lista anterior, o vetor de atributo seria:

0.0
1.0
0.0
0.0
0.0
0.0
0.0
1.0
8.3

ciclo de feedback

#fundamentals

Em machine learning, uma situação em que as previsões de um modelo influenciam os dados de treinamento dele ou de outro. Por exemplo, um modelo que recomenda filmes influenciará aqueles que as pessoas veem, o que influenciará os modelos de recomendação de filmes subsequentes.

G

generalização

#fundamentals

Capacidade de um modelo de fazer previsões corretas em dados novos que ainda não foram vistos. Um modelo capaz de generalizar é o oposto de um modelo com overfitting.

Clique no ícone para ver mais observações.

Você vai treinar um modelo com base nos exemplos do conjunto de treinamento. Consequentemente, o modelo aprende as peculiaridades dos dados no conjunto de treinamento. Essencialmente, a generalização pergunta se o modelo pode fazer boas previsões em exemplos que não estão no conjunto de treinamento.

Para incentivar a generalização, a regularização (em inglês) ajuda um modelo a treinar um modelo com menor precisão de acordo com as peculiaridades dos dados no conjunto de treinamento.

curva de generalização

#fundamentals

Um gráfico de perda de treinamento e perda de validação como uma função do número de iterações.

Uma curva de generalização pode ajudar a detectar um possível overfitting (link em inglês). Por exemplo, a curva de generalização a seguir sugere overfitting, porque a perda de validação, em última análise, se torna significativamente maior do que a perda de treinamento.

Um gráfico cartesiano em que o eixo y é rotulado como perda e o eixo x é rotulado como iterações. Dois gráficos aparecem. Um gráfico mostra a perda de treinamento, e o outro mostra a perda de validação.
Os dois gráficos começam de maneira semelhante, mas a perda de treinamento eventualmente cai muito menor que a perda de validação.

gradiente descendente

#fundamentals

Uma técnica matemática para minimizar a perda. O gradiente descendente ajusta iterativamente os pesos e os vieses, encontrando gradualmente a melhor combinação para minimizar a perda.

O gradiente descendente é mais antigo (muito mais antigo) do que o aprendizado de máquina.

informações empíricas

#fundamentals

Verdade.

O que realmente aconteceu.

Por exemplo, considere um modelo de classificação binária que prevê se um estudante do primeiro ano da universidade se formará em seis anos. A informação empírica desse modelo é se o estudante realmente se graduou em seis anos.

Clique no ícone para ver mais observações.

Avaliamos a qualidade do modelo com base em informações empíricas. No entanto, as informações empíricas nem sempre são totalmente verdadeiras. Por exemplo, considere os seguintes exemplos de possíveis imperfeições nas informações empíricas:

No exemplo de graduação, temos certeza de que os registros de graduação de cada aluno estão sempre corretos? O registro da universidade é impecável?
Suponha que o rótulo seja um valor de ponto flutuante medido por instrumentos (por exemplo, barômetros). Como podemos ter certeza de que cada instrumento foi calibrado de maneira idêntica ou de que cada leitura foi feita nas mesmas circunstâncias?
Se o rótulo é uma questão de opinião humana, como podemos ter certeza de que cada avaliador humano está avaliando eventos da mesma maneira? Para melhorar a consistência, avaliadores humanos especialistas às vezes intervem.

H

camada escondida

#fundamentals

Uma camada em uma rede neural entre a camada de entrada (os atributos) e a camada de saída (a previsão). Cada camada escondida consiste em um ou mais neurônios. Por exemplo, a rede neural a seguir contém duas camadas escondidas, a primeira com três neurônios e a segunda com dois:

Uma rede neural profunda contém mais de uma camada escondida. Por exemplo, a ilustração anterior mostra uma rede neural profunda porque o modelo contém duas camadas escondidas.

hiperparâmetro

#fundamentals

As variáveis que você ou um serviço de ajuste de hiperparâmetros ajustam durante execuções sucessivas de treinamento de um modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro. É possível definir a taxa de aprendizado como 0,01 antes de uma sessão de treinamento. Se você determinar que 0,01 é muito alto, defina a taxa de aprendizado como 0,003 na próxima sessão de treinamento.

Por outro lado, os parâmetros são os diversos pesos e viés que o modelo aprende durante o treinamento.

I

distribuído de maneira independente e idêntica

#fundamentals

Dados extraídos de uma distribuição que não muda e em que cada valor renderizado não depende de valores que foram desenhados anteriormente. Uma i.i.d. é o gás ideal do machine learning, uma construção matemática útil, mas quase nunca encontrada no mundo real. Por exemplo, a distribuição de visitantes de uma página da Web pode ser, ou seja, durante um breve período, ou seja, a distribuição não muda durante esse breve período e a visita de uma pessoa geralmente é independente da visita de outra. No entanto, se você expandir esse período, podem aparecer diferenças sazonais nos visitantes da página da Web.

Consulte também não estacionário.

inferência

#fundamentals

Em machine learning, o processo de fazer previsões aplicando um modelo treinado a exemplos não rotulados.

A inferência tem um significado um pouco diferente na estatística. Consulte o artigo da Wikipédia sobre inferência estatística para saber mais detalhes.

camada de entrada

#fundamentals

A camada de uma rede neural que contém o vetor de atributos. Ou seja, a camada de entrada fornece exemplos de treinamento ou inferência. Por exemplo, a camada de entrada na rede neural abaixo consiste em dois recursos:

quatro camadas: uma camada de entrada, duas camadas escondidas e uma camada final.

interpretabilidade

#fundamentals

A capacidade de explicar ou apresentar o raciocínio de um modelo de ML em termos compreensíveis para um ser humano.

Por exemplo, a maioria dos modelos de regressão linear é altamente interpretável. Você só precisa analisar os pesos treinados para cada atributo. As florestas de decisão também são altamente interpretáveis. No entanto, alguns modelos precisam de uma visualização sofisticada para se tornarem interpretáveis.

É possível usar a Ferramenta de aprendizado de interpretabilidade (LIT, na sigla em inglês) para interpretar modelos de ML.

iteração

#fundamentals

Uma única atualização dos parâmetros de um modelo (os pesos e vieses do modelo) durante o treinamento. O tamanho do lote determina quantos exemplos o modelo processa em uma única iteração. Por exemplo, se o tamanho do lote for 20, o modelo processará 20 exemplos antes de ajustar os parâmetros.

Ao treinar uma rede neural, uma única iteração envolve as duas transmissões a seguir:

Uma passagem direta para avaliar a perda em um único lote.
Um passe para trás (retropropagação) para ajustar os parâmetros do modelo com base na perda e na taxa de aprendizado.

L

Regularização de L₀

#fundamentals

Um tipo de regularização que penaliza o número total de pesos diferentes de zero em um modelo. Por exemplo, um modelo com 11 pesos diferentes de zero será penalizado mais do que um modelo semelhante com 10 pesos diferentes de zero.

A regularização de L₀ às vezes é chamada de regularização de norma L0.

Clique no ícone para ver mais observações.

Geralmente, a regularização L₀ é impraticável em modelos grandes porque a regularização L₀ transforma o treinamento em um problema de otimização convexo.

Perda L₁

#fundamentals

Uma função de perda que calcula o valor absoluto da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Confira abaixo o cálculo da perda de L₁ para um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Valor absoluto do delta
7	6	1
5	4	1
8	11	3
4	6	2
9	8	1
		8 = perda L₁

A perda L₁ é menos sensível a outliers do que a perda L₂ (links em inglês).

O erro médio absoluto é a perda média de L₁ por exemplo.

Clique no ícone para conferir a matemática formal.

$$ L_1 loss = \sum_{i=0}^n | y_i - \hat{y}_i |$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Regularização L₁

#fundamentals

Um tipo de regularização que penaliza os pesos em proporção à soma do valor absoluto dos pesos. A regularização L₁ ajuda a direcionar os pesos de atributos irrelevantes ou pouco relevantes para exatamente 0. Um atributo com um peso de 0 é efetivamente removido do modelo.

Contraste com a regularização L₂.

Perda L₂

#fundamentals

Uma função de perda que calcula o quadrado da diferença entre os valores reais de rótulo e os valores que um modelo prevê. Confira abaixo o cálculo da perda de L₂ de um lote de cinco exemplos:

Valor real do exemplo	Valor previsto do modelo	Quadrado do delta
7	6	1
5	4	1
8	11	9
4	6	4
9	8	1
		16 = perda L₂

Devido ao quadrado, a perda de L₂ amplifica a influência de outliers (link em inglês). Ou seja, a perda de L₂ reage mais fortemente a previsões ruins do que a perda L₁ (em inglês). Por exemplo, a perda L₁ do lote anterior seria 8 em vez de 16. Observe que um único outlier representa 9 dos 16.

Modelos de regressão geralmente usam a perda L₂ como a função de perda.

O Erro quadrático médio é a perda média de L₂ por exemplo. Perda quadrada é outro nome para perda L₂.

Clique no ícone para conferir a matemática formal.

$$ L_2 loss = \sum_{i=0}^n {(y_i - \hat{y}_i)}^2$$

em que:

$n$ é o número de exemplos.
$y$ é o valor real do rótulo.
$\hat{y}$ é o valor que o modelo prevê para $y$.

Regularização de L₂

#fundamentals

Um tipo de regularização que penaliza os pesos na proporção à soma dos quadrados das ponderações. A regularização L₂ ajuda a aproximar pesos outliers (aqueles com valores positivos altos ou baixos) mais próximos de 0, mas não exatamente de 0. Recursos com valores muito próximos de 0 permanecem no modelo, mas não influenciam muito a previsão dele.

A regularização de L₂ sempre melhora a generalização em modelos lineares.

Contraste com a regularização L₁.

o rótulo.

#fundamentals

Em machine learning supervisionado, a parte de "resposta" ou "resultado" de um exemplo.

Cada exemplo rotulado consiste em um ou mais recursos e um rótulo. Por exemplo, em um conjunto de dados de detecção de spam, o rótulo provavelmente seria "spam" ou "não é spam". Em um conjunto de dados de chuvas, o rótulo pode ser a quantidade de chuva que caiu durante um determinado período.

exemplo rotulado

#fundamentals

Um exemplo que contém um ou mais atributos e um rótulo. A tabela a seguir mostra três exemplos rotulados de um modelo de avaliação interna, cada um com três atributos e um rótulo:

Número de quartos	Número de banheiros	Idade da casa	Preço da casa (rótulo)
3	2	15	US$ 345.000
2	1	72	US$ 179.000
4	2	34	US$ 392.000

No machine learning supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

Compare os exemplos rotulados com outros sem rótulos.

Lambda

#fundamentals

Sinônimo de taxa de regularização.

Lambda é um termo sobrecarregado. Aqui, vamos nos concentrar na definição do termo na regularização.

layer

#fundamentals

Um conjunto de neurônios em uma rede neural. Três tipos comuns de camadas são os seguintes:

A camada de entrada, que fornece valores para todos os recursos.
Uma ou mais camadas escondidas, que encontram relações não lineares entre os elementos e o rótulo.
A camada de saída, que fornece a previsão.

Por exemplo, a ilustração a seguir mostra uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final:

Uma rede neural com uma camada de entrada, duas camadas escondidas e uma camada final. A camada de entrada consiste em dois recursos. A primeira camada escondida consiste em três neurônios e a segunda camada escondida consiste em dois. A camada final consiste em um único nó.

No TensorFlow, as camadas também são funções do Python que usam Tensors e opções de configuração como entrada e produzem outros tensores como saída.

taxa de aprendizado

#fundamentals

Um número de ponto flutuante que informa ao algoritmo do gradiente descendente qual será o ajuste dos pesos e vieses em cada iteração. Por exemplo, uma taxa de aprendizado de 0,3 ajustaria pesos e vieses três vezes mais potentes do que uma taxa de aprendizado de 0,1.

A taxa de aprendizado é um hiperparâmetro fundamental. Se a taxa de aprendizado for muito baixa, o treinamento demorará muito. Se você definir uma taxa de aprendizado muito alta, o gradiente descendente geralmente terá problemas para alcançar a convergência.

Clique no ícone para ver uma explicação mais matemática.

Durante cada iteração, o algoritmo gradiente descendente multiplica a taxa de aprendizado pelo gradiente. O produto resultante é chamado de etapa do gradiente.

linear

#fundamentals

Relação entre duas ou mais variáveis que podem ser representadas exclusivamente por adição e multiplicação.

O enredo de uma relação linear é uma linha.

Contraste com nonlinear.

modelo linear

#fundamentals

Um model que atribui um model por model para fazer model. Modelos lineares também incorporam um viés. Por outro lado, a relação entre os atributos e as previsões em modelos profundos geralmente é não linear.

Modelos lineares geralmente são mais fáceis de treinar e mais interpretáveis do que modelos profundos. No entanto, os modelos profundos podem aprender relações complexas entre atributos.

Regressão linear e regressão logística são dois tipos de modelos lineares.

Clique no ícone para ver os cálculos.

Um modelo linear segue esta fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

em que:

y' é a previsão bruta. Em determinados tipos de modelos lineares, essa previsão bruta será modificada ainda mais. Por exemplo, consulte Regressão logística.
b é o viés.
w é um peso, portanto, w₁ é o peso do primeiro atributo, w₂ é o peso do segundo atributo e assim por diante.
x é um atributo, portanto, x₁ é o valor do primeiro atributo, x₂ é o valor do segundo e assim por diante.

Por exemplo, suponha que um modelo linear para três recursos aprenda os seguintes vieses e pesos:

b = 7
w₁ = -2,5
w₂ = -1,2
w₃ = 1,4

Portanto, considerando os três atributos (x₁, x₂ e x₃), o modelo linear usa a seguinte equação para gerar cada previsão:

y' = 7 + (-2.5)(x₁) + (-1.2)(x₂) + (1.4)(x₃)

Suponha que um exemplo específico contenha os seguintes valores:

x₁ = 4
x₂ = -10
x₃ = 5

Conectar esses valores na fórmula gera uma previsão para este exemplo:

y' = 7 + (-2.5)(4) + (-1.2)(-10) + (1.4)(5)
y' = 16

Os modelos lineares incluem não apenas modelos que usam apenas uma equação linear para fazer previsões, mas também um conjunto mais amplo de modelos que usam uma equação linear como apenas um componente da fórmula que faz previsões. Por exemplo, a regressão logística pós-processa a previsão bruta (y') para produzir um valor de previsão final entre 0 e 1, exclusivamente.

regressão linear

#fundamentals

Um tipo de modelo de machine learning em que as duas afirmações a seguir são verdadeiras:

O modelo é linear.
A previsão é um valor de ponto flutuante. Esta é a parte de regressão da regressão linear.

Comparar regressão linear com regressão logística. Além disso, a regressão de contraste com classificação.

regressão logística

#fundamentals

Um tipo de modelo de regressão que prevê uma probabilidade. Os modelos de regressão logística têm as seguintes características:

O rótulo é categórico. O termo "regressão logística" geralmente se refere à regressão logística binária, ou seja, a um modelo que calcula probabilidades de rótulos com dois valores possíveis. Uma variante menos comum, a regressão logística multinomial, calcula as probabilidades de rótulos com mais de dois valores possíveis.
A função de perda durante o treinamento é Log Loss. É possível colocar várias unidades de perda de registro em paralelo para rótulos com mais de dois valores possíveis.
O modelo tem uma arquitetura linear, não uma rede neural profunda. No entanto, o restante desta definição também se aplica a modelos profundos que preveem probabilidades de rótulos categóricos.

Por exemplo, considere um modelo de regressão logística que calcula a probabilidade de um e-mail de entrada ser spam ou não. Durante a inferência, suponha que o modelo preveja 0,72. Portanto, o modelo está estimando:

72% de chance de o e-mail ser spam.
28% de chance de o e-mail não ser spam.

Um modelo de regressão logística usa a seguinte arquitetura de duas etapas:

O modelo gera uma previsão bruta (y') ao aplicar uma função linear de atributos de entrada.
O modelo usa essa previsão bruta como entrada para uma função sigmoide, que converte a previsão bruta em um valor entre 0 e 1, exclusivo.

Como qualquer modelo de regressão, o modelo de regressão logística prevê um número. No entanto, esse número normalmente se torna parte de um modelo de classificação binária da seguinte maneira:

Se o número previsto for maior que o limite de classificação, o modelo de classificação binária preverá a classe positiva.
Se o número previsto for menor que o limiar de classificação, o modelo de classificação binária preverá a classe negativa.

Log Perda

#fundamentals

A função de perda usada na regressão logística binária.

Clique no ícone para ver os cálculos.

A fórmula a seguir calcula a Log Loss:

$$\text{Log Loss} = \sum_{(x,y)\in D} -y\log(y') - (1 - y)\log(1 - y')$$

em que:

$(x,y)\in D$ é o conjunto de dados que contém muitos exemplos rotulados, que são pares $(x,y)$ .
$y$ é o rótulo em um exemplo com rótulo. Como esta é uma regressão logística, todo valor de $y$ precisa ser 0 ou 1.
$y'$ é o valor previsto (algum entre 0 e 1, excluído), dado o conjunto de atributos em $x$.

log-chance

#fundamentals

O logaritmo da probabilidade de algum evento.

Clique no ícone para ver os cálculos.

Se o evento for uma probabilidade binária, odds faz referência à proporção entre a probabilidade de sucesso (p) e a probabilidade de falha (1-p). Por exemplo, suponha que um determinado evento tenha 90% de probabilidade de sucesso e 10% de probabilidade de falha. Nesse caso, as chances são calculadas da seguinte maneira:

$$ {\text{odds}} = \frac{\text{p}} {\text{(1-p)}} = \frac{.9} {.1} = {\text{9}} $$

As log-chances são simplesmente o logaritmo da probabilidade. Por convenção, "logaritmo" refere-se ao logaritmo natural, mas o logaritmo pode ser qualquer base maior que 1. Aderindo à convenção, os log-chances do nosso exemplo são, portanto:

$$ {\text{log-odds}} = ln(9) ~= 2.2 $$

A função log-odds é o inverso da função sigmoide.

perda

#fundamentals

Durante o treinamento de um modelo supervisionado, uma medida da distância entre a previsão do modelo e o rótulo.

Uma função de perda calcula a perda.

curva de perda

#fundamentals

Um gráfico de perda como uma função do número de iterações de treinamento. O gráfico a seguir mostra uma curva de perda típica:

Um gráfico cartesiano de perda em comparação com iterações de treinamento, mostrando uma queda rápida na perda das iterações iniciais, seguida por uma queda gradual e, em seguida, uma inclinação plana durante as iterações finais.

As curvas de perda podem ajudar a determinar quando o modelo está convergente ou overfitting (link em inglês).

As curvas de perda podem traçar todos os tipos de perda a seguir:

perda de treinamento
perda de validação
perda no teste

Consulte também curva de generalização.

função de perda

#fundamentals

Durante o treinamento ou o teste, uma função matemática que calcula a perda em um lote de exemplos. Uma função de perda retorna uma perda menor para modelos que fazem boas previsões do que para modelos que fazem previsões ruins.

Normalmente, o objetivo do treinamento é minimizar a perda que uma função de perda retorna.

Existem muitos tipos diferentes de funções de perda. Escolha a função de perda adequada para o tipo de modelo que você está criando. Exemplo:

Perda de L₂ (ou Erro quadrático médio) é a função de perda da regressão linear.

Log Loss é a função de perda da regressão logística.

M

machine learning

#fundamentals

Um programa ou sistema que treina um modelo usando dados de entrada. O modelo treinado pode fazer previsões úteis com base em dados novos (nunca acessados) coletados da mesma distribuição usada para treinar o modelo.

Machine learning também é uma área de estudo relacionada a esses programas ou sistemas.

classe majoritária

#fundamentals

O rótulo mais comum em um conjunto de dados desequilibrado de classes. Por exemplo, considerando um conjunto de dados contendo 99% de rótulos negativos e 1% de rótulos positivos, os rótulos negativos são a classe majoritária.

Contraste com a classe minoritária.

minilote

#fundamentals

Um pequeno subconjunto selecionado aleatoriamente de um lote processado em uma iteração. O tamanho do lote de um minilote geralmente está entre 10 e 1.000 exemplos.

Por exemplo, suponha que todo o conjunto de treinamento (o lote completo) seja composto por 1.000 exemplos. Suponha também que você definiu o tamanho do lote de cada minilote como 20. Portanto, cada iteração determina a perda em uma lista aleatória de 20 dos 1.000 exemplos e, em seguida, ajusta os pesos e os vieses (links em inglês).

É muito mais eficiente calcular a perda em um minilote do que a perda em todos os exemplos no lote completo.

classe minoritária

#fundamentals

O rótulo menos comum em um conjunto de dados desequilibrado de classes. Por exemplo, considerando um conjunto de dados contendo 99% de rótulos negativos e 1% de rótulos positivos, os rótulos positivos são a classe minoritária.

Contraste com a classe majoritária.

Clique no ícone para ver mais observações.

Um conjunto de treinamento com um milhão de exemplos parece impressionante. No entanto, se a classe minoritária for mal representada, até mesmo um conjunto de treinamento muito grande poderá ser insuficiente. Concentre-se menos no número total de exemplos no conjunto de dados e mais no número de exemplos na classe minoritária.

Se o conjunto de dados não contiver exemplos suficientes de classe minoritária, use downsample (a definição no segundo item) para complementar a classe minoritária.

model

#fundamentals

Em geral, qualquer construção matemática que processa dados de entrada e retorna saída. Em outras palavras, um modelo é o conjunto de parâmetros e a estrutura necessários para que um sistema faça previsões. No machine learning supervisionado, um modelo usa um exemplo como entrada e infere uma previsão como saída. No machine learning supervisionado, os modelos são um pouco diferentes. Exemplo:

Um modelo de regressão linear consiste em um conjunto de pesos e um viés.

Um modelo de rede neural consiste em:

Um conjunto de camadas escondidas, cada uma contendo um ou mais neurônios.

Os pesos e o viés associados a cada neurônio.

Um modelo de árvore de decisão consiste em:

A forma da árvore, ou seja, o padrão em que as condições e as folhas estão conectadas.

As condições e folhas.

Você pode salvar, restaurar ou fazer cópias de um modelo.

O machine learning não supervisionado também gera modelos, normalmente uma função que pode mapear um exemplo de entrada para o cluster mais apropriado.

Clique no ícone para comparar as funções algébricas e de programação com os modelos de ML.

Uma função algébrica como a seguinte é um modelo:

f(x, y) = 3x -5xy + y² + 17

A função anterior mapeia valores de entrada (x e y) para a saída.

Da mesma forma, uma função de programação como a seguinte também é um modelo:

def half_of_greater(x, y): if (x > y): return(x / 2) else return(y / 2)

O autor da chamada transmite argumentos para a função Python anterior, e a função Python gera a saída (por meio da instrução return).

Embora uma rede neural profunda tenha uma estrutura matemática muito diferente de uma função algébrica ou de programação, uma rede neural profunda ainda recebe entradas (um exemplo) e retorna saída (uma previsão).

Um programador humano codifica uma função de programação manualmente. Por outro lado, um modelo de machine learning aprende gradualmente os parâmetros ideais durante o treinamento automatizado.

classificação multiclasse

#fundamentals

No aprendizado supervisionado, é um problema de classificação em que o conjunto de dados contém mais de duas classes de rótulos. Por exemplo, os rótulos no conjunto de dados da Iris precisam ser uma das três classes a seguir:

Iris setosa

Iris virginica

Íris versicolor

Um modelo treinado com o conjunto de dados Iris que prevê o tipo de íris em novos exemplos está realizando uma classificação multiclasse.

Por outro lado, os problemas de classificação que distinguem exatamente duas classes são modelos de classificação binária. Por exemplo, um modelo de e-mail que prevê spam ou não é spam é um modelo de classificação binária.

Nos problemas de clustering, a classificação multiclasse se refere a mais de dois clusters.

N

classe negativa

#fundamentals

Na classificação binária, uma classe é denominada positiva e a outra é negativa. A classe positiva é a coisa ou o evento que o modelo está testando, e a classe negativa é a outra possibilidade. Exemplo:

A classe negativa em um exame médico pode ser "não tumor".

A classe negativa em um classificador de e-mails pode ser "não é spam".

Contraste com a classe positiva.

do feedforward

#fundamentals

Um model que contém pelo menos uma model. Uma rede neural profunda é um tipo de rede neural que contém mais de uma camada escondida. Por exemplo, o diagrama a seguir mostra uma rede neural profunda contendo duas camadas escondidas.

Cada neurônio de uma rede neural se conecta a todos os nós da camada seguinte. Por exemplo, no diagrama anterior, observe que cada um dos três neurônios na primeira camada escondida se conecta separadamente a ambos os dois na segunda camada escondida.

As redes neurais implementadas em computadores às vezes são chamadas de redes neurais artificiais para diferenciá-las das redes neurais encontradas no cérebro e em outros sistemas nervosos.

Algumas redes neurais podem imitar relações não lineares extremamente complexas entre diferentes recursos e o rótulo.

Consulte também rede neural convolucional e rede neural recorrente.

neurônio

#fundamentals

Em machine learning, uma unidade distinta dentro de uma camada escondida de uma rede neural. Cada neurônio realiza a ação de duas etapas a seguir:

Calcula a soma dos pesos de valores de entrada multiplicada pelos pesos correspondentes.

Transmite a soma ponderada como entrada para uma função de ativação.

Um neurônio na primeira camada escondida aceita entradas dos valores de recursos na camada de entrada. Um neurônio em qualquer camada escondida além do primeiro aceita as entradas dos neurônios na camada escondida anterior. Por exemplo, um neurônio na segunda camada escondida aceita entradas dos neurônios da primeira camada escondida.

A ilustração a seguir destaca dois neurônios e as entradas deles.

Um neurônio em uma rede neural imita o comportamento dos neurônios no cérebro e em outras partes dos sistemas nervosos.

nó (rede neural)

#fundamentals

Um neurônio em uma camada escondida.

não linear

#fundamentals

Uma relação entre duas ou mais variáveis que não podem ser representadas exclusivamente por adição e multiplicação. Uma relação linear pode ser representada como uma linha, uma relação não linear não pode ser representada como uma linha. Por exemplo, considere dois modelos em que cada um relaciona um único atributo a um único rótulo. O modelo à esquerda é linear, e o modelo à direita não é linear:

não estacionário

#fundamentals

Um recurso cujos valores mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, considere os seguintes exemplos de não estacionário:

O número de trajes de banho vendidos em uma loja específica varia de acordo com a estação do ano.

A quantidade de uma fruta específica colhida em uma determinada região é zero para grande parte do ano, mas grande por um breve período.

Devido à mudança climática, as temperaturas médias anuais estão mudando.

Contraste com estacionamento.

normalização

#fundamentals

De modo geral, o processo de conversão do intervalo real de valores de uma variável em um intervalo padrão, como:

-1 a +1

0 a 1

a distribuição normal

Por exemplo, suponha que o intervalo real de valores de um determinado atributo seja 800 a 2.400. Como parte da engenharia de atributos, é possível normalizar os valores reais para um intervalo padrão, como -1 para +1.

A normalização é uma tarefa comum na engenharia de atributos. Os modelos geralmente são treinados mais rapidamente e produzem previsões melhores quando cada atributo numérico no vetor de atributos tem aproximadamente o mesmo intervalo.

dados numéricos

#fundamentals

Atributos representados como números inteiros ou números com valor real. Por exemplo, um modelo de avaliação de casas provavelmente representa o tamanho de uma casa (em pés quadrados ou metros quadrados) como dados numéricos. Representar um atributo como dados numéricos indica que os valores dele têm uma relação matemática com o rótulo. Ou seja, o número de metros quadrados em uma casa provavelmente tem alguma relação matemática com o valor da casa.

Nem todos os dados de números inteiros precisam ser representados como numéricos. Por exemplo, códigos postais em algumas partes do mundo são números inteiros. No entanto, esses códigos não podem ser representados como dados numéricos nos modelos. Isso ocorre porque um código postal 20000 não é duas vezes (ou metade) mais potente que um código postal 10000. Além disso, embora códigos postais diferentes façam correlação com valores imobiliários diferentes, não podemos presumir que os valores de imóveis no código postal 20000 são duas vezes mais valiosos que os valores imobiliários no código postal 10000. Os códigos postais precisam ser representados como dados categóricos.

Os recursos numéricos às vezes são chamados de recursos contínuos.

O

offline

#fundamentals

Sinônimo de static.

inferência off-line

#fundamentals

O processo de um modelo que gera um lote de previsões e, em seguida, armazena essas previsões em cache (salvando). Assim, os apps podem acessar a previsão inferida pelo cache em vez de executar novamente o modelo.

Por exemplo, considere um modelo que gera previsões meteorológicas locais a cada quatro horas. Após a execução de cada modelo, o sistema armazena em cache todas as previsões do tempo locais. Os apps de clima recuperam as previsões do cache.

A inferência off-line também é chamada de inferência estática.

Contraste com a inferência on-line.

codificação one-hot

#fundamentals

Representação de dados categóricos como um vetor em que:

Um elemento é definido como 1.

Todos os outros elementos são definidos como 0.

A codificação one-hot geralmente é usada para representar strings ou identificadores que têm um conjunto finito de valores possíveis. Por exemplo, suponha que um determinado atributo categórico chamado Scandinavia tenha cinco valores possíveis:

"Dinamarca"

"Suécia"

"Noruega"

"Finlândia"

"Islândia"

A codificação one-hot pode representar cada um dos cinco valores da seguinte maneira:

country Vetor

"Dinamarca" 1 0 0 0 0

"Suécia" 0 1 0 0 0

"Noruega" 0 0 1 0 0

"Finlândia" 0 0 0 1 0

"Islândia" 0 0 0 0 1

Graças à codificação one-hot, um modelo pode aprender diferentes conexões com base em cada um dos cinco países.

Representar um atributo como dados numéricos é uma alternativa à codificação one-hot. Infelizmente, representar numericamente os países escandinavos não é uma boa escolha. Por exemplo, considere a seguinte representação numérica:

"Dinamarca" é 0

"Suécia" é 1

"Noruega" é 2

"Finlândia" é 3

"Islândia" é 4

Com a codificação numérica, um modelo interpretaria os números brutos matematicamente e tentaria treinar com esses números. No entanto, a Islândia não é duas vezes mais (ou metade) do que a Noruega, então o modelo chegaria a algumas conclusões estranhas.

um-contra-todos

#fundamentals

Dado um problema de classificação com N classes, uma solução que consiste em N classificadores binários separados, ou seja, um classificador binário para cada resultado possível Por exemplo, considerando um modelo que classifica exemplos como animal, vegetal ou mineral, uma solução de um x todos forneceria os três classificadores binários a seguir:

animal versus não animal

vegetal ou não vegetal

mineral versus não mineral

online

#fundamentals

Sinônimo de dynamic.

inferência on-line

#fundamentals

Gerar previsões sob demanda. Por exemplo, suponha que um aplicativo passe a entrada para um modelo e emita uma solicitação de previsão. Um sistema que usa inferência on-line responde à solicitação executando o modelo e retornando a previsão para o app.

Contraste com a inferência off-line.

camada final

#fundamentals

A camada "final" de uma rede neural. A camada final contém a previsão.

A ilustração a seguir mostra uma pequena rede neural profunda com uma camada de entrada, duas camadas escondidas e uma camada final:

overfitting

#fundamentals

Criar um model que corresponda aos model de modo que o modelo não consiga fazer previsões corretas sobre dados novos.

A regularização pode reduzir o overfitting. Treinar em um conjunto de treinamento grande e diversificado também pode reduzir o overfitting.

Clique no ícone para ver mais observações.

O overfitting é como seguir estritamente os conselhos do seu professor favorito. Você provavelmente terá sucesso na aula desse professor, mas pode se "exagerar" nas ideias dele e não ter sucesso em outras classes. Seguir os conselhos de vários professores permitirá que você se adapte melhor às novas situações.

P

pandas

#fundamentals

Uma API de análise de dados orientada por colunas criada com base em numpy. Muitos frameworks de machine learning, incluindo o TensorFlow, oferecem suporte a estruturas de dados pandas como entradas. Consulte a documentação do pandas para mais detalhes.

parâmetro

#fundamentals

Os pesos e vieses que um modelo aprende durante o treinamento. Por exemplo, em um modelo de regressão linear, os parâmetros consistem no viés (b) e em todos os pesos (w₁, w₂ e assim por diante) na seguinte fórmula:

$$y' = b + w_1x_1 + w_2x_2 + … w_nx_n$$

Por outro lado, os hiperparâmetros são os valores que você (ou um serviço de geração de hiperparâmetros) fornece ao modelo. Por exemplo, a taxa de aprendizado é um hiperparâmetro.

classe positiva

#fundamentals

É a turma que você está testando.

Por exemplo, a classe positiva em um modelo de câncer pode ser "tumor". A classe positiva em um classificador de e-mails pode ser "spam".

Contraste com classe negativa.

Clique no ícone para ver mais observações.

O termo classe positiva pode ser confuso, porque o resultado "positivo" de muitos testes geralmente é indesejável. Por exemplo, a classe positiva em muitos testes médicos corresponde a tumores ou doenças. Em geral, você quer que um médico diga: "Parabéns! Os resultados do seu teste foram negativos". Independentemente disso, a classe positiva é o evento que o teste está procurando encontrar.

É claro que você está testando simultaneamente as classes positivas e negativas.

pós-processamento

#fairness

#fundamentals

Ajustar a saída de um modelo após a execução dele. O pós-processamento pode ser usado para impor restrições de imparcialidade sem modificar os modelos.

Por exemplo, é possível aplicar o pós-processamento a um classificador binário configurando um limiar de classificação de modo que a igualdade de oportunidade seja mantida para algum atributo, verificando se a taxa de verdadeiro positivo é a mesma para todos os valores desse atributo.

previsão.

#fundamentals

A saída de um modelo. Exemplo:

A previsão de um modelo de classificação binária é a classe positiva ou negativa.

A previsão de um modelo de classificação multiclasse é uma classe.

A previsão de um modelo de regressão linear é um número.

rótulos de proxy

#fundamentals

Dados usados para aproximar rótulos não disponíveis diretamente em um conjunto de dados.

Por exemplo, suponha que você precise treinar um modelo para prever o nível de estresse do funcionário. Seu conjunto de dados contém muitos atributos preditivos, mas não contém um rótulo chamado nível de estresse. Não se assuste, você escolhe "acidentes no local de trabalho" como um identificador de nível de estresse. Afinal, funcionários sob alto estresse entram em mais acidentes do que funcionários calmos. Ou não? Talvez os acidentes de trabalho realmente aumentem e diminuam por vários motivos.

Como segundo exemplo, suponha que você queira que is it raining? seja um rótulo booleano para o seu conjunto de dados, mas seu conjunto de dados não contenha dados de chuva. Se houver fotos disponíveis, você pode fazer fotos de pessoas com guarda-chuvas como substituto de está chovendo? Esse é um bom rótulo de proxy? Possivelmente, mas as pessoas em algumas culturas são mais propensas a levar guarda-chuvas para se proteger contra o sol do que a chuva.

Os rótulos de proxy geralmente são imperfeitos. Quando possível, escolha rótulos reais em vez de proxy. Dito isso, quando um rótulo real estiver ausente, escolha o rótulo de proxy com muito cuidado e escolha o menor candidato a rótulo de proxy.

R

RAG

#fundamentals

Abreviação de geração de recuperação aumentada.

avaliador

#fundamentals

Uma pessoa que fornece rótulos para exemplos. "Anotador" é outro nome para avaliador.

Unidade Linear Retificada (ReLU)

#fundamentals

Uma função de ativação com o seguinte comportamento:

Se a entrada for negativa ou zero, a saída será 0.

Se a entrada for positiva, a saída será igual à entrada.

Exemplo:

Se a entrada for -3, a saída será 0.

Se a entrada for +3, a saída será 3,0.

Aqui está um gráfico de ReLU:

A ReLU é uma função de ativação muito conhecida. Apesar do comportamento simples, a ReLU ainda permite que uma rede neural aprenda relações não lineares entre os atributos e o rótulo (links em inglês).

modelo de regressão

#fundamentals

informalmente, um modelo que gera uma previsão numérica. Por outro lado, um modelo de classificação gera uma previsão de classe. Por exemplo, estes são todos os modelos de regressão:

Modelo que prevê o valor de uma determinada casa, como 423.000 euros.

Modelo que prevê a expectativa de vida de uma determinada árvore, como 23,2 anos.

Um modelo que prevê a quantidade de chuva que cairá em uma determinada cidade nas próximas seis horas, como 0,18 polegadas.

Dois tipos comuns de modelos de regressão são:

Regressão linear, que encontra a linha que melhor ajusta os valores de rótulo aos atributos.

Regressão logística, que gera uma probabilidade entre 0,0 e 1,0 de que um sistema normalmente mapeia para uma previsão de classe.

Nem todo modelo que gera previsões numéricas é um modelo de regressão. Em alguns casos, uma previsão numérica é, na verdade, apenas um modelo de classificação que tem nomes de classes numéricas. Por exemplo, um modelo que prevê um código postal numérico é um modelo de classificação, não de regressão.

regularização

#fundamentals

Qualquer mecanismo que reduza o overfitting (link em inglês). Os tipos conhecidos de regularização incluem:

Regularização L₁

L₂ regularização

regularização de dropout

parada antecipada (não é um método de regularização formal, mas pode limitar efetivamente o overfitting)

A regularização também pode ser definida como a penalidade na complexidade de um modelo.

Clique no ícone para ver mais observações.

A regularização não é intuitiva. Aumentar a regularização geralmente aumenta a perda de treinamento, o que é confuso, porque o objetivo não é minimizar a perda de treinamento?

Na verdade, não. O objetivo não é minimizar a perda do treinamento. O objetivo é fazer excelentes previsões com base em exemplos do mundo real. É interessante notar que, embora o aumento da regularização aumente a perda do treinamento, isso geralmente ajuda os modelos a fazer previsões melhores em exemplos do mundo real.

taxa de regularização

#fundamentals

Um número que especifica a importância relativa da regularização durante o treinamento. Aumentar a taxa de regularização reduz o overfitting, mas pode reduzir o poder preditivo do modelo. Por outro lado, reduzir ou omitir a taxa de regularização aumenta o overfitting.

Clique no ícone para ver os cálculos.

A taxa de regularização geralmente é representada como a letra grega lambda. A equação de loss simplificada abaixo mostra a influência da lambda:

$$\text{minimize(loss function + }\lambda\text{(regularization))}$$

em que regularização é qualquer mecanismo de regularização, incluindo:

Regularização L₁

L₂ regularização

ReLU

#fundamentals

Abreviação de Unidade Linear Retificada.

Geração aumentada pela recuperação (RAG, na sigla em inglês)

#fundamentals

Uma técnica para melhorar a qualidade da saída do modelo de linguagem grande (LLM) com base em fontes de conhecimento extraídas após o treinamento do modelo. O RAG melhora a precisão das respostas do LLM fornecendo ao LLM treinado acesso a informações recuperadas de bases de conhecimento ou documentos confiáveis.

As motivações comuns para usar a geração aumentada por recuperação incluem:

Aumentar a precisão factual das respostas geradas por um modelo

Dar ao modelo acesso ao conhecimento sobre o qual ele não foi treinado.

Mudar o conhecimento usado pelo modelo.

Permitir que o modelo cite fontes.

Por exemplo, suponha que um app de química use a API PaLM para gerar resumos relacionados às consultas do usuário. Quando o back-end do app recebe uma consulta, ele:

Pesquisa ("recupera") dados relevantes para a consulta do usuário.

Anexa ("aumenta") os dados químicos relevantes à consulta do usuário.

Instrui o LLM a criar um resumo com base nos dados anexados.

Curva ROC

#fundamentals

Um gráfico de taxa de verdadeiro positivo em comparação com a taxa de falso positivo para diferentes limites de classificação na classificação binária.

O formato de uma curva ROC sugere a capacidade de um modelo de classificação binária de separar classes positivas de classes negativas. Suponha, por exemplo, que um modelo de classificação binária separa perfeitamente todas as classes negativas de todas as classes positivas:

A curva ROC do modelo anterior tem a seguinte aparência:

Em contraste, a ilustração abaixo mostra os valores brutos de regressão logística de um modelo terrível que não consegue separar classes negativas de classes positivas:

A curva ROC desse modelo tem a seguinte aparência:

Enquanto isso, no mundo real, a maioria dos modelos de classificação binária separam classes positivas e negativas até certo ponto, mas geralmente não perfeitamente. Assim, uma curva ROC típica fica entre os dois extremos:

Teoricamente, o ponto em uma curva ROC mais próximo de (0,0,1,0) identifica o limiar de classificação ideal. No entanto, vários outros problemas reais influenciam a seleção do limiar de classificação ideal. Por exemplo, talvez os falsos negativos causem muito mais problemas do que os falsos positivos.

Uma métrica numérica chamada AUC resume a curva ROC em um único valor de ponto flutuante.

Raiz do erro quadrático médio (RMSE)

#fundamentals

A raiz quadrada do erro quadrático médio.

S

função sigmoide

#fundamentals

Uma função matemática que "comprime" um valor de entrada em um intervalo restrito, geralmente de 0 a 1 ou de -1 a +1. Ou seja, é possível passar qualquer número (dois, um milhão, um bilhão negativo etc.) a um sigmoide e a saída ainda estará no intervalo restrito. Um gráfico da função de ativação sigmoide tem a seguinte aparência:

A função sigmoide tem vários usos no machine learning, incluindo:

Converter a saída bruta de um modelo de regressão logística ou regressão multinomial em uma probabilidade.

atuando como uma função de ativação em algumas redes neurais.

Clique no ícone para ver os cálculos.

A função sigmoide sobre um número de entrada x tem a seguinte fórmula:

$$ sigmoid(x) = \frac{1}{1 + e^{-\text{x}}} $$

Em machine learning, x geralmente é uma soma de peso.

softmax

#fundamentals

Uma função que determina as probabilidades de cada classe possível em um modelo de classificação multiclasse. As probabilidades somam exatamente 1,0. Por exemplo, a tabela a seguir mostra como a softmax distribui várias probabilidades:

A imagem é um... Probabilidade

cachorro 0,85

cat 0,13

cavalo 0,02

A softmax também é chamada de softmax completa.

Contraste com a amostragem de candidatos.

Clique no ícone para ver os cálculos.

A equação de softmax é a seguinte:

$$\sigma_i = \frac{e^{\text{z}_i}} {\sum_{j=1}^{j=K} {e^{\text{z}_j}}} $$
em que:

$\sigma_i$ é o vetor de saída. Cada elemento do vetor de saída especifica a probabilidade desse elemento. A soma de todos os elementos no vetor de saída é 1,0. O vetor de saída contém o mesmo número de elementos que o vetor de entrada, $z$.

$z$ é o vetor de entrada. Cada elemento do vetor de entrada contém um valor de ponto flutuante.

$K$ é o número de elementos no vetor de entrada (e no vetor de saída).

Por exemplo, suponha que o vetor de entrada seja:

[1.2, 2.5, 1.8]

Portanto, a softmax calcula o denominador da seguinte maneira:

$$\text{denominator} = e^{1.2} + e^{2.5} + e^{1.8} = 21.552$$

Portanto, a probabilidade softmax de cada elemento é:

$$\sigma_1 = \frac{e^{1.2}}{21.552} = 0.154 $$ $$\sigma_2 = \frac{e^{2.5}}{21.552} = 0.565 $$ $$\sigma_1 = \frac{e^{1.8}}{21.552} = 0.281 $$

Assim, o vetor de saída é:

$$\sigma = [0.154, 0.565, 0.281]$$

A soma dos três elementos em $\sigma$ é 1,0. Ufa.

atributo esparso

#language

#fundamentals

Um atributo com valores predominantemente zero ou vazios. Por exemplo, um atributo que contém um único valor 1 e um milhão de valores 0 é esparso. Por outro lado, um atributo denso tem valores predominantemente não zero ou vazios.

Em machine learning, um número surpreendente de atributos são esparsos. Atributos categóricos costumam ser esparsos. Por exemplo, das 300 espécies de árvores possíveis em uma floresta, um único exemplo pode identificar apenas uma árvore de bordo. Ou, dos milhões de vídeos possíveis em uma biblioteca de vídeos, um único exemplo poderia identificar apenas "Casablanca".

Em um modelo, você normalmente representa atributos esparsos com codificação one-hot. Se a codificação one-hot for grande, você pode colocar uma camada de incorporação sobre a codificação one-hot para maior eficiência.

representação esparsa

#language

#fundamentals

Armazenar apenas as posições de elementos diferentes de zero em um atributo esparso.

Por exemplo, suponha que um recurso categórico chamado species identifique as 36 espécies de árvores em uma floresta específica. Suponha também que cada exemplo identifica somente uma espécie.

Você pode usar um vetor one-hot para representar as espécies de árvores em cada exemplo. Um vetor one-hot contém uma única 1 (para representar a espécie de árvore específica neste exemplo) e 35 0s (para representar as 35 espécies de árvores que não nesse exemplo). Assim, a representação one-hot de maple pode ser semelhante a esta:

Como alternativa, a representação esparsa identificaria simplesmente a posição da espécie em particular. Se maple estiver na posição 24, a representação esparsa de maple será simplesmente:

24

Observe que a representação esparsa é muito mais compacta que a representação one-hot.

Observação: não transmita uma representação esparsa como uma entrada de recurso direta para um modelo. Em vez disso, converta a representação esparsa em uma representação one-hot antes de treinar nela.

Clique no ícone para ver um exemplo um pouco mais complexo.

Suponha que cada exemplo no seu modelo represente as palavras, mas não a ordem delas, em uma frase em inglês. O inglês tem cerca de 170.000 palavras, portanto, é um atributo categórico com cerca de 170.000 elementos. A maioria das frases em inglês usa uma fração extremamente pequena dessas 170.000 palavras, de modo que o conjunto de palavras em um único exemplo provavelmente será de dados esparsos.

Considere a seguinte frase:

My dog is a great dog

Você pode usar uma variante do vetor one-hot para representar as palavras da frase. Nessa variante, várias células no vetor podem conter um valor diferente de zero. Além disso, nessa variante, uma célula pode conter um número inteiro diferente de um. Embora as palavras "my", "is", "a" e "great" apareçam apenas uma vez na frase, a palavra "dog" aparece duas vezes. O uso dessa variante de vetores one-hot para representar as palavras nesta frase gera o seguinte vetor de 170.000 elementos:

Uma representação esparsa da mesma frase seria simplesmente:

0: 1 26100: 2 45770: 1 58906: 1 91520: 1

Clique no ícone se estiver confuso.

O termo "representação esparsa" confunde muitas pessoas porque a representação esparsa não é um vetor esparso em si. Em vez disso, a representação esparsa é, na verdade, uma representação densa de um vetor esparso (link em inglês). A representação do índice de sinônimos é um pouco mais clara do que "representação esparsa".

vetor esparso

#fundamentals

Um vetor com valores que são principalmente zero. Consulte também atributo esparso e sparsidade.

perda quadrática

#fundamentals

Sinônimo de L₂ perda.

static

#fundamentals

Algo é feito uma vez, e não continuamente. Os termos estático e off-line são sinônimos. Veja a seguir usos comuns de estático e off-line no machine learning:

modelo estático (ou modelo off-line) é um modelo treinado uma vez e usado por um tempo.

O treinamento estático (ou treinamento off-line) é o processo de treinamento de um modelo estático.

A inferência estática (ou inferência off-line) é um processo em que um modelo gera um lote de previsões por vez.

Contraste com dinâmico.

inferência estática

#fundamentals

Sinônimo de inferência off-line.

estacionidade

#fundamentals

Um atributo cujos valores não mudam em uma ou mais dimensões, geralmente tempo. Por exemplo, um atributo com valores parecidos em 2021 e 2023 exibe estaaridade.

No mundo real, poucos elementos exibem estacionidade. Até mesmo recursos sinônimos de estabilidade (como o nível do mar) mudam com o tempo.

Contraste com não estacionária.

gradiente descendente estocástico (GDE)

#fundamentals

Um algoritmo de gradiente descendente em que o tamanho do lote é um. Em outras palavras, o SGD treina em um único exemplo escolhido de maneira uniforme e aleatória de um conjunto de treinamentos.

machine learning supervisionado

#fundamentals

Treinamento de um model usando model e os model correspondentes. O machine learning supervisionado é análogo ao aprendizado de um assunto, estudando um conjunto de perguntas e as respostas correspondentes. Depois de dominar o mapeamento entre perguntas e respostas, um estudante pode fornecer respostas para perguntas novas (nunca vistas) sobre o mesmo tópico.

Compare com o machine learning não supervisionado.

atributo sintético

#fundamentals

Um atributo que não está presente entre os recursos de entrada, mas criado a partir de um ou mais deles. Os métodos para criar atributos sintéticos incluem os seguintes:

Agrupar um atributo contínuo em agrupamentos por intervalo.

Criar um cruzamento de atributos.

Multiplicar (ou dividir) um valor de atributo por outros valores de atributos ou por si mesmo. Por exemplo, se a e b forem recursos de entrada, estes são exemplos de recursos sintéticos:

ab

a²

Aplicando uma função transcendental a um valor de atributo. Por exemplo, se c for um recurso de entrada, estes são exemplos de recursos sintéticos:

sin(c)

ln(c)

Os recursos criados por normalização ou escalonamento apenas não são considerados recursos sintéticos.

T

perda de teste

#fundamentals

Uma métrica que representa a perda de um modelo em relação ao conjunto de teste. Ao criar um model, normalmente você tenta minimizar a perda no teste. Isso ocorre porque uma perda baixa no teste é um sinal de qualidade mais forte do que uma baixa perda de treinamento ou baixa perda de validação.

Uma grande lacuna entre a perda de teste e a perda de treinamento ou de validação às vezes sugere que você precisa aumentar a taxa de regularização.

Treinamento

#fundamentals

O processo para determinar os parâmetros ideais (pesos e vieses) que compõem um modelo. Durante o treinamento, um sistema lê exemplos e ajusta gradualmente os parâmetros. O treinamento usa cada exemplo em qualquer lugar, de algumas a bilhões de vezes.

perda de treinamento

#fundamentals

Uma métrica que representa a perda de um modelo durante uma iteração de treinamento específica. Por exemplo, suponha que a função de perda seja Erro quadrático médio. Talvez a perda de treinamento (o erro médio quadrado) da 10a iteração seja 2,2 e a perda de treinamento da 100a iteração seja 1,9.

Uma curva de perda representa a perda de treinamento em relação ao número de iterações. Uma curva de perda oferece as seguintes dicas sobre o treinamento:

Uma inclinação para baixo indica que o modelo está melhorando.

Uma inclinação para cima indica que o modelo está piorando.

Uma inclinação plana indica que o modelo atingiu a convergência.

Por exemplo, a seguinte curva de perda um pouco idealizada mostra:

Uma inclinação para baixo íngreme durante as iterações iniciais, o que implica uma rápida melhoria do modelo.

Uma inclinação gradual (mas ainda decrescente) até perto do fim do treinamento, o que implica melhoria contínua do modelo em um ritmo um pouco mais lento do que durante as iterações iniciais.

Uma inclinação plana em direção ao final do treinamento, o que sugere convergência.

Ainda que a perda de treinamento seja importante, consulte também a generalização.

desvio entre treinamento e disponibilização

#fundamentals

A diferença entre o desempenho de um modelo durante o treinamento e o desempenho do mesmo modelo durante a disponibilização.

conjunto de treinamento

#fundamentals

O subconjunto do conjunto de dados usado para treinar um modelo.

Tradicionalmente, os exemplos no conjunto de dados são divididos em três subconjuntos distintos:

um conjunto de treinamento

Um conjunto de validação

Um conjunto de teste

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer aos conjuntos de treinamento e de validação.

verdadeiro negativo (VN)

#fundamentals

Um exemplo em que o modelo prevê corretamente a classe negativa. Por exemplo, o modelo infere que uma mensagem de e-mail específica não é spam e que realmente não é spam.

verdadeiro positivo (VP)

#fundamentals

Exemplo em que o modelo prevê corretamente a classe positiva. Por exemplo, o modelo infere que uma mensagem de e-mail específica é spam e que ela realmente é.

taxa de verdadeiro positivo (TPR)

#fundamentals

Sinônimo de recall. Ou seja:

$$\text{true positive rate} = \frac{\text{true positives}} {\text{true positives} + \text{false negatives}}$$

A taxa de verdadeiro positivo é o eixo y em uma curva ROC.

U

abaixo do ajuste

#fundamentals

Produzir um model com baixa capacidade de previsão porque o modelo não capturou totalmente a complexidade dos dados de treinamento. Muitos problemas podem causar underfitting, incluindo:

Treinamento no conjunto errado de recursos.

Treinamento por muito poucas períodos ou com uma taxa de aprendizado muito baixa.

Treinamento com uma taxa de regularização muito alta.

Fornecer poucas camadas escondidas em uma rede neural profunda.

exemplo não rotulado

#fundamentals

Um exemplo que contém recursos, mas nenhum rótulo. A tabela a seguir mostra três exemplos não rotulados de um modelo de avaliação de casas, cada um com três atributos, mas nenhum valor de casa:

Número de quartos Número de banheiros Idade da casa

3 2 15

2 1 72

4 2 34

No machine learning supervisionado, os modelos são treinados em exemplos rotulados e fazem previsões em exemplos não rotulados.

No aprendizado semissupervisionado e não supervisionado, exemplos não rotulados são usados durante o treinamento.

Compare o exemplo não rotulado com o exemplo rotulado.

machine learning não supervisionado

#clustering

#fundamentals

Treinar um model para encontrar padrões em um conjunto de dados, normalmente um conjunto de dados não rotulado.

O uso mais comum do machine learning não supervisionado é cluster de dados em grupos de exemplos semelhantes. Por exemplo, um algoritmo de aprendizado de máquina não supervisionado pode agrupar músicas com base em várias propriedades delas. Os clusters resultantes podem se tornar uma entrada para outros algoritmos de machine learning (por exemplo, para um serviço de recomendação de músicas). O clustering pode ajudar quando os rótulos úteis estiverem escassos ou ausentes. Por exemplo, em domínios como antiabuso e fraude, os clusters podem ajudar os humanos a entender melhor os dados.

Contraste com o machine learning supervisionado.

Clique no ícone para ver mais observações.

Outro exemplo de machine learning não supervisionado é a análise de componentes principais (PCA, na sigla em inglês). Por exemplo, aplicar PCA a um conjunto de dados com o conteúdo de milhões de carrinhos de compras pode revelar que carrinhos de compras contendo limões frequentemente também contêm antiácidos.

V

da política.

#fundamentals

A avaliação inicial da qualidade de um modelo. A validação verifica a qualidade das previsões de um modelo em relação ao conjunto de validação.

Como o conjunto de validação é diferente do conjunto de treinamento, a validação ajuda a proteger contra overfitting (link em inglês).

Pense em avaliar o modelo em relação ao conjunto de validação como a primeira rodada de testes e avaliar o modelo em relação ao conjunto de teste como a segunda rodada de testes.

perda de validação

#fundamentals

Uma métrica que representa a perda de um modelo no conjunto de validação durante uma iteração específica do treinamento.

Consulte também curva de generalização.

conjunto de validação

#fundamentals

O subconjunto do conjunto de dados que realiza a avaliação inicial em relação a um modelo treinado. Normalmente, você avalia o modelo treinado com o conjunto de validação várias vezes antes de avaliá-lo em relação ao conjunto de teste.

Tradicionalmente, você divide os exemplos no conjunto de dados nos três subconjuntos distintos a seguir:

Um conjunto de treinamento

um conjunto de validação

Um conjunto de teste

O ideal é que cada exemplo no conjunto de dados pertença a apenas um dos subconjuntos anteriores. Por exemplo, um único exemplo não pode pertencer aos conjuntos de treinamento e de validação.

W

weight

#fundamentals

Um valor que um modelo multiplica por outro valor. O treinamento é o processo de determinar os pesos ideais de um modelo. A inferência é o processo de usar esses pesos aprendidos para fazer previsões.

Clique no ícone para ver um exemplo de pesos em um modelo linear.

Imagine um modelo linear com dois atributos. Suponha que o treinamento determine os seguintes pesos (e viés):

O viés, b, tem um valor de 2,2

O peso, w₁ associado a um atributo, é 1,5.

O peso, w₂ associado ao outro atributo, é 0,4.

Agora imagine um exemplo com os seguintes valores de atributo:

O valor de um atributo, x₁, é 6.

O valor do outro atributo, x₂, é 10.

Este modelo linear usa a seguinte fórmula para gerar uma previsão, "y":

$$y' = b + w_1x_1 + w_2x_2$$

Portanto, a previsão é:

$$y' = 2.2 + (1.5)(6) + (0.4)(10) = 15.2$$

Se um peso for 0, o atributo correspondente não vai contribuir para o modelo. Por exemplo, se w₁ for 0, o valor de x₁ será irrelevante.

soma de pesos

#fundamentals

A soma de todos os valores de entrada relevantes multiplicados pelos pesos correspondentes. Por exemplo, suponha que as entradas relevantes consistam no seguinte:

valor de entrada peso de entrada

2 -1,3

-1 0,6

3 0,4

Portanto, a soma ponderada é:

weighted sum = (2)(-1.3) + (-1)(0.6) + (3)(0.4) = -2.0

Uma soma ponderada é o argumento de entrada para uma função de ativação.

Z

Normalização do valor Z

#fundamentals

Uma técnica de escalonamento que substitui um valor bruto de atributo por um valor de ponto flutuante que representa o número de desvios padrão da média desse atributo. Por exemplo, considere um atributo em que a média é 800 e o desvio padrão é 100. A tabela a seguir mostra como a normalização do valor Z mapearia o valor bruto para o Z-score:

Valor bruto Pontuação Z

800 0

950 +1,5

575 -2,25

O modelo de machine learning é treinado com base nas pontuações Z desse atributo, e não com base nos valores brutos.

country	Vetor
"Dinamarca"	1	0	0	0	0
"Suécia"	0	1	0	0	0
"Noruega"	0	0	1	0	0
"Finlândia"	0	0	0	1	0
"Islândia"	0	0	0	0	1

Glossário de machine learning: fundamentos de ML

A

accuracy

Clique no ícone para ver mais observações.

função de ativação

Clique no ícone para ver um exemplo.

inteligência artificial

AUC (área sob a curva ROC)

Clique no ícone para saber mais sobre a relação entre as curvas AUC e ROC.

Clique no ícone para ver uma definição mais formal de AUC.

B

retropropagação

lote

tamanho do lote

viés (ética/imparcialidade)

viés (matemático) ou termo de viés

classificação binária

agrupamento por classes

Clique no ícone para ver mais observações.

C

dados categóricos

classe

modelo de classificação

limiar de classificação

Clique no ícone para ver mais observações.

conjunto de dados desequilibrado

recorte

matriz de confusão

atributo contínuo

convergência

D

DataFrame

conjunto de dados

modelo profundo

atributo denso

profundidade

atributo discreto

dinâmico

modelo dinâmico

E

parada antecipada

Clique no ícone para ver mais observações.

camada de embedding

época

exemplo.

F

falso negativo (FN)

falso positivo (FP)

taxa de falsos positivos (FPR)

recurso

cruzamento de atributos

e engenharia de atributos.

Clique no ícone para ver mais observações sobre o TensorFlow.

conjunto de atributos

vetor de atributo

ciclo de feedback

G

generalização

Clique no ícone para ver mais observações.

curva de generalização

gradiente descendente

informações empíricas

Clique no ícone para ver mais observações.

H

camada escondida

hiperparâmetro

I

distribuído de maneira independente e idêntica

inferência

camada de entrada

interpretabilidade

iteração

L

Regularização de L0

Clique no ícone para ver mais observações.

Perda L1

Clique no ícone para conferir a matemática formal.

Regularização L1

Perda L2

Clique no ícone para conferir a matemática formal.

Regularização de L₀

Perda L₁

Regularização L₁

Perda L₂

Regularização de L₂