Justesse
Examinez les options suivantes.
Quels sont les scénarios pour lesquels une justesse élevée
indique que le modèle de Machine Learning fonctionne correctement ?
Une maladie mortelle, mais curable, touche 0,01 % de la
population. Un modèle de ML traite les symptômes comme des caractéristiques
et prédit cette maladie avec une justesse de 99,99 %.
La justesse n'est pas le critère approprié dans ce cas. Après tout, même un modèle "idiot"
prédisant systématiquement "non malade" aurait une exactitude de 99,99 %.
Prédire "non malade" de façon erronée pour une personne malade
peut être fatal.
Un poulet robotique au coût élevé traverse une rue au trafic très dense
mille fois par jour. Un modèle de ML évalue les caractéristiques de la circulation
et prédit les moments où le poulet peut traverser la rue
en sécurité avec une justesse de 99,99 %.
Une valeur de justesse de 99,99 % pour une rue au trafic important indique
de façon probante que le modèle de ML est bien supérieur au hasard. Toutefois, dans certains contextes
le coût des erreurs, même en nombre très limité, peut être inacceptable.
Une justesse de 99,99 % signifie que le poulet (au coût élevé)
devra être remplacé tous les 10 jours en moyenne. (Des dégâts importants
seront également causés aux véhicules qui le percuteront.)
Dans le jeu de
roulette américaine, une bille
est lancée autour d'un plateau en rotation et termine sa course
dans l'une des 38 cases disponibles. En se basant sur les caractéristiques visuelles (la rotation de la bille,
la position du cylindre à l'instant de son lancer, la hauteur
de la bille relativement au cylindre), un modèle de ML peut prédire
sa case d'arrivée avec une justesse de 4 %.
Les prédictions de ce modèle de ML sont largement supérieures au hasard,
qui donnerait une prédiction correcte une fois sur 38, soit un niveau de justesse de 2,6 %.
Même si la justesse de ce modèle est de "seulement" 4 %, chaque réussite
offre des avantages compensant largement les désagréments des échecs.
Précision
Examinez les options suivantes.
Imaginons un modèle de classification triant les e-mails selon deux catégories :
"spam" et "non spam". Si vous augmentez la valeur du seuil de classification,
quel en sera l'impact sur la précision ?
La précision augmentera de façon certaine.
Augmenter la valeur du seuil de classification entraîne généralement une précision accrue ;
toutefois, la précision n'augmentera pas de façon monotone
si nous continuons d'augmenter la valeur du seuil de classification.
La précision augmentera probablement.
L'augmentation de la valeur du seuil de classification réduit généralement
le nombre de faux positifs, ce qui améliore la précision.
La précision diminuera probablement.
L'augmentation de la valeur du seuil de classification réduit généralement
le nombre de faux positifs, ce qui améliore la précision.
La précision diminuera de façon certaine.
L'augmentation de la valeur du seuil de classification réduit généralement
le nombre de faux positifs, ce qui améliore la précision.
Rappel
Examinez les options suivantes.
Imaginons un modèle de classification triant les e-mails selon deux catégories :
"spam" et "non spam". Si vous augmentez la valeur du seuil de classification,
quel en sera l'impact sur le rappel ?
Il augmentera systématiquement.
Élever la valeur du seuil de classification aura les deux conséquences suivantes :
- Le nombre de vrais positifs diminuera ou sera inchangé.
- Le nombre de faux négatifs augmentera ou sera inchangé.
Il diminuera systématiquement ou restera inchangé.
En cas d'augmentation de la valeur de notre seuil de classification,
le nombre de vrais positifs diminue ou reste inchangé
et le nombre de faux négatifs diminue ou reste inchangé. Le rappel
sera donc identique ou inférieur.
Le rappel ne sera pas modifié.
En cas d'augmentation de la valeur de notre seuil de classification,
le nombre de vrais positifs diminue ou reste inchangé
et le nombre de faux négatifs diminue ou reste inchangé. Le rappel
sera donc identique ou inférieur.
Précision et rappel
Examinez les options suivantes.
Imaginons deux modèles appelés A et B évaluant tous deux le même ensemble de données.
Parmi les affirmations suivantes, quelles sont celles qui sont correctes ?
Si le modèle A offre une meilleure précision que le modèle B,
le modèle A est le meilleur.
Une précision accrue est souhaitable, mais peut entraîner
une diminution conséquente du rappel. Il est généralement préférable de tenir compte
de la précision et du rappel simultanément, ou de critères synthétiques comme l'AUC,
dont nous parlerons par la suite.
Si le modèle A dispose d'un meilleur rappel que le modèle B,
le modèle A est le meilleur.
Un meilleur rappel est souhaitable, mais peut entraîner
une diminution conséquente de la précision. Il est généralement préférable de tenir compte
de la précision et du rappel simultanément, ou de critères synthétiques comme l'AUC,
dont nous parlerons par la suite.
Si le modèle A offre une meilleure précision et un meilleur rappel que le modèle B,
le modèle A est probablement le meilleur.
Un modèle aux performances de précision et de rappel supérieures
à celle d'un autre modèle est généralement le meilleur modèle. Naturellement,
il faut s'assurer que la comparaison porte sur un niveau
de précision/rappel utile en pratique pour qu'elle
soit significative. Imaginons par exemple que notre modèle de détection de spam
doive offrir une précision d'au moins 90 % pour être efficace
et éviter les fausses alertes. Dans un tel cas, la comparaison
d'un modèle avec {précision = 20 %, rappel = 99 %} et d'un modèle
{précision = 15 %, rappel = 98 %} n'a pas grande pertinence
puisqu'aucun modèle n'offre les 90 % de précisions requis. Cette réserve émise,
c'est un bon moyen de comparer les modèles lorsqu'on souhaite
utiliser la précision et le rappel.