Régularisation à des fins de parcimonie : testez vos connaissances

Régularisation L1

Examinez les options suivantes.

Imaginons un modèle linéaire avec 100 caractéristiques d'entrée :
  • 10 d'entre elles sont hautement informatives.
  • 90 ne sont pas informatives.
  • Supposons que toutes les valeurs des caractéristiques soient comprises entre -1 et 1. Parmi les affirmations suivantes, lesquelles sont vraies ?
    Suite à une régularisation L1, un grand nombre de pondérations non informatives seront proches de (mais pas exactement égales à) 0,0.
    En général, une régularisation L1 avec un lambda suffisant a tendance à produire des pondérations exactement égales à 0,0 pour les caractéristiques non informatives. Contrairement à la régularisation L2, la régularisation L1 "pousse" toutes les pondérations vers 0,0 avec la même force, qu'elles soient ou non proches de cette valeur au départ.
    Suite à une régularisation L1, la plupart des pondérations non informatives seront exactement égales à 0,0.
    Une régularisation L1 avec un lambda suffisant a tendance à produire des pondérations non informatives exactement égales à 0,0. Ces caractéristiques non informatives quittent alors le modèle.
    Suite à une régularisation L1, des caractéristiques informatives peuvent avoir une pondération exactement égale à 0,0.
    La régularisation L1 est à utiliser avec précaution, car elle peut produire des pondérations exactement égales à zéro pour les types de caractéristiques suivants :
  • Caractéristiques faiblement informatives
  • Caractéristiques fortement informatives à des échelles différentes
  • Caractéristiques informatives en forte corrélation avec d'autres caractéristiques également informatives
  • Différence entre régularisation L1 et L2

    Examinez les options suivantes.

    Imaginons un modèle linéaire avec 100 caractéristiques d'entrée dont toutes les valeurs sont comprises entre -1 et 1 :
  • 10 d'entre elles sont hautement informatives.
  • 90 ne sont pas informatives.
  • Quel type de régularisation produira le plus petit modèle ?
    Régularisation L2
    La régularisation L2 réduit rarement le nombre de caractéristiques. En d'autres termes, la régularisation L2 réduit rarement la taille du modèle.
    Régularisation L1
    La régularisation L1 a tendance à réduire le nombre de caractéristiques. En d'autres termes, la régularisation L1 réduit souvent la taille du modèle.

    Envoyer des commentaires concernant…

    Cours d'initiation au machine learning