Bu sayfa, Cloud Translation API ile çevrilmiştir.

Sayısal veri: Normalleştirme

Verilerinizi istatistiksel ve görselleştirme teknikleriyle inceledikten sonra, modelinizin daha etkili bir şekilde eğitilmesine yardımcı olacak şekilde dönüştürmeniz gerekir. Normalleştirmenin amacı, özellikleri benzer bir ölçekte olacak şekilde dönüştürmektir. Örneğin, aşağıdaki iki özelliği ele alalım:

X özelliği 154 ile 24.917.482 arasında değişir.
Özellik Y, 5 ile 22 arasındaki aralığı kapsar.

Bu iki özellik çok farklı aralıkları kapsar. Normalleştirme, X ve Y değerlerini benzer bir aralığa (ör. 0-1) yayılacak şekilde değiştirebilir.

Normalleştirme aşağıdaki avantajları sağlar:

Eğitim sırasında modellerin daha hızlı yakınlaşmasına yardımcı olur. Farklı özelliklerin farklı aralıkları olduğunda gradyan inişi "seke"bilir ve yakınsama yavaşlayabilir. Bununla birlikte, Adagrad ve Adam gibi daha gelişmiş optimize ediciler, zaman içinde etkili öğrenme hızını değiştirerek bu soruna karşı koruma sağlar.
Modellerin daha iyi tahminler yapmasına yardımcı olur. Farklı özelliklerin farklı aralıkları olduğunda, ortaya çıkan model biraz daha az faydalı tahminler yapabilir.
Özellik değerleri çok yüksek olduğunda "NaN tuzağına" düşülmesini önlemeye yardımcı olur. NaN, sayı değil ifadesinin kısaltmasıdır. Bir modeldeki değer, kayan nokta duyarlılığı sınırını aştığında sistem, değeri sayı yerine NaN olarak ayarlar. Modeldeki bir sayı NaN olduğunda modeldeki diğer sayılar da sonunda NaN olur.
Modelin her özellik için uygun ağırlıkları öğrenmesine yardımcı olur. Özellik ölçeklendirme olmadan model, geniş aralıklı özelliklere çok fazla, dar aralıklı özelliklere ise yeterince dikkat etmez.

Net bir şekilde farklı aralıkları kapsayan sayısal özellikleri (ör. yaş ve gelir) normalleştirmenizi öneririz. Ayrıca, geniş bir aralığı kapsayan tek bir sayısal özelliği (ör. city population.) normalleştirmenizi öneririz.

Aşağıdaki iki özelliği göz önünde bulundurun:

A özelliğinin en düşük değeri -0,5, en yüksek değeri ise +0,5'tir.
B özelliğinin en düşük değeri -5,0, en yüksek değeri ise +5,0'dır.

Özellik A ve Özellik B nispeten dar aralıklara sahiptir. Ancak B özelliği, A özelliğinden 10 kat daha geniş bir kapsama sahiptir. Bu nedenle:

Eğitimin başında model, B özelliğinin A özelliğinden on kat daha "önemli" olduğunu varsayar.
Eğitim, gerekenden daha uzun sürer.
Elde edilen model optimum olmayabilir.

Normalleştirme yapılmaması nedeniyle oluşan genel hasar nispeten küçük olacaktır.Ancak yine de A Özelliği ve B Özelliği'nin aynı ölçekte (ör. -1,0 ila +1,0) normalleştirilmesini öneririz.

Şimdi de aralıkları daha farklı olan iki özelliği ele alalım:

C özelliğinin en düşük değeri -1, en yüksek değeri ise +1'dir.
D özelliğinin en düşük değeri +5.000, en yüksek değeri ise +1.000.000.000'dir.

Özellik C ve Özellik D'i normalleştirmezseniz modeliniz büyük olasılıkla ideal performans göstermez. Ayrıca, eğitimin yakınsaması çok daha uzun sürer veya yakınsama tamamen başarısız olabilir.

Bu bölümde, üç popüler normalleştirme yöntemi ele alınmaktadır:

doğrusal ölçeklendirme
Z puanı ölçeklendirme
log ölçekleme

Bu bölümde ayrıca kırpma konusu da ele alınmaktadır. Kırpma, gerçek bir normalleştirme tekniği olmasa da düzensiz sayısal özellikleri daha iyi modeller üreten aralıklara dönüştürür.

Lineer ölçeklendirme

Doğrusal ölçeklendirme (daha yaygın olarak yalnızca ölçeklendirme olarak kısaltılır), kayan nokta değerlerini doğal aralıklarından standart bir aralığa (genellikle 0 ile 1 veya -1 ile +1) dönüştürme anlamına gelir.

Matematik işlemlerini görmek için simgeyi tıklayın.

Aşağıdaki formülü kullanarak 0 ile 1 arasındaki standart aralığa ölçeklendirin (0 ve 1 dahil):

$$ x' = (x - x_{min}) / (x_{max} - x_{min}) $$

Bu örnekte:

$x'$ ölçeklendirilmiş değerdir.
$x$ orijinal değerdir.
$x_{min}$, bu özelliğin veri kümesindeki en düşük değerdir.
$x_{max}$, bu özelliğin veri kümesindeki en yüksek değerdir.

Örneğin, doğal aralığı 100 ile 900 arasında olan quantity adlı bir özelliği ele alalım. Belirli bir örnekte quantity doğal değerinin 300 olduğunu varsayalım. Bu nedenle, 300'ün normalleştirilmiş değerini aşağıdaki şekilde hesaplayabilirsiniz:

$x$ = 300
$x_{min}$ = 100
$x_{max}$ = 900

x' = (300 - 100) / (900 - 100)
x' = 200 / 800
x' = 0.25

Aşağıdaki koşulların tümü karşılandığında doğrusal ölçeklendirme iyi bir seçimdir:

Verilerinizin alt ve üst sınırları zaman içinde fazla değişmez.
Özellik, az sayıda veya hiç aykırı değer içermiyor ve bu aykırı değerler aşırı değil.
Özellik, aralığına yaklaşık olarak eşit şekilde dağıtılır. Yani, histogramda çoğu değer için yaklaşık olarak eşit çubuklar gösterilir.

İnsan age özelliğinin olduğunu varsayalım. Doğrusal ölçeklendirme, age için iyi bir normalleştirme tekniğidir. Bunun nedeni:

Yaklaşık alt ve üst sınırlar 0 ile 100 arasındadır.
age, nispeten küçük bir aykırı değer yüzdesi içeriyor. Nüfusun yalnızca% 0,3'ü 100 yaşın üzerindedir.
Belirli yaşlar diğerlerine göre biraz daha iyi temsil edilse de büyük bir veri kümesi, her yaştan yeterli örnek içermelidir.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Modelinizde, farklı kişilerin net değerini tutan net_worth adlı bir özellik olduğunu varsayalım. Doğrusal ölçeklendirme, net_worth için iyi bir normalleştirme tekniği olur mu? Neden evet veya neden hayır?

Yanıtı görmek için simgeyi tıklayın.

Yanıt: Doğrusal ölçeklendirme, net_worth değerini normalleştirmek için uygun bir seçenek değildir. Bu özellik çok sayıda aykırı değer içeriyor ve değerler, birincil aralığına eşit olarak dağıtılmıyor. Çoğu kişi, genel aralığın çok dar bir bandında yer alır.

Z puanı ölçeklendirme

Z puanı, bir değerin ortalamadan standart sapma sayısıdır. Örneğin, ortalamadan 2 standart sapma daha büyük olan bir değerin Z puanı +2,0'dır. Ortalamadan 1,5 standart sapma daha az olan bir değerin Z puanı -1,5'tir.

Bir özelliği Z puanı ölçeklendirmesiyle temsil etmek, bu özelliğin Z puanını özellik vektöründe depolamak anlamına gelir. Örneğin, aşağıdaki şekilde iki histogram gösterilmektedir:

Sol tarafta klasik bir normal dağılım.
Sağda, Z puanı ölçeklendirmesiyle normalleştirilmiş aynı dağılım.

4. şekil İki histogram: İkisi de aynı dağılımla normal dağılımı gösteriyor. Ham verileri içeren ilk histogramın ortalaması 200, standart sapması ise 30'dur. İlk dağılımın Z puanı sürümünü içeren ikinci histogramın ortalaması 0, standart sapması ise 1'dir. — **Şekil 4.** Normal dağılım için ham veriler (sol) ve Z puanı (sağ).

Z puanı ölçeklendirmesi, yalnızca belirsiz bir normal dağılıma sahip olan aşağıdaki şekilde gösterilenler gibi veriler için de iyi bir seçimdir.

5. şekil Şekli aynı olan iki histogram. Her biri, bir platoya doğru dik bir yükseliş, ardından nispeten hızlı bir düşüş ve sonrasında kademeli bir azalma gösteriyor. Histogramlardan biri ham verilerin dağılımını, diğeri ise Z puanı ölçeklendirmesiyle normalleştirilmiş ham verilerin dağılımını gösterir.
İki histogramın X eksenindeki değerler çok farklıdır.
Ham veri histogramı 0 ile 29.000 arasında değişirken Z puanı ölçekli histogram -1 ile yaklaşık +4,8 arasında değişir. — **5. şekil** Klasik olmayan bir normal dağılım için ham veriler (sol) ve Z puanı ölçeklendirmesi (sağ).

Matematik işlemlerini görmek için simgeyi tıklayın.

Bir değeri (x) Z puanına normalleştirmek için aşağıdaki formülü kullanın:

$$ x' = (x - μ) / σ $$

Bu örnekte:

$x'$ değeri, Z puanıdır.
$x$ ham değerdir; yani $x$, normalleştirdiğiniz değerdir.
$μ$ ortalamadır.
$σ$ standart sapmadır.

Örneğin:

ortalama = 100
standart sapma = 20
original value = 130

Bu nedenle:

  Z-score = (130 - 100) / 20
  Z-score = 30 / 20
  Z-score = +1.5

Normal dağılımlar hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

Klasik bir normal dağılımda:

Verilerin en az% 68,27'sinin Z puanı -1,0 ile +1,0 arasındadır.
Verilerin en az% 95,45'inin Z puanı -2,0 ile +2,0 arasındadır.
Verilerin en az% 99,73'ünün Z puanı -3,0 ile +3,0 arasındadır.
Verilerin en az% 99,994'ünün Z puanı -4,0 ile +4,0 arasındadır.

Bu nedenle, Z puanı -4,0'tan düşük veya +4,0'tan yüksek olan veri noktaları nadir görülür ancak bunlar gerçekten aykırı değerler midir? Aykırı değerler, kesin bir tanımı olmayan bir kavram olduğundan kimse bu konuda kesin bir şey söyleyemez. Yeterince fazla sayıda örnek içeren bir veri kümesinde, bu "nadir" örneklerden en az birkaçının bulunmasının neredeyse kesin olduğunu unutmayın. Örneğin, klasik normal dağılıma uygun bir milyar örneği olan bir özellik, -4,0 ile +4,0 aralığının dışında bir puana sahip 60.000 kadar örnek içerebilir.

Veriler normal dağılımı veya normal dağılıma benzeyen bir dağılımı takip ettiğinde Z puanı iyi bir seçimdir.

Bazı dağılımların, aralığın büyük bir kısmında normal olabileceğini ancak yine de uç değerler içerebileceğini unutmayın. Örneğin, bir net_worth özelliğindeki noktaların neredeyse tamamı 3 standart sapmaya rahatlıkla sığabilir ancak bu özelliğin birkaç örneği ortalamadan yüzlerce standart sapma uzakta olabilir. Bu gibi durumlarda, bu durumu ele almak için Z puanı ölçeklendirmesini başka bir normalleştirme biçimiyle (genellikle kırpma) birleştirebilirsiniz.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Modelinizin, on milyon kadının yetişkin boylarını içeren height adlı bir özellik üzerinde eğitildiğini varsayalım. Z puanı ölçeklendirmesi, height için iyi bir normalleştirme tekniği olur mu? Neden evet veya neden hayır?

Yanıtı görmek için simgeyi tıklayın.

Yanıt: Bu özellik normal dağılıma uygun olduğundan height için Z puanı ölçeklendirmesi iyi bir normalleştirme tekniği olacaktır. On milyon örnek, çok sayıda aykırı değer olduğu anlamına gelir. Bu aykırı değerler, modelin çok yüksek veya çok düşük Z puanlarındaki kalıpları öğrenmesi için yeterli olabilir.

Logaritmik ölçeklendirme

Log ölçekleme, ham değerin logaritmasını hesaplar. Teoride, logaritma herhangi bir tabana sahip olabilir. Uygulamada ise log ölçeklendirme genellikle doğal logaritmayı (ln) hesaplar.

Matematik işlemlerini görmek için simgeyi tıklayın.

Bir değeri, $x$, logaritmasına normalleştirmek için aşağıdaki formülü kullanın:

$$ x' = ln(x) $$

Bu örnekte:

$x'$, $x$ değerinin doğal logaritmasıdır.
original value = 54.598

Bu nedenle, orijinal değerin logaritması yaklaşık 4,0'dır:

  4.0 = ln(54.598)

Veriler güç yasası dağılımına uygun olduğunda log ölçeklendirme yararlıdır. Basit bir ifadeyle, güç yasası dağılımı şu şekilde görünür:

X'nın düşük değerleri, Y'nın çok yüksek değerlerine karşılık gelir.
X değerleri arttıkça Y değerleri hızla düşer. Dolayısıyla, X yüksek değerlere sahipken Y çok düşük değerlere sahiptir.

Film derecelendirmeleri, güç yasası dağılımına iyi bir örnektir. Aşağıdaki şekilde şunlara dikkat edin:

Bazı filmler çok sayıda kullanıcı puanı almıştır. (X düşük değerleri, Y yüksek değerlerine sahiptir.)
Çoğu filmin kullanıcı puanı sayısı çok düşüktür. (X yüksek değerleri, Y düşük değerlerine sahiptir.)

Log ölçekleme, dağıtımı değiştirerek daha iyi tahminler yapacak bir modelin eğitilmesine yardımcı olur.

6. şekil Ham verileri ham verilerin logaritmasıyla karşılaştıran iki grafik.
Ham veri grafiğinde, başta çok sayıda kullanıcı puanı ve ardından uzun bir kuyruk gösteriliyor. Logaritma grafiği daha eşit bir dağılıma sahiptir. — **6. şekil** Ham dağıtımı günlüğüyle karşılaştırma.

İkinci bir örnek olarak, kitap satışları aşağıdaki nedenlerle bir güç yasası dağılımına uygundur:

Yayınlanan çoğu kitap çok az sayıda, belki yüz veya iki yüz kopya satar.
Bazı kitaplar, binlerce kopya satarak orta düzeyde satış yapar.
Yalnızca birkaç çok satan kitap bir milyondan fazla kopya satar.

Örneğin, kitap kapaklarının kitap satışlarıyla ilişkisini bulmak için doğrusal bir model eğittiğinizi varsayalım. Ham değerler üzerinde doğrusal bir model eğitimi, bir milyon kopya satan kitaplardaki kitap kapakları hakkında, yalnızca 100 kopya satan kitaplardaki kitap kapaklarından 10.000 kat daha güçlü bir şey bulmak zorunda kalır. Ancak tüm satış rakamlarının log ölçeklendirmesi, görevi çok daha uygulanabilir hale getirir. Örneğin, 100'ün logaritması şöyledir:

  ~4.6 = ln(100)

1.000.000'un logaritması ise:

  ~13.8 = ln(1,000,000)

Bu nedenle, 1.000.000'un logaritması, 100'ün logaritmasından yalnızca yaklaşık üç kat daha büyüktür. En çok satan bir kitap kapağının, az satan bir kitap kapağından yaklaşık üç kat daha etkili (bir şekilde) olduğunu tahmin edebilirsiniz.

Kırpma

Kırpma, uç değerlerin etkisini en aza indirmek için kullanılan bir tekniktir. Kısaca, kırpma genellikle aykırı değerlerin değerini belirli bir maksimum değerle sınırlar (azaltır). Kırpma, tuhaf bir fikir olsa da çok etkili olabilir.

Örneğin, çeşitli evlerdeki oda sayısını (toplam oda sayısı bölü konaklayan sayısı) temsil eden roomsPerPerson adlı bir özellik içeren bir veri kümesi olduğunu düşünün. Aşağıdaki grafik, özellik değerlerinin% 99'dan fazlasının normal dağılıma (kabaca 1,8 ortalama ve 0,7 standart sapma) uygun olduğunu gösteriyor. Ancak bu özellik, bazıları uç nokta olan birkaç aykırı değer içerir:

Şekil 7. Neredeyse tüm değerlerin 0 ile 4 arasında kümelendiği ancak kişi başına 17 odaya kadar uzanan çok uzun bir kuyruğun olduğu, kişi başına düşen oda sayısı grafiği — **7.şekil** Çoğunlukla normal ancak tamamen normal değil.

Bu uç değerlerin etkisini nasıl en aza indirebilirsiniz? Histogram, eşit dağılım, normal dağılım veya güç yasası dağılımı değildir. roomsPerPerson değerinin maksimum değerini rastgele bir değerle (örneğin 4, 0) sınırlarsanız veya kırparsanız ne olur?

Tüm değerlerin 0 ile 4,0 arasında olduğu roomsPerPerson grafiği. Grafik çan şeklindedir ancak 4, 0'da anormal bir tepe vardır. — **8.şekil** Özellik değerleri 4,0'da kırpılıyor.

Özellik değerinin 4,0'da kırpılması, modelinizin 4,0'dan büyük tüm değerleri yoksaydığı anlamına gelmez. Bu, 4,0'dan büyük olan tüm değerlerin artık 4,0 olacağı anlamına gelir. Bu, 4.0'daki tuhaf tepeyi açıklar. Bu zorluğa rağmen, ölçeklendirilmiş özellik grubu artık orijinal verilerden daha kullanışlı.

Bir saniye bekleyin. Her aykırı değeri gerçekten de rastgele bir üst eşiğe düşürebilir misiniz? Model eğitirken evet.

Diğer normalleştirme biçimlerini uyguladıktan sonra da değerleri kırpabilirsiniz. Örneğin, Z puanı ölçeklendirmesi kullandığınızı ancak birkaç aykırı değerin mutlak değerlerinin 3'ten çok daha büyük olduğunu varsayalım. Bu durumda şunları yapabilirsiniz:

3'ten büyük olan Z puanları tam olarak 3 olur.
Klip Z puanları -3'ten küçükse tam olarak -3 olur.

Kırpma, modelinizin önemsiz verilerde aşırı indeksleme yapmasını önler. Ancak bazı aykırı değerler aslında önemlidir. Bu nedenle, değerleri dikkatli bir şekilde kırpın.

Normalleştirme tekniklerinin özeti

Normalleştirme tekniği	Formül	Ne zaman kullanılır?
Lineer ölçeklendirme	$$ x' = \frac{x - x_{min}}{x_{max} - x_{min}} $$	Özellik, aralık boyunca çoğunlukla eşit olarak dağıtıldığında. Yassı (Flat-shaped)
Z puanı ölçeklendirme	$$ x' = \frac{x - μ}{σ}$$	Özellik normal dağılım gösterdiğinde (zirve ortalamaya yakın olduğunda). Çan şekli
Logaritmik ölçeklendirme	$$ x' = log(x)$$	Özellik dağıtımı, kuyruğun en az bir tarafında yoğun şekilde çarpık olduğunda Ağır kuyruk şekilli (Heavy Tail-shaped)
Kırpma	$x > max$ ise $x' = max$olarak ayarlayın. $x < min$ ise $x' = min$ olarak ayarlayın.	Özellik aşırı aykırı değerler içerdiğinde

Alıştırma: Bilginizi test edin

Aşağıdaki dağılıma sahip bir özelliği normalleştirmek için en uygun teknik hangisidir?

0 ile 200.000 arasındaki değerlere sahip bir veri kümesini gösteren histogram. Veri noktalarının sayısı, 0 ile 100.000 arasındaki aralıkta kademeli olarak artar, ardından 100.000 ile 200.000 arasındaki aralıkta kademeli olarak azalır.

Z puanı ölçeklendirme

Veri noktaları genellikle normal dağılıma uygundur. Bu nedenle, Z puanı ölçeklendirmesi, veri noktalarını -3 ile +3 aralığına zorlar.

Lineer ölçeklendirme

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

Logaritmik ölçeklendirme

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

Kırpma

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

Bir veri merkezinin verimliliğini, veri merkezinin içindeki sıcaklığa göre tahmin eden bir model geliştirdiğinizi varsayalım. Veri kümenizdeki temperature değerlerinin neredeyse tamamı 15 ile 30 (Celsius) arasındadır. Ancak aşağıdaki istisnalar vardır:

Yılda bir veya iki kez, aşırı sıcak günlerde temperature'da 31 ile 45 arasında birkaç değer kaydedilir.
temperature içindeki her 1.000. nokta gerçek sıcaklık yerine 1.000 olarak ayarlanır.

Aşağıdakilerden hangisi temperature için makul bir normalleştirme tekniği olur?

Aykırı değerleri 31 ile 45 arasında kırpın ancak değeri 1.000 olan aykırı değerleri silin.

1.000 değerleri hatalıdır ve kırpılmak yerine silinmelidir.

31 ile 45 arasındaki değerler geçerli veri noktalarıdır. Veri kümesinde, modeli iyi tahminler yapacak şekilde eğitmek için bu sıcaklık aralığında yeterli örnek olmadığı varsayıldığında bu değerler için kırpma işlemi yapmak iyi bir fikir olabilir. Ancak çıkarım sırasında, kırpılmış modelin 45 derece sıcaklık için 35 derece sıcaklıkla aynı tahmini yapacağını unutmayın.

Tüm aykırı değerleri kırp

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

Tüm aykırı değerleri silme

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

31 ile 45 arasındaki aykırı değerleri silin ancak 1.000 değerine sahip aykırı değerleri kırpın.

Bu sayfadaki normalleştirme teknikleriyle ilgili tartışmaları inceleyip tekrar deneyin.

Yardım Merkezi

Programlama alıştırmaları (10 dk.)

Gruplandırma (15 dk.)

Sayısal veri: Normalleştirme Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Lineer ölçeklendirme

Matematik işlemlerini görmek için simgeyi tıklayın.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Yanıtı görmek için simgeyi tıklayın.

Z puanı ölçeklendirme

Matematik işlemlerini görmek için simgeyi tıklayın.

Normal dağılımlar hakkında daha fazla bilgi edinmek için simgeyi tıklayın.

Alıştırma: Anlayıp anlamadığınızı kontrol edin

Yanıtı görmek için simgeyi tıklayın.

Logaritmik ölçeklendirme

Matematik işlemlerini görmek için simgeyi tıklayın.

Kırpma

Normalleştirme tekniklerinin özeti

Alıştırma: Bilginizi test edin

Sayısal veri: Normalleştirme