Makine Öğreniminde Veri Hazırlama ve Özellik Mühendisliği

Koleksiyonlar ile düzeninizi koruyun İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.

Makine öğrenimi, verilerdeki kalıpları, ardından yeni veri noktaları hakkında tahmin yapmak için kullandığımız kalıpları bulmamıza yardımcı olur. Bu tahminleri doğru şekilde almak için veri kümesini oluşturmamız ve verileri doğru şekilde dönüştürmemiz gerekir. Bu kurs, bu iki temel adımı kapsar. Ayrıca, eğitim/sunumla ilgili dikkat edilmesi gereken noktaların bu adımlarda nasıl bir rol oynadığını da göreceğiz.

Beş aşamada düzenlenmiş bir makine öğrenimi projesi. 1. Makine öğrenimi sorunu tanımlayın ve bir çözüm önerisinde bulunun. 2. Veri kümenizi oluşturun. 3. Verileri dönüştürün.
4. Bir modeli eğitin. 5. Tahmin yapmak için modeli kullanın.  Bu kursta bir veri kümesi oluşturma ve verileri dönüştürme ele alınmaktadır.

Ön koşullar

Bu kursta aşağıdakilere sahip olduğunuz varsayılır:

Veri Hazırlama ve Özellik Mühendisliği hakkında Neden Bilgi Edinin?

Özellik mühendisliğini, modelin veri kümesini sizinle aynı şekilde anlamasına yardımcı olmak gibi düşünebilirsiniz.

Aşağıdaki soru için yanıtınızı kontrol etmek üzere istediğiniz oku tıklayın:

Makine öğrenimi projenizde aşağıdaki alanlardan birini iyileştirmeye öncelik vermeniz gerekse en büyük etkiyi hangisi olur?
Verilerinizin kalitesi ve boyutu
Veriler her şeye değer verir. Öğrenme algoritmanızı veya model mimarinizi güncellemenizin, farklı kalıp türleri öğrenmenize olanak tanıyacağı doğrudur. Ancak verileriniz kötü olursa yanlış içeriğe uyan işlevler geliştirirsiniz. Veri kümesinin kalitesi ve boyutu, kullandığınız parlak algoritmadan çok daha önemlidir.
En yeni optimizasyon algoritmasını kullanma
Optimize edicileri aktarmada bazı artışlar görebilirsiniz ancak bu listedeki başka bir öğe kadar, modeliniz üzerindeki etkisi kadar önemli değildir.
Daha derin bir ağ
Daha derin bir ağ, modelinizi iyileştirebilir ancak etki, bu listedeki başka bir öğe kadar önemli değildir.
Daha akıllı bir kayıp işlevi
Yaklaştınız! Daha iyi bir kayıp işlevi size büyük bir kazanç sağlayabilir ancak bu listedeki başka bir öğeyle ikinci sıradadır.

İyi Bir Veri Kümesi Toplama Neden Önemlidir?

Google Çeviri

Nöral makine çevirisi, kullanılacak en iyi eğitim veri alt kümesini belirlemede en etkili kalite gelişmelerden biri oldu.

- Yazılım Mühendisi, Google Çeviri

Google Çeviri ekibi, kullanabileceğinden daha fazla eğitim verisine sahip. Ekip, modelini ayarlamak yerine verilerindeki en iyi özellikleri kullanarak daha büyük kazançlar elde etti.

 

 

 

İlgi çekici görünen hataları manuel olarak ayıklamayı denediğimde çoğunlukla eğitim verileriyle ilgili sorunlara kadar geri dönebiliyorlardı. - Yazılım Mühendisi, Google Çeviri

"İlginç görünen" hatalar genellikle verilerden kaynaklanır. Hatalı veriler, hangi modelleme tekniklerini denediğinizden bağımsız olarak modelinizin yanlış modelleri öğrenmesine neden olabilir.

 

 

Beyin Retinopati Projesi

Google Brain's diyabetik retinopati projesi, Başlangıç olarak bilinen bir nöral ağ mimarisini kullanarak hastalığı sınıflandırarak görüntüleri sınıflandırdı. Ekip modelleri değiştirmedi. Daha ziyade göz doktorları tarafından etiketlenen 120.000 örneklik bir veri kümesi oluşturarak başarılı oldular. (https://research.google.com/pubs/pub43022.html adresinden daha fazla bilgi edinebilirsiniz.)