Bu sayfada Takviye Öğrenim sözlüğü terimleri bulunur. Tüm sözlük terimleri için burayı tıklayın.
A
işlem
pekiştirme öğrenmede, aracının ortamın durumları arasında geçiş yaptığı mekanizma. Temsilci, işlemi bir politika kullanarak seçer.
temsilci
pekiştirme öğreniminde bir politikayı kullanarak ortamın eyaletleri arasındaki geçişten beklenen beklenen dönüş değerini en üst düzeye çıkaran varlık.
B
Bellman denklemi
Pekiştirmeli öğrenmede aşağıdaki kimlik optimum Q işlevi tarafından karşılanır:
\[Q(s, a) = r(s, a) + \gamma \mathbb{E}_{s'|s,a} \max_{a'} Q(s', a')\]
pekiştirme öğrenme algoritmaları, bu kimliği aşağıdaki güncelleme kuralıyla Q-öğrenme oluşturmak için uygular:
\[Q(s,a) \gets Q(s,a) + \alpha \left[r(s,a) + \gamma \displaystyle\max_{\substack{a_1}} Q(s’,a’) - Q(s,a) \right] \]
Pekiştirmeli öğrenmenin ötesinde, Bellman denkleminin dinamik programlamaya uygulamaları vardır. Bellman Denklemi için Wikipedia girişine bakın.
C
eleştiri
Derin Q Ağı ile eş anlamlıdır.
G
Derin Q Ağı (DQN)
Q öğreniminde, Q işlevlerini tahmin eden derin bir nöral ağ.
Kritik, Derin Q Ağı ile eş anlamlıdır.
DQN
Derin Ağ Ağı'nın kısaltması.
E
ortam
Pekiştirmeli öğrenmede, aracıyı içeren ve temsilcinin dünyanın durumunu gözlemlemesini sağlayan dünya yer alır. Örneğin, temsil edilen dünya satranç gibi bir oyun veya labirent gibi fiziksel bir dünya olabilir. Aracı, ortama bir işlem uygularsa ortam, durumlar arasında geçiş yapar.
bölüm
Pekiştirmeli öğrenmede, aracı tarafından tekrarlanan ortam öğrenme girişimleri.
epsilon aç gözlü politikası
Pekiştirmeli öğrenmede, ilave olasılığı olan bir politikaya veya aksi halde mükemmel politikaya uygun bir politika. Örneğin, epsilon 0, 9 ise politika% 90'lık bir rastgele politikayı ve% 10'luk bir oranla uyumlu bir politikayı uygular.
Algoritma, sonraki bölümlerde, rastgele bir politika yerine hırs politikasını izlemek amacıyla epsilon değerini azaltıyor. Politika değiştirildiğinde, temsilci öncelikle ortamı rastgele bir şekilde keşfeder ve ardından rastgele keşfin sonuçlarını bilinçli bir şekilde istismar eder.
tekrar oynatma deneyimi
Pekiştirmeli öğrenmede, eğitim verilerindeki geçici korelasyonları azaltmak için kullanılan bir DQN tekniğidir. Agent, durum geçişlerini bir yeniden oynatma arabelleğinde saklar, ardından eğitim verilerini oluşturmak için yeniden oynatma arabelleğinden geçişleri örnekler.
Y
açlık politikası
Pekiştirmeli öğrenmede her zaman beklenen en yüksek dönüş değerine sahip işlemi seçen bir politika.
A
Markov karar süreci (ÇMY)
Markov özelliğinin varsayımına göre kararların verildiği bir (veya işlemlerin) karar alma modelini temsil eden grafik. Eyaletler arası geçişler, destekleme eğitiminde sayısal bir ödül döndürür.
Markov mülkü
Geçiş işlemlerinin, geçerli eyalet içinde belirtilen bilgilere ve aracının işlemine göre belirlendiği belirli ortamlar özelliği.
P
politika
Pekiştirmeli öğrenmede eyaletlerden işlemlere aracı olasılık eşlemesi sunar.
SORU
Q işlevi
Pekiştirme öğreniminde bir durumda işlem gerçekleştirmek ve ardından belirli bir politikayı uygulamak suretiyle beklenen dönüşü tahmin eden işlev.
Q işlevi, eylem işlemi değeri işlevi olarak da bilinir.
Öğrenme
pekiştirme öğreniminde bir aracının Bellman denklemini uygulayarak Markov karar sürecinin optimum Q işlevini öğrenmesini sağlayan bir algoritma. Markov karar sürecinde bir ortam modellenir.
K
rastgele politika
Destekleme öğreniminde rastgele bir işlem seçen bir politika.
pekiştirmeli öğrenme (RL)
Bir ortam ile etkileşimde bulunurken dönüştürü artırmayı amaçlayan optimum bir politikayı öğrenen algoritma ailesi. Örneğin, çoğu oyunun nihai ödülü zaferdir. Pekiştirmeli öğrenme sistemleri, önceki oyun hamlelerinin dizilerini değerlendirerek karmaşık oyunlar oynama konusunda uzmanlaşabilir. Bu sıralamalar sonunda zafere ve sonuç olarak kayıplara yol açar.
arabelleği tekrar oynat
DQN benzeri algoritmalarda, aracı tarafından deneyimi tekrarlama işleminde kullanılmak üzere durum geçişlerini depolamak için kullanılan bellek.
return
Pekiştirmeli öğrenmede belirli bir politika ve belirli bir durum göz önünde bulundurulduğunda getiri, aracının eyalet ile ilgili politikayı izleyerek aldığı bölümün sonuna kadar aldığı tüm ödüllerin toplamıdır. Temsilci, ödülleri almak için gereken eyalet geçişlerine göre ödüllerde indirim yaparak beklenen ödüllerin gecikmeli doğasını dikkate alır.
Bu nedenle, indirim faktörü \(\gamma\)ise ve \(r_0, \ldots, r_{N}\)bölümü ödülleri bölüm sonuna kadar belirtiyorsa iade hesaplaması aşağıdaki gibi olur:
ödül
Pekiştirmeli öğrenmede, durumda ortam tarafından tanımlanan işlemin sayısal sonucu.
C
state
Pekiştirmeli öğrenmede, ortamın mevcut yapılandırmasını açıklayan parametre değerleri. Bunlar, aracının bir işlem seçmek için kullandığı parametredir.
durum işlemi değeri işlevi
Q işlevinin eş anlamlısı.
T
tablo biçiminde Q öğrenme
Güçlendirme öğrenmede, Q işlevlerini her bir eyalet ve işlem kombinasyonu için depolamak üzere bir tablo kullanarak Q öğrenmeyi uygulamak.
hedef ağ
Derin Q öğrenme özelliğinde, ana nöral ağın kararlı bir yaklaşımı olan nöral ağ, ana nöral ağın Q işlevi veya politikayı uyguladığı bir nöral ağdır. Ardından, hedef ağın öngördüğü Q değerlerinde ana ağı eğitebilirsiniz. Bu nedenle, ana ağ kendi başına tahmin edilen Q değerlerini eğittiğinde gerçekleşen geri bildirim döngüsünü önlersiniz. Bu geri bildirimden kaçınarak eğitim kararlılığı artar.
fesih koşulu
Pekiştirme öğreniminde bir bölümün ne zaman sona ereceğini belirleyen koşullar (ör. temsilcinin belirli bir duruma ulaşması veya eşik geçişinin eşik sayısını aşması). Örneğin, tic-tac-e-to (çizgi ve haç olarak da bilinir) kullanımında, bir oyuncu art arda üç boşluk işaretlediğinde veya tüm alanlar işaretlendiğinde bir bölüm sonlandırılır.
yörünge
Güçlendirme öğrenmede, aracının eyalet geçişlerinden oluşan bir diziyi temsil eden çizgi dizisi. Burada her bir unsur belirli bir eyalet geçişine ait durum, işlem, ödül ve sonraki duruma karşılık gelir.