MuZero - MuZero
MuZero , yapay zeka araştırma şirketi DeepMind tarafından oyunun kurallarını bilmeden ustalaşmak için geliştirilmiş bir bilgisayar programıdır . 2019'da piyasaya sürülmesi, go , satranç , shogi ve standart bir Atari oyunları paketindeki performansının ölçütlerini içeriyordu . Algoritma benzer bir yaklaşım kullanır AlphaZero . Bu onun performansına geliştirilmiş, satranç ve Shogi içinde AlphaZero performansını eşleşti Go 57 Atari oyunları (Arcade Öğrenme Ortamı) paketi egemen olmak (yeni bir dünya rekoru) ve sanatın durumuna geliştirilmiş, görsel-kompleksi alan adı.
MuZero, kurallara, açılış kitaplarına veya oyunsonu masa tabanlarına erişim olmadan kendi kendine oynama yoluyla eğitildi. Eğitilen algoritma, AlphaZero ile aynı evrişimsel ve artık algoritmaları kullandı, ancak arama ağacında düğüm başına %20 daha az hesaplama adımı kullandı.
Tarih
MuZero, bir modelin nasıl oluşturulacağını ve onu sadece ilk ilkelerden nasıl anlayacağını gerçekten keşfediyor.
— David Silver, DeepMind, Kablolu
19 Kasım 2019'da DeepMind ekibi MuZero'yu tanıtan bir ön baskı yayınladı.
AlphaZero'dan türetme
MuZero (MZ), AlphaZero (AZ) algoritmasının yüksek performanslı planlamasının modelsiz pekiştirmeli öğrenme yaklaşımlarıyla birleşimidir . Kombinasyon, Go gibi klasik planlama rejimlerinde daha verimli eğitime olanak tanırken, aynı zamanda görsel video oyunları gibi her aşamada çok daha karmaşık girdilere sahip alanları da yönetir.
MuZero, hiperparametreleri ayarlama kurallarını paylaşarak doğrudan AZ kodundan türetilmiştir . Yaklaşımlar arasındaki farklar şunları içerir:
- AZ'nin planlama süreci bir simülatör kullanır . Simülatör oyunun kurallarını bilir. Açıkça programlanmalıdır. Bir sinir ağı daha sonra gelecekteki bir pozisyonun politikasını ve değerini tahmin eder. Oyun kurallarının mükemmel bilgisi, arama ağacındaki durum geçişlerinin modellenmesinde, her bir düğümde mevcut olan eylemlerde ve ağacın bir dalının sonlandırılmasında kullanılır. MZ'nin kurallara erişimi yoktur ve bunun yerine sinir ağlarıyla bir tane öğrenir.
- AZ'nin oyun için tek bir modeli vardır (tahta durumundan tahminlere kadar); MZ, mevcut durumun temsili (kurul durumundan dahili yerleşimine), durumların dinamikleri (eylemlerin yönetim kurulu devletlerinin temsillerini nasıl değiştirdiği) ve politikanın tahmini ve gelecekteki bir pozisyonun değeri (bir devletin temsili göz önüne alındığında ) için ayrı modellere sahiptir .
- MZ'nin gizli modeli karmaşık olabilir ve hesaplamaya ev sahipliği yapabileceği ortaya çıkabilir; eğitimli bir MZ örneğinde gizli modelin ayrıntılarını keşfetmek, gelecekteki keşif için bir konudur.
- MZ, kazananların hepsini aldığı iki kişilik bir oyun beklemiyor. Sürekli ara ödüllere sahip, muhtemelen rastgele büyüklükte ve zaman indirimli tek aracılı ortamlar dahil olmak üzere standart pekiştirme-öğrenme senaryolarıyla çalışır. AZ, kazanılabilecek, berabere kalabilecek veya kaybedilebilecek iki oyunculu oyunlar için tasarlandı.
R2D2 ile karşılaştırma
Atari oyun paketini oynamayı öğrenmek için önceki son teknoloji teknik, Recurrent Replay Distributed DQN olan R2D2 idi.
MuZero, her oyunda daha iyi sonuç vermese de, oyun paketinde hem R2D2'nin ortalama hem de medyan performansını aştı.
Eğitim ve sonuçlar
MuZero , eğitim için 16 üçüncü nesil tensör işleme birimi (TPU) ve masa oyunları için kendi kendine oynamak için 1000 TPU, adım başına 800 simülasyon ve eğitim için 8 TPU ve Atari oyunları için kendi kendine oynamak için 32 TPU, adım başına 50 simülasyon kullandı.
AlphaZero, eğitim için 64 birinci nesil TPU ve kendi kendine oynamak için 5000 ikinci nesil TPU kullandı. TPU tasarımı geliştikçe (üçüncü nesil yongalar tek başına ikinci nesil yongalara göre 2 kat daha güçlüdür, bant genişliği ve bir bölmedeki yongalar arasında ağ oluşturmada daha fazla ilerleme sağlanır), bunlar karşılaştırılabilir eğitim kurulumlarıdır.
R2D2, 2M eğitim adımları ile 5 gün boyunca eğitildi.
İlk sonuçlar
MuZero, yaklaşık 1 milyon eğitim adımından sonra AlphaZero'nun satranç ve Shogi'deki performansıyla eşleşti. 500 bin eğitim adımının ardından AZ'nin Go'daki performansına denk geldi ve bunu 1 milyon adım aştı. 500 bin eğitim adımından sonra Atari oyun paketi genelinde R2D2'nin ortalama ve medyan performansını eşleştirdi ve süitteki 6 oyunda hiçbir zaman iyi performans göstermemesine rağmen 1 milyon adım aştı.
MuZero, AlphaZero'ya göre önemli bir ilerleme ve denetimsiz öğrenme tekniklerinde ileriye doğru genelleştirilebilir bir adım olarak görülüyordu. Çalışma, sistemlerin daha küçük bileşenlerden nasıl oluşturulacağına dair gelişen bir anlayış, saf bir makine öğrenimi geliştirmesinden çok sistem düzeyinde bir geliştirme olarak görülüyordu.
Geliştirme ekibi tarafından yalnızca sözde kod yayınlanırken, Werner Duvaud buna dayalı bir açık kaynak uygulaması üretti.
MuZero, örneğin model tabanlı davranış oluşturmanın bir yolu olarak, başka çalışmalarda referans uygulama olarak kullanılmıştır.