Tesla ‘nın yapay zeka süper bilgisayarı

Tesla, 362Tflop işleme ve 16Tbit/s IO bant genişliği sunan 354 özel işlemcili 7nm şirket içi geliştirilmiş bir IC etrafında inşa edilen 1.1Eflop yapay zekalı süper bilgisayar için planlarını geçen hafta açıkladı.

Dojo olarak adlandırılacak bilgisayar, şirketin arabalarında kullanılmak üzere sinir ağlarını eğitmeyi planladığı yerdir.

Proje başkanı Ganesh Venkataramanan lansmanında, bunun içindeki en küçük varlığın ‘eğitim düğümü’ olduğunu söyledi.

Bu temel yapı taşını boyutlandırmak için çok düşündüklerini söyledi.

Venkataramanan, “Eğer küçüğe giderseniz, hızlı çalışacak ancak senkronizasyonun genel giderleri baskın olacak” dedi. “Eğer çok büyük seçerseniz, gerçek donanımda uygulamada karmaşıklıklar olacak ve nihayetinde bellek darboğazı sorunlarıyla karşılaşacaksınız.”

Minimum gecikme ve maksimum bant genişliği için tasarım yapan ekip , FP32, BFP16, CFP8, INT32, INT16 ve INT8 veri türleri için 8×8 matris çarpma birimleri ve vektör SIMD’si etrafında optimize edilmiş bir 64bit süper ölçekleyici CPU ( üstte) kullanmaya karar verdi . 1.25Mbyte yerel ECC SRAM dahildir.

Bu, seçilen üretim sürecinde 2 GHz’lik bir saatin yayılabileceği maksimum kaynaktır.

Dört geniş ölçekleyici ve iki geniş vektör borusuna sahip bir süperskalar sıralı işlemcidir. Venkataramanan, “Vektör ve ölçekleyici borular bozulabilse de, saflık isteyenler için buna sıralı diyoruz” dedi.

İşlemci aynı zamanda bilgi işlem ve veri aktarımlarına aynı anda izin vererek kullanımı artırmak için dört yönlü çoklu iş parçacığına sahiptir.

Aktarma, toplama, bağlantı geçişleri ve yayınlama gibi özelliklere sahip, özellikle makine öğrenimi iş yükleri için bir talimat seti oluşturuldu.

Venkataramanan’a göre, her şey “1Tflop’tan daha fazlasını paketler”. Ayrıntılı olarak, her bir ana yönde 1.024Tflop/s (BFP16 veya CFP8, 64Gflop/s FP32) ve 512Gbit/s sağlar.

Tesla, bu bilgisayar boyunca iki boyutlu bir ağ kullanmaya karar verdi, bu nedenle eğitim düğümleri, kalıp boyunca kare bir dizide döşenmelerini sağlamak için kare bir ayak izi ile tasarlandı. Her iki taraf da, mantığa müdahale etmeden verileri yakın komşulara aktarmak için geniş bir paralel veri yoluna ( yukarıdaki şemada kuzey, güney, doğu ve batı ) sahiptir.

Her eğitim düğümündeki ağ anahtarının gecikme süresi 1 döngü/atlamadır.

Bu eğitim düğümlerinin 354’ü  , şirketin ‘D1’ entegre devresi dediği şeyi oluşturmak için tek bir 645mm 2 (25 x 25mm) 7 nm kalıp boyunca dizilmiştir .

Bu, 50 milyar transistöre, 17 km’den fazla kabloya ve 400W dağıtmaya sahip olduğunu da sözlerine ekleyen Venkataramanan, bunun 362Tflop (BFP16 veya CFP8 verileri, 22.6Tflop of FP32) makine öğrenimi hesaplaması sağlayabildiğini söyledi.

Kare dizi temasına uygun olarak, paketleme flip-chip BGA’dır ve dört paket tarafının her biri, kare dizide düzenlenmiş diğer D1 yongalarına bağlanmak için muazzam bir veri yoluna sahiptir.

Çip başına, 576 şerit 112 Gbit seri veri vardır ve bu, paketin her bir kenarında (=16Tbit/s/yonga) kuzey güney doğu ve batıya özdeş D1 yongalarına bağlantılar için 4 Tbit/sn IO sağlar – yine herhangi bir yapıştırma mantığı olmadan .

Venkataramanan, “D1 çipi tamamen Tesla ekibi tarafından dahili olarak tasarlandı” dedi. “Alanının %100’ü makine öğrenimi eğitimine ve bant genişliğine gidiyor – karanlık silikon yok, eski destek yok.”

Mimari olarak, plan tam Dojo ‘işleme düzleminin’ ( üstte) 15 x 100 dizide 1.500 D1 yongası olması – toplamda yarım milyondan fazla eğitim düğümü.

Dojo’nun tamamlanması, ana sisteme ve hesaplama düzleminin paylaşılan DRAM belleğine on-ward bağlantısı için dizinin kenarındaki yedek 112 Gbit seri veri kanallarını PCI Gen4 hatlarına köprüleyecek ‘Dojo arabirim işlemcileri’ olacaktır.

Venkataramanan, 2D temasını bir an için altüst ederek, planın bu köprü çiplerinin gerektiğinde uçak dışı (yani 3D) ağ ( üst) sağlaması olduğunu söyledi.

Fiziksel olarak 15 x 100 D1 dizi uygulamak için, Tesla alt montaj bir ‘eğitim kiremit’ adı verilen bir kare donanım yarattı ( üstte) o ilişkili güç kaynakları ile birlikte bir 5 x 5 D1 IC dizi içerir ve yüksek yanı sıra soğutma bitişik aynı eğitim karoları için hız arabirimi.

Eğitim kutucuğu içinde, 25 D1 iyi bilgi kalıbı (= 9Pflop/s hesaplama (BF16/CFP8)), aralarında maksimum bant genişliğini koruyacak şekilde onları elektriksel olarak bağlayan bir taşıyıcı gofrete bağlanır.

Gofretin kenarlarında, bitişik eğitim karolarına kenar başına 9Tbit/s (toplam 36Tbit/s IO) sağlayabilecek, kenar başına 10 olmak üzere 40 IO konektörü bulunur.

D1 yongalarına güç beslemek için, 50 yük noktası dc-dc dönüştürücüler, taşıyıcı plakanın (üstte ) arkasına yeniden akıtılacaktır.

Güçleri , 52Vdc ile dışarıdan beslenen eğitim karosunun mekanik yığınına ( sağ altta ) entegre edilmiş başka bir dc-dc dönüştürücüden gelir. Eğitim karosu başına toplam gücün 10 ile 15kW arasında bir yerde olacağı tahmin edilmektedir.

Eğitim karosu mekanik yığın

Bu ısının büyük bir kısmı, taşıyıcı levhanın D1 çip tarafından çıkarılır.

Eğitim karoları, dedi Venkataramanan, bir tepsiye 2 x 3 karo ve dolap başına iki tepsi olarak kurulacak ve 100Pflop/s/kabin üzerinde verim sağlayacak ve tüm bilgisayarda 10 kabin olacak (= 120 eğitim karosu = 3.000 D1 yongası) ve 1.1Eflop’ta (BF16/CFP8) işlem yapabilme.

Venkataramanan’a göre, veri aktarım bant genişliği, ister bir tepside fiziksel olarak bitişik olsun isterse bir sonraki kabinde olsun, mimari olarak bitişik eğitim döşemesi arasında aynı olacaktır. “Dolap duvarlarını kırdık” dedi. “Bu karoları sorunsuz bir şekilde entegre ettik.”

Kullanımda, derleyici yazılımı, bir veya daha fazla D1 yongası ve bir veya daha fazla ana bilgisayara arayüz işleme dahil olmak üzere tüm işlem düzleminin ‘Dojo işlem birimlerine’ bölünmesine izin verecektir.

Venkataramanan, “Derleyici paketi, paralelliği çıkarmak için birden fazla teknik kullanarak, sinir ağlarını hesaplama düzlemimize eşleyerek – ince taneli paralellik ile ilgilenir” dedi. Genellikle “model paralelliği çip sınırlarının ötesine geçemezdi. Yüksek bant genişliğimiz nedeniyle, bunu eğitim kutucuklarına ve ötesine genişletebiliriz: büyük ağlar düşük parti boyutlarında eşlenebilir.”

Görüntüler de dahil olmak üzere tüm bu bilgiler Tesla’nın AI gününde sunuldu.