Implementacje mikroprocesor komórkowych - Cell microprocessor implementations
Pierwsza komercyjna mikroprocesor komórki , komórka BE, zaprojektowana do Sony PlayStation 3. IBM zaprojektowane PowerXCell 8i do stosowania w superkomputer Roadrunner .
Zawartość
Realizacja
Pierwsze wydanie komórek na 90 nm CMOS
IBM opublikował informację o dwie różne wersje komórki w tym procesie wczesnej próbki inżynieryjnej wyznaczonego DD1 i udoskonalona wersja oznaczona DD2 przeznaczone do produkcji.
| Przeznaczenie | Szklana powierzchnia | po raz pierwszy ujawniony | Wzmocnienie |
|---|---|---|---|
| DD1 | 221 mm² | ISSCC 2005 | |
| DD2 | 235 mm² | Fajne Chips kwiecień 2005 | wzmocniona rdzeniem PPE |
Głównym poprawy w DD2 było małe wydłużenie matrycy, aby pomieścić większy rdzeń PPE, który jest zgłoszony do „zawierają więcej SIMD zasobów / wykonanie wektor”. Niektóre wstępne informacje wydany przez IBM odwołuje się do wariantu DD1. W rezultacie, niektóre wczesne dziennikarskie relacje możliwości komórce różnią się od sprzętu produkcyjnego.
floorplan komórka
[Powerpoint materiałów towarzyszących prezentację STI wydane przez Dr Petera Hofstee], zawiera fotografię DD2 komórki umierają przesadzony funkcjonalne granicach jednostkowych, które są zatytułowane przez nazwy, które ujawnia podział powierzchni krzemu przez jednostkę funkcyjną, jak następuje:
| jednostka funkcji komórek | Powierzchnia (%) | Opis |
|---|---|---|
| interfejs XDR | 5.7 | interfejs do pamięci systemowej Rambus |
| kontroler pamięci | 4.4 | zarządza zewnętrznej pamięci i pamięci podręcznej L2 |
| Pamięć podręczna L2 512 KiB | 10,3 | Pamięć podręczna dla PPE |
| PPE rdzeń | 11,1 | procesor PowerPC |
| test | 2.0 | nieokreślone „test i dekodowania logika” |
| EBI | 3.1 | Element połączeniowy magistrali łączącej procesory |
| SPE (po) x 8 | 6.2 | synergistyczny elementem coprocessing |
| I / O Kontroler | 6.6 | Zewnętrzne wejścia / wyjścia logiki |
| Rambus FlexIO | 5.7 | Sygnalizacja zewnętrzne styki nie we / wy |
SPE floorplan
Dodatkowe szczegóły dotyczące wdrożenia wewnętrznego SPE zostały ujawnione przez inżynierów firmy IBM, w tym Peter Hofstee , główny architekt IBM o synergicznym elementu przetwarzającego, w naukowej publikacji IEEE.
Ten dokument zawiera fotografię SPE 2,54 mm x 5,81, wykonanego w 90 nm SOI . W tej technologii, SPE zawiera 21 milionów tranzystorów, z których 14 milionów zawartych w tablicach (termin przypuszczalnie wyznaczającą plików rejestru oraz lokalnego sklepu) i 7 milionów tranzystorów to logika. Zdjęcie to kredytowego na debetowe funkcjonalne ramy jednostek, które są zatytułowane przez nazwy, które ujawnia podział powierzchni krzemu przez jednostkę funkcyjną, jak następuje:
| Funkcja jednostka SPU | Powierzchnia (%) | Opis | Rura |
|---|---|---|---|
| Pojedyncza precyzja | 10,0 | pojedyncza jednostka wykonawcza precyzja FP | parzysty |
| podwójna precyzja | 4.4 | podwójnej precyzji jednostka wykonawcza FP | parzysty |
| prosty stałe | 3.25 | Jednostka wykonawcza stałym punktem | parzysty |
| kontrola problem | 2,5 | karmi jednostkami wykonawczymi | |
| naprzód makro | 3.75 | karmi jednostkami wykonawczymi | |
| GPR | 6,25 | Plik rejestru ogólnego przeznaczenia | |
| przestawiać | 3.25 | jednostka wykonawcza permute | dziwny |
| Oddział | 2,5 | jednostka wykonawcza oddział | dziwny |
| kanał | 6.75 | interfejs kanału (trzech oddzielnych bloków) | dziwny |
| LS0-LS3 | 30,0 | 64 KiB cztery bloki lokalnego sklepu | dziwny |
| MMU | 4.75 | jednostka zarządzania pamięcią | |
| DMA | 7.5 | Jednostka bezpośredni dostęp do pamięci | |
| BIU | 9.0 | Moduł interfejsu magistrali | |
| RTB | 2,5 | Tablica wbudowany w bloku testowego (ABIST) | |
| ATO | 1.6 | jednostki atomowe dla atomowych aktualizacjach DMA | |
| HB | 0,5 | niejasny |
Zrozumienie rur wysyłkowe jest ważne, aby pisać wydajny kod. W architekturze SPU, dwie instrukcje mogą być wysyłane (rozpoczęte) w każdym cyklu zegara za pomocą rur wysyłkowe wyznaczone nawet i nieparzyste . Te dwa przewody rurowe zapewniają różne jednostki wykonawcze, jak pokazano w powyższej tabeli. Jak IBM rozdziela to, większość instrukcji arytmetycznych na wykonanie nawet rury, podczas gdy większość z instrukcjami pamięci wykonać na nieparzystej rury. Jednostka permute jest ściśle związana z instrukcją pamięci, gdyż służy do pakowania i rozpakowania struktur danych znajdujących się w pamięci w formacie SIMD wielokrotnością argumentu, że SPU oblicza się na najbardziej efektywnie.
W przeciwieństwie do innych konstrukcji procesor zapewnia różne wykonanie rur, każda instrukcja SPU może wywołać tylko jednego wyznaczonego rury. W konkurencyjnych projektów, więcej niż jedna rura może być zaprojektowany do obsługi niezwykle wspólne instrukcje takie jak dodatek , pozwalający więcej dwa lub więcej z tych instrukcji do wykonania jednocześnie, które mogą służyć do zwiększenia wydajności na niesymetrycznych workflow. Zgodnie z filozofią projektowania niezwykle Spartan, dla SPU żadne jednostki wykonawcze są wielokrotnie zabezpieczony.
Zrozumienie ograniczeń restrykcyjnej dwóch konstrukcji rurociągu jest jednym z kluczowych pojęć programista musi pojąć pisać wydajny kod SPU na najniższym poziomie abstrakcji. Dla programistów pracujących na wyższych poziomach abstrakcji, dobry kompilator automatycznie zrównoważyć współbieżność rurociągu, gdzie to możliwe.
moc i wydajność SPE
Testowana przez IBM na przemian i ciężkiego obciążenia oświetlenia [średnia IPC 1,4] profil wydajności tej realizacji dla pojedynczego procesora SPU jest uprawniony w następujący sposób:
| Napięcie (V), | Częstotliwości (GHz) | Moc (W) | Die Temp (° C) |
|---|---|---|---|
| 0,9 | 2.0 | 1 | 25 |
| 0,9 | 3.0 | 2 | 27 |
| 1,0 | 3.8 | 3 | 31 |
| 1,1 | 4.0 | 4 | 38 |
| 1.2 | 4.4 | 7 | 47 |
| 1.3 | 5.0 | 11 | 63 |
Wejście do działania 2,0 GHz 0,9 V oznacza konfigurację o niskiej energii. Inne wpisy pokazują szczytową stabilną częstotliwość pracy osiągnięte z każdego przyrostu napięcia. Zgodnie z ogólną zasadą w obwodach CMOS, straty mocy wzrasta w stosunku do nieobrobionego v ^ 2 * K, kwadratu razy częstotliwość pracy napięcia.
Chociaż pomiary mocy przewidziane przez autorów IBM brakuje precyzji oni przekazać poczucie ogólnego trendu. Dane te pokazują część jest zdolna do prowadzenia ponad 5 GHz pod laboratorium badania warunków, chociaż w temperaturze dyszy zbyt gorącym do standardowych konfiguracji handlowych. Pierwsze procesory komórek komercyjnie dostępne były oceniane przez IBM uruchomić 3,2 GHz prędkości roboczej w przypadku gdy wykres sugeruje SPU temperatury matrycy w wygodnej pobliżu 30 ° C.
Należy zauważyć, że pojedynczy SPU stanowi 6% powierzchni matrycy procesora komórki. Liczby mocy podane w tabeli powyżej stanowią tylko niewielką część całkowitego budżetu mocy.
IBM publicznie ogłosił zamiar wdrożyć komórki na przyszłe technologie poniżej węzła 90 nm, aby zmniejszyć zużycie energii. Zmniejszenie zużycia energii może potencjalnie umożliwić istniejąca konstrukcja być wzmocniony 5 GHz lub powyżej, bez przekraczania ograniczeń cieplnych istniejących produktów.
Komórki w 65 nm
Pierwszy kurczenia się komórki w węźle 65 nm. Zmniejszenie do 65 nm zmniejszyć istniejące 230 mm² matrycy opiera się na procesie 90 nm do połowy jego obecnego rozmiaru, około 120 mm², co znacznie zmniejsza koszty produkcji IBM, a.
W dniu 12 marca 2007 roku, IBM poinformowała, że rozpoczęła produkcję ogniw 65 nm w swojej East Fishkill fab. Frytki produkowane są widocznie tylko dla iBMS własnej komórki kasetowych serwerów, które były pierwszym, aby uzyskać komórki 65 nm. Sony wprowadzono trzecią generację PS3 w listopadzie 2007, model 40 GB PS2 bez kompatybilności, który został potwierdzony w użyciu Cell 65 nm. Dzięki komórki skurczonej zużycie energii zmniejszono z 200 W do 135W.
Początkowo był on znany tylko zegar 65 nm Komórki do 6 GHz i działa na rdzeń napięcie 1.3V, jak wykazano na ISSCC 2007. Będzie to dały chip teoretyczną maksymalną wydajność 384 GFLOPS w 8PR ćwierć precyzją ( 48 GFLOPS w FP64 podwójnej precyzji), znaczące ulepszenie piku 204.8 GFLOPS (25.6GFLOPs FP64 podwójnej precyzji), że 90 nm 3,2 GHz komórek może zapewnić z 8 aktywnych SPUS. IBM ogłosił ponadto, że wdrażane nowe funkcje oszczędzania energii oraz podwójne zasilanie tablicy SRAM. Ta wersja nie była jeszcze długo podobno „Komórka +” o zwiększonej wydajności pływający punkt podwójnej precyzji, która po raz pierwszy ujrzała światło dzienne w połowie 2008 roku w superkomputer Roadrunner w postaci QS22 ostrzy PowerXCell. Choć mówił o IBM i nawet pokazał wyższym taktowaniu Cells wcześniej, szybkość zegara pozostaje na stałym poziomie 3,2 GHz, nawet dla podwójnej precyzji włączoną „Komórka +” z Roadrunner. Poprzez utrzymywanie stałej prędkości zegara, zamiast IBM zdecydował się zmniejszyć zużycie energii. Klastery PowerXCell nawet najlepsze firmy takie jak IBM Blue Gene klastrów (371 MFLOPS / wat), które są znacznie bardziej energooszczędne niż już klastry składające się z konwencjonalnych procesorów (265 MFLOPS / Watt i dolny).
Przyszłe wersje w CMOS
Perspektywy na 45 nm
Na ISSCC 2008 roku IBM ogłosił komórkowy w węźle 45 nm. IBM że będzie to wymagało 40 procent mniejszą siłę w tej samej prędkości zegara niż jego poprzednika 65 nm, a powierzchnia matrycy skurczy się o 34 procent. Cela 45 nm wymaga mniejszego chłodzenia i pozwala na tańsze produkcji, a także dzięki zastosowaniu znacznie mniejszej radiatora. Masowa produkcja początkowo podchodzi się rozpocząć pod koniec 2008 roku, ale został przeniesiony do początku 2009 roku .
Perspektywy poza 45 nm
Sony, IBM i Toshiba ogłosiła rozpoczęcie prac na komórce tak małe jak 32 nm w styczniu 2006 roku, ale ponieważ proces kurczy w FAB zazwyczaj się w skali globalnej, a nie indywidualnej skali wióra, to był jedynie jako publiczne zobowiązanie do podjęcia komórki do 32 nM.