Implementacje mikroprocesor komórkowych - Cell microprocessor implementations

Pierwsza komercyjna mikroprocesor komórki , komórka BE, zaprojektowana do Sony PlayStation 3. IBM zaprojektowane PowerXCell 8i do stosowania w superkomputer Roadrunner .

Zawartość

1 Wprowadzenie
- 1,1 Wydanie pierwsze komórki na 90 nm CMOS
- 1.2 Przyszłe edycje w CMOS
  - 1.2.1 perspektywy na 45 nm
  - 1.2.2 Perspektywy poza 45 nm
2 Odniesienia

Realizacja

Pierwsze wydanie komórek na 90 nm CMOS

IBM opublikował informację o dwie różne wersje komórki w tym procesie wczesnej próbki inżynieryjnej wyznaczonego DD1 i udoskonalona wersja oznaczona DD2 przeznaczone do produkcji.

**Znane komórki wariantów, w procesie 90 nm**
Przeznaczenie	Szklana powierzchnia	po raz pierwszy ujawniony	Wzmocnienie
DD1	221 mm²	ISSCC 2005
DD2	235 mm²	Fajne Chips kwiecień 2005	wzmocniona rdzeniem PPE

Głównym poprawy w DD2 było małe wydłużenie matrycy, aby pomieścić większy rdzeń PPE, który jest zgłoszony do „zawierają więcej SIMD zasobów / wykonanie wektor”. Niektóre wstępne informacje wydany przez IBM odwołuje się do wariantu DD1. W rezultacie, niektóre wczesne dziennikarskie relacje możliwości komórce różnią się od sprzętu produkcyjnego.

floorplan komórka

[Powerpoint materiałów towarzyszących prezentację STI wydane przez Dr Petera Hofstee], zawiera fotografię DD2 komórki umierają przesadzony funkcjonalne granicach jednostkowych, które są zatytułowane przez nazwy, które ujawnia podział powierzchni krzemu przez jednostkę funkcyjną, jak następuje:

**Funkcja komórek i jednostek Footprint**
jednostka funkcji komórek	Powierzchnia (%)	Opis
interfejs XDR	5.7	interfejs do pamięci systemowej Rambus
kontroler pamięci	4.4	zarządza zewnętrznej pamięci i pamięci podręcznej L2
Pamięć podręczna L2 512 KiB	10,3	Pamięć podręczna dla PPE
PPE rdzeń	11,1	procesor PowerPC
test	2.0	nieokreślone „test i dekodowania logika”
EBI	3.1	Element połączeniowy magistrali łączącej procesory
SPE (po) x 8	6.2	synergistyczny elementem coprocessing
I / O Kontroler	6.6	Zewnętrzne wejścia / wyjścia logiki
Rambus FlexIO	5.7	Sygnalizacja zewnętrzne styki nie we / wy

SPE floorplan

Dodatkowe szczegóły dotyczące wdrożenia wewnętrznego SPE zostały ujawnione przez inżynierów firmy IBM, w tym Peter Hofstee , główny architekt IBM o synergicznym elementu przetwarzającego, w naukowej publikacji IEEE.

Ten dokument zawiera fotografię SPE 2,54 mm x 5,81, wykonanego w 90 nm SOI . W tej technologii, SPE zawiera 21 milionów tranzystorów, z których 14 milionów zawartych w tablicach (termin przypuszczalnie wyznaczającą plików rejestru oraz lokalnego sklepu) i 7 milionów tranzystorów to logika. Zdjęcie to kredytowego na debetowe funkcjonalne ramy jednostek, które są zatytułowane przez nazwy, które ujawnia podział powierzchni krzemu przez jednostkę funkcyjną, jak następuje:

**SPU Jednostki funkcyjne i Ślad**
Funkcja jednostka SPU	Powierzchnia (%)	Opis	Rura
Pojedyncza precyzja	10,0	pojedyncza jednostka wykonawcza precyzja FP	parzysty
podwójna precyzja	4.4	podwójnej precyzji jednostka wykonawcza FP	parzysty
prosty stałe	3.25	Jednostka wykonawcza stałym punktem	parzysty
kontrola problem	2,5	karmi jednostkami wykonawczymi
naprzód makro	3.75	karmi jednostkami wykonawczymi
GPR	6,25	Plik rejestru ogólnego przeznaczenia
przestawiać	3.25	jednostka wykonawcza permute	dziwny
Oddział	2,5	jednostka wykonawcza oddział	dziwny
kanał	6.75	interfejs kanału (trzech oddzielnych bloków)	dziwny
LS0-LS3	30,0	64 KiB cztery bloki lokalnego sklepu	dziwny
MMU	4.75	jednostka zarządzania pamięcią
DMA	7.5	Jednostka bezpośredni dostęp do pamięci
BIU	9.0	Moduł interfejsu magistrali
RTB	2,5	Tablica wbudowany w bloku testowego (ABIST)
ATO	1.6	jednostki atomowe dla atomowych aktualizacjach DMA
HB	0,5	niejasny

Zrozumienie rur wysyłkowe jest ważne, aby pisać wydajny kod. W architekturze SPU, dwie instrukcje mogą być wysyłane (rozpoczęte) w każdym cyklu zegara za pomocą rur wysyłkowe wyznaczone nawet i nieparzyste . Te dwa przewody rurowe zapewniają różne jednostki wykonawcze, jak pokazano w powyższej tabeli. Jak IBM rozdziela to, większość instrukcji arytmetycznych na wykonanie nawet rury, podczas gdy większość z instrukcjami pamięci wykonać na nieparzystej rury. Jednostka permute jest ściśle związana z instrukcją pamięci, gdyż służy do pakowania i rozpakowania struktur danych znajdujących się w pamięci w formacie SIMD wielokrotnością argumentu, że SPU oblicza się na najbardziej efektywnie.

W przeciwieństwie do innych konstrukcji procesor zapewnia różne wykonanie rur, każda instrukcja SPU może wywołać tylko jednego wyznaczonego rury. W konkurencyjnych projektów, więcej niż jedna rura może być zaprojektowany do obsługi niezwykle wspólne instrukcje takie jak dodatek , pozwalający więcej dwa lub więcej z tych instrukcji do wykonania jednocześnie, które mogą służyć do zwiększenia wydajności na niesymetrycznych workflow. Zgodnie z filozofią projektowania niezwykle Spartan, dla SPU żadne jednostki wykonawcze są wielokrotnie zabezpieczony.

Zrozumienie ograniczeń restrykcyjnej dwóch konstrukcji rurociągu jest jednym z kluczowych pojęć programista musi pojąć pisać wydajny kod SPU na najniższym poziomie abstrakcji. Dla programistów pracujących na wyższych poziomach abstrakcji, dobry kompilator automatycznie zrównoważyć współbieżność rurociągu, gdzie to możliwe.

moc i wydajność SPE

Testowana przez IBM na przemian i ciężkiego obciążenia oświetlenia [średnia IPC 1,4] profil wydajności tej realizacji dla pojedynczego procesora SPU jest uprawniony w następujący sposób:

**Zależność prędkości do temperatury**
Napięcie (V),	Częstotliwości (GHz)	Moc (W)	Die Temp (° C)
0,9	2.0	1	25
0,9	3.0	2	27
1,0	3.8	3	31
1,1	4.0	4	38
1.2	4.4	7	47
1.3	5.0	11	63

Wejście do działania 2,0 GHz 0,9 V oznacza konfigurację o niskiej energii. Inne wpisy pokazują szczytową stabilną częstotliwość pracy osiągnięte z każdego przyrostu napięcia. Zgodnie z ogólną zasadą w obwodach CMOS, straty mocy wzrasta w stosunku do nieobrobionego v ^ 2 * K, kwadratu razy częstotliwość pracy napięcia.

Chociaż pomiary mocy przewidziane przez autorów IBM brakuje precyzji oni przekazać poczucie ogólnego trendu. Dane te pokazują część jest zdolna do prowadzenia ponad 5 GHz pod laboratorium badania warunków, chociaż w temperaturze dyszy zbyt gorącym do standardowych konfiguracji handlowych. Pierwsze procesory komórek komercyjnie dostępne były oceniane przez IBM uruchomić 3,2 GHz prędkości roboczej w przypadku gdy wykres sugeruje SPU temperatury matrycy w wygodnej pobliżu 30 ° C.

Należy zauważyć, że pojedynczy SPU stanowi 6% powierzchni matrycy procesora komórki. Liczby mocy podane w tabeli powyżej stanowią tylko niewielką część całkowitego budżetu mocy.

IBM publicznie ogłosił zamiar wdrożyć komórki na przyszłe technologie poniżej węzła 90 nm, aby zmniejszyć zużycie energii. Zmniejszenie zużycia energii może potencjalnie umożliwić istniejąca konstrukcja być wzmocniony 5 GHz lub powyżej, bez przekraczania ograniczeń cieplnych istniejących produktów.

Komórki w 65 nm

Pierwszy kurczenia się komórki w węźle 65 nm. Zmniejszenie do 65 nm zmniejszyć istniejące 230 mm² matrycy opiera się na procesie 90 nm do połowy jego obecnego rozmiaru, około 120 mm², co znacznie zmniejsza koszty produkcji IBM, a.

W dniu 12 marca 2007 roku, IBM poinformowała, że rozpoczęła produkcję ogniw 65 nm w swojej East Fishkill fab. Frytki produkowane są widocznie tylko dla iBMS własnej komórki kasetowych serwerów, które były pierwszym, aby uzyskać komórki 65 nm. Sony wprowadzono trzecią generację PS3 w listopadzie 2007, model 40 GB PS2 bez kompatybilności, który został potwierdzony w użyciu Cell 65 nm. Dzięki komórki skurczonej zużycie energii zmniejszono z 200 W do 135W.

Początkowo był on znany tylko zegar 65 nm Komórki do 6 GHz i działa na rdzeń napięcie 1.3V, jak wykazano na ISSCC 2007. Będzie to dały chip teoretyczną maksymalną wydajność 384 GFLOPS w 8PR ćwierć precyzją ( 48 GFLOPS w FP64 podwójnej precyzji), znaczące ulepszenie piku 204.8 GFLOPS (25.6GFLOPs FP64 podwójnej precyzji), że 90 nm 3,2 GHz komórek może zapewnić z 8 aktywnych SPUS. IBM ogłosił ponadto, że wdrażane nowe funkcje oszczędzania energii oraz podwójne zasilanie tablicy SRAM. Ta wersja nie była jeszcze długo podobno „Komórka +” o zwiększonej wydajności pływający punkt podwójnej precyzji, która po raz pierwszy ujrzała światło dzienne w połowie 2008 roku w superkomputer Roadrunner w postaci QS22 ostrzy PowerXCell. Choć mówił o IBM i nawet pokazał wyższym taktowaniu Cells wcześniej, szybkość zegara pozostaje na stałym poziomie 3,2 GHz, nawet dla podwójnej precyzji włączoną „Komórka +” z Roadrunner. Poprzez utrzymywanie stałej prędkości zegara, zamiast IBM zdecydował się zmniejszyć zużycie energii. Klastery PowerXCell nawet najlepsze firmy takie jak IBM Blue Gene klastrów (371 MFLOPS / wat), które są znacznie bardziej energooszczędne niż już klastry składające się z konwencjonalnych procesorów (265 MFLOPS / Watt i dolny).

Przyszłe wersje w CMOS

Perspektywy na 45 nm

Na ISSCC 2008 roku IBM ogłosił komórkowy w węźle 45 nm. IBM że będzie to wymagało 40 procent mniejszą siłę w tej samej prędkości zegara niż jego poprzednika 65 nm, a powierzchnia matrycy skurczy się o 34 procent. Cela 45 nm wymaga mniejszego chłodzenia i pozwala na tańsze produkcji, a także dzięki zastosowaniu znacznie mniejszej radiatora. Masowa produkcja początkowo podchodzi się rozpocząć pod koniec 2008 roku, ale został przeniesiony do początku 2009 roku .

Perspektywy poza 45 nm

Sony, IBM i Toshiba ogłosiła rozpoczęcie prac na komórce tak małe jak 32 nm w styczniu 2006 roku, ale ponieważ proces kurczy w FAB zazwyczaj się w skali globalnej, a nie indywidualnej skali wióra, to był jedynie jako publiczne zobowiązanie do podjęcia komórki do 32 nM.

Languages

In other projects