Cellemikroprocessorimplementeringer - Cell microprocessor implementations

Den første kommercielle cellemikroprocessor , Cell BE, var designet til Sony PlayStation 3. IBM designet PowerXCell 8i til brug i Roadrunner supercomputer .

Implementering

Første udgave Cell på 90 nm CMOS

IBM har offentliggjort oplysninger om to forskellige versioner af Cell i denne proces, en tidlig teknisk prøve udpeget DD1 og en forbedret version betegnet DD2 beregnet til produktion.

Kendte cellevarianter i 90 nm-proces
Betegnelse Die Area Først afsluttet Enhancement
DD1 221 mm² ISSCC 2005
DD2 235 mm² Cool Chips april 2005 forbedret PPE-kerne

Den vigtigste forbedring i DD2 var en lille forlængelse af matrisen for at rumme en større PPE-kerne, som rapporteres at "indeholde flere SIMD / vektor-eksekveringsressourcer". Nogle foreløbige oplysninger frigivet af IBM refererer til DD1-varianten. Som et resultat afviger nogle tidlige journalistiske beretninger om Cellens kapaciteter nu fra produktionshardware.

Cell gulvplan

[Powerpoint-materiale, der ledsager en STI-præsentation givet af Dr. Peter Hofstee], inkluderer et fotografi af DD2-celleformularen, der er trukket ud med funktionelle enhedsgrænser, der også er overskriften med navn, hvilket afslører opdelingen af ​​siliciumområde efter funktionsenhed som følger:


Cellefunktionsenheder og fodaftryk
Cellefunktionsenhed Areal (%) Beskrivelse
XDR-interface 5.7 interface til Rambus systemhukommelse
hukommelseskontroller 4.4 administrerer ekstern hukommelse og L2-cache
512 KiB L2-cache 10.3 cachehukommelse til PPE
PPE-kerne 11.1 PowerPC-processor
prøve 2,0 uspecificeret "test og afkode logik"
EIB 3.1 elementer forbinder busforbindelsesprocessorer
SPE (hver) x 8 6.2 synergistisk coprocessing-element
I / O-controller 6.6 ekstern I / O-logik
Rambus FlexIO 5.7 ekstern signalering for I / O-stifter

SPE plantegning

Yderligere detaljer om den interne SPE-implementering er blevet afsløret af IBM-ingeniører, herunder Peter Hofstee , IBMs hovedarkitekt for det synergistiske behandlingselement, i en videnskabelig IEEE-publikation.

Dette dokument inkluderer et fotografi af 2,54 x 5,81 mm SPE, som implementeret i 90-nm SOI . I denne teknologi indeholder SPE 21 millioner transistorer, hvoraf 14 millioner er indeholdt i arrays (et udtryk, der formodentlig betegner registerfiler og den lokale butik), og 7 millioner transistorer er logik. Dette fotografi er overtrækket med funktionelle enhedsgrænser, der også er overskrevet med navn, hvilket afslører fordeling af siliciumområde efter funktionsenhed som følger:

SPU-funktionsenheder og fodaftryk
SPU-funktionsenhed Areal (%) Beskrivelse Rør
enkelt præcision 10,0 enkelt præcision FP-udførelsesenhed også selvom
dobbelt præcision 4.4 dobbelt præcision FP-udførelsesenhed også selvom
enkel fast 3,25 fast punkt udførelsesenhed også selvom
emne kontrol 2.5 feeds udførelsesenheder
fremad makro 3,75 feeds udførelsesenheder
GPR 6,25 generel registreringsfil
permute 3,25 tillade udførelsesenhed ulige
afdeling 2.5 afdeling udførelsesenhed ulige
kanal 6,75 kanalgrænseflade (tre diskrete blokke) ulige
LS0-LS3 30,0 fire 64 KiB-blokke af lokal butik ulige
MMU 4,75 hukommelsesstyringsenhed
DMA 7.5 direkte hukommelsesadgangsenhed
BIU 9,0 busgrænsefladeenhed
RTB 2.5 array indbygget testblok (ABIST)
ATO 1.6 atomenhed til atomare DMA-opdateringer
HB 0,5 mærkelig

Forståelse af forsendelsesrørene er vigtigt for at skrive effektiv kode. I SPU-arkitekturen kan to instruktioner sendes (startes) i hver urcyklus ved hjælp af afsendelsesrør, der er udpeget ens og ulige . De to rør har forskellige udførelsesenheder, som vist i tabellen ovenfor. Da IBM partitionerede dette, udføres de fleste af de aritmetiske instruktioner på det jævne rør, mens de fleste af hukommelsesinstruktionerne udføres på det ulige rør. Permute-enheden er tæt forbundet med hukommelsesinstruktioner, da den tjener til at pakke og udpakke datastrukturer, der er placeret i hukommelsen i det SIMD-multiple operandformat, som SPU'en beregner mest effektivt.

I modsætning til andre processor-design, der leverer forskellige eksekveringsrør, kan hver SPU-instruktion kun sendes på et udpeget rør. I konkurrerende design kan mere end et rør være designet til at håndtere ekstremt almindelige instruktioner, såsom tilføjelse , hvilket tillader, at flere to eller flere af disse instruktioner udføres samtidigt, hvilket kan tjene til at øge effektiviteten i ubalancerede arbejdsgange. I overensstemmelse med den ekstremt spartanske designfilosofi multipliceres der ingen SPU-enheder til SPU.

At forstå begrænsningerne i det restriktive to pipeline-design er et af de vigtigste begreber, en programmerer skal forstå for at skrive effektiv SPU-kode på det laveste abstraktionsniveau. For programmerere, der arbejder på højere abstraktionsniveauer, vil en god kompilator automatisk balansere pipeline samtidighed, hvor det er muligt.

SPE kraft og ydeevne

Som testet af IBM under en kraftig transformations- og belysningsarbejdsbyrde [gennemsnitlig IPC på 1,4] er ydelsesprofilen for denne implementering for en enkelt SPU-processor kvalificeret som følger:

Forholdet mellem hastighed og temperatur
Spænding (V) Frekvens (GHz) Effekt (W) Die Temp (C)
0,9 2,0 1 25
0,9 3,0 2 27
1,0 3.8 3 31
1.1 4,0 4 38
1.2 4.4 7 47
1.3 5,0 11 63

Indgangen til 2,0 GHz-drift ved 0,9 V repræsenterer en lav effektkonfiguration. Andre poster viser den maksimale stabile driftsfrekvens opnået med hvert spændingsforøgelse. Som en generel regel i CMOS-kredsløb stiger effektudledningen i et groft forhold til V ^ 2 * F, kvadratet af spændingen gange driftsfrekvensen.

Selvom strømmålingerne leveret af IBM-forfatterne mangler præcision, formidler de en god fornemmelse af den overordnede tendens. Disse tal viser, at delen er i stand til at køre over 5 GHz under testlaboratoriske forhold - dog ved en dystemperatur for varm til standard kommercielle konfigurationer. De første celleprocessorer, der blev gjort kommercielt tilgængelige, blev vurderet af IBM til at køre ved 3,2 GHz, en driftshastighed, hvor dette diagram antyder en SPU-dybtemperatur i en behagelig nærhed på 30 grader.

Bemærk, at en enkelt SPU repræsenterer 6% af celleprocessorens matriceområde. Krafttalene angivet i tabellen ovenfor repræsenterer kun en lille del af det samlede strømbudget.

IBM har offentliggjort, at de har til hensigt at implementere Cell på en fremtidig teknologi under knudepunktet 90 nm for at forbedre strømforbruget. Nedsat strømforbrug kan potentielt give mulighed for at øge det eksisterende design til 5 GHz eller derover uden at overskride de termiske begrænsninger for eksisterende produkter.

Celle ved 65 nm

Den første krympning af celle var ved 65 nm noden. Reduktionen til 65 nm reducerede den eksisterende 230 mm² matrice baseret på 90 nm-processen til halvdelen af ​​sin nuværende størrelse, ca. 120 mm², hvilket også reducerede IBMs produktionsomkostninger i høj grad.

Den 12. marts 2007 meddelte IBM, at det begyndte at producere 65 nm celler i sin East Fishkill fab. De chips, der er produceret der, er tilsyneladende kun til IBMs egne Cell blade- servere, som var de første til at få 65 nm celler. Sony introducerede den tredje generation af PS3 i november 2007, 40 GB-modellen uden PS2-kompatibilitet, som blev bekræftet at bruge 65 nm cellen. Takket være den krympede celle blev strømforbruget reduceret fra 200W til 135W.

Først blev det kun kendt, at 65 nm-celler klokker op til 6 GHz og kører på 1,3V kernespænding , som demonstreretISSCC 2007. Dette ville have givet chippen en teoretisk topydelse på 384 GFLOPS i FP8-kvartalspræcision ( 48 GFLOP'er i FP64 dobbelt præcision), en betydelig forbedring til 204,8 GFLOPS-toppen (25,6 GFLOPs FP64 dobbelt præcision), som en 90 nm 3,2 GHz-celle kunne give med 8 aktive SPU'er. IBM annoncerede endvidere, at det implementerede nye strømbesparende funktioner og en dobbelt strømforsyning til SRAM-matrixen. Denne version var endnu ikke den længe rygtede "Cell +" med forbedret Double Precision flydepunktpræstation, som først så dagens lys medio 2008 i Roadrunner supercomputer i form af QS22 PowerXCell-klinger. Selvom IBM talte om og endda viste celler med højere ur før, har urets hastighed forblevet konstant på 3,2 GHz, selv for den dobbelte præcision aktiveret "Cell +" fra Roadrunner. Ved at holde urhastigheden konstant har IBM i stedet valgt at reducere strømforbruget. PowerXCell-klynger er endda de bedste IBMs Blue Gene- klynger (371 MFLOPS / Watt), som allerede er langt mere effektive end klynger, der består af konventionelle CPU'er (265 MFLOPS / Watt og lavere).

Fremtidige udgaver i CMOS

Udsigter ved 45 nm

I ISSCC 2008 annoncerede IBM Cell på knudepunktet 45 nm. IBM sagde, at det ville kræve 40 procent mindre strøm ved samme urhastighed end sin 65 nm forgænger, og at matrisen ville skrumpe med 34 procent. 45 nm cellen kræver mindre afkøling og giver mulighed for billigere produktion, også ved brug af en meget mindre køleplade. Masseproduktionen blev oprindeligt opslået for at begynde i slutningen af ​​2008, men blev flyttet til begyndelsen af ​​2009 .

Udsigter over 45 nm

Sony, IBM og Toshiba annoncerede at begynde at arbejde på en celle helt ned til 32 nm i januar 2006, men da processen krymper i fabs normalt sker på en global og ikke en individuel chip skala, var dette kun som en offentlig forpligtelse til at tage Cell til 32 nm.

Referencer