Cellemikroprocessorimplementeringer - Cell microprocessor implementations
Den første kommercielle cellemikroprocessor , Cell BE, var designet til Sony PlayStation 3. IBM designet PowerXCell 8i til brug i Roadrunner supercomputer .
Indhold
Implementering
Første udgave Cell på 90 nm CMOS
IBM har offentliggjort oplysninger om to forskellige versioner af Cell i denne proces, en tidlig teknisk prøve udpeget DD1 og en forbedret version betegnet DD2 beregnet til produktion.
| Betegnelse | Die Area | Først afsluttet | Enhancement |
|---|---|---|---|
| DD1 | 221 mm² | ISSCC 2005 | |
| DD2 | 235 mm² | Cool Chips april 2005 | forbedret PPE-kerne |
Den vigtigste forbedring i DD2 var en lille forlængelse af matrisen for at rumme en større PPE-kerne, som rapporteres at "indeholde flere SIMD / vektor-eksekveringsressourcer". Nogle foreløbige oplysninger frigivet af IBM refererer til DD1-varianten. Som et resultat afviger nogle tidlige journalistiske beretninger om Cellens kapaciteter nu fra produktionshardware.
Cell gulvplan
[Powerpoint-materiale, der ledsager en STI-præsentation givet af Dr. Peter Hofstee], inkluderer et fotografi af DD2-celleformularen, der er trukket ud med funktionelle enhedsgrænser, der også er overskriften med navn, hvilket afslører opdelingen af siliciumområde efter funktionsenhed som følger:
| Cellefunktionsenhed | Areal (%) | Beskrivelse |
|---|---|---|
| XDR-interface | 5.7 | interface til Rambus systemhukommelse |
| hukommelseskontroller | 4.4 | administrerer ekstern hukommelse og L2-cache |
| 512 KiB L2-cache | 10.3 | cachehukommelse til PPE |
| PPE-kerne | 11.1 | PowerPC-processor |
| prøve | 2,0 | uspecificeret "test og afkode logik" |
| EIB | 3.1 | elementer forbinder busforbindelsesprocessorer |
| SPE (hver) x 8 | 6.2 | synergistisk coprocessing-element |
| I / O-controller | 6.6 | ekstern I / O-logik |
| Rambus FlexIO | 5.7 | ekstern signalering for I / O-stifter |
SPE plantegning
Yderligere detaljer om den interne SPE-implementering er blevet afsløret af IBM-ingeniører, herunder Peter Hofstee , IBMs hovedarkitekt for det synergistiske behandlingselement, i en videnskabelig IEEE-publikation.
Dette dokument inkluderer et fotografi af 2,54 x 5,81 mm SPE, som implementeret i 90-nm SOI . I denne teknologi indeholder SPE 21 millioner transistorer, hvoraf 14 millioner er indeholdt i arrays (et udtryk, der formodentlig betegner registerfiler og den lokale butik), og 7 millioner transistorer er logik. Dette fotografi er overtrækket med funktionelle enhedsgrænser, der også er overskrevet med navn, hvilket afslører fordeling af siliciumområde efter funktionsenhed som følger:
| SPU-funktionsenhed | Areal (%) | Beskrivelse | Rør |
|---|---|---|---|
| enkelt præcision | 10,0 | enkelt præcision FP-udførelsesenhed | også selvom |
| dobbelt præcision | 4.4 | dobbelt præcision FP-udførelsesenhed | også selvom |
| enkel fast | 3,25 | fast punkt udførelsesenhed | også selvom |
| emne kontrol | 2.5 | feeds udførelsesenheder | |
| fremad makro | 3,75 | feeds udførelsesenheder | |
| GPR | 6,25 | generel registreringsfil | |
| permute | 3,25 | tillade udførelsesenhed | ulige |
| afdeling | 2.5 | afdeling udførelsesenhed | ulige |
| kanal | 6,75 | kanalgrænseflade (tre diskrete blokke) | ulige |
| LS0-LS3 | 30,0 | fire 64 KiB-blokke af lokal butik | ulige |
| MMU | 4,75 | hukommelsesstyringsenhed | |
| DMA | 7.5 | direkte hukommelsesadgangsenhed | |
| BIU | 9,0 | busgrænsefladeenhed | |
| RTB | 2.5 | array indbygget testblok (ABIST) | |
| ATO | 1.6 | atomenhed til atomare DMA-opdateringer | |
| HB | 0,5 | mærkelig |
Forståelse af forsendelsesrørene er vigtigt for at skrive effektiv kode. I SPU-arkitekturen kan to instruktioner sendes (startes) i hver urcyklus ved hjælp af afsendelsesrør, der er udpeget ens og ulige . De to rør har forskellige udførelsesenheder, som vist i tabellen ovenfor. Da IBM partitionerede dette, udføres de fleste af de aritmetiske instruktioner på det jævne rør, mens de fleste af hukommelsesinstruktionerne udføres på det ulige rør. Permute-enheden er tæt forbundet med hukommelsesinstruktioner, da den tjener til at pakke og udpakke datastrukturer, der er placeret i hukommelsen i det SIMD-multiple operandformat, som SPU'en beregner mest effektivt.
I modsætning til andre processor-design, der leverer forskellige eksekveringsrør, kan hver SPU-instruktion kun sendes på et udpeget rør. I konkurrerende design kan mere end et rør være designet til at håndtere ekstremt almindelige instruktioner, såsom tilføjelse , hvilket tillader, at flere to eller flere af disse instruktioner udføres samtidigt, hvilket kan tjene til at øge effektiviteten i ubalancerede arbejdsgange. I overensstemmelse med den ekstremt spartanske designfilosofi multipliceres der ingen SPU-enheder til SPU.
At forstå begrænsningerne i det restriktive to pipeline-design er et af de vigtigste begreber, en programmerer skal forstå for at skrive effektiv SPU-kode på det laveste abstraktionsniveau. For programmerere, der arbejder på højere abstraktionsniveauer, vil en god kompilator automatisk balansere pipeline samtidighed, hvor det er muligt.
SPE kraft og ydeevne
Som testet af IBM under en kraftig transformations- og belysningsarbejdsbyrde [gennemsnitlig IPC på 1,4] er ydelsesprofilen for denne implementering for en enkelt SPU-processor kvalificeret som følger:
| Spænding (V) | Frekvens (GHz) | Effekt (W) | Die Temp (C) |
|---|---|---|---|
| 0,9 | 2,0 | 1 | 25 |
| 0,9 | 3,0 | 2 | 27 |
| 1,0 | 3.8 | 3 | 31 |
| 1.1 | 4,0 | 4 | 38 |
| 1.2 | 4.4 | 7 | 47 |
| 1.3 | 5,0 | 11 | 63 |
Indgangen til 2,0 GHz-drift ved 0,9 V repræsenterer en lav effektkonfiguration. Andre poster viser den maksimale stabile driftsfrekvens opnået med hvert spændingsforøgelse. Som en generel regel i CMOS-kredsløb stiger effektudledningen i et groft forhold til V ^ 2 * F, kvadratet af spændingen gange driftsfrekvensen.
Selvom strømmålingerne leveret af IBM-forfatterne mangler præcision, formidler de en god fornemmelse af den overordnede tendens. Disse tal viser, at delen er i stand til at køre over 5 GHz under testlaboratoriske forhold - dog ved en dystemperatur for varm til standard kommercielle konfigurationer. De første celleprocessorer, der blev gjort kommercielt tilgængelige, blev vurderet af IBM til at køre ved 3,2 GHz, en driftshastighed, hvor dette diagram antyder en SPU-dybtemperatur i en behagelig nærhed på 30 grader.
Bemærk, at en enkelt SPU repræsenterer 6% af celleprocessorens matriceområde. Krafttalene angivet i tabellen ovenfor repræsenterer kun en lille del af det samlede strømbudget.
IBM har offentliggjort, at de har til hensigt at implementere Cell på en fremtidig teknologi under knudepunktet 90 nm for at forbedre strømforbruget. Nedsat strømforbrug kan potentielt give mulighed for at øge det eksisterende design til 5 GHz eller derover uden at overskride de termiske begrænsninger for eksisterende produkter.
Celle ved 65 nm
Den første krympning af celle var ved 65 nm noden. Reduktionen til 65 nm reducerede den eksisterende 230 mm² matrice baseret på 90 nm-processen til halvdelen af sin nuværende størrelse, ca. 120 mm², hvilket også reducerede IBMs produktionsomkostninger i høj grad.
Den 12. marts 2007 meddelte IBM, at det begyndte at producere 65 nm celler i sin East Fishkill fab. De chips, der er produceret der, er tilsyneladende kun til IBMs egne Cell blade- servere, som var de første til at få 65 nm celler. Sony introducerede den tredje generation af PS3 i november 2007, 40 GB-modellen uden PS2-kompatibilitet, som blev bekræftet at bruge 65 nm cellen. Takket være den krympede celle blev strømforbruget reduceret fra 200W til 135W.
Først blev det kun kendt, at 65 nm-celler klokker op til 6 GHz og kører på 1,3V kernespænding , som demonstreret på ISSCC 2007. Dette ville have givet chippen en teoretisk topydelse på 384 GFLOPS i FP8-kvartalspræcision ( 48 GFLOP'er i FP64 dobbelt præcision), en betydelig forbedring til 204,8 GFLOPS-toppen (25,6 GFLOPs FP64 dobbelt præcision), som en 90 nm 3,2 GHz-celle kunne give med 8 aktive SPU'er. IBM annoncerede endvidere, at det implementerede nye strømbesparende funktioner og en dobbelt strømforsyning til SRAM-matrixen. Denne version var endnu ikke den længe rygtede "Cell +" med forbedret Double Precision flydepunktpræstation, som først så dagens lys medio 2008 i Roadrunner supercomputer i form af QS22 PowerXCell-klinger. Selvom IBM talte om og endda viste celler med højere ur før, har urets hastighed forblevet konstant på 3,2 GHz, selv for den dobbelte præcision aktiveret "Cell +" fra Roadrunner. Ved at holde urhastigheden konstant har IBM i stedet valgt at reducere strømforbruget. PowerXCell-klynger er endda de bedste IBMs Blue Gene- klynger (371 MFLOPS / Watt), som allerede er langt mere effektive end klynger, der består af konventionelle CPU'er (265 MFLOPS / Watt og lavere).
Fremtidige udgaver i CMOS
Udsigter ved 45 nm
I ISSCC 2008 annoncerede IBM Cell på knudepunktet 45 nm. IBM sagde, at det ville kræve 40 procent mindre strøm ved samme urhastighed end sin 65 nm forgænger, og at matrisen ville skrumpe med 34 procent. 45 nm cellen kræver mindre afkøling og giver mulighed for billigere produktion, også ved brug af en meget mindre køleplade. Masseproduktionen blev oprindeligt opslået for at begynde i slutningen af 2008, men blev flyttet til begyndelsen af 2009 .
Udsigter over 45 nm
Sony, IBM og Toshiba annoncerede at begynde at arbejde på en celle helt ned til 32 nm i januar 2006, men da processen krymper i fabs normalt sker på en global og ikke en individuel chip skala, var dette kun som en offentlig forpligtelse til at tage Cell til 32 nm.