implementações microprocessador celular - Cell microprocessor implementations
O primeiro comercial microprocessador celular , o SER celular, foi concebido para o PlayStation 3. IBM concebido o PowerXCell 8i para uso no computador Roadrunner .
Conteúdo
Implementação
Primeira Edição celular em 90 nm CMOS
IBM publicou informações sobre duas versões diferentes do celular neste processo, uma amostra de engenharia cedo designado DD1 , e uma versão melhorada designado DD2 destinado à produção.
| Designação | Die Área | divulgados pela primeira vez | Aprimoramento |
|---|---|---|---|
| DD1 | 221 mm² | ISSCC 2005 | |
| DD2 | 235 mm² | Frescos chips de Abril de 2005 | núcleo PPE reforçada |
A principal melhoria em DD2 foi um pequeno alongamento do molde para acomodar um núcleo PPE maior, que é referido como "conter mais recursos de execução / vector SIMD". Algumas informações preliminares lançado pela IBM faz referência a variante DD1. Como resultado, alguns relatos jornalísticos início das capacidades da célula agora diferem de hardware produção.
Planta celular
[Material de Powerpoint que acompanha uma apresentação STI dado por Dr. Peter Hofstee], inclui uma fotografia da Célula DD2 morrer descoberto com fronteiras das unidades funcionais, que também estão legendadas pelo nome, o que revela a discriminação da superfície de silício por unidade de função como se segue:
| unidade de função celular | Área (%) | Descrição |
|---|---|---|
| interface de XDR | 5,7 | interface para a memória do sistema Rambus |
| controlador de memória | 4,4 | gerencia a memória externa e cache L2 |
| cache de 512 KiB L2 | 10.3 | memória cache para o EPI |
| núcleo EPI | 11.1 | processador PowerPC |
| teste | 2,0 | não especificado "lógica de teste e decodificar" |
| BEI | 3.1 | elemento barramento de interligação ligando processadores |
| SPE (cada) x 8 | 6.2 | elemento de coprocessamento sinérgica |
| controlador de I / O | 6,6 | lógica E / S externa |
| Rambus FlexIO | 5,7 | sinalização externa de E / S pinos de I |
SPE planta baixa
Detalhes adicionais relativos à execução SPE interna foram divulgados pelos engenheiros da IBM, incluindo Peter Hofstee , arquiteto-chefe do elemento de processamento sinérgico da IBM, em uma publicação IEEE acadêmica.
Este documento inclui uma fotografia do milímetro SPE 2,54 x 5,81, como implementado em 90 nm SOI . Nesta tecnologia, a SPE contém 21 milhões de transistores, dos quais 14 milhões estão contidos em matrizes (um termo que designa presumivelmente arquivos de registro e a loja local) e 7 milhões de transistores são lógica. Esta fotografia é a descoberto com fronteiras das unidades funcionais, que são também legendadas pelo nome, o que revela a discriminação da superfície de silício por unidade de função como se segue:
| unidade função SPU | Área (%) | Descrição | Tubo |
|---|---|---|---|
| precisão simples | 10.0 | unidade de execução FP precisão simples | até |
| dupla precisão | 4,4 | unidade de execução FP de precisão dupla | até |
| simples fixa | 3.25 | unidade de execução ponto fixo | até |
| controle de emissão | 2,5 | alimenta unidades de execução | |
| macro frente | 3,75 | alimenta unidades de execução | |
| GPR | 6,25 | arquivo de registro de uso geral | |
| permutar | 3.25 | unidade de execução permute | ímpar |
| ramo | 2,5 | unidade de execução ramo | ímpar |
| canal | 6,75 | interface de canal (três blocos discretos) | ímpar |
| LS0-LS3 | 30,0 | quatro blocos de 64 KiB de loja local | ímpar |
| MMU | 4.75 | unidade de gerenciamento de memória | |
| DMA | 7,5 | unidade de acesso direto à memória | |
| BIU | 9 | unidade de interface de bus | |
| RTB | 2,5 | matriz embutido bloco de teste (ABIST) | |
| ATO | 1,6 | unidade atômica para atualizações DMA atômicas | |
| HB | 0,5 | obscurecer |
Compreender os tubos de despacho é importante escrever código eficiente. Na arquitectura SPU, duas instruções podem ser despachados (iniciado), em cada ciclo de relógio usando tubos de despacho designados mesmo e ímpar . Os dois tubos de fornecer diferentes unidades de execução, como mostrado na tabela acima. Como a IBM particionado isso, a maioria das instruções aritméticas executar no mesmo tubo, enquanto a maioria das instruções de memória executar no estranho cachimbo. A unidade permute está intimamente associada com instruções da memória, uma vez que serve para embalar e desembalar estruturas de dados localizados na memória no formato de múltipla operando SIMD que a SPU calcula em mais eficiente.
Ao contrário de outros desenhos processador proporcionando tubos de execução distintos, cada instrução SPU só pode enviar em um tubo designado. Em projetos concorrentes, mais do que um tubo pode ser projetado para lidar com instruções extremamente comuns, tais como add , permitindo mais dois ou mais destas instruções a serem executadas simultaneamente, que podem servir para aumentar a eficiência em fluxos de trabalho desequilibradas. De acordo com a filosofia de design extremamente espartano, para a SPU há unidades de execução são multiplamente provisionado.
Compreender as limitações do design restritivo dois gasoduto é um dos conceitos-chave de um programador deve agarrar para escrever código SPU eficiente com o menor nível de abstração. Para os programadores que trabalham em níveis mais altos de abstração, um bom compilador irá equilibrar automaticamente a simultaneidade gasoduto sempre que possível.
potência e desempenho SPE
Como testado por IBM sob uma transformação pesado e a carga de trabalho de iluminação [IPC média de 1.4], o perfil desta aplicação para um único processador SPU desempenho é qualificado como segue:
| Voltagem (V) | Frequência (GHz) | Potência (W) | Temp matriz (C) |
|---|---|---|---|
| 0,9 | 2,0 | 1 | 25 |
| 0,9 | 3,0 | 2 | 27 |
| 1.0 | 3.8 | 3 | 31 |
| 1.1 | 4.0 | 4 | 38 |
| 1,2 | 4,4 | 7 | 47 |
| 1.3 | 5 | 11 | 63 |
A entrada para a operação de 2.0 GHz a 0,9 V representa uma configuração de baixa potência. Outras entradas mostram a frequência de funcionamento estável de pico conseguida com cada incremento de tensão. Como regra geral, em circuitos de CMOS, a dissipação de energia aumenta numa relação aproximada de V ^ 2 * F, o quadrado dos tempos de tensão a frequência de operação.
Embora as medições de potência fornecidos pelos autores da IBM carecem de precisão eles transmitem um bom senso da tendência geral. Estas figuras mostram a parte é capaz de rodar por cima de 5 GHz, sob condições de laboratório de teste, embora a uma temperatura da matriz demasiado quente para configurações comerciais padrão. Os primeiros processadores celulares feitas comercialmente disponíveis foram avaliados pela IBM para executar a 3,2 GHz, uma velocidade de operação, onde este gráfico sugere uma temperatura da fieira na proximidade SPU confortável de 30 graus.
Note-se que uma única SPU representa 6% da área molde do processador celular. Os números de potência indicados na tabela acima representam apenas uma pequena parte do orçamento global de energia.
IBM anunciou publicamente sua intenção de implementar celular em uma tecnologia futura abaixo do nó 90 nm para melhorar o consumo de energia. Consumo de energia reduzido pode , potencialmente, permitir que o desenho existente para ser impulsionado a 5 GHz ou acima sem ultrapassar as limitações térmicos de produtos existentes.
Celular a 65 nm
O primeiro de contracção de celular estava no nó 65 nm. A redução de 65 nm reduziu os 230 mm² existentes die com base no processo de 90 nm para metade do seu tamanho actual, cerca de 120 mm², reduzindo grandemente o custo de fabrico da IBM bem.
Em 12 de Março de 2007, a IBM anunciou que começou a produzir 65 células nm em sua East Fishkill fab. Os chips produzidos existem, aparentemente, só para própria celular IBMS lâmina de servidores, que foram os primeiros a conseguir as células 65 nm. Sony introduzida a terceira geração do PS3 em Novembro de 2007, o modelo de 40GB sem PS2-compatibilidade, que foi confirmada a usar a célula 65 nm. Graças ao celular encolhido, o consumo de energia foi reduzida de 200W a 135W.
Na primeira, foi apenas conhecido que o relógio de 65 nm-Cells até 6 GHz e rodar em 1.3V tensão do núcleo, como demonstrado na ISSCC 2007. Isto teria dado o chip de um desempenho máximo teórico de 384 GFLOPS em FP8 precisão trimestre ( 48 GFLOPS em FP64 dupla precisão), uma melhoria significativa ao pico 204.8 GFLOPS (25.6GFLOPs FP64 dupla precisão) que um 90 nm celular de 3,2 GHz poderia fornecer com 8 SPUs activo. IBM anunciou ainda implementou novos recursos de economia de energia e uma fonte de alimentação dupla para a matriz SRAM. Esta versão ainda não foi o "Cell +" longo rumores com desempenho de ponto flutuante de precisão dupla reforçada, que vi pela primeira vez a luz do dia meados de 2008 no supercomputador Roadrunner na forma de QS22 lâminas PowerXCell. Embora IBM falado e ainda mostrou células superior-clock antes, velocidade de relógio manteve-se constante em 3,2 GHz, até mesmo para a precisão dupla habilitado "Cell +" do Roadrunner. Mantendo-se constante clockspeed, IBM, em vez disso optou por reduzir o consumo de energia. Aglomerados PowerXCell até mesmo melhores IBMs Blue Gene Clusters (371 MFLOPS / Watt), que são muito mais potência eficiente já que os clusters formados por CPUs convencional (265 MFLOPS / Watt e inferior).
edições futuras em CMOS
Perspectivas a 45 nm
No ISSCC 2008, a IBM anunciou celular no nó de 45 nm. IBM disse que exigiria menos 40 por cento de energia ao mesmo clockspeed do que o seu antecessor de 65 nm e que a área de matriz iria reduzir em 34 por cento. A Célula de 45 nm requer menos arrefecimento e permite uma produção mais barata, também através da utilização de um dissipador de calor muito menor. A produção em massa foi inicialmente encaixados para começar no final de 2008, mas foi transferido para o início de 2009 .
Perspectivas para além de 45 nm
Sony, IBM e Toshiba anunciou para começar a trabalhar em um celular tão pequenas quanto 32 nm em janeiro de 2006, mas desde processo encolhe em fábricas geralmente acontecem em uma escala de chip global individual e não, este era apenas como um compromisso público para levar celular para 32 nm.