implementações microprocessador celular - Cell microprocessor implementations

O primeiro comercial microprocessador celular , o SER celular, foi concebido para o PlayStation 3. IBM concebido o PowerXCell 8i para uso no computador Roadrunner .

Implementação

Primeira Edição celular em 90 nm CMOS

IBM publicou informações sobre duas versões diferentes do celular neste processo, uma amostra de engenharia cedo designado DD1 , e uma versão melhorada designado DD2 destinado à produção.

Variantes celular conhecido em 90 nm Processo
Designação Die Área divulgados pela primeira vez Aprimoramento
DD1 221 mm² ISSCC 2005
DD2 235 mm² Frescos chips de Abril de 2005 núcleo PPE reforçada

A principal melhoria em DD2 foi um pequeno alongamento do molde para acomodar um núcleo PPE maior, que é referido como "conter mais recursos de execução / vector SIMD". Algumas informações preliminares lançado pela IBM faz referência a variante DD1. Como resultado, alguns relatos jornalísticos início das capacidades da célula agora diferem de hardware produção.

Planta celular

[Material de Powerpoint que acompanha uma apresentação STI dado por Dr. Peter Hofstee], inclui uma fotografia da Célula DD2 morrer descoberto com fronteiras das unidades funcionais, que também estão legendadas pelo nome, o que revela a discriminação da superfície de silício por unidade de função como se segue:


Função celular Unidades e Pegada
unidade de função celular Área (%) Descrição
interface de XDR 5,7 interface para a memória do sistema Rambus
controlador de memória 4,4 gerencia a memória externa e cache L2
cache de 512 KiB L2 10.3 memória cache para o EPI
núcleo EPI 11.1 processador PowerPC
teste 2,0 não especificado "lógica de teste e decodificar"
BEI 3.1 elemento barramento de interligação ligando processadores
SPE (cada) x 8 6.2 elemento de coprocessamento sinérgica
controlador de I / O 6,6 lógica E / S externa
Rambus FlexIO 5,7 sinalização externa de E / S pinos de I

SPE planta baixa

Detalhes adicionais relativos à execução SPE interna foram divulgados pelos engenheiros da IBM, incluindo Peter Hofstee , arquiteto-chefe do elemento de processamento sinérgico da IBM, em uma publicação IEEE acadêmica.

Este documento inclui uma fotografia do milímetro SPE 2,54 x 5,81, como implementado em 90 nm SOI . Nesta tecnologia, a SPE contém 21 milhões de transistores, dos quais 14 milhões estão contidos em matrizes (um termo que designa presumivelmente arquivos de registro e a loja local) e 7 milhões de transistores são lógica. Esta fotografia é a descoberto com fronteiras das unidades funcionais, que são também legendadas pelo nome, o que revela a discriminação da superfície de silício por unidade de função como se segue:

Unidades de função SPU e Pegada
unidade função SPU Área (%) Descrição Tubo
precisão simples 10.0 unidade de execução FP precisão simples até
dupla precisão 4,4 unidade de execução FP de precisão dupla até
simples fixa 3.25 unidade de execução ponto fixo até
controle de emissão 2,5 alimenta unidades de execução
macro frente 3,75 alimenta unidades de execução
GPR 6,25 arquivo de registro de uso geral
permutar 3.25 unidade de execução permute ímpar
ramo 2,5 unidade de execução ramo ímpar
canal 6,75 interface de canal (três blocos discretos) ímpar
LS0-LS3 30,0 quatro blocos de 64 KiB de loja local ímpar
MMU 4.75 unidade de gerenciamento de memória
DMA 7,5 unidade de acesso direto à memória
BIU 9 unidade de interface de bus
RTB 2,5 matriz embutido bloco de teste (ABIST)
ATO 1,6 unidade atômica para atualizações DMA atômicas
HB 0,5 obscurecer

Compreender os tubos de despacho é importante escrever código eficiente. Na arquitectura SPU, duas instruções podem ser despachados (iniciado), em cada ciclo de relógio usando tubos de despacho designados mesmo e ímpar . Os dois tubos de fornecer diferentes unidades de execução, como mostrado na tabela acima. Como a IBM particionado isso, a maioria das instruções aritméticas executar no mesmo tubo, enquanto a maioria das instruções de memória executar no estranho cachimbo. A unidade permute está intimamente associada com instruções da memória, uma vez que serve para embalar e desembalar estruturas de dados localizados na memória no formato de múltipla operando SIMD que a SPU calcula em mais eficiente.

Ao contrário de outros desenhos processador proporcionando tubos de execução distintos, cada instrução SPU só pode enviar em um tubo designado. Em projetos concorrentes, mais do que um tubo pode ser projetado para lidar com instruções extremamente comuns, tais como add , permitindo mais dois ou mais destas instruções a serem executadas simultaneamente, que podem servir para aumentar a eficiência em fluxos de trabalho desequilibradas. De acordo com a filosofia de design extremamente espartano, para a SPU há unidades de execução são multiplamente provisionado.

Compreender as limitações do design restritivo dois gasoduto é um dos conceitos-chave de um programador deve agarrar para escrever código SPU eficiente com o menor nível de abstração. Para os programadores que trabalham em níveis mais altos de abstração, um bom compilador irá equilibrar automaticamente a simultaneidade gasoduto sempre que possível.

potência e desempenho SPE

Como testado por IBM sob uma transformação pesado e a carga de trabalho de iluminação [IPC média de 1.4], o perfil desta aplicação para um único processador SPU desempenho é qualificado como segue:

Relação de velocidade até à temperatura
Voltagem (V) Frequência (GHz) Potência (W) Temp matriz (C)
0,9 2,0 1 25
0,9 3,0 2 27
1.0 3.8 3 31
1.1 4.0 4 38
1,2 4,4 7 47
1.3 5 11 63

A entrada para a operação de 2.0 GHz a 0,9 V representa uma configuração de baixa potência. Outras entradas mostram a frequência de funcionamento estável de pico conseguida com cada incremento de tensão. Como regra geral, em circuitos de CMOS, a dissipação de energia aumenta numa relação aproximada de V ^ 2 * F, o quadrado dos tempos de tensão a frequência de operação.

Embora as medições de potência fornecidos pelos autores da IBM carecem de precisão eles transmitem um bom senso da tendência geral. Estas figuras mostram a parte é capaz de rodar por cima de 5 GHz, sob condições de laboratório de teste, embora a uma temperatura da matriz demasiado quente para configurações comerciais padrão. Os primeiros processadores celulares feitas comercialmente disponíveis foram avaliados pela IBM para executar a 3,2 GHz, uma velocidade de operação, onde este gráfico sugere uma temperatura da fieira na proximidade SPU confortável de 30 graus.

Note-se que uma única SPU representa 6% da área molde do processador celular. Os números de potência indicados na tabela acima representam apenas uma pequena parte do orçamento global de energia.

IBM anunciou publicamente sua intenção de implementar celular em uma tecnologia futura abaixo do nó 90 nm para melhorar o consumo de energia. Consumo de energia reduzido pode , potencialmente, permitir que o desenho existente para ser impulsionado a 5 GHz ou acima sem ultrapassar as limitações térmicos de produtos existentes.

Celular a 65 nm

O primeiro de contracção de celular estava no nó 65 nm. A redução de 65 nm reduziu os 230 mm² existentes die com base no processo de 90 nm para metade do seu tamanho actual, cerca de 120 mm², reduzindo grandemente o custo de fabrico da IBM bem.

Em 12 de Março de 2007, a IBM anunciou que começou a produzir 65 células nm em sua East Fishkill fab. Os chips produzidos existem, aparentemente, só para própria celular IBMS lâmina de servidores, que foram os primeiros a conseguir as células 65 nm. Sony introduzida a terceira geração do PS3 em Novembro de 2007, o modelo de 40GB sem PS2-compatibilidade, que foi confirmada a usar a célula 65 nm. Graças ao celular encolhido, o consumo de energia foi reduzida de 200W a 135W.

Na primeira, foi apenas conhecido que o relógio de 65 nm-Cells até 6 GHz e rodar em 1.3V tensão do núcleo, como demonstrado na ISSCC 2007. Isto teria dado o chip de um desempenho máximo teórico de 384 GFLOPS em FP8 precisão trimestre ( 48 GFLOPS em FP64 dupla precisão), uma melhoria significativa ao pico 204.8 GFLOPS (25.6GFLOPs FP64 dupla precisão) que um 90 nm celular de 3,2 GHz poderia fornecer com 8 SPUs activo. IBM anunciou ainda implementou novos recursos de economia de energia e uma fonte de alimentação dupla para a matriz SRAM. Esta versão ainda não foi o "Cell +" longo rumores com desempenho de ponto flutuante de precisão dupla reforçada, que vi pela primeira vez a luz do dia meados de 2008 no supercomputador Roadrunner na forma de QS22 lâminas PowerXCell. Embora IBM falado e ainda mostrou células superior-clock antes, velocidade de relógio manteve-se constante em 3,2 GHz, até mesmo para a precisão dupla habilitado "Cell +" do Roadrunner. Mantendo-se constante clockspeed, IBM, em vez disso optou por reduzir o consumo de energia. Aglomerados PowerXCell até mesmo melhores IBMs Blue Gene Clusters (371 MFLOPS / Watt), que são muito mais potência eficiente já que os clusters formados por CPUs convencional (265 MFLOPS / Watt e inferior).

edições futuras em CMOS

Perspectivas a 45 nm

No ISSCC 2008, a IBM anunciou celular no nó de 45 nm. IBM disse que exigiria menos 40 por cento de energia ao mesmo clockspeed do que o seu antecessor de 65 nm e que a área de matriz iria reduzir em 34 por cento. A Célula de 45 nm requer menos arrefecimento e permite uma produção mais barata, também através da utilização de um dissipador de calor muito menor. A produção em massa foi inicialmente encaixados para começar no final de 2008, mas foi transferido para o início de 2009 .

Perspectivas para além de 45 nm

Sony, IBM e Toshiba anunciou para começar a trabalhar em um celular tão pequenas quanto 32 nm em janeiro de 2006, mas desde processo encolhe em fábricas geralmente acontecem em uma escala de chip global individual e não, este era apenas como um compromisso público para levar celular para 32 nm.

Referências