Técnicas de análise de microarray - Microarray analysis techniques

Exemplo de um microarray de oligo manchado de aproximadamente 40.000 sonda com inserção ampliada para mostrar detalhes.

As técnicas de análise de microarray são usadas na interpretação dos dados gerados a partir de experimentos em DNA ( Gene chip analysis ), RNA e microarrays de proteínas , que permitem aos pesquisadores investigar o estado de expressão de um grande número de genes - em muitos casos, o genoma inteiro de um organismo - em um único experimento. Esses experimentos podem gerar grandes quantidades de dados, permitindo aos pesquisadores avaliar o estado geral de uma célula ou organismo. Dados em tão grandes quantidades são difíceis - senão impossíveis - de analisar sem a ajuda de programas de computador.

Introdução

A análise de dados de microarray é a etapa final na leitura e processamento de dados produzidos por um chip de microarray. As amostras passam por vários processos, incluindo purificação e digitalização usando o microchip, que então produz uma grande quantidade de dados que requerem processamento por meio de software de computador. Envolve várias etapas distintas, conforme descrito na imagem abaixo. Alterar qualquer uma das etapas mudará o resultado da análise, portanto, o Projeto MAQC foi criado para identificar um conjunto de estratégias padrão. Existem empresas que usam os protocolos MAQC para realizar uma análise completa.

As etapas necessárias em um experimento de microarray

Técnicas

Cientista do National Center for Toxicological Research analisa dados de microarray

A maioria dos fabricantes de microarray, como Affymetrix e Agilent , fornece software comercial de análise de dados junto com seus produtos de microarray. Também existem opções de código aberto que utilizam uma variedade de métodos para analisar dados de microarray.

Agregação e normalização

Comparar duas matrizes diferentes ou duas amostras diferentes hibridizadas na mesma matriz geralmente envolve fazer ajustes para erros sistemáticos introduzidos por diferenças nos procedimentos e efeitos de intensidade de corante. A normalização do corante para matrizes de duas cores geralmente é obtida por regressão local . O LIMMA fornece um conjunto de ferramentas para correção e dimensionamento de fundo, bem como uma opção para fazer a média de pontos duplicados no slide. Um método comum para avaliar o quão bem normalizada é uma matriz é traçar um gráfico MA dos dados. Os gráficos MA podem ser produzidos usando programas e linguagens como R, MATLAB e Excel.

Os dados brutos do Affy contêm cerca de vinte sondas para o mesmo RNA alvo. Metade deles são "pontos incompatíveis", que não correspondem precisamente à sequência de destino. Teoricamente, eles podem medir a quantidade de ligações inespecíficas para um determinado alvo. Robust Multi-array Average (RMA) é uma abordagem de normalização que não tira proveito desses pontos de incompatibilidade, mas ainda deve resumir as correspondências perfeitas por meio do polimento de mediana . O algoritmo polonês de mediana, embora robusto, se comporta de maneira diferente dependendo do número de amostras analisadas. A normalização de quantis, também parte do RMA, é uma abordagem sensata para normalizar um lote de matrizes a fim de fazer outras comparações significativas.

O algoritmo Affymetrix MAS5 atual, que usa pontas de prova de correspondência perfeita e incompatibilidade, continua a gozar de popularidade e se sai bem em testes diretos.

Fluxograma mostrando como funciona o algoritmo MAS5 da Agilent.

A Análise Fatorial para Sumarização Robusta de Microarray (FARMS) é uma técnica baseada em modelo para resumir dados de array em nível de sonda de correspondência perfeita. É baseado em um modelo de análise fatorial para o qual um método máximo Bayesiano a posteriori otimiza os parâmetros do modelo sob a suposição de ruído de medição gaussiano. De acordo com o benchmark Affycomp, o FARMS superou todos os outros métodos de sumarização no que diz respeito à sensibilidade e especificidade.

Identificação de expressão diferencial significativa

Existem muitas estratégias para identificar sondas de matriz que mostram um nível incomum de superexpressão ou subexpressão. O mais simples é chamar de "significativo" qualquer teste que difira em uma média de pelo menos duas vezes entre os grupos de tratamento. Abordagens mais sofisticadas estão frequentemente relacionadas a testes t ou outros mecanismos que levam em consideração tanto o tamanho do efeito quanto a variabilidade. Curiosamente, os valores-p associados a genes específicos não se reproduzem bem entre os experimentos replicados, e as listas geradas por alteração de dobra direta têm um desempenho muito melhor. Isso representa uma observação extremamente importante, uma vez que o objetivo de realizar experimentos tem a ver com a previsão do comportamento geral. O grupo MAQC recomenda o uso de uma avaliação de alteração de dobra mais um corte de valor p não rigoroso, apontando ainda que as alterações na correção de fundo e processo de dimensionamento têm apenas um impacto mínimo na ordem de classificação das diferenças de alteração de dobra, mas um impacto substancial sobre valores p.

Clustering

Clustering é uma técnica de mineração de dados usada para agrupar genes com padrões de expressão semelhantes. Agrupamento hierárquico , e k-meios de agrupamento são técnicas de análise de microarray amplamente utilizado.

Agrupamento hierárquico

O agrupamento hierárquico é um método estatístico para localizar clusters relativamente homogêneos . O clustering hierárquico consiste em duas fases separadas. Inicialmente, uma matriz de distância contendo todas as distâncias de pares entre os genes é calculada. De correlação de Pearson e correlação de Spearman são frequentemente utilizados como estimativas de dissimilaridade, mas outros métodos, como Manhattan distância ou distância euclidiana , também pode ser aplicada. Dado o número de medidas de distância disponíveis e sua influência nos resultados do algoritmo de agrupamento, diversos estudos compararam e avaliaram diferentes medidas de distância para o agrupamento de dados de microarray, considerando suas propriedades intrínsecas e robustez ao ruído. Após o cálculo da matriz de distância inicial, o algoritmo de agrupamento hierárquico (A) une iterativamente os dois clusters mais próximos a partir de pontos de dados únicos (aglomerativo, abordagem ascendente, que é mais comumente usado) ou (B) particiona clusters iterativamente começando do conjunto completo (divisão, abordagem de cima para baixo). Após cada etapa, uma nova matriz de distância entre os clusters recém-formados e os outros clusters é recalculada. Os métodos hierárquicos de análise de cluster incluem:

Ligação única (método mínimo, vizinho mais próximo)
Ligação média ( UPGMA ).
Ligação completa (método máximo, vizinho mais distante)

Diferentes estudos já mostraram empiricamente que o algoritmo de agrupamento de ligação única produz resultados ruins quando empregado para dados de microarray de expressão gênica e, portanto, deve ser evitado.

Agrupamento K-means

O agrupamento K-means é um algoritmo para agrupar genes ou amostras com base no padrão em grupos K. O agrupamento é feito minimizando a soma dos quadrados das distâncias entre os dados e o centroide do cluster correspondente . Portanto, o objetivo do agrupamento K-means é classificar os dados com base em expressões semelhantes. O algoritmo de agrupamento K-means e algumas de suas variantes (incluindo k-medoides ) mostraram produzir bons resultados para dados de expressão gênica (pelo menos melhores do que métodos de agrupamento hierárquico). Comparações empíricas de k-médias , k-medoides , métodos hierárquicos e diferentes medidas de distância podem ser encontradas na literatura.

Reconhecimento de padrões

Sistemas comerciais para análise de rede de genes, como o estúdio Ingenuity e Pathway, criam representações visuais de genes expressos diferencialmente com base na literatura científica atual. Ferramentas não comerciais, tais como FunRich, GenMAPP e Moksiskaan também ajudar na organização e visualização de dados da rede de genes adquiridos a partir de uma ou várias experiências microarray. Uma grande variedade de ferramentas de análise de microarray estão disponíveis através Bioconductor escrito na linguagem de programação R . O módulo SAM frequentemente citado e outras ferramentas de microarray estão disponíveis na Universidade de Stanford. Outro conjunto está disponível em Harvard e MIT.

Exemplo de saída da ferramenta FunRich. A imagem mostra o resultado da comparação de 4 genes diferentes.

Ferramentas de software especializadas para análise estatística para determinar a extensão da super ou subexpressão de um gene em um experimento de microarray em relação a um estado de referência também foram desenvolvidas para auxiliar na identificação de genes ou conjuntos de genes associados a fenótipos específicos . Um desses métodos de análise, conhecido como Gene Set Enrichment Analysis (GSEA), usa uma estatística do tipo Kolmogorov-Smirnov para identificar grupos de genes que são regulados juntos. Este pacote de estatísticas de terceiros oferece ao usuário informações sobre os genes ou conjuntos de genes de interesse, incluindo links para entradas em bancos de dados como o GenBank do NCBI e bancos de dados com curadoria, como Biocarta e Gene Ontology . A ferramenta de análise de enriquecimento de complexo de proteínas (COMPLEAT) fornece análise de enriquecimento semelhante no nível de complexos de proteínas. A ferramenta pode identificar a regulação dinâmica do complexo de proteínas sob diferentes condições ou pontos de tempo. Os sistemas relacionados, PAINT e SCOPE realizam uma análise estatística nas regiões promotoras do gene, identificando sobre e sob representação de elementos de resposta do fator de transcrição previamente identificados . Outra ferramenta de análise estatística é Estatísticas de soma de classificação para coleções de conjuntos de genes (RssGsc), que usa funções de distribuição de probabilidade de soma de classificação para encontrar conjuntos de genes que explicam os dados experimentais. Uma outra abordagem é a meta-análise contextual, ou seja, descobrir como um agrupamento de genes responde a uma variedade de contextos experimentais. Genevestigator é uma ferramenta pública para realizar meta-análises contextuais em contextos como partes anatômicas, estágios de desenvolvimento e resposta a doenças, produtos químicos, estresses e neoplasias .

Análise de significância de microarrays (SAM)

A análise de significância de microarrays (SAM) é uma técnica estatística , estabelecida em 2001 por Virginia Tusher, Robert Tibshirani e Gilbert Chu , para determinar se as mudanças na expressão gênica são estatisticamente significativas. Com o advento dos microarrays de DNA , agora é possível medir a expressão de milhares de genes em um único experimento de hibridização. Os dados gerados são consideráveis e um método para separar o que é significativo e o que não é é essencial. SAM é distribuído pela Universidade de Stanford , em um pacote-R .

SAM identifica genes estatisticamente significativos realizando testes t específicos de genes e calcula uma estatística d _j para cada gene j , que mede a força da relação entre a expressão do gene e uma variável de resposta. Esta análise utiliza estatísticas não paramétricas , uma vez que os dados podem não seguir uma distribuição normal . A variável de resposta descreve e agrupa os dados com base nas condições experimentais. Neste método, permutações repetidas dos dados são usadas para determinar se a expressão de qualquer gene é significativa em relação à resposta. O uso de análise baseada em permutação é responsável por correlações em genes e evita suposições paramétricas sobre a distribuição de genes individuais. Esta é uma vantagem sobre outras técnicas (por exemplo, ANOVA e Bonferroni ), que assumem igual variância e / ou independência de genes.

Protocolo básico

Realize experimentos de microarray - microarray de DNA com oligo e primers de cDNA, arranjos SNP, arranjos de proteínas, etc.
Análise de expressão de entrada no Microsoft Excel - veja abaixo
Execute o SAM como um suplemento do Microsoft Excel
Ajuste o parâmetro de ajuste Delta para obter um número significativo de genes, juntamente com uma taxa de descoberta falsa aceitável (FDR)) e avalie o tamanho da amostra calculando a diferença média na expressão no controlador SAM Plot
Listar genes expressos diferencialmente (genes expressos positiva e negativamente)

Executando SAM

O SAM está disponível para download online em http://www-stat.stanford.edu/~tibs/SAM/ para usuários acadêmicos e não acadêmicos após a conclusão de uma etapa de registro.
SAM é executado como um complemento do Excel, e o controlador de gráfico SAM permite a personalização da taxa de descoberta falsa e delta, enquanto o gráfico de SAM e a funcionalidade de saída de SAM geram uma lista de genes significativos, tabela delta e avaliação de tamanhos de amostra
As permutações são calculadas com base no número de amostras
Bloquear Permutações
- Os blocos são lotes de microarrays; por exemplo, para oito amostras divididas em dois grupos (controle e afetado), existem 4! = 24 permutações para cada bloco e o número total de permutações é (24) (24) = 576. Recomenda-se um mínimo de 1000 permutações;

o número de permutações é definido pelo usuário ao atribuir valores corretos para o conjunto de dados para executar o SAM

Formatos de resposta

Tipos:

Quantitativo - valor real (como frequência cardíaca)
Uma classe - testa se a expressão genética média difere de zero
Duas classes - dois conjuntos de medidas
- Não pareado - as unidades de medida são diferentes nos dois grupos; por exemplo, grupos de controle e tratamento com amostras de diferentes pacientes
- Emparelhados - as mesmas unidades experimentais são medidas nos dois grupos; por exemplo, amostras antes e depois do tratamento dos mesmos pacientes
Multiclasse - mais de dois grupos, cada um contendo unidades experimentais diferentes; generalização do tipo de duas classes não emparelhadas
Sobrevivência - dados de um tempo até um evento (por exemplo, morte ou recaída)
Curso de tempo - cada unidade experimental é medida em mais de um ponto no tempo; unidades experimentais se enquadram em um projeto de uma ou duas classes
Descoberta de padrão - nenhum parâmetro de resposta explícito é especificado; o usuário especifica eigengene (componente principal) dos dados de expressão e o trata como uma resposta quantitativa

Algoritmo

SAM calcula uma estatística de teste para a diferença relativa na expressão do gene com base na análise de permutação dos dados de expressão e calcula uma taxa de descoberta falsa. Os principais cálculos do programa são ilustrados a seguir.

A constante s _o é escolhida para minimizar o coeficiente de variação de d _i . r _i é igual aos níveis de expressão (x) para o gene i sob y condições experimentais.

${\ displaystyle \ mathrm {False \ discovery \ rate \ (FDR) = {\ frac {Mediana \ (ou \ 90 ^ {th} \ percentil) \ of \ \ # \ of \ falsely \ called \ genes} {Number \ de \ genes \ chamados \ significativos}}}}$

As alterações de dobramento (t) são especificadas para garantir genes chamados de alteração significativa em pelo menos uma quantidade pré-especificada. Isso significa que o valor absoluto dos níveis médios de expressão de um gene em cada uma das duas condições deve ser maior do que a variação (t) para ser chamado de positivo e menor que o inverso da variação (t) para ser chamado de negativo.

O algoritmo SAM pode ser declarado como:

Ordenar estatísticas de teste de acordo com a magnitude
Para cada permutação, calcule as pontuações nulas ordenadas (não afetadas)
Plote a estatística de teste ordenada em relação às pontuações nulas esperadas
Chame cada gene de significativo se o valor absoluto da estatística de teste para aquele gene menos a estatística de teste média para aquele gene for maior do que um limite declarado
Estimar a taxa de descoberta falsa com base nos valores esperados e observados

Saída

Conjuntos de genes significativos
- Conjunto de genes positivos - a expressão mais alta da maioria dos genes no conjunto de genes se correlaciona com valores mais altos do fenótipo y
- Conjunto de genes negativos - a expressão mais baixa da maioria dos genes no conjunto de genes se correlaciona com valores mais altos do fenótipo y

Recursos do SAM

Os dados de Oligo ou matrizes de cDNA, matriz SNP, matrizes de proteínas, etc. podem ser utilizados em SAM
Correlaciona dados de expressão a parâmetros clínicos
Correlaciona os dados da expressão com o tempo
Usa permutação de dados para estimar a taxa de descoberta falsa para vários testes
Relata a taxa de descoberta falsa local (o FDR para genes com um d _i semelhante ao desse gene) e taxas de falha
Pode funcionar com design bloqueado para quando os tratamentos são aplicados em diferentes lotes de matrizes
Pode ajustar o limite determinando o número de gene chamado significativo

Correção de erros e controle de qualidade

Controle de qualidade

Matrizes inteiras podem ter falhas óbvias detectáveis por inspeção visual, comparações de pares com matrizes no mesmo grupo experimental ou por análise de degradação de RNA. Os resultados podem melhorar removendo essas matrizes inteiramente da análise.

Correção de fundo

Dependendo do tipo de matriz, o sinal relacionado à ligação não específica do fluoróforo pode ser subtraído para obter melhores resultados. Uma abordagem envolve subtrair a intensidade média do sinal da área entre os pontos. Uma variedade de ferramentas para correção de fundo e análises adicionais estão disponíveis no TIGR, Agilent ( GeneSpring ) e Ocimum Bio Solutions (Genowiz).

Filtragem Spot

A identificação visual de artefatos locais, como defeitos de impressão ou lavagem, também pode sugerir a remoção de manchas individuais. Isso pode levar uma quantidade substancial de tempo, dependendo da qualidade da fabricação da matriz. Além disso, alguns procedimentos exigem a eliminação de todos os pontos com um valor de expressão abaixo de um determinado limite de intensidade.

Languages

In other projects