Microarray analyseteknikker - Microarray analysis techniques

Eksempel på en cirka 40.000 sondeplettet oligo -mikroarray med forstørret indsats for at vise detaljer.

Microarray analyseteknikker anvendes ved fortolkningen af data fra eksperimenter på DNA ( Gene chipanalyse ), RNA og protein microarrays , som tillader forskere til at undersøge ekspressionen tilstand af et stort antal gener - i mange tilfælde en organismes hele genom - i et enkelt eksperiment. Sådanne eksperimenter kan generere meget store mængder data, så forskere kan vurdere den samlede tilstand af en celle eller organisme. Data i så store mængder er svært - hvis ikke umuligt - at analysere uden hjælp af computerprogrammer.

Introduktion

Microarray -dataanalyse er det sidste trin i læsning og behandling af data produceret af en microarray -chip. Prøver gennemgår forskellige processer, herunder oprensning og scanning ved hjælp af mikrochippen, som derefter producerer en stor mængde data, der kræver behandling via computersoftware. Det involverer flere forskellige trin, som beskrevet i billedet herunder. Ændring af et af trinene vil ændre resultatet af analysen, så MAQC -projektet blev oprettet for at identificere et sæt standardstrategier. Virksomheder eksisterer, der bruger MAQC -protokollerne til at udføre en komplet analyse.

De trin, der kræves i et mikroarray -eksperiment

Teknikker

National Center for Toksikologisk Forskning gennemgår mikroarraydata

De fleste mikroarray -producenter, såsom Affymetrix og Agilent , leverer kommerciel dataanalysesoftware sammen med deres mikroarray -produkter. Der er også muligheder med open source, der anvender en række forskellige metoder til analyse af mikroarraydata.

Aggregering og normalisering

Sammenligning af to forskellige arrays eller to forskellige prøver hybridiseret til det samme array indebærer generelt at foretage justeringer for systematiske fejl indført ved forskelle i procedurer og farveintensitetseffekter. Farvenormalisering for to farveopstillinger opnås ofte ved lokal regression . LIMMA indeholder et sæt værktøjer til baggrundskorrektion og skalering, samt en mulighed for gennemsnitlige duplikatspots på dias. En almindelig metode til at evaluere, hvor godt normaliseret et array er, er at plotte et MA -plot af dataene. MA -plots kan produceres ved hjælp af programmer og sprog som R, MATLAB og Excel.

Rå Affy -data indeholder omkring tyve sonder for det samme RNA -mål. Halvdelen af disse er "mismatch spots", som ikke præcist matcher målsekvensen. Disse kan teoretisk måle mængden af uspecifik binding for et givet mål. Robust Multi-array Average (RMA) er en normaliseringsmetode, der ikke udnytter disse mismatch-spots, men alligevel skal opsummere de perfekte matches gennem medianpolering . Den mediane polske algoritme, selvom den er robust, opfører sig forskelligt afhængigt af antallet af analyserede prøver. Kvantil normalisering, også en del af RMA, er en fornuftig tilgang til at normalisere et parti arrays for at gøre yderligere sammenligninger meningsfulde.

Den nuværende Affymetrix MAS5 -algoritme, der bruger både perfekte match- og mismatch -sonder, nyder fortsat popularitet og klarer sig godt i head to head -test.

Flowchart, der viser, hvordan MAS5 -algoritmen fra Agilent fungerer.

Faktoranalyse for Robust Microarray Summarization (FARMS) er en modelbaseret teknik til opsummering af array-data på perfekt match-sondeniveau. Den er baseret på en faktoranalysemodel, for hvilken en Bayesiansk maksimal a posteriori metode optimerer modelparametrene under antagelse af Gaussisk målestøj. Ifølge Affycomp -benchmark overgik FARMS alle andre opsummeringsmetoder med hensyn til følsomhed og specificitet.

Identifikation af signifikant differentielt udtryk

Der findes mange strategier til at identificere array-sonder, der viser et usædvanligt niveau af overudtryk eller underudtryk. Den enkleste er at kalde "signifikant" enhver sonde, der adskiller sig med mindst to gange mellem behandlingsgrupperne. Mere sofistikerede tilgange er ofte relateret til t-tests eller andre mekanismer, der tager både effektstørrelse og variation i betragtning. Mærkeligt nok reproducerer p-værdierne forbundet med bestemte gener sig ikke godt mellem replikateksperimenter, og lister genereret ved lige foldændringer klarer sig meget bedre. Dette repræsenterer en ekstremt vigtig observation, da punktet med at udføre eksperimenter har at gøre med at forudsige generel adfærd. MAQC-gruppen anbefaler at bruge en fold-ændringsvurdering plus en ikke-streng p-værdi-cutoff, der endvidere påpeger, at ændringer i baggrundskorrigerings- og skaleringsprocessen kun har en minimal indvirkning på rangordningen af foldændringsforskelle, men en betydelig indvirkning på p-værdier.

Klynger

Clustering er en data mining -teknik, der bruges til at gruppere gener med lignende udtryksmønstre. Hierarkisk klynge og k-betyder klynger er meget udbredte teknikker i mikroarrayanalyse.

Hierarkisk klynge

Hierarkisk klynge er en statistisk metode til at finde relativt homogene klynger. Hierarkisk klynge består af to separate faser. Indledningsvis beregnes en afstandsmatrix, der indeholder alle de parvise afstande mellem generne. Pearsons korrelation og Spearmans korrelation bruges ofte som skøn mellem forskelle, men andre metoder, f.eks. Manhattan -afstand eller euklidisk afstand , kan også anvendes. I betragtning af antallet af tilgængelige afstandsmål og deres indflydelse på klyngeringsalgoritmeresultaterne har flere undersøgelser sammenlignet og evalueret forskellige afstandsmål for gruppering af mikroarraydata i betragtning af deres iboende egenskaber og robusthed over for støj. Efter beregning af den indledende afstandsmatrix slutter den hierarkiske klynge-algoritme enten (A) iterativt til de to nærmeste klynger, der starter fra enkelte datapunkter (agglomerativ, bottom-up-tilgang, som er temmelig mere almindeligt anvendt), eller (B) partitionsklynger iterativt startende fra det komplette sæt (delende, top-down-tilgang). Efter hvert trin genberegnes en ny afstandsmatrix mellem de nydannede klynger og de andre klynger. Hierarkiske klyngeanalysemetoder omfatter:

Enkelt forbindelse (minimumsmetode, nærmeste nabo)
Gennemsnitlig kobling ( UPGMA ).
Komplet kobling (maksimal metode, længst nabo)

Forskellige undersøgelser har allerede vist empirisk, at single linkage clustering -algoritmen producerer dårlige resultater, når den anvendes til genekspression mikroarraydata og derfor bør undgås.

K-betyder klynge

K-betyder clustering er en algoritme til gruppering af gener eller prøver baseret på mønster i K- grupper. Gruppering sker ved at minimere summen af kvadraterne af afstande mellem dataene og den tilsvarende klynge -centroid . Formålet med K-midler-klynger er således at klassificere data baseret på lignende udtryk. K-betyder klynge-algoritme og nogle af dens varianter (herunder k-medoider ) har vist sig at give gode resultater for genekspressionsdata (i hvert fald bedre end hierarkiske klyngemetoder). Empiriske sammenligninger af k-midler , k-medoider , hierarkiske metoder og forskellige afstandsmål kan findes i litteraturen.

Mønster genkendelse

Kommercielle systemer til gen -netværksanalyse såsom opfindsomhed og Pathway studio skaber visuelle repræsentationer af differentielt udtrykte gener baseret på aktuel videnskabelig litteratur. Ikke-kommercielle værktøjer som FunRich, GenMAPP og Moksiskaan hjælper også med at organisere og visualisere gennetværksdata hentet fra et eller flere mikroarray-eksperimenter. En bred vifte af microarray analyseværktøjer er tilgængelige via BioConductor skrevet i sproget R programmering . Det ofte nævnte SAM -modul og andre mikroarrayværktøjer er tilgængelige via Stanford University. Et andet sæt fås fra Harvard og MIT.

Eksempel på FunRich -værktøjsoutput. Billedet viser resultatet af sammenligning af 4 forskellige gener.

Specialiserede softwareværktøjer til statistisk analyse til bestemmelse af omfanget af over- eller underekspression af et gen i et mikroarray-eksperiment i forhold til en referencetilstand er også blevet udviklet til at hjælpe med at identificere gener eller gensæt forbundet med bestemte fænotyper . En sådan analysemetode, kendt som Gene Set Enrichment Analysis (GSEA), bruger en Kolmogorov -Smirnov -stilstatistik til at identificere grupper af gener, der er reguleret sammen. Denne tredjepartsstatistikpakke tilbyder brugeroplysninger om gener eller gen-sæt af interesse, herunder links til poster i databaser som NCBI's GenBank og kuraterede databaser som Biocarta og Gene Ontology . Værktøj til analyse af proteinkompleksberigelse (COMPLEAT) giver lignende berigelsesanalyse på niveau af proteinkomplekser. Værktøjet kan identificere den dynamiske proteinkompleksregulering under forskellige betingelser eller tidspunkter. Relateret system, PAINT og SCOPE udfører en statistisk analyse af genpromotorregioner, der identificerer over og under repræsentation af tidligere identificerede transkriptionsfaktorresponselementer . Et andet statistisk analyseværktøj er Rank Sum Statistics for Gene Set Collections (RssGsc), der bruger rangsandsynlighedsfordelingsfunktioner til at finde gensæt, der forklarer eksperimentelle data. En yderligere tilgang er kontekstuel metaanalyse, dvs. at finde ud af, hvordan en genklynge reagerer på en række forskellige eksperimentelle sammenhænge. Genevestigator er et offentligt værktøj til at udføre kontekstuel metaanalyse på tværs af kontekster, såsom anatomiske dele, udviklingsstadier og reaktion på sygdomme, kemikalier, belastninger og neoplasmer .

Betydningsanalyse af mikroarrays (SAM)

Signifikansanalyse af mikroarrays (SAM) er en statistisk teknik , etableret i 2001 af Virginia Tusher, Robert Tibshirani og Gilbert Chu , til bestemmelse af, om ændringer i genekspression er statistisk signifikante. Med fremkomsten af DNA -mikroarrays er det nu muligt at måle ekspressionen af tusinder af gener i et enkelt hybridiseringsforsøg. De genererede data er betydelige, og en metode til at sortere ud, hvad der er signifikant, og hvad der ikke er vigtigt. SAM distribueres af Stanford University i en R-pakke .

SAM identificerer statistisk signifikante gener ved at udføre genspecifikke t-test og beregner en statistisk d _j for hvert gen j , som måler styrken af forholdet mellem genekspression og en responsvariabel. Denne analyse anvender ikke-parametrisk statistik , da dataene muligvis ikke følger en normal fordeling . Svarvariablen beskriver og grupperer dataene baseret på eksperimentelle forhold. I denne metode bruges gentagne permutationer af dataene til at bestemme, om ekspressionen af et hvilket som helst gen er signifikant relateret til responsen. Anvendelsen af permutationsbaseret analyse tegner sig for korrelationer i gener og undgår parametriske antagelser om fordelingen af individuelle gener. Dette er en fordel i forhold til andre teknikker (f.eks. ANOVA og Bonferroni ), der antager samme variation og/eller uafhængighed af gener.

Grundlæggende protokol

Udfør mikroarray -eksperimenter - DNA -mikroarray med oligo- og cDNA -primere, SNP -arrays, proteinarrays osv.
Inputekspressionsanalyse i Microsoft Excel - se nedenfor
Kør SAM som et Microsoft Excel-tilføjelsesprogram
Juster Delta -tuningsparameteren for at få et betydeligt antal gener sammen med en acceptabel falsk opdagelsesrate (FDR)) og Vurder prøvestørrelse ved at beregne den gennemsnitlige forskel i udtryk i SAM Plot Controller
Liste over differentieret udtrykte gener (positivt og negativt udtrykte gener)

Kører SAM

SAM kan downloades online på http://www-stat.stanford.edu/~tibs/SAM/ for akademiske og ikke-akademiske brugere efter afslutning af et registreringstrin.
SAM køres som et Excel-tilføjelsesprogram, og SAM-plot-controlleren tillader tilpasning af den falske opdagelsesrate og delta, mens SAM-plot- og SAM-outputfunktionen genererer en liste over betydelige gener, deltatabel og vurdering af stikprøvestørrelser
Permutationer beregnes ud fra antallet af prøver
Blokpermutationer
- Blokke er partier af mikroarrays; for eksempel for otte prøver opdelt i to grupper (kontrol og påvirket) er der 4! = 24 permutationer for hver blok, og det samlede antal permutationer er (24) (24) = 576. Mindst 1000 permutationer anbefales;

antallet af permutationer indstilles af brugeren, når der pålægges korrekte værdier for datasættet til at køre SAM

Svarformater

Typer:

Kvantitativ -reelt værdsat (f.eks. Puls)
Én klasse - tester, om middelgenekspressionen er forskellig fra nul
To klasse - to sæt målinger
- Uparret - måleenheder er forskellige i de to grupper; fx kontrol- og behandlingsgrupper med prøver fra forskellige patienter
- Parret - de samme eksperimentelle enheder måles i de to grupper; fx prøver før og efter behandling fra de samme patienter
Multiklasse - mere end to grupper, der hver indeholder forskellige eksperimentelle enheder; generalisering af to klasse uparret type
Overlevelse - data fra en tid indtil en begivenhed (f.eks. Død eller tilbagefald)
Tidsforløb - hver forsøgsenhed måles på mere end et tidspunkt; eksperimentelle enheder falder ind i et en eller to klasse design
Mønsteropdagelse - der er ikke angivet en eksplicit svarparameter; brugeren angiver eigengene (hovedkomponent) i ekspressionsdataene og behandler det som et kvantitativt svar

Algoritme

SAM beregner en teststatistik for relativ forskel i genekspression baseret på permutationsanalyse af ekspressionsdata og beregner en falsk opdagelsesrate. Programmets hovedberegninger er illustreret herunder.

Den s _o konstant er valgt for at minimere variationskoefficienten for d _i . r _i er lig ekspressionsniveauerne (x) for gen i under y eksperimentelle betingelser.

${\ displaystyle \ mathrm {Falsk \ opdagelse \ sats \ (FDR) = {\ frac {median \ (eller \ 90^{th} \ percentil) \ af \ \#\ af \ falsk \ kaldet \ gener} {tal \ af \ gener \ kaldet \ signifikant}}}}$

Foldændringer (t) er specificeret for at garantere gener kaldet signifikant ændring i det mindste en forud specificeret mængde. Det betyder, at den absolutte værdi af de gennemsnitlige ekspressionsniveauer for et gen under hver af to betingelser skal være større end foldændringen (t) for at blive kaldt positiv og mindre end den inverse af foldændringen (t) for at blive kaldt negativ.

SAM -algoritmen kan angives som:

Bestil teststatistik efter størrelse
For hver permutation beregnes de bestilte null (upåvirkede) scores
Plot den bestilte teststatistik mod de forventede null -scores
Kald hvert gen signifikant, hvis teststatistikkens absolutte værdi for det gen minus den gennemsnitlige teststatistik for det gen er større end en angivet tærskel
Estimere den falske opdagelsesrate baseret på forventede versus observerede værdier

Produktion

Betydelige gensæt
- Positivt gensæt - højere ekspression af de fleste gener i gensættet korrelerer med højere værdier af fænotype y
- Negativt gensæt - lavere ekspression af de fleste gener i gensættet korrelerer med højere værdier af fænotypen y

SAM -funktioner

Data fra Oligo- eller cDNA -arrays, SNP -array, proteinarrays osv. Kan bruges i SAM
Korrelerer ekspressionsdata til kliniske parametre
Korrelerer ekspressionsdata med tiden
Bruger datapermutation til at estimere falsk opdagelsesrate for flere test
Rapporterer lokal falsk opdagelse sats (FDR for gener med en lignende d _jeg som dette gen) og miss satser
Kan arbejde med blokeret design, når behandlinger anvendes inden for forskellige batcher af arrays
Kan justere tærskelbestemmende antal gen kaldet signifikant

Fejlrettelse og kvalitetskontrol

Kvalitetskontrol

Hele arrays kan have åbenbare fejl, der kan påvises ved visuel inspektion, parvis sammenligning med arrays i den samme forsøgsgruppe eller ved analyse af RNA -nedbrydning. Resultaterne kan forbedres ved helt at fjerne disse arrays fra analysen.

Baggrundskorrektion

Afhængigt af typen af array kan signal relateret til uspecifik binding af fluoroforen trækkes fra for at opnå bedre resultater. En tilgang indebærer at trække den gennemsnitlige signalintensitet af området mellem pletter fra. En række forskellige værktøjer til baggrundskorrektion og yderligere analyse er tilgængelige fra TIGR, Agilent ( GeneSpring ) og Ocimum Bio Solutions (Genowiz).

Spotfiltrering

Visuel identifikation af lokale artefakter, såsom tryk- eller vaskefejl, kan ligeledes foreslå fjernelse af individuelle pletter. Dette kan tage en betydelig mængde tid afhængigt af kvaliteten af arrayfremstilling. Desuden kræver nogle procedurer eliminering af alle pletter med en ekspressionsværdi under en bestemt intensitetstærskel.

Languages

In other projects