Techniky mikročipové analýzy - Microarray analysis techniques

Příklad oligo microarray s přibližně 40 000 skvrnami na sondě se zvětšenou vložkou pro zobrazení detailů.

Techniky mikročipové analýzy se používají k interpretaci dat generovaných z experimentů na DNA ( analýza genových čipů ), RNA a proteinových mikročipech , které umožňují vědcům zkoumat stav exprese velkého počtu genů - v mnoha případech celého genomu organismu - v jednom experimentu. Takové experimenty mohou generovat velmi velké množství dat, což vědcům umožňuje posoudit celkový stav buňky nebo organismu. Data v tak velkém množství je obtížné - ne -li nemožné - analyzovat bez pomoci počítačových programů.

Úvod

Analýza mikročipových dat je posledním krokem při čtení a zpracování dat vytvářených mikročipovým čipem. Vzorky procházejí různými procesy, včetně čištění a skenování pomocí mikročipu, který pak produkuje velké množství dat, která vyžadují zpracování prostřednictvím počítačového softwaru. Zahrnuje několik odlišných kroků, jak je uvedeno na obrázku níže. Změnou kteréhokoli z těchto kroků se změní výsledek analýzy, takže projekt MAQC byl vytvořen za účelem identifikace souboru standardních strategií. Existují společnosti, které používají protokoly MAQC k provedení kompletní analýzy.

Kroky požadované v experimentu s mikročipem

Techniky

Vědec Národního centra pro toxikologický výzkum zkoumá data z mikroarray

Většina výrobců microarray, jako jsou Affymetrix a Agilent , poskytuje vedle svých produktů microarray software pro analýzu komerčních dat. Existují také možnosti open source, které využívají řadu metod pro analýzu dat microarray.

Agregace a normalizace

Srovnání dvou různých polí nebo dvou různých vzorků hybridizovaných do stejného pole obecně zahrnuje úpravu systematických chyb způsobených rozdíly v postupech a efekty intenzity barviva. Normalizace barviva pro dvě pole barev je často dosažena lokální regresí . LIMMA poskytuje sadu nástrojů pro korekci pozadí a změnu měřítka a také možnost průměrovat duplicitní místa na snímku. Běžnou metodou pro vyhodnocení toho, jak dobře je pole normalizované, je vykreslit diagram dat MA . Grafy MA lze vytvářet pomocí programů a jazyků, jako je R, MATLAB a Excel.

Data Raw Affy obsahují asi dvacet sond pro stejný cíl RNA. Polovina z nich jsou „neshodná místa“, která přesně neodpovídají cílové sekvenci. Ty mohou teoreticky měřit množství nespecifické vazby pro daný cíl. Robust Multi-array Average (RMA) je normalizační přístup, který nevyužívá výhody těchto neshodných míst, ale přesto musí shrnout dokonalé shody prostřednictvím mediánu lesku . Alianční algoritmus leštění, přestože je robustní, se chová odlišně v závislosti na počtu analyzovaných vzorků. Kvantilní normalizace, rovněž součást RMA, je rozumným přístupem k normalizaci dávky polí, aby měla další srovnání smysl.

Současný algoritmus Affymetrix MAS5, který využívá sondy s dokonalou shodou i nesouladem, si nadále získává popularitu a dobře se mu daří v testech hlava na hlavě.

Vývojový diagram ukazující, jak funguje algoritmus MAS5 od Agilent.

Faktorová analýza pro robustní mikročipovou sumarizaci (FARMS) je modelová technika pro sumarizaci dat pole na úrovni dokonale shodné sondy. Je založen na modelu faktorové analýzy, pro který Bayesova metoda maxima a posteriori optimalizuje parametry modelu za předpokladu Gaussova měření hluku. Podle benchmarku Affycomp překonal FARMS všechny ostatní metody sumarizace s ohledem na citlivost a specifičnost.

Identifikace významného diferenciálního výrazu

Existuje mnoho strategií k identifikaci sond pole, které vykazují neobvyklou úroveň nadměrného nebo nedostatečného výrazu. Nejjednodušší je nazvat „významnou“ jakoukoli sondu, která se mezi léčenými skupinami liší v průměru nejméně dvojnásobně. Sofistikovanější přístupy se často týkají t-testů nebo jiných mechanismů, které zohledňují velikost efektu i variabilitu. Je zajímavé, že p-hodnoty spojené s konkrétními geny se mezi replikačními experimenty špatně reprodukují a seznamy generované přímou změnou fungují mnohem lépe. To představuje mimořádně důležité pozorování, protože smysl provádění experimentů souvisí s předpovídáním obecného chování. Skupina MAQC doporučuje použít posouzení násobné změny plus nestříhané omezení hodnoty p, dále poukázat na to, že změny v procesu korekce pozadí a škálování mají pouze minimální dopad na pořadí pořadí rozdílů v násobcích změn, ale podstatný dopad na p-hodnoty.

Shlukování

Clustering je technika dolování dat, která se používá ke seskupení genů s podobnými expresními vzory. Hierarchické klastrování a k-průměrování klastrů jsou široce používanými technikami v analýze mikročipů.

Hierarchické shlukování

Hierarchické shlukování je statistická metoda pro hledání relativně homogenních klastrů. Hierarchické shlukování se skládá ze dvou samostatných fází. Zpočátku se vypočítá distanční matice obsahující všechny párové vzdálenosti mezi geny. Pearsonova korelace a Spearmanova korelace se často používají jako odhady odlišností, ale lze použít i jiné metody, jako je vzdálenost na Manhattanu nebo euklidovská vzdálenost . Vzhledem k počtu dostupných měřících vzdáleností a jejich vlivu na výsledky algoritmů klastrování několik studií porovnávalo a hodnotilo různá měření vzdáleností pro shlukování dat mikročipů s ohledem na jejich vnitřní vlastnosti a odolnost vůči hluku. Po výpočtu počáteční distanční matice se hierarchický shlukovací algoritmus buď (A) iterativně spojí se dvěma nejbližšími klastry, počínaje od jednotlivých datových bodů (aglomerační, přístup zdola nahoru, což se používá mnohem častěji), nebo (B) oddíly shluky iterativně počínaje kompletní sadou (dělící, přístup shora dolů). Po každém kroku se přepočítá nová matice vzdálenosti mezi nově vytvořenými klastry a ostatními klastry. Mezi metody hierarchické klastrové analýzy patří:

Jednoduché propojení (minimální metoda, nejbližší soused)
Průměrná vazba ( UPGMA ).
Kompletní propojení (maximální metoda, nejvzdálenější soused)

Různé studie již empiricky ukázaly, že algoritmus klastrování s jednou vazbou produkuje špatné výsledky, pokud je použit pro data mikročipů genové exprese, a proto by se mu mělo zabránit.

K-znamená shlukování

Shlukování K-means je algoritmus pro seskupování genů nebo vzorků na základě vzoru do K skupin. Seskupování se provádí minimalizací součtu čtverců vzdáleností mezi daty a odpovídajícím těžištěm klastru . Účelem shlukování K-means je tedy klasifikace dat na základě podobného výrazu. Bylo ukázáno, že algoritmus shlukování K-means a některé jeho varianty (včetně k-medoidů ) poskytují dobré výsledky pro data genové exprese (přinejmenším lepší než metody hierarchického shlukování). Empirická srovnání k-průměrů , k-medoidů , hierarchických metod a různých měření vzdálenosti lze nalézt v literatuře.

Rozpoznávání vzorů

Komerční systémy pro analýzu genových sítí, jako jsou Ingenuity a Pathway studio, vytvářejí vizuální reprezentace odlišně exprimovaných genů na základě současné vědecké literatury. Nekomerční nástroje, jako jsou FunRich, GenMAPP a Moksiskaan, také pomáhají při organizaci a vizualizaci dat genové sítě pořízených z jednoho nebo několika mikroarray experimentů. Prostřednictvím Bioconductor napsaného v programovacím jazyce R je k dispozici široká škála nástrojů pro analýzu mikročipů . Často citovaný modul SAM a další nástroje microarray jsou k dispozici prostřednictvím Stanford University. Další sada je k dispozici od Harvardu a MIT.

Příklad výstupu nástroje FunRich. Obrázek ukazuje výsledek porovnání 4 různých genů.

Byly také vyvinuty specializované softwarové nástroje pro statistickou analýzu ke stanovení rozsahu nadměrné nebo nedostatečné exprese genu v mikročipovém experimentu ve srovnání s referenčním stavem, které pomáhají identifikovat geny nebo sady genů spojené s konkrétními fenotypy . Jedna taková analytická metoda, známá jako Gene Set Enrichment Analysis (GSEA), používá statistiku ve stylu Kolmogorov -Smirnov k identifikaci skupin genů, které jsou regulovány společně. Tento balíček statistik třetích stran nabízí uživatelské informace o genech nebo genových sadách, které vás zajímají, včetně odkazů na záznamy v databázích, jako je GenBank NCBI, a databázích s kurátorskými právy, jako jsou Biocarta a Gene Ontology . Nástroj pro analýzu obohacení proteinových komplexů (COMPLEAT) poskytuje podobnou analýzu obohacení na úrovni proteinových komplexů. Nástroj dokáže identifikovat dynamickou regulaci komplexu proteinů za různých podmínek nebo časových bodů. Související systém, PAINT a SCOPE provádí statistickou analýzu oblastí promotoru genu, identifikující více a méně zastoupení dříve identifikovaných prvků odezvy transkripčního faktoru . Dalším statistickým analytickým nástrojem je Rank Sum Statistics for Gene Set Collections (RssGsc), který využívá funkce rozdělení pravděpodobnosti součtu k nalezení genových sad, které vysvětlují experimentální data. Dalším přístupem je kontextová metaanalýza, tj. Zjištění, jak klastr genů reaguje na různé experimentální kontexty. Genevestigator je veřejný nástroj k provádění kontextové metaanalýzy napříč kontexty, jako jsou anatomické části, fáze vývoje a reakce na nemoci, chemikálie, stres a novotvary .

Analýza významnosti mikročipů (SAM)

Významová analýza mikročipů (SAM) je statistická technika , zavedená v roce 2001 Virginií Tusherovou, Robertem Tibshiranim a Gilbertem Chuem za účelem zjištění, zda jsou změny v genové expresi statisticky významné. S příchodem mikročipů DNA je nyní možné měřit expresi tisíců genů v jediném hybridizačním experimentu. Generovaná data jsou značná a zásadní je metoda pro třídění toho, co je významné a co ne. SAM je distribuován Stanfordskou univerzitou v R-balíčku .

SAM identifikuje statisticky významné geny provedením genově specifických t-testů a vypočítá statistiku d _j pro každý gen j , která měří sílu vztahu mezi genovou expresí a proměnnou odezvy. Tato analýza používá neparametrickou statistiku , protože data nemusí sledovat normální rozdělení . Proměnná odezvy popisuje a seskupuje data na základě experimentálních podmínek. V této metodě se používají opakované permutace dat k určení, zda je exprese jakéhokoli genu významná v souvislosti s odpovědí. Použití analýzy založené na permutaci odpovídá za korelace v genech a vyhýbá se parametrickým předpokladům o distribuci jednotlivých genů. To je výhoda oproti jiným technikám (např. ANOVA a Bonferroni ), které předpokládají stejnou variabilitu a/nebo nezávislost genů.

Základní protokol

Provádějte experimenty s mikročipem - DNA mikročip s oligo a cDNA primery, SNP pole, proteinová pole atd.
Analýza vstupních výrazů v aplikaci Microsoft Excel - viz níže
Spustit SAM jako doplňky Microsoft Excel
Upravte parametr ladění Delta, abyste získali významný počet genů spolu s přijatelnou mírou falešného objevování (FDR) a posoudíte velikost vzorku výpočtem průměrného rozdílu ve výrazu v ovladači vykreslování SAM
Seznam rozdílně vyjádřených genů (pozitivně a negativně vyjádřené geny)

Běží SAM

SAM je k dispozici ke stažení online na http://www-stat.stanford.edu/~tibs/SAM/ pro akademické i neakademické uživatele po dokončení kroku registrace.
SAM je spuštěn jako doplněk aplikace Excel a ovladač SAM Plot umožňuje přizpůsobení Falešné rychlosti zjišťování a Delta, zatímco funkce SAM Plot a SAM Output generují seznam významných genů, tabulku Delta a hodnocení velikostí vzorků
Permutace se vypočítají na základě počtu vzorků
Blokovat permutace
- Bloky jsou šarže mikročipů; například pro osm vzorků rozdělených do dvou skupin (kontrolní a ovlivněné) existuje 4! = 24 permutací pro každý blok a celkový počet permutací je (24) (24) = 576. Doporučuje se minimálně 1000 permutací;

počet permutací je nastaven uživatelem při imputaci správných hodnot pro datovou sadu ke spuštění SAM

Formáty odpovědí

Typy:

Kvantitativní -skutečná hodnota (například srdeční frekvence)
Jedna třída - testuje, zda se průměrná genová exprese liší od nuly
Dvě třídy - dvě sady měření
- Nespárované - jednotky měření se v těchto dvou skupinách liší; např. kontrolní a léčebné skupiny se vzorky od různých pacientů
- Spárované - ve dvou skupinách se měří stejné experimentální jednotky; např. vzorky před a po ošetření od stejných pacientů
Multiclass - více než dvě skupiny, z nichž každá obsahuje různé experimentální jednotky; zobecnění dvou tříd nepárového typu
Přežití - údaje o čase do události (například smrt nebo relaps)
Časový průběh - každá experimentální jednotka se měří ve více než jednom časovém bodě; experimentální jednotky spadají do designu jedné nebo dvou tříd
Zjišťování vzoru - není zadán žádný explicitní parametr odpovědi; uživatel specifikuje vlastní zdroj (hlavní složku) výrazových dat a považuje to za kvantitativní odpověď

Algoritmus

SAM vypočítá testovací statistiku relativního rozdílu v genové expresi na základě permutační analýzy expresních dat a vypočítá míru falešného objevu. Hlavní výpočty programu jsou znázorněny níže.

Konstanta s _o je zvolena tak, aby se minimalizoval variační koeficient d _i . r _i se rovná expresním hladinám (x) pro gen i za experimentálních podmínek y.

${\ Displaystyle \ mathrm {False \ discovery \ rate \ (FDR) = {\ frac {Median \ (nebo \ 90^{th} \ percentile) \ of \ \#\ of \ false \ called \ genů} {Number \ \ genů \ nazývaných \ signifikantní}}}}$

Složené změny (t) jsou specifikovány, aby byly geny nazývané významná změna zaručeny alespoň po předem stanovenou částku. To znamená, že absolutní hodnota průměrných úrovní exprese genu za každé ze dvou podmínek musí být větší než násobná změna (t), aby byla nazývána pozitivní, a menší než inverzní hodnota násobné změny (t), aby byla nazývána negativní.

Algoritmus SAM lze uvést jako:

Objednejte si statistiky testů podle velikosti
Pro každou permutaci vypočítejte seřazené null (neovlivněné) skóre
Vykreslete uspořádanou statistiku testu proti očekávanému nulovému skóre
Každý gen označte za významný, pokud je absolutní hodnota statistiky testu pro daný gen minus průměrná statistika testu pro tento gen větší než uvedený práh
Odhadněte míru falešných objevů na základě očekávaných a pozorovaných hodnot

Výstup

Významné sady genů
- Pozitivní sada genů - vyšší exprese většiny genů v sadě genů koreluje s vyššími hodnotami fenotypu y
- Negativní sada genů - nižší exprese většiny genů v sadě genů koreluje s vyššími hodnotami fenotypu y

Funkce SAM

V SAM lze použít data z polí Oligo nebo cDNA, pole SNP, proteinových polí atd.
Koreluje údaje o expresi s klinickými parametry
Koreluje data výrazu s časem
K odhadu False Discovery Rate pro vícenásobné testování používá datovou permutaci
Hlásí místní falešnou míru objevu (FDR pro geny mající podobné d _i jako tento gen) a míry chyb
Může pracovat s blokovaným designem, když jsou ošetření aplikována v různých dávkách polí
Může upravit práh určující počet genů označovaných jako významné

Oprava chyb a kontrola kvality

Kontrola kvality

Celá pole mohou mít zjevné nedostatky detekovatelné vizuální kontrolou, párovým porovnáním s poli ve stejné experimentální skupině nebo analýzou degradace RNA. Výsledky se mohou zlepšit úplným odstraněním těchto polí z analýzy.

Korekce pozadí

V závislosti na typu pole lze odečíst signál související s nespecifickou vazbou fluoroforu, aby se dosáhlo lepších výsledků. Jeden přístup zahrnuje odečtení průměrné intenzity signálu oblasti mezi skvrnami. Od společností TIGR, Agilent ( GeneSpring ) a Ocimum Bio Solutions (Genowiz) je k dispozici řada nástrojů pro korekci pozadí a další analýzu .

Bodové filtrování

Vizuální identifikace místních artefaktů, jako jsou vady tisku nebo praní, může rovněž navrhnout odstranění jednotlivých skvrn. To může trvat podstatnou dobu v závislosti na kvalitě výroby polí. Některé postupy navíc vyžadují odstranění všech skvrn s hodnotou výrazu pod určitou prahovou hodnotou intenzity.

Languages

In other projects