ImageNet - ImageNet

Il progetto ImageNet è un grande database visivo progettato per l'uso nella ricerca di software di riconoscimento visivo di oggetti . Più di 14 milioni di immagini sono state annotate a mano dal progetto per indicare quali oggetti sono rappresentati e in almeno un milione di immagini sono previsti anche riquadri di delimitazione. ImageNet contiene più di 20.000 categorie con una categoria tipica, come "palloncino" o "fragola", composta da diverse centinaia di immagini. Il database di annotazioni di URL di immagini di terze parti è disponibile gratuitamente direttamente da ImageNet, sebbene le immagini effettive non siano di proprietà di ImageNet. Dal 2010, il progetto ImageNet gestisce un concorso software annuale, l'ImageNet Large Scale Visual Recognition Challenge ( ILSVRC ), in cui i programmi software competono per classificare e rilevare correttamente oggetti e scene. La sfida utilizza un elenco "rifilato" di mille classi non sovrapposte.

Importanza per l'apprendimento profondo

Il 30 settembre 2012, una rete neurale convoluzionale (CNN) chiamata AlexNet ha ottenuto un errore top-5 del 15,3% nell'ImageNet 2012 Challenge, oltre 10,8 punti percentuali in meno rispetto a quello del secondo classificato. Ciò è stato reso possibile grazie all'utilizzo di unità di elaborazione grafica (GPU) durante la formazione, un ingrediente essenziale della rivoluzione del deep learning . Secondo The Economist , "Improvvisamente le persone hanno iniziato a prestare attenzione, non solo all'interno della comunità dell'IA, ma in tutto il settore tecnologico nel suo insieme".

Nel 2015, AlexNet è stato superato dalla CNN molto profonda di Microsoft con oltre 100 livelli, che ha vinto il concorso ImageNet 2015.

Storia del database

Il ricercatore di intelligenza artificiale Fei-Fei Li ha iniziato a lavorare all'idea di ImageNet nel 2006. In un momento in cui la maggior parte della ricerca sull'intelligenza artificiale si concentrava su modelli e algoritmi, Li voleva espandere e migliorare i dati disponibili per addestrare gli algoritmi di intelligenza artificiale. Nel 2007, Li ha incontrato la professoressa di Princeton Christiane Fellbaum , uno dei creatori di WordNet, per discutere del progetto. Come risultato di questo incontro, Li ha continuato a costruire ImageNet partendo dal database di WordNet e utilizzando molte delle sue funzionalità.

Come assistente professore a Princeton, Li ha riunito un team di ricercatori per lavorare al progetto ImageNet. Hanno usato Amazon Mechanical Turk per aiutare con la classificazione delle immagini.

Hanno presentato il loro database per la prima volta come poster alla Conferenza 2009 su Computer Vision and Pattern Recognition (CVPR) in Florida.

Set di dati

ImageNet crowdsources il suo processo di annotazione. Le annotazioni a livello di immagine indicano la presenza o l'assenza di una classe di oggetti in un'immagine, ad esempio "ci sono tigri in questa immagine" o "non ci sono tigri in questa immagine". Le annotazioni a livello di oggetto forniscono un riquadro di delimitazione attorno alla (parte visibile dell') oggetto indicato. ImageNet utilizza una variante dell'ampio schema WordNet per categorizzare gli oggetti, ampliata con 120 categorie di razze canine per mostrare una classificazione a grana fine. Uno svantaggio dell'uso di WordNet è che le categorie potrebbero essere più "elevate" di quanto sarebbe ottimale per ImageNet: "La maggior parte delle persone è più interessata a Lady Gaga o all'iPod Mini che a questo raro tipo di diplodocus ". Nel 2012 ImageNet è stato il più grande utente accademico al mondo di Mechanical Turk . Il lavoratore medio ha identificato 50 immagini al minuto.

Storia della sfida ImageNet

Cronologia del tasso di errore su ImageNet (mostra il miglior risultato per squadra e fino a 10 voci all'anno)

L'ILSVRC mira a "seguire le orme" della sfida PASCAL VOC su scala ridotta, istituita nel 2005, che conteneva solo circa 20.000 immagini e venti classi di oggetti. Per "democratizzare" ImageNet, Fei-Fei Li ha proposto al team PASCAL VOC una collaborazione, iniziata nel 2010, in cui i team di ricerca avrebbero valutato i loro algoritmi su un dato set di dati e avrebbero gareggiato per ottenere una maggiore precisione su diversi compiti di riconoscimento visivo.

Il concorso annuale che ne risulta è ora noto come ImageNet Large Scale Visual Recognition Challenge (ILSVRC). L'ILSVRC utilizza un elenco "rifilato" di sole 1000 categorie di immagini o "classi", comprese 90 delle 120 razze canine classificate dallo schema ImageNet completo. Gli anni 2010 hanno visto notevoli progressi nell'elaborazione delle immagini. Intorno al 2011, un buon tasso di errore nella top-5 classificazione ILSVRC era del 25%. Nel 2012, una rete neurale convoluzionale profonda chiamata AlexNet ha raggiunto il 16%; nei prossimi due anni, i primi 5 tassi di errore sono scesi a pochi punti percentuali. Mentre la svolta del 2012 "combinava pezzi che c'erano tutti prima", il drammatico miglioramento quantitativo ha segnato l'inizio di un boom dell'intelligenza artificiale a livello di settore. Entro il 2015, i ricercatori di Microsoft hanno riferito che le loro CNN hanno superato le capacità umane nelle ristrette attività ILSVRC. Tuttavia, come ha sottolineato nel 2015 una delle organizzatrici della sfida, Olga Russakovsky , i programmi devono solo identificare le immagini come appartenenti a una delle mille categorie; gli esseri umani possono riconoscere un numero maggiore di categorie e anche (a differenza dei programmi) possono giudicare il contesto di un'immagine.

Nel 2014, più di cinquanta istituzioni hanno partecipato all'ILSVRC. Nel 2015, gli scienziati di Baidu sono stati banditi per un anno per aver utilizzato account diversi per superare notevolmente il limite specificato di due invii a settimana. Baidu in seguito ha dichiarato di aver licenziato il caposquadra coinvolto e che avrebbe istituito un comitato consultivo scientifico.

Nel 2017, 29 delle 38 squadre in competizione avevano una precisione superiore al 95%. Nel 2017 ImageNet ha dichiarato che avrebbe lanciato una nuova sfida, molto più difficile, nel 2018 che prevede la classificazione di oggetti 3D utilizzando il linguaggio naturale. Poiché la creazione di dati 3D è più costosa rispetto all'annotazione di un'immagine 2D preesistente, il set di dati dovrebbe essere più piccolo. Le applicazioni del progresso in questo settore andrebbero dalla navigazione robotica alla realtà aumentata .

Bias in ImageNet

Uno studio sulla storia dei livelli multipli ( tassonomia , classi di oggetti ed etichettatura) di ImageNet e WordNet nel 2019 ha descritto come il pregiudizio sia profondamente radicato nella maggior parte degli approcci di classificazione per tutti i tipi di immagini. ImageNet sta lavorando per affrontare varie fonti di pregiudizio.

Guarda anche

Riferimenti

link esterno

Sito ufficiale

Languages

In other projects