close

MP3

Vai alla navigazione Vai alla ricerca
Livello audio MPEG-1 3
Immagine del logo
Estensione .mp3[uno]
Tipo MIME audio/mpeg [2] , audio/MPA [3] e audio/mpa-robusto [4]
Sviluppatore Fraunhofer Society , Karlheinz Brandenburg , Heinz Gerhäuser [d] , Bernhard Grill [d] e Harald Popp [d]
pubblicato 1993
Tipo di formato formato audio
 File multimediali su Wikimedia Commons

MP3 (più precisamente, inglese  MPEG-1/2/2.5 Layer 3 ; ma non MPEG-3 ) è un formato di file sviluppato dal team MPEG per la memorizzazione di informazioni audio . Il formato è stato concesso in licenza , ma il 23 aprile 2017 tutti i brevetti sono scaduti e le tariffe di licenza sono cessate [5] .

MP3 è uno dei formati di codifica audio digitale più comuni e popolari . È ampiamente utilizzato nelle reti di condivisione di file per download di musica valutativa . Il formato può essere riprodotto su quasi tutti i sistemi operativi più diffusi , sulla maggior parte dei lettori audio portatili ed è supportato anche da tutti i moderni modelli di centri musicali e lettori DVD .

Il formato MP3 utilizza un algoritmo di compressione con perdita di dati progettato per ridurre significativamente la quantità di dati necessari per riprodurre una registrazione e fornire una qualità di riproduzione del suono vicina all'originale (secondo la maggior parte degli ascoltatori), ma con una notevole perdita di qualità quando viene ascoltata su un sistema audio di qualità. Il principio della compressione consiste nel ridurre la precisione di alcune parti del flusso audio, che è praticamente indistinguibile per l'udito sulle apparecchiature onnipresenti di riproduzione del suono a bassa fedeltà (ad esempio, la maggioranza dominante dei dispositivi portatili, schede audio, stereo, autoradio e altre apparecchiature non speciali), nonché per le persone di età più avanzata, a causa dei naturali cambiamenti legati all'età nell'apparecchio acustico, ma nella maggior parte dei casi sono chiaramente distinguibili su apparecchiature audio ad alta fedeltà . Questo metodo è chiamato codifica percettiva [6] . Allo stesso tempo, nella prima fase, viene costruito un diagramma sonoro sotto forma di una sequenza di brevi intervalli di tempo, quindi le informazioni che non sono distinguibili dall'orecchio umano vengono rimosse da esso e le informazioni rimanenti vengono archiviate in un compatto modulo. Questo approccio è simile al metodo di compressione utilizzato quando si comprimono le immagini in formato JPEG . [ chiarire ] La creazione di un MP3 con un bitrate medio di 128 kbps produce un file che è circa 1/11 della dimensione del file CD-Audio originale ( lo stesso formato CD-Audio non compresso ha un bit rate di 1411,2 kbps). I file MP3 possono essere creati con bitrate alto o basso, il che influisce sulla qualità del file risultante.

Storia

MP3 è stato sviluppato da un gruppo di lavoro del Fraunhofer Institute ( tedesco:  Fraunhofer-Institut für Integrierte Schaltungen ) guidato da Karlheinz Brandenburg e dall'Università di Erlangen-Norimberga in collaborazione con AT&T Bell Labs e Thomson (Johnson, Stoll, Deeri, ecc.) .

Lo sviluppo di MP3 è stato basato sul codec sperimentale ASPEC (Adaptive Spectral Perceptual Entropy Coding). Il primo codificatore MP3 è stato L3Enc , rilasciato nell'estate del 1994. Un anno dopo, è apparso il primo lettore MP3 software  : Winplay3 .

Durante lo sviluppo dell'algoritmo, sono stati eseguiti test su composizioni popolari piuttosto specifiche. " Tom's Diner " di Suzanne Vega è diventata la canzone principale . Da qui la battuta che "MP3 è stato creato esclusivamente per l'ascolto confortevole della canzone preferita di Brandeburgo", e Vega ha iniziato a essere chiamata "la madre di MP3".

Uno standard quasi completo è apparso di pubblico dominio il 6 dicembre 1991 .

Il 23 aprile 2017 sono scaduti gli ultimi brevetti per il formato e sono stati interrotti i pagamenti delle royalty da parte di fornitori di software e embedded [7] [8] . Il Fraunhofer Institute ha annunciato la cessazione della licenza del formato sul suo sito ufficiale [9] . E, sebbene il formato mp3 sia ancora molto popolare tra gli utenti, la maggior parte delle stazioni radio e dei canali TV è passata all'utilizzo di moderni codec che forniscono una migliore compressione e una minore perdita di qualità del suono.

Descrizione formato

Come il formato JPEG , l'MP3 utilizza il ritaglio spettrale, secondo il modello psicoacustico . Il segnale audio è suddiviso in segmenti di uguale durata, ciascuno dei quali, dopo l'elaborazione, viene compresso in un proprio frame (frame). La scomposizione in uno spettro richiede la continuità del segnale di ingresso, pertanto per i calcoli vengono utilizzati anche i frame precedente e successivo. Nel segnale audio ci sono armoniche con un'ampiezza minore e armoniche che si trovano vicino a quelle più intense - tali armoniche sono tagliate, poiché l'orecchio umano medio non può sempre determinare la presenza o l'assenza di tali armoniche. Questa caratteristica dell'udito è chiamata effetto di mascheramento . È anche possibile sostituire due o più picchi vicini con uno medio (che, di norma, porta alla distorsione del suono). Il criterio di interruzione è determinato dal requisito del flusso di output. Poiché l'intero spettro è rilevante, le armoniche ad alta frequenza non vengono tagliate, come in JPEG , ma solo rimosse selettivamente per ridurre il flusso di informazioni dovuto alla rarefazione dello spettro. Dopo lo "sweeping" spettrale, vengono applicati metodi matematici di compressione e impacchettamento in frame. Ciascun frame può avere più contenitori, che consentono di memorizzare informazioni su più flussi (canale sinistro e destro o canale centrale e differenza di canale). Il rapporto di compressione può essere variato, anche all'interno di un fotogramma. L' intervallo dei possibili valori di bitrate è 8-320 kbit/s .

MP3 e "Qualità CD audio"

In passato, era opinione diffusa che la registrazione a 128 kbps fosse adatta per la musica destinata all'ascolto della maggior parte delle persone, fornendo la qualità del suono di Audio-CD . In realtà, tutto è molto più complicato. In primo luogo, la qualità dell'MP3 risultante dipende non solo dal bitrate, ma anche dal programma di codifica ( codec ) (lo standard non specifica l'algoritmo di codifica, ma descrive solo il metodo di presentazione). In secondo luogo, oltre alla modalità prevalente CBR (Constant Bitrate) (in cui, in altre parole, ogni secondo di audio è codificato con lo stesso numero di bit), esistono le modalità ABR (Average Bitrate) e VBR (Variable Bitrate). In terzo luogo, il limite di 128 kbps è arbitrario, poiché è stato scelto nell'era della formazione del formato, quando la qualità di riproduzione della maggior parte dei sistemi audio digitali, di regola, era inferiore a quella attuale. In parole povere, l'affermazione sulla "qualità CD audio" a 128 kbps corrisponde al confine di un ascolto musicale relativamente confortevole, al di sotto del quale c'è un forte degrado del suono in tutti i programmi di codifica MP3.

Nel 2008, i file MP3 con un bitrate di 192 kbps sono i più comuni, il che potrebbe indirettamente indicare che la maggioranza considera questo bitrate sufficiente. L'effettiva "qualità" percepita dipende dal file audio di origine, dall'ascoltatore e dal suo sistema audio. Alcuni amanti della musica preferiscono comprimere la musica alla "massima qualità" - 320 kbps, o addirittura passare a codec lossless, come FLAC . C'è anche un'opinione tra gli amanti della musica / audiofili secondo cui alcuni campioni (frammenti di una registrazione audio) non sono suscettibili di compressione con perdita di alta qualità: a tutti i bit rate possibili, non è difficile distinguere l'audio compresso dall'originale. Tuttavia, ci sono anche gravi obiezioni [10] :

È abbastanza ovvio che (prendilo con un margine) un bitrate di 256 kbps nella stragrande maggioranza dei casi dovrebbe essere più che sufficiente per una comoda percezione della musica da una sorgente CDA (44 kHz/16 bit/stereo). Ciò risulta evidente non solo dal mio test nostrano, ma anche dall'analisi dei blind test professionali (ad esempio, l'edizione tedesca di "c't", giugno 2000): anche in essi gli esperti non sempre riescono a " guess" il suono compresso a 256 kbps, inoltre i test avvengono in stanze appositamente preparate e su apparecchiature costose, e l'esperto sa cosa "ascoltare" per sentire la compressione.

Modalità e opzioni di codifica

Esistono tre versioni del formato MP3 per esigenze diverse: MPEG-1 , MPEG-2 e MPEG-2.5 . Differiscono nei possibili intervalli di bitrate e frequenza di campionamento:

  • 32-320 kbps a frequenze di campionamento di 32000 Hz, 44100 Hz e 48000 Hz per MPEG-1 Layer 3;
  • 16-160 kbps a frequenze di campionamento di 16000 Hz, 22050 Hz e 24000 Hz per MPEG-2 Layer 3;
  • 8-160 kbps a 8000 Hz e frequenze di campionamento 11025 Hz per MPEG-2.5 Layer 3.

Modalità di controllo della codifica del canale audio

Poiché il formato MP3 supporta la codifica a due canali (stereo), sono disponibili 4 modalità:

  • Stereo  è una codifica a due canali in cui i canali del segnale stereo originale sono codificati indipendentemente l'uno dall'altro, ma la distribuzione dei bit tra i canali nel bitrate totale può variare a seconda della complessità del segnale in ciascun canale.
  • Mono  - Codifica a canale singolo. Se codifichi il materiale a due canali in questo modo, le differenze tra i canali verranno completamente cancellate, poiché i due canali vengono mixati in uno, viene codificato e riprodotto anche in entrambi i canali dell'impianto stereo. L'unico vantaggio di questa modalità può essere solo la qualità dell'uscita rispetto alla modalità Stereo allo stesso bitrate, poiché ci sono il doppio dei bit per canale rispetto alla modalità Stereo.
  • Stereo a due canali ( ing.  Dual Channel ) - due canali indipendenti, ad esempio, suonano in lingue diverse. Il bitrate è diviso in due canali. Ad esempio, se il bitrate specificato è 192 kbps , per ciascun canale sarà uguale a soli 96 kbps.
Image
Una rappresentazione grafica in EncSpot dell'uso da parte del codec LAME di una modalità di codifica ibrida che prevede l'uso alternato di Pure Stereo (SS) e Channel Difference (MS).
  • Stereo combinato ( English  Joint Stereo ): metodi di codifica a due canali che consentono di aumentare il rapporto di compressione dei file. Il primo modo è Mid / Side Stereo, quando i canali sinistro e destro vengono convertiti nella loro somma (L+R) e differenza (L-R) . Per la maggior parte dei file audio, la saturazione del canale della differenza (L-R) è molto inferiore al canale della somma (L+R) . Pertanto, lo stereo combinato consente di risparmiare sul bitrate del canale di differenza (L-R) o di migliorare la qualità allo stesso bitrate, poiché il canale di somma (L+R) alloca la maggior parte del bitrate. Si ritiene che questa modalità non sia adatta per materiale audio stereo, in cui in due canali viene riprodotto materiale soggettivamente completamente diverso, poiché cancella le differenze tra i canali. Ma i codec moderni utilizzano modalità diverse in frame diversi (incluso stereo puro) a seconda del segnale sorgente. Il secondo modo Intensity Stereo si basa sulla capacità dell'udito umano di distinguere la posizione dei suoni nello spazio non nell'intero spettro di frequenze, ignorando la posizione di molto basso e molto alto. Pertanto, la codifica dei suoni a frequenza ultra bassa e ultra alta in modalità mono migliora l'efficienza della compressione dei dati. [undici]

CBR

CBR sta per Constant Bit Rate , ovvero un bit rate costante , che viene impostato dall'utente e non cambia quando il lavoro viene codificato. Pertanto, ogni secondo del pezzo corrisponde allo stesso numero di bit di dati codificati (anche quando si codifica il silenzio). CBR può essere utile per flussi multimediali limitati dal canale; in tal caso, la codifica utilizza tutte le capacità del canale dati. Per l'archiviazione, questa modalità di codifica non è ottimale, poiché non può allocare spazio sufficiente per segmenti complessi del prodotto originale, mentre spreca spazio su segmenti semplici. Bitrate più elevati (sopra 256 kbps ) possono risolvere questo problema allocando più spazio per i dati, ma anche aumentando proporzionalmente la dimensione del file.

VBR

VBR sta per Variable Bit Rate , ovvero un bit rate variabile o un bit rate variabile , che viene modificato dinamicamente dal programma encoder durante la codifica, a seconda della saturazione del materiale audio codificato e della qualità di codifica impostata dall'utente (ad esempio , il silenzio è codificato con un bit rate minimo). Questo metodo di codifica MP3 è il più progressivo ed è ancora in fase di sviluppo e miglioramento, poiché il materiale audio di diversa saturazione può essere codificato con una certa qualità, che di solito è superiore a quando il valore medio è impostato nel metodo CBR. Inoltre, la dimensione del file è ridotta a causa di frammenti che non richiedono un bitrate elevato. Lo svantaggio di questo metodo di codifica è la difficoltà nel prevedere la dimensione del file di output. Ma questo svantaggio della codifica VBR è insignificante rispetto ai suoi vantaggi. Un altro svantaggio è che VBR considera i frammenti più silenziosi come informazioni audio "insignificanti", quindi risulta che se ascolti molto forte, questi frammenti saranno di scarsa qualità, mentre CBR crea frammenti silenziosi e rumorosi con lo stesso bitrate.

Il formato VBR è in continuo miglioramento, grazie al costante miglioramento del modello matematico dei codec, in particolare, dopo il rilascio di una versione aggiornata del codec gratuito LAME MP3 (versione 3.99.3), codifica a bitrate variabile, secondo gli sviluppatori , è qualitativamente migliore di CBR e ancor di più ABR. Tuttavia, il formato CBR 320 kbps è ancora posizionato in modo da garantire la massima qualità (ad esempio, viene utilizzato nel preset "--preset insane").

ABR

ABR sta per Average Bit Rate , ovvero average bit rate , che è un ibrido di VBR e CBR: il bit rate in kbps è impostato dall'utente, e il programma lo varia, adeguandolo costantemente al bit rate specificato. Pertanto, il codec utilizzerà con attenzione i valori di bitrate massimo e minimo possibili, poiché rischia di non adattarsi al bitrate specificato dall'utente. Questo è un chiaro svantaggio di questo metodo, poiché influisce sulla qualità del file di output, che sarà leggermente migliore rispetto all'utilizzo di CBR, ma peggiore rispetto all'utilizzo di VBR. D'altra parte, questo metodo consente l'impostazione più flessibile del bitrate (può essere qualsiasi numero compreso tra 8 e 320, contro solo multipli di 16 nel metodo CBR) e il calcolo della dimensione del file di output.

Codec

Tipi di programmi necessari per convertire i formati di file. I codec MP3 più comuni.

Struttura del file

Image
Struttura dei file

Un file MP3 è costituito da diversi frammenti MP3 (frame), che, a loro volta, sono costituiti da un'intestazione e un blocco di dati. Tale sequenza di frammenti è chiamata flusso elementare . I frammenti non sono elementi indipendenti (un "serbatoio di byte") e quindi non possono essere recuperati arbitrariamente. Il blocco dati di un file MP3 contiene informazioni audio compresse sotto forma di frequenze e ampiezze. Il diagramma sopra mostra che un'intestazione MP3 è costituita da un marcatore utilizzato per trovare il frammento MP3 corretto. Questo è seguito da un bit che indica che viene utilizzato lo standard MPEG e da due bit che indicano che viene utilizzato il livello 3; in altre parole, definisce MPEG-1 Audio Layer 3 o MP3. I seguenti valori possono variare a seconda del tipo di file MP3. Lo standard ISO / IEC 11172-3 definisce un intervallo di valori per ciascuna sezione di intestazione, insieme a una specifica generale per essa. La maggior parte dei file MP3 attualmente contiene metadati ID3 che precedono o seguono il segmento MP3; sono anche mostrati nel diagramma.

Tag

Tag ( dall'inglese  tag  - label, label, tag) - tag entro i limiti di un file MP3 (all'inizio e/o alla fine). Possono contenere informazioni sulla paternità, l'album, l'anno di rilascio, la copertina dell'album e i testi e altre informazioni sulla traccia. Nelle versioni successive dei tag, è possibile memorizzare altri dati sulla registrazione del suono. Esistono diverse versioni di tag (vedi: ID3 ).

Svantaggi

Carenze tecniche. Il numero di canali audio è limitato a due, a differenza di AAC e Vorbis . C'è anche un limite alla frequenza di campionamento possibile: non c'è modo di impostare una frequenza di campionamento arbitraria. La frequenza di campionamento massima per MP3 è 48 kHz mentre per Vorbis la frequenza di campionamento massima è 192 kHz e per AAC è 96 kHz. In MP3 è possibile salvare solo alle seguenti frequenze di campionamento: 8000, 11025, 12000, 16000, 22050, 24000, 32000, 44100 e 48000 Hz.

Restrizioni legali. Il brevetto MP3 è di proprietà di Alcatel-Lucent , che richiedeva la licenza per alcuni usi del formato (brevetti relativi agli MP3 scaduti il ​​23 aprile 2017 ).
Negli Stati Uniti, le invenzioni sono state divulgate pubblicamente per più di un anno[ quando? ] , non può essere brevettato; tuttavia, per i brevetti emessi prima dell'8 giugno 1995 (quasi uno standard completo è stato reso pubblico il 6 dicembre 1991), è stato possibile estenderne i termini. I brevetti noti relativi alla decrittazione di MP3 sono scaduti negli Stati Uniti entro dicembre 2012; secondo altri dati, considerando solo i brevetti depositati prima del dicembre 1992, ciò non è avvenuto a settembre 2015 [ 12] [13] .

Nel 2017 sono scaduti tutti i brevetti relativi a questo formato, in quanto non rinnovati dai titolari dei diritti d'autore [5] .

Vedi anche

Note

  1. https://www.file-extension.info/format/mp3
  2. ^ Nilsson M. Il tipo di supporto audio/mpeg  (inglese) - IETF , 2000. - 5 p. doi : 10.17487/RFC3003
  3. ^ Casner S., Hoschka P. MIME Type Registration of RTP Payload Formats  (inglese) - IETF , 2003. - 45 p. doi : 10.17487/RFC3555
  4. ^ Finlayson R. Un formato di carico utile RTP più tollerante alle perdite per audio MP3  (inglese) - IETF , 2008. - 22 p. doi : 10.17487/RFC5219
  5. ^ 1 2 Orlowski, Andrea. MP3 'morto' e nessuno se ne accorse: i brevetti chiave scadono su golden oldie tech  (inglese) . Il Registro (16 maggio 2017). Estratto il 26 marzo 2020 . Archiviato dall'originale il 26 marzo 2020.
  6. ^ Nikil Jayant, James Johnston, Robert Safranek. Compressione del segnale basata su modelli di percezione umana   // Atti dell'IEEE  (Inglese) : rivista. - 1992. - Ottobre ( vol. 81 , n. 10 ). - P. 1385-1422 . -doi : 10.1109/ 5.241504 .
  7. Fine dell'era mp3. Gli sviluppatori del formato mp3 ne hanno annunciato la " morte "
  8. ^ L'MP3 diventa finalmente di pubblico dominio Copia d'archivio del 3 maggio 2017 su Wayback Machine
  9. mp3  (inglese) . Istituto Fraunhofer per i circuiti integrati IIS. Estratto il 15 maggio 2017 . Archiviato dall'originale il 22 marzo 2018.
  10. ^ Phobomania Archiviato il 19 luglio 2014 su Wayback Machine Computerra Magazine , 14 dicembre 2008
  11. Stereo congiunto . Codifica audio (28 gennaio 2015). Estratto l'11 luglio 2018 . Archiviato dall'originale l'11 luglio 2018.
  12. ^ Cogliati, Josh Patent Status di MPEG-1, H.261 e MPEG-2 . Kuro5hin (20 luglio 2008). Archiviato dall'originale il 25 febbraio 2013. Questo lavoro non ha preso in considerazione le divisioni e le continuazioni dei brevetti.
  13. ^ Scadenza del brevetto USA per MP3, MPEG-2, H.264 . Data di accesso: 15 febbraio 2013 Archiviata dall'originale il 2 aprile 2013.

Collegamenti