Digital lyd

Digital lyd er den digitale kodning af et elektrisk signal , der repræsenterer en lydbølge . Den består af en sekvens af heltalværdier og opnås fra to processer: sampling og digital kvantificering af det elektriske signal.

Digital sampling af et lydsignal.

Sampling består i at fastlægge amplituden af det elektriske signal med regelmæssige tidsintervaller ( sampling rate ). For at dække det hørbare spektrum (20 til 20.000 Hz) er samplingsfrekvenser på lidt over 40.000 Hz normalt tilstrækkelige (CD-Audio-standarden bruger en 10 % højere hastighed for at tage højde for ikke-ideelle filtre). Med 32.000 samples i sekundet ville du have en båndbredde svarende til FM -radio eller et kassettebånd ; det vil sige, at det tillader optagelse af komponenter på op til 15 kHz, ca.

For at gengive et bestemt frekvensområde er der behov for en samplingshastighed på lidt over det dobbelte ( Nyquist-Shannon Sampling Theorem ). På cd'er, som afspiller op til 20 kHz, bruges f.eks. en samplinghastighed på 44,1 kHz (Nyquist-frekvens på 22,05 kHz).

Kvantisering består i at konvertere niveauet af de samples, der er indstillet i samplingsprocessen , normalt et spændingsniveau, til en forudbestemt heltalværdi med endeligt område. For eksempel, ved at bruge lineær kvantisering , vil en 8 - bit lineær kodning skelne mellem 256 ækvidistante signalniveauer ( ²⁸ ). Ikke- lineære kvantiseringer kan også udføres, som det er tilfældet med logaritmiske kvantiseringsapparater som Mu-Law eller A -Law , der for eksempel selv ved brug af 8 bit fungerer perceptuelt som 10 lineære bit for lavamplitudesignaler i gennemsnit, som f.eks. den menneskelige stemme for eksempel.

Det mest udbredte lineære PCM digitale lydformat er lyd-cd'en : 44,1 kHz samplingshastighed og 16-bit lineær kvantisering (måler 65.536 forskellige signalniveauer), og som i praksis gør det muligt at optage analoge signaler med komponenter op til 20 kHz og med signal/støjforhold på mere end 90 dB.

Rekonstruktionseksempel på et 14,7 kHz signal (stiplet grå linje) med kun fem samples. Hver cyklus består af kun 3 prøver med 44.100 prøver i sekundet. Den teoretiske rekonstruktion er resultatet af den vægtede sum af interpolationsfunktionen g(t) og dens tilsvarende tidsforskudte versioner g(t-nT) med , hvor vægtningskoefficienterne er stikprøverne x(n) . I dette billede er hver interpolationsfunktion repræsenteret med en farve (fem i alt), og de vægtes til værdien af deres tilsvarende prøve (maksimum af hver funktion passerer gennem et blåt punkt, der repræsenterer prøven).

-\infty <n<\infty \,\!

Ifølge Nyquist Sampling Theorem bestemmer samplingshastigheden , det vil sige antallet af samples, som samplingsprocessen udføres med i en tidsenhed, udelukkende den maksimale frekvens af de harmoniske komponenter, der kan indgå i det materiale, der skal digitaliseres . ^{[ 1 ]} Med Nyquist-kravene opfyldt og en lille praktisk margin, og i modsætning til en udbredt misforståelse, ^{[ 2 ]} er der ingen direkte sammenhæng mellem A/D- oversampling (sampling digitalt med en højere større end strengt nødvendigt for båndbredden af interesse) og større troskab i den efterfølgende rekonstruktion af signalet gennem hele spektret (op til Nyquist-frekvensen). ^{[ 3} ]

For at undgå fænomenet kendt som "aliasing" er det nødvendigt at fjerne alle frekvenskomponenter, der overstiger halvdelen af samplinghastigheden, dvs. Nyquist-grænsen, før digitaliseringsprocessen ( "A/D-konvertering" ). I praksis dæmpes disse komponenter kraftigt af et aktivt analogt lavpasfilter , der påføres det analoge signal af interesse, før det digitaliseres, og til dette formål kaldes et anti- aliasing -filter . I den efterfølgende rekonstruktionsproces (D/A-konvertering) af reproduktionen skal der i det væsentlige anvendes den samme analoge filtrering ved hjælp af et filter, der, brugt i denne proces, kaldes rekonstruktion.

Prøvestørrelser

Antallet af bit, der udgør samplerne i en given kvantiseringsproces, bestemmer det maksimale signal-til-støj-forhold, som signalet skal have (outputtet fra en mikrofon og følgelig det lydmateriale, det indsamler, output fra en analog master , osv. .), der er beregnet til at blive kvantificeret og derfor også begrænser det dynamiske område , som det skal have for sin fuldstændige kvantificering, på samme måde som en beholders kapacitet (bits pr. prøve) begrænser væskevolumenet ( rækkevidde af det lydmateriale, der skal kvantificeres), som det kan indeholde.

Lad være antallet af bit, som samplerne kvantiseres med, signalforholdet (for maksimal sinusformet, der dækker hele området) til teoretisk kvantiseringsstøj opnås i dB : ^[⁴ ] $b\,\!$

SQNR=10b\log(4)+10\log \left({\frac {3}{2}}\right)\ca. 6.0206b+1.7609\,\!

Derfor tillader en 16-bit kvantisering et teoretisk maksimum for det sinusformede signal til kvantiseringsstøjforholdet på 98,09 dB (122,17 dB for 20 bit, en værdi meget tæt på den reelle grænse, der tillader Johnson-Nyquist-støj (også kendt som termisk støj) fra nutidens bedste A/D-konvertere). I praksis er grænsen for, at et analogt signal kan kvantiseres uden dynamisk henfald, ca. 90 % af den teoretiske grænse. ^{[ 5 ]} Derfor er grænsen, som et signal skal have (f.eks. det direkte signal fra en mikrofon eller det, der kommer fra en analog master ) for at kunne kvantiseres sikkert med kun 14 bit, omkring 78 dB, selv når den teoretiske grænse er 86,05 dB i dette tilfælde.

Når først kvantiseringssignal-til- støj-forholdet , som en given kvantiseringsproces tillader, overstiger det maksimale signal-til-støj-forhold for lydmaterialet, der skal kvantificeres, kan det kvantiseres fuldt ud uden tab i dets dynamiske område. Ud over denne tærskel nytter det ikke at øge antallet af bits pr. sample af kvantiseringsprocessen: det vil ikke resultere i en mere trofast konvertering. For eksempel er et kvantiseringssignal-til-støj-forhold på 90 dB (et praktisk forhold, der er rigeligt tilladt af de 16 bit pr. sample af en CD-Audio ) tilstrækkeligt til at kvantificere enhver normal musikalsk optagelse, hvis lydintensitetsområde kan gå fra 25 dB(SPL) baggrundsstøj i et optagestudie op til 115 dB(SPL), nær smertegrænsen for menneskelig hørelse, ^{[ 6 ]} ved mikrofonpositionen under studieoptagelse.

Størrelsen af de nødvendige prøver i en digital kvantificeringsproces bestemmes derfor ud fra analysen af baggrundsstøjen og den maksimale intensitet af det lydmateriale, der skal optages. At øge stikprøvestørrelserne ud over, hvad der er nødvendigt, er blot spild af båndbredde, især i endelige distributionsformater. Det indebærer ikke nogen forbedring, ikke engang målbart, da det kun vil tjene til at registrere støjen med flere bits, det vil sige mere ubrugelige bits, hvis værdi udelukkende vil afhænge af tilfældigheder eller, afhængigt af hvordan forstærkningen justeres, til at forlade mest signifikante bit ved nul i alle samples (eller en kombination af begge). Tilsvarende forbedrer en beholder med en større kapacitet end den væske, der er beregnet til at blive deponeret i den, ikke på nogen måde kvaliteten eller mængden af nævnte væske i forhold til brugen af en beholder med en mindre kapacitet, forudsat at mindre kapacitet er stadig tilstrækkelig til væskevolumenet. Med andre ord, i modsætning til hvad der er en udbredt fejlagtig tro, ^{[ 7 ]} afhænger størrelsen af de samples, der skal bruges i en kvantificering af det lydmateriale, der er beregnet til at blive kvantificeret, og har intet at gøre med trofastheden af rekonstruktionen i reproduktion eller menneskelige psykoakustiske grænser (ved opfattelsen af nævnte troskab) med denne bestemmelse, for eksempel. Hvis et lydmateriale, der skal digitaliseres, "passer" i 10 bit pr. sample, gør kvantificering af det til 14 bit (eller 20) ikke dets efterfølgende rekonstruktion mere troværdigt, og det er derfor ikke muligt at opfatte subjektive forskelle, der ikke er resultatet af forslag.

Digitale lydfilformater

Digitale lydfiler gemmer al den information, der opstår over tid, størrelsen af filen varierer ikke, selvom den indeholder 'stilhed' eller meget komplekse lyde ^{[ angivelse påkrævet ]} . Der er mange digitale lydfilformater, som kan opdeles i to kategorier: ukomprimeret og komprimeret, og inden for komprimeret, tabsgivende og tabsfri. Som det ses ovenfor, kan størrelsen afhænge af antallet af kanaler filen har og opløsningen (samplinghastighed og dybde).

PCM-formater. PCM-formater, Pulse Coded Modulation , indeholder al den information, der kom ud af analog til digital konverteren uden nogen udeladelser og har derfor den bedste kvalitet. Inden for denne kategori er WAV, AIFF, SU, AU og RAW (rå) formater. Den største forskel, disse formater har, er overskriften, omkring 1000 bytes i begyndelsen af filen ^{[ citation nødvendig ]} .

DSD-formater. Direct-Stream Digital™ er et varemærke tilhørende Sony Corporation og Philips for at henvise til lydsignaloptagelses- og rekonstruktionsteknologien, der oprindeligt blev brugt i digitale Super Audio CD-lydmedier og nu i digitale DSF- og DFF-filer. Den bruger PDM-metoden, Pulse Density Modulation , og i modsætning til PCM er den baseret på en meget lav bitdybde på kun 1 bit og en enorm samplingfrekvens på 2,8224 MHz. Selvom den nyder relativ kommerciel succes, er forskellene i lydkvalitet i forhold til PCM i blinde tests har været inkonklusive.

komprimerede formater. For at bruge mindre hukommelse end PCM-filer er der komprimerede lydformater som MP3 , AAC og Ogg . Visse kompressionsalgoritmer kasserer information, der ikke kan opfattes af det menneskelige øre for at opnå, at det samme lydfragment kan optage op til en tiendedel - eller endnu mindre - af, hvad en PCM-fil ville optage i hukommelsen ^{[ anmodet citat ]} . Reduktionen i størrelse indebærer et tab af information, og af denne grund kaldes formater af denne type tabsgivende komprimerede formater ^{[ henvisning nødvendig ]} . Der er også tabsfri komprimerede filformater , inklusive FLAC og Apple Lossless Encoder , som typisk er omkring halvdelen af størrelsen af deres PCM-ækvivalent ^{[ reference nødvendig ]} .

Beskrivende formater: MIDI-filer. Dette filformat er ikke ligefrem digital lyd, men det hører til musikcomputerteknologier. MIDI-filen gemmer ikke "optaget lyd", men instruktionerne til en synthesizer eller en hvilken som helst anden MIDI-enhed til at "afspille" en række toner eller andre handlinger (kontrol af en mixer osv.) ^{[ citat nødvendig ]} . Det kan sammenlignes med et nodeark, med navnene på de instrumenter, der skal bruges, noderne, tiderne og nogle indikationer om fortolkningen.

Se også

Referencer

^ Sampling Theory (Dan Lavry fra Lavry Engineering, Inc. ): Arkiveret 14. juni 2006 på Wayback Machine . Hvorfor er mere ikke bedre? (Engelsk)
↑ Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Debunking Audio Myths . Se "Myte 4: Vi har brug for 96 kHz, nej, bedre 192 kHz".
↑ Noise-Shaping- teknikker kan forbedre signal-til-støj-forholdet for en del af spektret op til Nyquist-grænsen, men altid på bekostning af at forværre dette forhold i en anden del af det samme spektrum. Der er derfor aldrig nogen global forbedring af nogen art over hele spektret op til Nyquist-frekvensen ved at øge hastigheden, selv når denne stigning sker med den hensigt at anvende disse støjmodelleringsteknikker .
^ Smith, J.O. (2007). "Round-off Error Variance", i Mathematics of the Discrete Fourier Transform (DFT) . ISBN 978-0-9745607-4-8 .
↑ På grund af behovet for at tilføje dither og overveje en justeringsmargin for fejl (niveauet af signalet, der skal kvantiseres, skal justeres, så kraften af kvantiseringsstøjen ca. falder sammen med den af signalets basisstøj).
↑ Carl R. Skib. Høretærskel . _ Hentet 2. januar 2012 .
^ Kite, Thomas (2001). "Signalbehandlingsseminar: Debunking af lydmyter (se "Myte 5: 16 bit er ikke nok")" . The Embedded Signal Processing Laboratory - University of Texas i Austin.

Bibliografi

Proakis, JG og Manolakis, D.G. (1998). Digital signalbehandling. Principper, algoritmer og applikationer . Hertfordshire: PRENTICE HALL International (UK) Ltd. ISBN 84-8322-000-8 .

Eksterne links

Wikimedia Commons er vært for en mediekategori om Digital Audio .

[1] Sampling Theory (Dan Lavry fra Lavry Engineering, Inc. ): Arkiveret 14. juni 2006 på Wayback Machine . Hvorfor er mere ikke bedre? (Engelsk)

[2] Embedded Signal Processing Laboratory (University of Texas at Austin): Debunking Audio Myths Debunking Audio Myths . Se "Myte 4: Vi har brug for 96 kHz, nej, bedre 192 kHz".

[3] Noise-Shaping- teknikker kan forbedre signal-til-støj-forholdet for en del af spektret op til Nyquist-grænsen, men altid på bekostning af at forværre dette forhold i en anden del af det samme spektrum. Der er derfor aldrig nogen global forbedring af nogen art over hele spektret op til Nyquist-frekvensen ved at øge hastigheden, selv når denne stigning sker med den hensigt at anvende disse støjmodelleringsteknikker .

[4] Smith, J.O. (2007). "Round-off Error Variance", i Mathematics of the Discrete Fourier Transform (DFT) . ISBN 978-0-9745607-4-8 .

[5] På grund af behovet for at tilføje dither og overveje en justeringsmargin for fejl (niveauet af signalet, der skal kvantiseres, skal justeres, så kraften af kvantiseringsstøjen ca. falder sammen med den af signalets basisstøj).

[6] Carl R. Skib. Høretærskel . _ Hentet 2. januar 2012 .

[7] Kite, Thomas (2001). "Signalbehandlingsseminar: Debunking af lydmyter (se "Myte 5: 16 bit er ikke nok")" . The Embedded Signal Processing Laboratory - University of Texas i Austin.

[ 1 ]

[ 2 ]

[ 3

[

[ 5 ]

[ 6 ]

[ 7 ]