BlinfoTec

Informatie voor computergebruikers met een visuele handicap.


Inhoud| Zoeken| Nieuws| BlinfoTalk| bijdragen| Contact


De theorie bij digitale geluidsbewerking

(Door Paul Erkens)

Klik op skip tekst om meteen naar de links te gaan, of druk op 'x'.

Digitaal geluid: de basis

Hoe sla je dan audio op? Wel. Daar zijn vele manieren voor bedacht, maar de aller oudste en meest simpele manier is pcm, pulse code modulation. In Windows kretologie heet de lichtelijk opgeflufte vorm daarvan een wav file. De letters W A V staan voor "wave", geluidsgolf.

Geluid maak je door lucht in trilling te brengen. Roep maar eens met je hand op 3 centimeter van je mond. Dan voel je de lucht trillen. Je oor is echter veel en veel gevoeliger dan je hand, en kan trillingen in de lucht op kilometers afstand waarnemen. Geluid is dus lucht, waar zich een trillingsgolf doorheen beweegt. Die vibreert tegen je trommelvlies en je oor vertaalt dat door een ingewikkeld systeem in je hoofd in iets , dat je hersenen begrijpen als geluid.

Nu is een speaker in feite niks meer dan een groot oppervlak dat in trilling gebracht wordt, om zodoende de audio informatie via de trillende lucht in je oor te brengen. Midden achter de conus van de speaker zit een magneet die de conus naar zich toe trekt. De conus kan vrij bewegen ten opzichte van de magneet. Hij wordt bewogen door spanning op de spoel achter de magneet te zetten. Hoe meer spanning, hoe verder de conus naar buiten komt, in weerwil van de aantrekking van de magneet. Haal je de spanning echter weg, dan gaat de conus weer naar ruststand, doordat de magneet de conus naar zijn centrum trekt. Geluid uit een speaker maak je dus, door de spanning op de spoel heel snel te variëren. Beetje meer, beetje minder, nog minder, even maximaal, even geen spanning, halverwege, en zo voort in een ogenschijnlijk willekeurig patroon. Daardoor beweegt de conus van de speaker, die brengt de lucht in trilling, de golf plant zich voort tot in je oor en je hoort het geluid. Dat is ruw weg het idee.

Digitale audio werkt nu als volgt. Bij het opnemen van het geluid van bijvoorbeeld een microfoon, wordt de conus van de microfoon bewogen door het in de ruimte aanwezige geluid. Daardoor ontstaat er spanning in het spoeltje, dat bij de magneet van de conus in het microfoontje zit. Die spanning gaat door het draadje van de microfoon naar, laten we zeggen, je minidisk recorder of je geluidskaart. En daar komt de truc. Ongeveer 44 duizend keer per seconde staat daar een chipje te meten, wat op elk moment de spanning is die uit je microfoon komt. Elk zo'n meting noemen we een monstertje, een sample. De chip die de metingen verricht heet de A-D converter (analoog -> digitaal).

Die spanning uit je microfoon heeft natuurlijk een minimum, helemaal niks, en hij heeft een maximum, namelijk zo veel als er maar opgewekt kan worden in het spoeltje.

Omdat de A-D converter een analoog signaal in zich krijgt maar een digitaal signaal zal moeten uitspugen dat uit nullen en enen bestaat, moet er een systeem worden bedacht om een willekeurige spanning ergens tussen minimum en maximum, uit te drukken in een reeks nullen en enen.

Met 8 bitjes die allemaal onafhankelijk van elkaar 0 of 1 kunnen zijn, kun je 256 verschillende combinaties maken. De binaire combinatie "00000000" is gelijk aan ons gewone getal 0. De binaire combinatie "11111111", (acht binaire eentjes op een rij), is voor ons gelijk aan het normale (decimale) getal 255. Daarom zijn er 256 mogelijkheden met acht bitjes, namelijk mogelijkheid 1 t/m 255, en alles op 0, waarmee het totaal aan mogelijkheden op 256 komt. Acht bitjes is zoals gezegd 1 byte. In 1 byte past dus een getal, tussen 0 en 255 inclusief.

Nu bepalen we dat er tussen minimum en maximum, 256 stapjes bestaan. Helemaal geen spanning (binair "00000000"), een heel klein beetje spanning ("00000001"), nog wat meer spanning ("00000010") ........ en ten slotte maximale spanning, "1111111"1, en dat is dan combinatie nummer 255 in ons normale stelsel.

44 Duizend keer per seconde wordt er door de A-D converter spanning van het audiosignaal gemeten, en 44 duizend keer per seconde wordt er dus een groepje van acht nullen en enen (1 byte) door de A-D converter aan je computer gegeven. Elke byte heet een sample. Elke sample, waar we er zo'n 44 duizend per seconde van krijgen, is een getal tussen de 0 en 255, maar dan verhaspeld in een binaire notatievorm, acht nulletjes en eentjes. Met andere woorden: elke digitale sample, opgebouwd uit nulletjes en eentjes, representeert een bepaalde analoge spanning. Je pc slaat alles vervolgens netjes op in je harde schijf. Dat is de hele weg van geluid tot file op je hard disk.

Terug is nu eenvoudig. De pc stuurt 44 duizend keer per seconde een byte (8 bitjes) naar je geluidskaart. Daar zit een tweede chipje, de D-A converter, die de digitale data stroom moet omzetten naar analoog, en dus hoor baar te maken geluid. Bij elke byte die wordt gelezen, wordt het bij die toevallige binaire combinatie horend spanninkje naar je speaker gestuurd. Krijgt de D-A converter acht eentjes, dan zal ie maximale spanning naar je speaker spoel toe sturen waardoor de conus maximaal naar je toe gehaald wordt. Krijgt de D-A converter acht nullen, dan stuurt ie helemaal geen spanning naar de speaker, waardoor de magneet de kans krijgt de conus weer in ruststand terug te trekken. Alle binaire combinaties tussen acht nullen en acht enen in, levert een spoelspanning op die ergens tussen min en max in ligt. Zo maakt de pc het digitale opgenomen geluid weer hoorbaar door je speaker.

Digitaal geluid: de werkelijkheid

Nu moeten we de zaak wat nuanceren, om tot de werkelijkheid te komen. De sampling frequentie is niet precies 44 duizend, maar wel 44 duizend 1 honderd maal per seconde. Waarom nou precies die 1 honderd nodig was kan ik ook niet verklaren maar het is nu eenmaal de wereldwijd aanvaarde standaard geworden. Hoe vaker per seconde je een sample van een op te nemen signaal trekt, hoe nauwkeuriger je het spanningsverloop vast legt en hoe getrouwer de uiteindelijke weergave zal klinken. Hoe lager de sample frequentie, hoe slechter de audio kwaliteit. 44100 is de door Philips bedachte standaard, voor cd kwaliteit.

Dan: met 1 byte heb je maar 256 combinatiemogelijkheden om spanningen op te slaan tussen minimum (0) en maximum (255). Een beetje weinig voor zoiets ragfijns als audio spanningen. Neem je niet 1 maar 2 bytes per sample, dan heb je geen 8 maar wel 16 bitjes ter beschikking.

Nu zou je denken dat daarmee het aantal mogelijkheden precies verdubbelt, omdat je niet 1 maar 2 bytes ter beschikking hebt. Maar dat is niet waar. Omdat we met machten van 2 werken, is het veel meer dan dat.

Met 8 bitjes had je 256 mogelijkheden, maar met 9 bitjes heb je er al 2 maal zo veel, dus 512. Met 10 bitjes heb je dan al 1024 mogelijkheden en als we wat stapjes overslaan heb je met 16 bits 65536 mogelijkheden. Dat is geen toeval, want 2 tot de macht 16 is immers 65536.

Het spectrum tussen geen spanning (0) en maximum spanning (65535) is nu heel wat groter. De nuances in de spanningswisselingen kun je dus veel getrouwer opslaan als je meer digitale stapjes creëert, tussen spanning min en max. Daarom samplet men op cd kwaliteit niet met 8 bits, maar met 16 bits per sample. Dat zijn 2 bytes per sample. Het aantal bits per sample wordt in de muziekindustrie de audio resolutie genoemd. Daarbij gaat het dus om het aantal bits per sample, niet om het aantal samples per seconde.

En dan: stereo geluid bestaat niet uit 1, maar uit 2 kanalen. Links gesampled en rechts ook. Dat betekent dat er 2 A-D en ook 2 D-A converters moeten zijn, die tegelijkertijd hun werk doen. En dat betekent weer, dat er per seconde 2 keer zoveel data uit komt. Een stroom voor het linker kanaal, en eentje voor het rechter.

Samenvattend hebben we nu 44100 samples per seconde per audiokanaal, elk van 2 bytes breed. Dat is 44100 maal 2 bytes aan data, dat maal 2 kanalen, is 176.400 bytes, (zo'n 172 kilobyte) aan wav data per seconde. Dat geldt dus als je samplet op 44.1 kilohertz, met een resolutie van 16 bits per sample en stereo signaal. In de uiteindelijke stereo wav file wordt om beurten een sampletje voor het linker kanaal en dan eentje voor het rechter kanaal opgeslagen. Dat beurtelings opslaan van data voor het linker en dan voor het rechter kanaal heet interleaved audio.

Per minuut is dat slordig gerekend zo'n 10 megabyte data voor cd kwaliteit audio. 10 meg per minuut wordt al gauw heel groot.

Links

Verder...

Naar het volgende hoofdstuk.

Inhoud

Terug naar de inhoudspagina.


Inhoud| Zoeken| Downloads| bijdragen| Nieuws
Disclaimer, Copyright ©2002 - 2009 RMPRO All rights reserved.
Naar Vorige Pagina