Irgendwie passen 44.100 Hz nicht so recht ins digitale Schema, trotzdem hat sie sich durch den enormen Erfolg der Audio-CD auch in der sonst so zu Zweierpotenzen affinen Computerwelt etabliert. Trotzdem kommen jenseits der Audio-CD und den damit zusammenhängenden Audioformaten wie MP3, AAC & Co schon lange auch 32 kHz (25), 48 kHz (3 × 24) oder deren Vielfache zum Einsatz, beispielsweise bei DAT, DAB, DVB, DVD, Blu-ray, ...

Zahlen, bitte! In dieser Rubrik stellen wir immer dienstags verblüffende, beeindruckende, informative und witzige Zahlen aus den Bereichen IT, Wissenschaft, Kunst, Wirtschaft, Politik und natürlich der Mathematik vor. Alle Artikel zu "Zahlen, bitte!"

Abtasttheorem

Doch von vorne: Der durchschnittliche junge Mensch kann Frequenzen zwischen 20 und 20.000 Hz hören. Dadurch gibt es quasi eine natürliche Bandbegrenzung der Signale (wogegen HiFi-Puristen vermutlich lautstark protestieren werden). Will man diese Signale nach zeitdiskreter Abtastung – sprich Digitalisierung – wieder exakt rekonstruieren können, muss man sie mit einer Frequenz abtasten, die größer ist als das Zweifache der höchsten im Signal auftretenden Frequenz, also mehr als 40.000 Hz. So sagt es das Abtasttheorem (auch Nyquist-Shannon-Theorem oder WKS-Theorem nach Whittaker, Kotelnikow und Shannon benannt).

Die Bandbegrenzung erledigt man mit einem Tiefpassfilter bei 20 kHz, braucht allerdings ein Übergangsfrequenzband, um Aliasing-Effekte zu vermeiden. Damit ist schon mal klar, warum es zumindest ein paar (Kilo-)Hertz mehr sein müssen als 40 kHz.

Die Samplingrate der Audio-CD hat ihren Ursprung in der digitalen Audioaufzeichnung mit Studio-Videorecordern wie Sonys U-matic-Reihe. (Bild: grm_wnr, CC BY-SA 3.0 )

Die tatsächliche Entscheidung für 44.100 Hz hat – wie so oft wenn die Zahlen "krumm" werden – mal wieder mit Fernsehformaten zu tun (aufmerksame Leser der Rubrik kennen das schon ;-). Denn schon vor der Entwicklung der Audio-CD Ende der 1970er Jahre wurden Audiosignale im Studiobereich digital gespeichert – auf dafür zweckentfremdeten Videorecordern. Bandlaufwerke waren damals schlicht die zuverlässigsten Medien für große Datenmengen. Spezielle Konverter digitalisierten Audiosignale mit 16 Bit Auflösung pro Kanal und erzeugten daraus Pseudo-Videosignale mit je drei Stereosamples pro "Bildzeile", etwa für Sonys U-matic-Recorder.

Fernsehaltlasten

Dieses Verfahren sollte unabhängig von der Fernsehnorm funktionieren, also sowohl für PAL (50 Halbbilder/s) als auch NTSC (60 Halbbilder/s). Darum rechnete man mit dem kleinsten gemeinsamen Vielfachen von 300 Hz respektive 900 Samples/s, um die digitalisierten Daten in den Bildzeilen unterzubringen.

Daraus ergaben sich folgende Bedingungen ( n ist ganzzahlig):

5 × n Zeilen/Halbbild × 60 Halbbilder/s × 3 Samples/Zeile > 40.000 Samples/s

bzw.

6 × n Zeilen/Halbbild × 50 Halbbilder/s × 3 Samples/Zeile > 40.000 Samples/s

Für n = 45, 46, 47, 48, 49, 50, ... ergeben sich daraus die Kandidaten 40,5 kHz, 41,4 kHz, 42,4 kHz, 43,2 kHz, 44,1 kHz, 45 kHz ...

Die Frequenzen nahe 40 kHz ließen zu wenig Spielraum für die Signalfilterung, Abtastraten über 45 kHz hätten hingegen Probleme mit der Austastlücke beschert, sodass man sich für n = 49 und damit 44,1 kHz entschied. Die 16 Bit Auflösung und 44,1 kHz Abtastrate wurden später in der Red-Book-Spezifikation der Compact Disc Digital Audio (CDDA) übernommen, um unnötigen Konvertierungen zu vermeiden.

Philips setzte sich übrigens ursprünglich für eine Abtastrate von 44.056 Hz (44.100 Hz/1001) und eine Auflösung von 14 Bit ein. Da kann man sich fast glücklich schätzen, dass sich Sony mit 16 Bit und den nicht ganz so krummen 44,1 kHz durchsetzte. (vza)