1
00:00:08,124 --> 00:00:10,742
Workstations und hoch-qualitative PCs sind nun schon

2
00:00:10,742 --> 00:00:14,749
seit mehr als 15 Jahren fÃ¤hig, digital Audiodaten zu manipulieren.

3
00:00:14,749 --> 00:00:17,470
Es sind nun gerade mal fÃ¼nf Jahre, dass eine vernÃ¼nftige Workstation fÃ¤hig ist,

4
00:00:17,470 --> 00:00:21,643
rohe Videodaten ohne viel Spezial-Hardware zu handhaben.

5
00:00:21,643 --> 00:00:25,400
Aber heutzutage haben selbst die billigsten Universalcomputer

6
00:00:25,400 --> 00:00:28,092
ausreichend Prozessor- und Speicher-FÃ¤higkeiten um mit rohen Videodaten

7
00:00:28,092 --> 00:00:30,479
ohne grÃ¶ÃŸere Probleme umgehen zu kÃ¶nnen.

8
00:00:30,479 --> 00:00:33,579
Da nun jeder Zugang hat zu solcher billigen und fÃ¤higen Hardware,

9
00:00:33,579 --> 00:00:36,651
ist es nicht Ã¼berraschend, dass mehr Menschen interessante Dinge

10
00:00:36,651 --> 00:00:39,908
mit digitalen Medien unternehmen wollen - insbesondere Streaming.

11
00:00:39,908 --> 00:00:44,017
YouTube war der erste groÃŸe Erfolg und jeder mÃ¶chte jetzt daran teilhaben.

12
00:00:44,017 --> 00:00:47,413
Gut so! Denn dieses Zeug macht sehr viel Spass!

13
00:00:48,250 --> 00:00:51,179
Es ist kein Problem, Benutzer fÃ¼r digitale Medien zu finden.

14
00:00:51,179 --> 00:00:54,649
Aber ich mÃ¶chte hier die Ingenieure, die Mathematiker, die Hacker,

15
00:00:54,649 --> 00:00:57,869
die Menschen ansprechen, die an Entdeckungen interessiert sind,

16
00:00:57,869 --> 00:01:01,302
und die Dinge erfinden, und die Technologie selbst erzeugen.

17
00:01:01,302 --> 00:01:03,282
Leute nach meinem Herzen.

18
00:01:04,250 --> 00:01:08,723
Digitale Medien, insbesondere Kompression, wird als super-elitÃ¤r wahrgenommen,

19
00:01:08,723 --> 00:01:12,822
irgendwie extrem schwieriger als alles andere in den Computerwissenschaften.

20
00:01:12,822 --> 00:01:15,700
Den groÃŸen Spielern in der Industrie in diese Gebiet ist diese Wahrnehmung ganz recht;

21
00:01:15,700 --> 00:01:19,734
sie hilft, die riesige Anzahl ihrer sehr grundlegenden Patente zu rechtfertigen.

22
00:01:19,734 --> 00:01:23,870
Sie mÃ¶gen das Image, dass ihre Medienforscher die besten der besten sind,

23
00:01:23,870 --> 00:01:27,738
so sehr viel schlauer als jeder andere, dass ihre brillanten Ideen

24
00:01:27,738 --> 00:01:29,903
von Normalsterblichen nicht verstanden werden kÃ¶nnen.

25
00:01:30,625 --> 00:01:33,716
Das ist kompletter BlÃ¶dsinn.

26
00:01:35,205 --> 00:01:38,900
Digitaler Ton und Bild und Streaming und Kompression

27
00:01:38,900 --> 00:01:42,738
bieten endlos tiefe und anregende intellektuelle Herausforderungen,

28
00:01:42,738 --> 00:01:44,662
genau wie jedes andere Forschungsgebiet.

29
00:01:44,662 --> 00:01:47,929
Es scheint elitÃ¤r, denn so wenige Menschen beschÃ¤ftigen sich damit.

30
00:01:47,929 --> 00:01:51,223
Vielleicht haben sich so wenige Menschen dafÃ¼r interessiert, da sich so wenige

31
00:01:51,223 --> 00:01:54,665
die teure SpezialausrÃ¼stung leisten konnten, die benÃ¶tigt war.

32
00:01:54,665 --> 00:01:58,792
Aber heutzutage besitzt fast jeder, der dieses Video ansieht, einen billigen

33
00:01:58,792 --> 00:02:03,317
Universalcomputer, der die FÃ¤higkeit hat, mit den groÃŸen Jungs zu spielen.

34
00:02:05,926 --> 00:02:11,108
Heutzutage gibt es KÃ¤mpfe um HTML5 und Browser

35
00:02:11,108 --> 00:02:13,671
und Video und offen gegen proprietÃ¤r.

36
00:02:13,671 --> 00:02:17,048
Jetzt ist also ein ziemlich guter Zeitpunkt, sich damit zu beschÃ¤ftigen.

37
00:02:17,048 --> 00:02:20,000
Den besten Start bekommt man wahrscheinlich indem man

38
00:02:20,000 --> 00:02:22,619
lernt, die Technologie die wir jetzt haben, zu verstehen.

39
00:02:23,500 --> 00:02:25,071
Dies ist eine EinfÃ¼hrung.

40
00:02:25,071 --> 00:02:28,180
Da es eine EinfÃ¼hrung ist, wird eine Tonne von Details nur angeschnitten,

41
00:02:28,180 --> 00:02:30,882
so dass das groÃŸe Bild ein bisschen leichter zu sehen ist.

42
00:02:30,882 --> 00:02:33,908
Eine Menge Zuschauer werden lÃ¤ngst jenseits dem Niveau sein,

43
00:02:33,908 --> 00:02:36,378
Ã¼ber das ich spreche, jedenfalls fÃ¼r den Moment.

44
00:02:36,378 --> 00:02:39,293
Auf der anderen Seite werde ich wahrscheinlich zu schnell sein

45
00:02:39,293 --> 00:02:44,558
fÃ¼r Leute, die dies zum aller ersten Mal hÃ¶ren - aber keine Panik.

46
00:02:44,558 --> 00:02:48,629
Das Wichtigste ist, Ideen mitzunehmen, die wirklich eure Phantasie anregen.

47
00:02:48,629 --> 00:02:52,497
Konzentriert euch speziell auf die Terminologie dieser Ideen,

48
00:02:52,479 --> 00:02:56,078
denn mit dieser und Google und Wikipedia kann man

49
00:02:56,078 --> 00:02:57,753
solange Details ausgraben wie das Interesse anhÃ¤lt.

50
00:02:57,753 --> 00:03:00,094
Also, ohne weitere VerzÃ¶gerung,

51
00:03:00,094 --> 00:03:03,351
willkommen zu einem wahnsinnigen neuen Hobby.

52
00:03:10,291 --> 00:03:13,030
Ton ist die Ãœbertragung von Druckwellen durch die Luft, welche sich von einer Quelle ausbreiten

53
00:03:13,030 --> 00:03:16,981
Ã¤hnlich wie Wellen um einen Stein, der in einen Teich geworfen wurde.

54
00:03:16,981 --> 00:03:19,489
Ein Mikrofon, oder in der Tat das menschliche Ohr,

55
00:03:19,489 --> 00:03:22,876
verwandeln diese vergÃ¤nglichen Druckwellen in ein elektrisches Signal.

56
00:03:22,876 --> 00:03:25,800
Ok, das ist Realschul-Niveau in Physik - jeder sollte sich daran erinnern.

57
00:03:25,800 --> 00:03:26,771
Weiter geht's.

58
00:03:27,465 --> 00:03:32,527
Das resultierende Tonsignal ist eine ein-dimensionale Funktion, ein einziger Wert, der Ã¼ber die Zeit variiert,

59
00:03:32,527 --> 00:03:34,248
Wenn wir den Oszillator ein wenig verlangsamen...

60
00:03:36,450 --> 00:03:38,190
sollte das ein wenig leichter zu sehen sein.

61
00:03:38,190 --> 00:03:40,688
Einige andere Aspekt des Signals sind wichtig.

62
00:03:40,688 --> 00:03:43,418
Es ist kontinuierlich sowohl in Wert und Zeit;

63
00:03:43,418 --> 00:03:46,813
das heiÃŸt, zu jedem gegebenen Zeitpunk kann es jeden Realwert annehmen,

64
00:03:46,813 --> 00:03:50,228
und es gibt einen kontinuierlich sich Ã¤ndernden Wert zu jedem Zeitpunkt.

65
00:03:50,228 --> 00:03:52,439
Egal wie sehr wir hinein-zoomen,

66
00:03:54,068 --> 00:03:58,510
es gibt keine DiskontinuitÃ¤ten, keine SingularitÃ¤ten, keine SprÃ¼nge

67
00:03:58,510 --> 00:04:01,285
oder Punkte an denen das Signal nicht existiert.

68
00:04:03,247 --> 00:04:08,475
Es ist Ã¼berall definiert. Klassische kontinuierliche Mathematik kann sehr gut auf diese Signale angewandt werden.

69
00:04:11,001 --> 00:04:15,378
Ein digitales Signal auf der anderen Seite ist diskret, sowohl in Wert und Zeit.

70
00:04:15,378 --> 00:04:19,107
In den einfachsten und Ã¼blichsten Systemen, Puls-Code-Modulation genannt (PCM),

71
00:04:19,107 --> 00:04:24,058
eines einer endlichen Anzahl mÃ¶glicher Wert reprÃ¤sentiert direkt die momentane Signalamplitude

72
00:04:24,058 --> 00:04:30,165
zu Zeitpunkten, die ein festes Intervall voneinander entfernt sind. Das Endergebnis ist ein Zahlenstrom.

73
00:04:30,674 --> 00:04:35,309
Das sieht dann ungefÃ¤hr so aus.

74
00:04:35,309 --> 00:04:38,964
Intuitiv nehmen wir an, dass es mÃ¶glich sein sollte die eine Form in die andere

75
00:04:38,964 --> 00:04:44,683
umwandeln zu kÃ¶nnen, und in der Tat, das Abtast-Theorem besagt, dass wir das kÃ¶nnen und sagt auch wie.

76
00:04:44,683 --> 00:04:48,477
Publiziert anerkannterweise by Claude Shannon in 1949

77
00:04:48,477 --> 00:04:52,409
und aufbauend auf der Arbeit von Nyquist, Hartley und vielen anderen,

78
00:04:52,409 --> 00:04:56,138
das Abtast-Theorem besagt, dass wir nicht nur hin und her gehen kÃ¶nnen zwischen

79
00:04:56,138 --> 00:05:00,913
analogen und digitalen Signalen, aber legt auch eine Anzahl Bedingungen fest unter denen

80
00:05:00,913 --> 00:05:06,779
die Konvertierung verlustfrei ist und die beiden Darstellungen Ã¤quivalent und austauschbar sind.

81
00:05:06,779 --> 00:05:10,601
Wenn die verlustfreien Bedingungen nicht erfÃ¼llt sind, sagt uns das Abtast-Theorem

82
00:05:10,601 --> 00:05:14,247
wie und wieviel Information verloren ging oder zerstÃ¶rt wurde.

83
00:05:14,900 --> 00:05:21,270
Bis vor Kurzem war die Analogtechnik die Grundlage fÃ¼r praktisch alles was mit Audio unternommen wurde,

84
00:05:21,270 --> 00:05:25,267
und der Grund war nicht, dass die Mehrzahl von Tonaufnahmen ursprÃ¼nglich von einer analogen Quelle stammt.

85
00:05:25,267 --> 00:05:28,450
Man mag annehmen, dass - weil Computer noch sehr jung sind -

86
00:05:28,450 --> 00:05:31,643
analoge Signaltechnik zuerst existiert haben muss.

87
00:05:31,643 --> 00:05:34,428
Aber nein. Digital ist in tatsÃ¤chlich Ã¤lter.

88
00:05:34,428 --> 00:05:37,611
Der Telegraph kam ein halbes Jahrhundert vor dem Telefon

89
00:05:37,611 --> 00:05:41,951
und war bereits voll mechanisch automatisiert in den 1860ern, und schickte codierte,

90
00:05:41,951 --> 00:05:46,476
gemultiplexte, digitale Signale Ã¼ber weite Entfernung. Sie wissen schon â€¦ Tickertape.

91
00:05:46,476 --> 00:05:50,427
Harry Nyquist von den Bell Labs forschte Ã¼ber Telegraph-PulseÃ¼bertragung

92
00:05:50,427 --> 00:05:53,027
als er seine Beschreibung dessen was spÃ¤ter Nyquist-Frequenz genannt wurde

93
00:05:53,027 --> 00:05:57,219
publizierte - das Kernkonzept des Abtast-Theorems.

94
00:05:57,219 --> 00:06:01,642
NatÃ¼rlich hat der Telegraph symbolische Information Ã¼bertragen, Text,

95
00:06:01,642 --> 00:06:06,883
nicht digitalisierte analoge Signale, aber mit der EinfÃ¼hrung von Telefon und Radio,

96
00:06:06,883 --> 00:06:12,000
entwickelte sich die analoge und digitale Signaltechnik schnell und gemeinsam.

97
00:06:12,699 --> 00:06:18,732
Audio wurde immer als Analogsignal manipuliert, denn, hmm, nun, es ist so viel einfacher.

98
00:06:18,732 --> 00:06:23,257
Ein Tiefpassfilter zweiter Ordnung, zum Beispiel, benÃ¶tigt zwei passive Komponenten.

99
00:06:23,257 --> 00:06:26,505
Eine rein-analoge Short-Time-Fouriertransformation braucht mehrere hundert.

100
00:06:26,505 --> 00:06:30,752
Nun, vielleicht tausend wenn man etwas wirklich Besonderes bauen mÃ¶chte.

101
00:06:31,844 --> 00:06:35,989
Die Verarbeitung digitaler Signale benÃ¶tigt Millionen oder Billionen von Transistoren,

102
00:06:35,989 --> 00:06:40,366
die auf Mikrowellenfrequenzen arbeiten, benÃ¶tigt HardwareunterstÃ¼tzung zumindest zum Digitalisieren

103
00:06:40,366 --> 00:06:43,836
und Rekonstruieren der analogen Signale, benÃ¶tigt ein komplettes Software-Ã–kosystem

104
00:06:43,836 --> 00:06:47,362
zur Programmierung und Kontrolle des Billionen-Transistor-Molochs,

105
00:06:47,362 --> 00:06:51,091
benÃ¶tigt digitalen Speicher nur fÃ¼r den Fall dass man irgendwelche der Bits spÃ¤ter nochmals brauchtâ€¦

106
00:06:51,091 --> 00:06:56,171
Wir kommen also zu der Schlussfolgerung, dass analog der einzige praktische Weg ist, viel mit Audio zu tun...

107
00:06:56,171 --> 00:07:07,019
nun, auÃŸer man hat zufÃ¤llig eine Billion Transistoren und all die anderen Dinge herumliegen.

108
00:07:07,850 --> 00:07:12,660
Und da wir das nun alles haben wird die digitale Signalverarbeitung sehr attraktiv.

109
00:07:13,363 --> 00:07:18,906
Zum einen haben analoge Komponenten nicht die FlexibilitÃ¤t eines Universalcomputers.

110
00:07:18,906 --> 00:07:21,182
Eine neue Funktion zu diesem Moloch hinzuzufÃ¼gen...

111
00:07:22,191 --> 00:07:24,578
hmm, das ist sehr unwahrscheinlich.

112
00:07:24,578 --> 00:07:26,567
Auf einem digitalen Prozessor allerdingsâ€¦

113
00:07:28,668 --> 00:07:34,127
â€¦schreib' einfach ein neues Programm. Software ist nicht trivial, aber es ist sehr viel einfacher.

114
00:07:34,127 --> 00:07:39,550
Vielleicht wichtiger ist dass jede analoge Komponente eine AnnÃ¤herung ist.

115
00:07:39,550 --> 00:07:44,352
Es gibt keine perfekten Transistoren, oder einen perfekten Induktor oder einen perfekten Kondensator.

116
00:07:44,352 --> 00:07:51,569
Im Analogen fÃ¼gt jede Komponente GerÃ¤usche und Verzerrungen hinzu - normalerweise nicht viel, aber es summiert sich.

117
00:07:51,569 --> 00:07:55,669
Allein die Ãœbertragung von analogen Signalen, besonders Ã¼ber groÃŸe Distanzen,

118
00:07:55,669 --> 00:08:00,434
nach und nach, messbar und unwiederbringlich zerstÃ¶rt es.

119
00:08:00,434 --> 00:08:06,513
Im Ãœbrigen nehmen all diese analogen Einzelzweck-Komponenten viel Raum ein.

120
00:08:06,513 --> 00:08:09,946
Zwei Programmzeilen auf den Billionen Transistoren hier hinten

121
00:08:09,946 --> 00:08:14,702
kÃ¶nnen einen Filter implementieren, der eine Spule der GrÃ¶ÃŸe eines KÃ¼hlschranks brauchen wÃ¼rde.

122
00:08:14,702 --> 00:08:17,941
Digitale Systeme haben nicht diese Nachteile.

123
00:08:17,941 --> 00:08:24,335
Digitale Signale kÃ¶nnen gespeichert, kopiert, manipuliert und Ã¼bertragen werden ohne irgendwelche GerÃ¤usche oder Verzerrungen hinzuzufÃ¼gen.

124
00:08:24,335 --> 00:08:26,889
Wir nutzen verlustbehaftete Algorithmen ab und zu,

125
00:08:26,889 --> 00:08:31,284
aber die einzigen unvermeidbar suboptimalen Schritte sind Digitalisierung und Rekonstruktion,

126
00:08:31,284 --> 00:08:35,929
wo Digital mit all dem unordentlichen Analogen interagieren muss.

127
00:08:35,929 --> 00:08:40,750
Unordentlich oder nicht - moderne Konvertierungsschritte sind sehr sehr gut.

128
00:08:40,750 --> 00:08:45,849
Nach den Standards die unsere Ohren setzen, kÃ¶nnen wir sie auch als praktisch verlustfrei ansehen.

129
00:08:45,849 --> 00:08:50,429
Dann, mit ein wenig zusÃ¤tzlicher Hardware - zumeist jetzt klein und billig

130
00:08:50,429 --> 00:08:55,379
wegen unserer modernen industriellen Infrastruktur - ist digitales Audio der offenbare Gewinner Ã¼ber analog.

131
00:08:55,379 --> 00:09:00,857
Also lasst es uns dann speichern, kopieren, manipulieren, und Ã¼bertragen.

132
00:09:04,956 --> 00:09:08,639
Pulscode-Modulation ist die Ã¼blichste Darstellung fÃ¼r rohe Audiodaten.

133
00:09:08,639 --> 00:09:13,867
Andere praktische Darstellungen existieren, zum Beispiel die Sigma-Delta-Kodierung, die von SACD benutzt wird,

134
00:09:13,867 --> 00:09:16,625
die eine Art Pulsdichte-Modulation darstellt.

135
00:09:16,625 --> 00:09:19,687
Dennoch ist die Pulscode-Modulation bei weitem dominierend,

136
00:09:19,687 --> 00:09:22,158
besonders weil sie mathematisch so bequem ist.

137
00:09:22,158 --> 00:09:26,350
Ein Audio-Ingenieur kann eine gesamte Karriere verleben ohne je etwas anderes zu sehen.

138
00:09:26,350 --> 00:09:29,135
Die PCM-Kodierung kann man durch drei Parameter charakterisieren,

139
00:09:29,135 --> 00:09:34,187
welches uns erlaubt, jede mÃ¶gliche PCM Variante mit glÃ¼cklicherweise wenigem Aufwand handzuhaben.

140
00:09:34,187 --> 00:09:36,426
Der erste Parameter ist die Abtastrate.

141
00:09:36,426 --> 00:09:40,886
Die hÃ¶chste Frequenz, die eine Kodierung darstellen kann, heiÃŸt Nyquist-Frequenz.

142
00:09:40,886 --> 00:09:45,124
Die Nyquist-Frequenzy von PCM ist zufÃ¤llig genau die HÃ¤lfte der Abtastrate.

143
00:09:45,124 --> 00:09:51,389
Deshalb bestimmt die Abtastrate direkt die hÃ¶chste mÃ¶gliche Frequenz in einem digitalisierten Signal.

144
00:09:51,389 --> 00:09:56,515
Analoge Telefonsystems begrenzten traditionell die FrequenzbÃ¤nder von SprachkanÃ¤len auf unter 4kHz,

145
00:09:56,515 --> 00:10:02,224
weshalb die digitale Telefonie und die meisten klassischen Sprachanwendungen eine 8kHz Abtastrate verwenden,

146
00:10:02,224 --> 00:10:07,277
welches die minimale Abtastrate ist, die benÃ¶tigt wird, um die gesamte Bandbreite eines 4kHz Kanals zu erfassen.

147
00:10:07,227 --> 00:10:14,263
So hÃ¶rt sich ein Audiosignal mit 8kHz Abtastrate an --- ein wenig dumpf, aber vollkommen erfassbar fÃ¼r Sprache.

148
00:10:17,263 --> 00:10:18,149
Dies ist die niedrigste Abtastrate, die jemals praktisch breit eingesetzt wurde.

149
00:10:18,149 --> 00:10:23,322
Von hier, mit dem Anstieg an CPU StÃ¤rke und Hauptspeicher, und Speicherplatz fÃ¼r Heimcomputer-Hardware,

150
00:10:23,322 --> 00:10:29,642
ging es zu 11, dann 16, und dann 22, und schlieÃŸlich 32kHz Abtastrate.

151
00:10:29,642 --> 00:10:33,491
Mit jedem Anstieg in der Abtastrate und der Nyquist-Frequenz steht fest,

152
00:10:33,491 --> 00:10:38,302
dass das obere Ende ein wenig ein wenig klarer und der Sound natÃ¼rlicher wird.

153
00:10:38,301 --> 00:10:44,576
Die CD benutzt eine Abtastrate von 44.1kHz, welche wiederum ein wenig besser ist als 32kHz,

154
00:10:44,576 --> 00:10:46,788
aber der Gewinn wird immer geringer.

155
00:10:46,788 --> 00:10:52,053
44.1kHz ist eine etwas komische Wahl, besonders da es vor der CD fÃ¼r nichts anderes benutzt worden war,

156
00:10:52,053 --> 00:10:56,559
aber der riesige Erfolg der CD hat es eine Ã¼bliche Rate gemacht.

157
00:10:56,559 --> 00:11:01,195
Die Ã¼blichste Abtastrate fÃ¼r HiFi (hohe QualitÃ¤t) neben der CD ist 48kHz.

158
00:11:05,710 --> 00:11:08,597
Es gibt praktisch keinen hÃ¶rbaren Unterschied zwischen den beiden.

159
00:11:08,597 --> 00:11:13,640
Dieses Video, oder zumindest seine Originalversion, wurde mit 48kHz Audio aufgenommen und produziert,

160
00:11:13,640 --> 00:11:18,545
welches im Ãœbrigen der Originalstandard fÃ¼r HiFi Audio fÃ¼r Video ist.

161
00:11:18,545 --> 00:11:25,100
Super-Hi-Fi Abtasteten von 88, 96, und 192kHz gibt es auch.

162
00:11:25,100 --> 00:11:30,888
Der Grund fÃ¼r Abtasteten oberhalb von 48kHz ist allerdings nicht die Erweiterung der hÃ¶rbaren Frequenzen.

163
00:11:30,888 --> 00:11:32,489
Es gibt einen anderen Grund.

164
00:11:32,896 --> 00:11:37,319
Um nochmals auf die Theorie zurÃ¼ckzukommen: der franzÃ¶sische Mathematiker Jean Baptiste Joseph Fourier

165
00:11:37,319 --> 00:11:42,353
hat gezeigt, dass wir Audiosignale auch als eine Ansammlung von Frequenzkomponenten betrachten kÃ¶nnen.

166
00:11:42,353 --> 00:11:45,841
Diese Frequenzbereichsdarstellung ist Ã¤quivalent zu der Zeitbereichsdarstellung;

167
00:11:45,841 --> 00:11:49,719
das Signal ist exakt das gleiche, wir sehen es nur von einem anderen Standpunkt.

168
00:11:49,719 --> 00:11:56,131
Hier sehen wir die Frequenzbereichsdarstellung eines hypothetischen Analogsignals, das wir digitalisieren wollen.

169
00:11:56,131 --> 00:11:59,888
Das Abtast-Theorem gibt uns zwei grundlegende Informationen Ã¼ber den Abtastprozess.

170
00:11:59,888 --> 00:12:04,727
Zuerst besagt es, dass ein Digitalsignal keine Frequenzen oberhalb der Nyqauist-Frequenz darstellen kann.

171
00:12:04,727 --> 00:12:10,640
Dann besagt es - und dies ist der neue Teil - dass, wenn wir diese hohen Frequenzen nicht mit einem Tiefpassfilter lÃ¶schen

172
00:12:10,640 --> 00:12:16,414
bevor wir Abtasten, der Abtastprozess sie in den darstellbaren Frequenzbereich als Aliasing-Verzerrung falten wird.

173
00:12:16,414 --> 00:12:20,069
Aliasing hÃ¶rt sich wirklich schrecklich an,

174
00:12:20,069 --> 00:12:25,242
so ist es absolut notwendig, alle Frequenzen oberhalb der Nyquist-Frequenz vor dem Abtasten und nach der Rekonstruktion zu lÃ¶schen.

175
00:12:25,871 --> 00:12:31,265
Es ist anerkannt, dass die menschliche Frequenzwahrnehmung bis ungefÃ¤hr 20kHz reicht.

176
00:12:31,265 --> 00:12:37,548
FÃ¼r 44.1 oder 48kHz Abtastrate muss der Tiefpassfilter vor dem Abtasten sehr genau sein,

177
00:12:37,548 --> 00:12:42,101
um das LÃ¶schen von hÃ¶rbaren Frequenzen unter 20kHz zu vermeiden,

178
00:12:42,101 --> 00:12:49,439
aber dennoch keine Frequenzen oberhalb von Nyquist in den Abtastprozess einflieÃŸen zu lassen.

179
00:12:49,439 --> 00:12:55,342
Es ist schwierig, einen solchen Filter zu bauen und kein praktischer Filter erreicht das vollstÃ¤ndig.

180
00:12:55,342 --> 00:13:00,024
Auf der anderen Seite, wenn die Abtastrate 96kHz oder 192kHz ist,

181
00:13:00,024 --> 00:13:07,223
hat der Tiefpassfilter eine zusÃ¤tzliche Oktave oder zwei fÃ¼r sein Ãœbergangsband. Das ist ein sehr viel einfacherer Filter.

182
00:13:07,223 --> 00:13:14,348
Abtastraten oberhalb von 48kHz sind tatsÃ¤chlich einer der schmutzigen Kompromisse fÃ¼r Analogsignale.

183
00:13:15,014 --> 00:13:20,844
Der zweite grundlegende PCM Parameter ist das Format des Abtastwertes, d.h. jeder einzelnen digitalen Zahl.

184
00:13:20,844 --> 00:13:26,285
Eine Zahl ist eine Zahl, aber eine Zahl kann mit Bits auf verschiedene Arten dargestellt werden.

185
00:13:26,942 --> 00:13:30,902
FrÃ¼he PCM Werte waren 8 Bit linear, kodiert als vorzeichenfreies Byte.

186
00:13:30,902 --> 00:13:37,028
Die Dynamikwerte sind auf 50dB beschrÃ¤nkt und das QuantisierungsgerÃ¤usch, wie man hÃ¶ren kann, ziemlich schwerwiegend.

187
00:13:37,028 --> 00:13:39,970
Acht Bit lineares Audio ist heutzutage vernachlÃ¤ssigbar selten.

188
00:13:41,007 --> 00:13:47,484
Die digitale Telefonie benutzt typischerweise eine von zwei verwandten, nicht-linearen 8-Bit Kodierungen, A-law und u-law genannt.

189
00:13:47,484 --> 00:13:51,287
Diese Formate kodieren ungefÃ¤hr 14 bit Dynamikwerte in 8 bit,

190
00:13:51,287 --> 00:13:54,674
indem die hÃ¶heren Amplitudenwerte mit grÃ¶ÃŸerem Abstand erfasst werden.

191
00:13:54,674 --> 00:13:59,226
A-law und u-law verbessern offenbar das QuantisierungsgerÃ¤usch im Vergleich zu 8-Bit linear,

192
00:13:59,226 --> 00:14:03,557
und besonders die Sprach-Harmonischen verstecken das Ã¼brige QuantisierungsgerÃ¤usch gut.

193
00:14:03,557 --> 00:14:08,248
Alle drei 8 Bit Kodierungen - linear, a-law und mu-law - werden typischerweise

194
00:14:08,248 --> 00:14:13,328
mit einer 8kHz Abtastrate kombiniert, obwohl ich sie hier mit 48kHz zeige.

195
00:14:13,328 --> 00:14:18,491
Die meiste moderne PCM benutzt 16 oder 24 Bit 2er-Komplement vorzeichenbehaftete ganze Zahlen,

196
00:14:18,491 --> 00:14:23,858
um die Werte von negativ unendlich bis Null Dezibel mit 16 oder 24 Bit Genauigkeit zu kodieren.

197
00:14:23,858 --> 00:14:27,800
Der maximale Absolutwert entspricht Null Dezibel.

198
00:14:27,800 --> 00:14:31,584
Wie mit allen Abtastformaten bisher werden Signale oberhalb von Null Dezibel -

199
00:14:31,584 --> 00:14:35,619
und deshalb oberhalb des maximalen darstellbaren Bereichs - abgeschnitten (geclippt).

200
00:14:35,619 --> 00:14:41,199
Beim Mixen und Mastern ist es nicht unÃ¼blich, dass Realwerte fÃ¼r PCM benutzt werden anstatt ganzer Zahlen.

201
00:14:41,199 --> 00:14:47,222
Ein 32 Bit IEEE754 Realwert - das sind normale Realzahlen wie sie in Ã¼blichen Computern benutzt werden -

202
00:14:47,222 --> 00:14:52,793
hat 24 Bit AuflÃ¶sung, aber ein 7 Bit Realwert-Exponent erweitert den darstellbaren Bereich.

203
00:14:52,793 --> 00:14:57,040
Realwerte stellen normalerweise Null Dezibel als +/-1.0 dar,

204
00:14:57,040 --> 00:15:00,547
und weil Realwerte offenbar weit darÃ¼ber hinaus Werte annehmen kÃ¶nnen,

205
00:15:00,547 --> 00:15:05,220
verursacht das temporÃ¤re Ãœberschreiten von Null Dezibel wÃ¤hrend des Mischprozesses kein Clipping.

206
00:15:05,220 --> 00:15:11,077
Realwert PCM nimmt mehr Platz ein, weshalb es generell nur als Zwischenformat in der Produktion verwendet wird.

207
00:15:11,077 --> 00:15:15,796
Die meisten generellen Computer lesen und schreiben noch immer Daten in 8-bit Bytes,

208
00:15:15,796 --> 00:15:18,489
so ist es schlieÃŸlich wichtig, nicht zu vergessen, dass Werte, die grÃ¶ÃŸer als 8 Bit sind

209
00:15:18,489 --> 00:15:22,838
in Big oder Little Endian Byteordnung dargestellt werden kÃ¶nnen, und beide Endianformen sind Ã¼blich.

210
00:15:22,838 --> 00:15:28,751
Zum Beispiel sind Microsoft WAV Dateien in Little Endian und Apple AIFC Files generell in Big Endian.

211
00:15:28,751 --> 00:15:30,139
Also aufgepasst.

212
00:15:30,870 --> 00:15:34,071
Der dritte PCM Parameter ist die Anzahl KanÃ¤le.

213
00:15:34,071 --> 00:15:38,485
Die Konvention mit rohem PCM ist dass mehrere KanÃ¤le durch Interleaving von Werten

214
00:15:38,485 --> 00:15:43,398
aller KanÃ¤le in einen einzigen Strom kodiert werden. Einfach und erweiterbar.

215
00:15:43,398 --> 00:15:47,701
Und das ist alles! Das beschreibt alle jemals existierenden PCM ReprÃ¤sentation.

216
00:15:47,701 --> 00:15:51,578
Fertig. Digitales Audio ist _so_einfach_!

217
00:15:51,578 --> 00:15:56,436
Es gibt natÃ¼rlich mehr zu tun, aber wir haben jetzt ein nÃ¼tzliches StÃ¼ck Audiodaten zusammen,

218
00:15:56,436 --> 00:15:58,092
also lasst uns uns jetzt dem Video zuwenden.

219
00:16:02,571 --> 00:16:08,798
Man kÃ¶nnte sich Video als Audio mit zwei zusÃ¤tzlichen rÃ¤umlichen Dimensionen, X und Y, vorstellen,

220
00:16:08,798 --> 00:16:12,787
zusÃ¤tzlich zu der Zeitdimension. Das ist mathematisch korrekt.

221
00:16:12,787 --> 00:16:19,097
Das Abtast-Theorem gilt fÃ¼r alle drei Video-Dimensionen ebenso wie es fÃ¼r die Zeitdimension von Audio gilt.

222
00:16:19,097 --> 00:16:25,815
Audio und Video sind alerdings ziemlich verschieden in Praxis. Zum Einen ist Video riesig im Vergleich zu Audio.

223
00:16:25,815 --> 00:16:29,294
Rohe CD-Daten sind ungefÃ¤hr 1.4 Megabit pro Sekunde.

224
00:16:29,294 --> 00:16:33,958
Rohes 1080i HD Video ist mehr als 700 Megabit pro Sekunde.

225
00:16:33,958 --> 00:16:40,056
Das sind mehr als 500 Mal mehr Daten zu erfassen, verarbeiten und speichern pro Sekunde.

226
00:16:40,056 --> 00:16:43,711
Nach Moore's Gesetzâ€¦ sind dasâ€¦ mal sehenâ€¦ ungefÃ¤hr 8 Verdoppelungen Mal zwei Jahre,

227
00:16:43,711 --> 00:16:47,838
also ja, Computer benÃ¶tigen ungefÃ¤hr zusÃ¤tzlich 15 Jahre um rohes Video zu handhaben

228
00:16:47,838 --> 00:16:51,252
nachdem wir gerade rohes Audio richtig hinbekommen haben.

229
00:16:51,252 --> 00:16:55,425
Einfaches rohes Video ist auch komplexer als einfaches rohes Audio.

230
00:16:55,425 --> 00:16:58,599
Die riesige Datenvolumen verlangt im Moment eine ReprÃ¤sentation,

231
00:16:58,599 --> 00:17:02,106
die effizienter ist als lineares PCM fÃ¼r Audio.

232
00:17:02,106 --> 00:17:06,705
ZusÃ¤tzlich stammt elektronisches Video fast ausschlieÃŸlich vom Fernsehen ab

233
00:17:06,705 --> 00:17:13,423
und die Standard-Kommittees, die digitales Video betreffen, haben sich immer um RÃ¼ckwÃ¤rts-KompatibilitÃ¤t gekÃ¼mmert.

234
00:17:13,423 --> 00:17:17,559
In den USA konnte bis letztes Jahr ein 60 Jahre alter Schwarz/WeiÃŸ-Fernseher

235
00:17:17,559 --> 00:17:21,038
noch immer eine normale analoge Fernsehsendung zeigen.

236
00:17:21,038 --> 00:17:23,879
Das ist tatsÃ¤chlich ein richtig cooler Trick.

237
00:17:23,879 --> 00:17:28,718
Der Nachteil von RÃ¼ckwÃ¤rts-KompatibilitÃ¤t ist dass wenn ein Detail einmal im Standard ist,

238
00:17:28,718 --> 00:17:30,985
kann man es nie wieder herausnehmen.

239
00:17:30,985 --> 00:17:37,305
Elektronisches Video hat nie von vorne begonnen in der selben Art wie Audio es mehrfach tat.

240
00:17:37,305 --> 00:17:43,958
60 Jahre voll mit schlauen aber Ã¼berflÃ¼ssigen Hacks benÃ¶tigt wegen der vergÃ¤nglichen Technologie einer gegebenen Zeit

241
00:17:43,958 --> 00:17:50,102
haben sich ziemlich angehÃ¤uft, und weil digitale Standards auch vom Fernsehen stammen,

242
00:17:50,102 --> 00:17:54,664
werden all diese schauerlichen Hacks auch in digitale Standards eingebracht.

243
00:17:54,664 --> 00:18:00,022
Kurz gesagt, es gibt eine ganze Menge mehr Details mit digitalem Video als mit Audio.

244
00:18:00,022 --> 00:18:05,592
Es besteht keine Hoffnung, sie hier alle komplett zu beschreiben, so werden wir nur die Grundlagen beschreiben.

245
00:18:06,036 --> 00:18:10,857
Die offensichtlichsten rohen Video Parameter sind die Breite und HÃ¶he der Bilder in Pixel.

246
00:18:10,857 --> 00:18:15,882
So einfach wie es sich anhÃ¶rt, spezifizieren die Pixel-Dimensionen allein allerdings nicht die absolute

247
00:18:15,882 --> 00:18:22,016
Breite und HÃ¶he der Bilder, denn die meisten vom Fernsehen stammenden Videos benutzen keine quadratischen Pixel.

248
00:18:22,016 --> 00:18:25,005
Die Anzahl Scanlinien in einem Fernsehbild war fest,

249
00:18:25,005 --> 00:18:29,021
aber die effektive Anzahl horizontaler Pixel war eine Funktion der Kanalbandbreite.

250
00:18:29,021 --> 00:18:31,945
Effektive horizontale AuflÃ¶sung konnte in Pixel resultieren, die entweder enger

251
00:18:31,945 --> 00:18:35,489
oder weiter waren als der Abstand zwischen den Scanlinien.

252
00:18:35,489 --> 00:18:38,395
Standards haben generell spezifiziert, dass digital abgetastetes Video

253
00:18:38,395 --> 00:18:41,902
die tatsÃ¤chliche AuflÃ¶sung der originalen analogen Quelle reflektieren sollte,

254
00:18:41,902 --> 00:18:45,566
also benutzt eine groÃŸe Zahl digitaler Videos auch nicht-quadratische Pixel.

255
00:18:45,566 --> 00:18:49,924
Zum Beispiel ist eine normales 4:3 AspektverhÃ¤ltnis NTSC DVD typisch kodiert

256
00:18:49,924 --> 00:18:55,374
mit einer BildauflÃ¶sung von 704 auf 480, ein VerhÃ¤ltnis breiter als 4:3.

257
00:18:55,374 --> 00:18:59,640
In diesem Fall wird den Pixeln selbst ein AspektverhÃ¤ltnis von 10:11 zugewiesen,

258
00:18:59,640 --> 00:19:04,553
welches sie hÃ¶her macht als breit und das Bild horizontal enger, um das AspektverhÃ¤ltnis zu korrigieren.

259
00:19:04,553 --> 00:19:09,800
Solch ein Bild muss erneut abgetastet werden, um ein vernÃ¼nftiges digitales Display mit quadratischen Pixeln zu zeigen.

260
00:19:10,253 --> 00:19:15,287
Der zweiter offensichtliche Videoparameter ist die Bidrate - die Anzahl kompletter Bilder pro Sekunde.

261
00:19:15,287 --> 00:19:19,655
Mehrere Standard-Bildraten werden heute aktiv benutzt. Digitales Video - in der einen oder anderen Form -

262
00:19:19,655 --> 00:19:23,689
kann alle unterstÃ¼tzen. Oder jede andere Bildrate. Oder sogar variable Raten,

263
00:19:23,689 --> 00:19:27,113
bei denen die Bildrate sich Ã¼ber den Verlauf des Videos verÃ¤ndert.

264
00:19:27,113 --> 00:19:32,998
Je hÃ¶her die Bildrate, desto flÃ¼ssiger ist die Bewegung und das bringt uns leider zum Zeilenspringverfahren (Interlacing).

265
00:19:32,998 --> 00:19:37,967
In den ersten Tagen des Fernsehens haben Ingenieure nach der schnellsten praktischen Bildrate

266
00:19:37,967 --> 00:19:42,075
fÃ¼r flÃ¼ssige Bewegung gesucht und um das Flickern der Phoshpor-basierten CRTs zu minimieren.

267
00:19:42,075 --> 00:19:45,277
Sie standen auÃŸerdem unter Druck, die geringste mÃ¶gliche Bandbreite

268
00:19:45,277 --> 00:19:48,182
mit der hÃ¶chsten AuflÃ¶sung und schnellsten Bildrate zu finden.

269
00:19:48,182 --> 00:19:51,208
Ihre LÃ¶sung war das Interlacing von Video, wobei die geraden Linien

270
00:19:51,208 --> 00:19:54,826
in einem Moment geschickt werden und die ungeraden Linien im nÃ¤chsten.

271
00:19:54,826 --> 00:19:59,961
Jeder Durchgang wird ein Feld genannt und zwei Felder produzieren quasi ein komplettes Bild.

272
00:19:59,961 --> 00:20:05,319
"Quasi" - denn die geraden und ungeraden Felder sind nicht eigentlich vom selben Ursprungsbild.

273
00:20:05,319 --> 00:20:10,797
In einem 60-Felder-pro-Sekunde Film ist die Bildrate eigentlich 60 volle Bilder pro Sekunde,

274
00:20:10,797 --> 00:20:15,386
und die HÃ¤lfte jedes Bildes - jede zweite Linke - wird einfach weggeworfen.

275
00:20:15,386 --> 00:20:20,272
Deshalb kÃ¶nnen wir nicht einfach ein Video ent-interlacen indem wir zwei Felder in ein Bild kombinieren;

276
00:20:20,272 --> 00:20:23,039
sie sind in der Tat ursprÃ¼nglich nicht vom selben Bild.

277
00:20:24,047 --> 00:20:29,683
Die KathodenstrahlrÃ¶hre war die einzige verfÃ¼gbare Anzeigetechnologie wÃ¤hrend des grÃ¶ÃŸten Teils der Geschichte des elektronischen Videos.

278
00:20:29,683 --> 00:20:32,949
Die Ausgabehelligkeit eines CRTs ist nicht-linear und entspricht ungefÃ¤hr

279
00:20:32,949 --> 00:20:36,585
der eingangssteuernden Spannung hoch 2.5.

280
00:20:36,585 --> 00:20:43,821
Der Exponent - 2.5 - ist das designierte Gamma und so wird es oft das Gamma des Monitors genannt.

281
00:20:43,821 --> 00:20:50,493
Kameras sind allerdings linear, und wenn man ein lineares Eingabesignal einem CRT gibt, sieht es ein wenig so aus.

282
00:20:51,270 --> 00:20:56,637
Das es ursprÃ¼nglich sehr wenige Kameras gab, die auÃŸerdem fantastisch teuer waren,

283
00:20:56,637 --> 00:21:01,634
und man viele, viele Fernseher erwartete, die am besten so billig wie mÃ¶glich sein sollten,

284
00:21:01,634 --> 00:21:08,222
haben die Ingenieure entschieden, die nÃ¶tige Gamma-Korrektur-Schaltung der Kamera hinzuzufÃ¼gen anstatt den FernsehgerÃ¤ten.

285
00:21:08,222 --> 00:21:13,062
Video, das Ã¼ber Luftwellen Ã¼bertragen wurde, hatte deshalb nicht-lineare LichtstÃ¤rke, das inverse

286
00:21:13,062 --> 00:21:18,271
des Gamma Exponenten des FernsehgerÃ¤ts, so dass wenn ein Kamerasignal endlich auf einem CRT dargestellt wird,

287
00:21:18,271 --> 00:21:23,305
die Gesamtantwort des Systems von Kamera zum FernsehgerÃ¤t wieder linear war.

288
00:21:23,777 --> 00:21:25,118
Fast.

289
00:21:30,393 --> 00:21:33,113
Es gibt noch zwei andere Verbesserungen.

290
00:21:33,113 --> 00:21:40,442
Eine Fernsehkamera benutzt in der Tat einen Gamma-Exponenten, der das Inverse von 2.2 ist und nicht 2.5.

291
00:21:40,442 --> 00:21:43,754
Das ist eine Korrektur um in einer dunklen Umgebung zu sehen.

292
00:21:43,754 --> 00:21:48,279
Auch gehen die Exponentialkurven in eine lineare Rampe in der NÃ¤he von Schwarz Ã¼ber.

293
00:21:48,279 --> 00:21:52,360
Das ist nur eine alte NotlÃ¶sung um SensorengerÃ¤usche in der Kamera zu unterdrÃ¼cken.

294
00:21:54,941 --> 00:21:57,347
Die Gamma-Korrektur hat noch einen glÃ¼cklichen Seiteneffekt.

295
00:21:57,347 --> 00:22:02,214
ZufÃ¤llig hat das menschliche Auge einen Wahrnehmungs-Gamma von ungefÃ¤hr 3.

296
00:22:02,214 --> 00:22:05,962
Das ist ziemlich nah an dem CRT Gamma von 2.5.

297
00:22:05,962 --> 00:22:10,607
Ein Bild, das Gamma-Korrektur benutzt gibt mehr AuflÃ¶sung den niedrigeren IntensitÃ¤ten,

298
00:22:10,607 --> 00:22:14,336
wo das Auge zufÃ¤llig seine genaueste IntensitÃ¤tsauflÃ¶sung hat,

299
00:22:14,336 --> 00:22:18,222
und deshalb die verfÃ¼gbare SkalenauflÃ¶sung genauer benutzt.

300
00:22:18,222 --> 00:22:22,784
Obwohl CRTs momentan am verschwinden sind, benutzt ein Standard sRGB Computermonitor

301
00:22:22,784 --> 00:22:28,419
noch immer eine nicht-lineare IntensitÃ¤tskurve Ã¤hnlich wie das Fernsehen, mit einer linearen Rampe in der NÃ¤he von Schwarz,

302
00:22:28,419 --> 00:22:32,491
gefolgt von einer Exponentialkurve mit einem Gamma-Exponenten von 2.4.

303
00:22:32,491 --> 00:22:36,636
Das kodiert eine 16-bit lineares Band auf 8 Bit herunter.

304
00:22:37,580 --> 00:22:41,790
Das menschliche Auge hat drei offenbare FarbkanÃ¤le: rot, grÃ¼n und blau,

305
00:22:41,790 --> 00:22:47,407
und die meisten Monitore benutzen diese drei Farben als additive PrimÃ¤rfarben, um die volle Breite der Farben zu produzieren.

306
00:22:49,258 --> 00:22:54,190
Die primÃ¤ren Pigmente in Druckfarben sind Cyan, Magenta, und Gelb aus den gleichen GrÃ¼nden;

307
00:22:54,190 --> 00:22:59,381
Pigmente sind subtraktiv, und jedes dieser Pigmente subtrahiert eine reine Farbe vom reflektierten Licht.

308
00:22:59,381 --> 00:23:05,682
Cyan subtrahiert rot, magenta subtrahiert grÃ¼n, und gelb subtrahiert blau.

309
00:23:05,682 --> 00:23:10,919
Video kann und manchmal wird mit rot, grÃ¼n und blauen KanÃ¤len dargestellt,

310
00:23:10,919 --> 00:23:17,211
aber RGB Video ist atypisch. Das menschliche Auge ist sehr viel sensibler auf Helligkeit als auf Farbe,

311
00:23:17,211 --> 00:23:21,329
und RGB verteilt die Energie eines Bildes Ã¼ber alle FarbkanÃ¤le.

312
00:23:21,329 --> 00:23:25,326
Das heiÃŸt, die rote Eben sieht aus wie eine rote Version des Originalbildes,

313
00:23:25,326 --> 00:23:28,769
die grÃ¼ne Ebene sieht aus wie eine grÃ¼ne Version des Originalbildes,

314
00:23:28,769 --> 00:23:32,063
und die blaue Ebene sieht aus wie eine blaue Version des Originalbildes.

315
00:23:32,063 --> 00:23:35,705
Schwarz und weiÃŸ drei mal. Nicht effizient.

316
00:23:35,706 --> 00:23:39,438
Aus diesen GrÃ¼nden und weil, oh hey, Fernsehen sowieso zufÃ¤llig

317
00:23:39,438 --> 00:23:45,017
als schwarz und weiÃŸ angefangen hat, wird Video Ã¼blicherweise als hochauflÃ¶sender Helligkeitskanal,

318
00:23:45,017 --> 00:23:51,041
als schwarz und weiÃŸ dargestellt, zusammen mit zusÃ¤tzlichen, zumeist niedriger aufgelÃ¶sten Chroma-KanÃ¤len, den Farben.

319
00:23:51,041 --> 00:23:57,074
Der Helligkeitskanal, Y, ist produziert indem man die separaten rot, grÃ¼n und blauen Signale gewichtet und dann addiert.

320
00:23:57,074 --> 00:24:01,867
Die FarbkanÃ¤le U und V sind dann produziert indem man das Helligkeitssignal von blau

321
00:24:01,867 --> 00:24:04,070
und das Farbsignal von rot abzieht.

322
00:24:04,070 --> 00:24:11,750
Wenn YUV skaliert, versetzt und quantisiert wird fÃ¼r digitales Video, wird es korrekterweise Y'CbCr genannt,

323
00:24:11,750 --> 00:24:15,238
aber der generellere Ausdruck YUV wird weitgehend benutzt, um

324
00:24:15,238 --> 00:24:18,301
all die analogen und digitalen Varianten dieses Farbmodells zu beschreiben.

325
00:24:18,912 --> 00:24:22,983
Die U und V FarbkanÃ¤le kÃ¶nnen die selbe AuflÃ¶sung haben wie der Y Kanal,

326
00:24:22,983 --> 00:24:28,674
aber weil das menschliche Auge eine viel geringere rÃ¤umliche FarbauflÃ¶sung als rÃ¤umliche HelligkeitsauflÃ¶sung hat,

327
00:24:28,674 --> 00:24:34,346
wird normal die FarbauflÃ¶sung halbiert oder sogar geviertelt in der horizontalen und/oder der vertikalen

328
00:24:34,346 --> 00:24:39,528
Richtung, Ã¼blicherweise ohne signifikanten Einfluss auf die rohe BildqualitÃ¤t.

329
00:24:39,528 --> 00:24:43,942
Praktisch jede mÃ¶gliche Unterabtastungs-Variante ist schon einmal eingesetzt worden,

330
00:24:43,942 --> 00:24:46,875
aber die Ã¼blichen Wahlen heutzutage sind

331
00:24:46,875 --> 00:24:51,187
4:4:4 Video, welches tatsÃ¤chlich nicht unterabgetastet ist,

332
00:24:51,187 --> 00:24:56,711
4:2:2 Video, in welchem die horizontale AuflÃ¶sung der U und V KanÃ¤le halbiert ist,

333
00:24:56,711 --> 00:25:02,587
und am Ã¼blichsten von allen, 4:2:0 Video, in welchem sowohl die horizontale als auch die vertikale AuflÃ¶sung

334
00:25:02,587 --> 00:25:08,897
der FarbkanÃ¤le halbiert ist, was in U und V Ebenen resultiert, die beide ein Viertel der GrÃ¶sse von Y sind.

335
00:25:08,897 --> 00:25:17,096
Die AusdrÃ¼cke 4:2:2, 4:2:0, 4:1:1 und so weiter sind nicht komplette Beschreibungen der Farb-Unterabtastung.

336
00:25:17,096 --> 00:25:21,186
Es gibt viele MÃ¶glichkeiten, die Farbpixel im VerhÃ¤ltnis zur Helligkeit zu positionieren,

337
00:25:21,096 --> 00:25:24,776
und wiederum werden viele MÃ¶glichkeiten fÃ¼r jede Unterabtastungs-Variante aktiv benutzt.

338
00:25:24,776 --> 00:25:32,502
Zum Beispiel, motion JPEG, MPEG-1 Video, MPEG-2 Video, DV, Theora und WebM benutzen alle

339
00:25:32,502 --> 00:25:38,137
oder kÃ¶nnen alle 4:2:0 benutzen, aber sie positionieren die Farbpixel auf drei verschiedene Arten.

340
00:25:38,498 --> 00:25:43,023
Motion JPEG, MPEG1 Video, Theora und WebM positionieren die Farbpixel

341
00:25:43,023 --> 00:25:46,345
zwischen den Helligkeits-Pixeln, sowohl horizontal als auch vertikal.

342
00:25:46,345 --> 00:25:51,989
MPEG2 Video positionier Farbpixel zwischen Linien, aber horizontal sind sie mit jedem zweiten Helligkeitspixel bÃ¼ndig.

343
00:25:51,989 --> 00:25:57,106
Das Zeilensprungverfahren macht das Ganze noch etwas komplizierter und resultiert in einem Arrangement das ein wenig bizarr ist.

344
00:25:57,106 --> 00:26:00,909
Und schliesslich PAL-DV, welches immer interlaced ist, platziert die Farbpixel

345
00:26:00,909 --> 00:26:04,398
in der selben Position wie jedes zweite Helligkeitspxiel in der horizontalen Richtung,

346
00:26:04,398 --> 00:26:07,303
alterniert FarbkanÃ¤le vertikal in jeder Zeile.

347
00:26:07,683 --> 00:26:12,282
Das war nur 4:2:0 Video. Ich Ã¼berlasse die anderen Unterabtastungen als Hausarbeit dem Zuschauer.

348
00:26:12,282 --> 00:26:14,882
Die Grundidee ist beschrieben - weiter geht's.

349
00:26:15,511 --> 00:26:21,128
In Audio reprÃ¤sentieren wir immer mehrere KanÃ¤le in einem PCM Strom indem die Werte von jedem

350
00:26:21,128 --> 00:26:26,383
Kanal in der selben Reihenfolge abgewechselt werden. Video benutzt sowohl gepackte Formate, welche die FarbkanÃ¤le abwechselt,

351
00:26:26,383 --> 00:26:30,584
als auch ebene Formate, welche die Pixel von jedem Kanal in verschiedenen Ebenen zusammenhÃ¤lt

352
00:26:30,584 --> 00:26:35,415
und in ihrer Reihenfolge im Bild stapelt. Es gibt mindestens 50 verschiedene Formate in diesen zwei groben Kategorien

353
00:26:35,415 --> 00:26:41,549
mit vielleicht 10 oder 15 Ã¼blichen. Jeder Farb-Unterabtastung und verschiedene Bit-Tiefe benÃ¶tigt

354
00:26:41,549 --> 00:26:46,574
eine andere gepackte Anordnung, und so ein anderes Pixelformat. FÃ¼r eine gegebene einzigartige Unterabtastung

355
00:26:46,574 --> 00:26:50,858
gibt es normalerweise auch mehrere Ã¤quivalente Formate, die aus trivialen Ã„nderungen der Kanalandordnung
there are usually also several equivalent formats that consist of trivial channel order

356
00:26:50,858 --> 00:26:55,966
oder Umpackungen bestehen, entweder aus ursprÃ¼nglicher Bequemlichkeit auf einer speziellen

357
00:26:55,966 --> 00:27:00,352
Hardware oder manchmal nur aus guter alter Bosheit.

358
00:27:00,352 --> 00:27:04,692
Pixelformate werden durch einen eindeutigen Namen oder fourcc Code beschrieben.

359
00:27:04,692 --> 00:27:08,115
Es gibt eine Menge dieser und es macht keinen Sinn alle durchzugehen.

360
00:27:08,115 --> 00:27:13,704
Google ist Dein Freund. Achte drauf, dass fourcc Codes fÃ¼r Video-Rohdaten die Pixelanordnung und

361
00:27:13,704 --> 00:27:20,339
die Farbunterabtastung angeben, aber generell nichts bestimmtes Ã¼ber Farbplazierung und den Farbraum aussagen.

362
00:27:20,339 --> 00:27:25,807
Um eines zu wÃ¤hlen: YV12 video kann JPEG, MPEG-2 oder DV Farbplazierung verwenden,

363
00:27:25,807 --> 00:27:28,991
und eine von mehreren YUV Farbraum-Definitionen.

364
00:27:29,472 --> 00:27:33,913
Das beendet unsere nicht so schnelle und doch sehr unvollstÃ¤ndige Tour von Video-Rohdaten.

365
00:27:33,913 --> 00:27:38,651
Das Gute ist, dass wir bereits eine Menge richtiger Arbeit mit diesem Ãœberblick erledigen kÃ¶nnen.

366
00:27:38,651 --> 00:27:42,528
In vielen Situationen ist ein Videobild ein Bild im Video.

367
00:27:42,528 --> 00:27:46,451
Die Details machen viel aus, wenn man Software schreiben mÃ¶chte,

368
00:27:46,452 --> 00:27:52,086
aber momentan bin ich zufrieden, dass der geschÃ¤tzte Zuschauer sich grob der relevanten Details bewusst ist.

369
00:27:55,640 --> 00:27:59,230
Also. Wir haben Audiodaten. Wir haben Videodaten.

370
00:27:59,230 --> 00:28:03,246
Was Ã¼brig bleibt sind die bekannteren Nicht-Signaldaten und geradlinige Technik

371
00:28:03,246 --> 00:28:07,410
die Software-Entwicklern bekannt ist. Und viel davon!

372
00:28:07,928 --> 00:28:11,768
Klumpen von rohen Audio- und Video-Daten haben keine extern sichtbare Struktur,

373
00:28:11,768 --> 00:28:15,173
aber sie sind oft gleichmÃ¤ÃŸig gross. Wir kÃ¶nnten sie einfach zusammenketten

374
00:28:15,173 --> 00:28:18,097
in einer streng vorgegebenen Ordnung fÃ¼r Streaming und Speicherung

375
00:28:18,097 --> 00:28:21,040
und einige einfache Systeme machen das auch ungefÃ¤hr.

376
00:28:21,040 --> 00:28:24,195
Komprimierte Bilder sind allerdings nicht notwendigerweise von vorhersehbarer GrÃ¶ÃŸe

377
00:28:24,195 --> 00:28:29,405
und wir wollen normalerweise flexibel sein in der Benutzung einer Reihe verschiedener Datentypen in StrÃ¶men.

378
00:28:29,405 --> 00:28:34,281
Wenn wir zufÃ¤llige, formfreie Daten verketten, verlieren wir die Grenzen, die verschiedene Bilder

379
00:28:34,281 --> 00:28:37,871
voneinander trennt und wissen nicht unbedingt mehr welche Daten zu welchen StrÃ¶men gehÃ¶ren.

380
00:28:37,871 --> 00:28:42,192
Ein Strom braucht eine generalisierte Struktur um generell nÃ¼tzlich zu sein.

381
00:28:42,192 --> 00:28:46,606
ZusÃ¤tzlich zu unseren Signaldaten haben wir auch unsere PCM- und Video-Parameter.

382
00:28:46,606 --> 00:28:49,752
AuÃŸerdem gibt es wahrscheinlich massig andere Metadaten, die wir auch handhaben wollen,

383
00:28:49,752 --> 00:28:55,415
so wie Audio-Titelinformationen und Video-Kapiteln und Untertiteln - alles wesentliche Komponenten von Rich Media.

384
00:28:55,415 --> 00:29:01,633
Es macht Sinn, diese Metadaten, d.h. Daten Ã¼ber die Daten, in den Medien selbst zu speichern.

385
00:29:01,633 --> 00:29:06,445
Speichern und Anordnen von formlosen Daten und separaten Metadaten ist der Job eines Containers.

386
00:29:06,445 --> 00:29:09,221
Container stellen ein Rahmenwerk fÃ¼r die Datenklumpen zur VerfÃ¼gung,

387
00:29:09,221 --> 00:29:12,015
verschachteln und identifizieren mehrere DatenstrÃ¶me,

388
00:29:12,015 --> 00:29:15,337
stellen Zeitinformationen zur VerfÃ¼gung, und speichern Metadaten nÃ¶tig zum

389
00:29:15,337 --> 00:29:19,140
Prassen, Navigieren, Manipulieren und Darstellen der Medien.

390
00:29:19,140 --> 00:29:22,222
Generell kann jeder Container jede Art von Daten einschliessen.

391
00:29:22,222 --> 00:29:24,970
Und Daten kÃ¶nnen in jeden Container verpackt werden.

392
00:29:28,801 --> 00:29:32,391
In den letzten dreissig Minuten haben wir digitales Audio, Video,

393
00:29:32,391 --> 00:29:35,435
und ein wenig Geschichte, etwas Mathe und ein bisschen Technik abgedeckt.

394
00:29:35,435 --> 00:29:39,377
Wir haben kaum die OberflÃ¤che angekratzt, aber es ist Zeit fÃ¼r eine wohlverdiente Pause.

395
00:29:41,107 --> 00:29:45,373
Es gibt so viel mehr zu besprechen, so hoffe ich, dass Sie sich in der nÃ¤chsten Folge wieder zu mir gesellen werden.

396
00:29:45,373 --> 00:29:47,159
Bis dann --- TschÃ¼ss!