Entwirrungen um AAC (Advanced Audio Coding)

  • Das es mal ein paar Verwirrungen rund um AAC gab, hab ich mich mal dran gemacht die Entwirrungen zu sammeln. Mir ging es weniger um ein HowTo als mehr um die technischen/theoretischen Fragen.

    Dank an alle die bei Gedanken rund um aac(+)(v1/2)... von selur mitdisskutiert haben, von euch hab ich die Idee. :D

    achso, meckern erlaubt (unbedingt)


    aktuelle Version: eingestellt

    EDIT: Dieser Guide wurde mit dem "AAC encoding und MP4 muxing HowTo" von AliceD zusammen gelegt. Vielen dank an Alle.

    cu
    Naito

  • Hab's mal kurz überflogen, sieht sehr gut aus! :daumen:

    "Diejenigen, die grundlegende Freiheiten aufgeben würden, um geringe vorübergehende Sicherheit zu erkaufen, verdienen weder Freiheit noch Sicherheit."
    Benjamin Franklin (1706-1790)

    Meine Erfahrungen in der Open Source-Welt: blog.bugie.de

  • Jetzt noch ein bisschen Senf von mir:

    Insgesamt sehr interessant, aber m.E. manchmal etwas knapp. z.B. haust du im Überblick dem Leser ohne Vorwarnung einen Haufen Abkürzungen um die Ohren, ohne dass er weiß wie ihm geschieht. Zwei erklärende Sätze, dass es sich hierbei um verschiedene "Spielarten" von AAC handelt, wären da angenehm.

    Zu Punkt 3:

    .m4v und .m4a sind nicht wirklich falsch, sondern die offiziellen Endungen für mpeg4 Video/Audio Elementary Streams.

    Apple verwendet sie aber falsch, da sie auch nicht elementare Streams damit bezeichnen

    Es gibt eine Theorie, die besagt, dass das Universum sofort verschwinden und etwas noch Unerklärlicheres und Bizarres an seine Stelle treten wird, sobald jemand herausfindet, wofür es gut ist und warum es existiert.

    Es gibt eine andere Theorie, die besagt, dass das bereits geschehen ist.

  • zuerst mal danke für die doku! :)

    Zitat

    “MP3” + TNS + TP = MPEG2-AAC
    MPEG2-AAC + LTP & PNS = MPEG4-AAC

    des ist natürlich schon sehr kurz und zu einfach
    ich denke dass tns und tp nicht der einzige unterschied zwischen mp3 und aac ist (auf jeden fall kann man sagen, dass aac ein weiterentwickeltes mp3 ist)

    Zitat von Kopernikus

    .m4v und .m4a sind nicht wirklich falsch, sondern die offiziellen Endungen für mpeg4 Video/Audio Elementary Streams.

    Apple verwendet sie aber falsch, da sie auch nicht elementare Streams damit bezeichnen

    stimmt für m4a ned wirklich, da raw aac (adts und co) streams .aac verwenden

    auf jeden fall ist richtig dass die einzige korrekte und nach dem mpeg-4 standard erlaubte extension .mp4 for mp4 ist

    Ich weiß, daß ich nichts weiß (Sokrates)

  • erstmal danke für die rückmeldungen

    Zitat von bond


    ich denke dass tns und tp nicht der einzige unterschied zwischen mp3 und aac ist (auf jeden fall kann man sagen, dass aac ein weiterentwickeltes mp3 ist)


    du hast recht bond, jedoch alle einzeln aufzuführen wäre auch sehr verwirrend. ich hab halt die beschreibung von Oki übernommen (siehe Quelle). werd es auf

    Zitat

    “MP3” + TNS + ... + TP

    ändern, und interessante infos bei bedarf einfügen (z.b IS = Intensity Stereo).

    @ Kopernikus: hab es mit absicht kurz (und versucht möglichst einfach) zu halten. für weitergehende, ausführliche informationen hab ich links angegeben.

    Zitat

    Zwei erklärende Sätze, dass es sich hierbei um verschiedene "Spielarten" von AAC handelt, wären da angenehm.


    werd ich einfügen.

    Naito

  • Danke für die Doku,

    hui, das wird ja langsam peinlich, da hab ich mir nen "großes" projekt mit dem HowTo vorgenommen und jetzt krich ich das aus zeitlichen gründen nich fertig *irkz* zudem haben se mir meinen webspace auf tripod gesperrt und mein eigener ftp läuft net richtig, weil ich da zwei zeichen vor dem startbefehl des ftpclients unter linux vergessen habe. wenn ich ma zeit hab kommt erstma meen kleena server dran und dann die doku. versprochen!!!

    achso noch was ganz wichtiges

    Was zu PS Parametric Stereo unter Wikipedia zu finden is hab ich geschrieben. Da ich nun das ganze überhaupt nich studiert hab, hab ich also kaum ahnung davon und versucht es, nach einer freien Übersetztung von Coding Technologies , mit eigenen Worten zu beschrieben und zig ma bearbeitet, weils keiner der Wikipedia Leser versteht. Vom Prinzip her isset schon richtig, steht ja auch so in der c't "MPEG Surround" 2005-22 drinne.
    Hab da auch noch nen PDF von "funkschau 2/2005" gefunden Link
    Falls da wer noch mehr drüber bescheid weiß würd ich mich natürlich riesig freun wenns einer ma so erklären kann das auch die Wikipedia Nutzer zufrieden damit sind (wobei auch andere Artikel nicht viel besser geschrieben sind z.B. HE-AAC das is nur von Coding Technologies).

    Nachti

  • Zitat von AliceD

    Danke für die Doku


    gern. gestehe aber, das ich mir bei dir auch einiges abgeguckt habe.:D

    @ AliceD (und andere)
    arbeite an v0.1.2 (z.Z. Beta3, kommt spätestens freitag) und wollt was zu IS (Intensity Stereo) schreiben, da die kommenden Nero7-Encoder das unterstützen werden (Quelle: HydrogenAudio).
    jetz hab ich mich kund getan und bei AudioHQ volgendes dazu gefunden.

    Zitat

    Intensity Stereo

    [...] Bei diesem Verfahren werden die Signale der linken und rechten Seite durch ein einziges Signal ersetzt und zusätzlich Richtungsinformationen gespeichert. Dadurch gehen Phaseninformationen verloren, die allerdings bei bestimmten Frequenzen (über 2kHz) nicht vom Menschen wahrgenommen werden können.

    Dieses Verfahren ist dennoch verlustbehaftet und wird nicht über den ganzen Track hinweg, sondern nur vereinzelt bei niedrigen Bitraten, d.h. unter 128 kbps eingesetzt. Dort ist das Opfern eines Teils des Stereoeffekts akzeptabel, um die Qualität an anderer Stelle so hoch wie möglich zu halten. Moderne Encoder verzichten bei höheren Bitraten bzw. Qualitätsstufen komplett auf Intensity Stereo und wenden ein anderes Verfahren an


    jetzt versteh ich aber nicht genau, was der unterschied zw. IS und PS ist. kannst du mir das etwas genauer erklären? Ist PS nicht verlustbehaftet?

    thx
    Naito

  • Hab das zu IS noch gefunden

    Zitat:
    "Intensity Stereo
    Intensity Stereo ist im Gegensatz zu Joint Stereo verlustbehaftet. Ausgenutzt wird hier, dass das Gehör im hohen Frequenzbereich die Raumposition der Schallquelle weniger gut unterscheiden kann als im tieferen. Ab einer bestimmten Grenze werden deshalb im niedrigen Frequenzbereich die beiden Kanäle zu einem einzigen zusammengefasst. Dadurch werden natürlich Signale, die ursprünglich nur in einem Kanal zu hören waren, auf beide Kanäle verteilt und der Stereo Effekt geht verloren. Da Intensity Stereo aber nur für sehr niedrige Bitrates gedacht ist, wo das Frequenzspektrum sowieso stark eingeschränkt ist, macht sich dies kaum bemerkbar."
    Quelle: http://www.koepenick.net/mp3.htm


    noch genaueres zu PS: http://www.tnt.uni-hannover.de/project/mpeg/a…_Parametric.pdf


    Es scheint also mehrere Interpretationen von IS zu geben, wobei IS 1. meist nur mit mp3 (also MPEG1-L3) in zusammenhang gebracht wird (als Erweiterung von Joint Stereo)


    PS ist jedoch für AAC vorgesehen, ausserdem werden nicht nur einfach alle hohen Frequenzen als Mono kodiert und zusammengemischt sondern die einzelnen Klänge analysiert und zerlegt und die unterschiedlichen Parameter in einem zusätzlichen Stream abgespeichert, unabhängig der Frequenz.

  • Hä?

    Aussage: Gehör kann im hohen Frequenzbereich die Quelle nicht orten.
    Folgerung: Im niedrigen Frequenzbereich werden die Kanäle zusammengelegt

    Das erscheint mir unlogisch. Oder meint hier "tief" etwas anderes als "niedrig"?

    Soweit ich weiß, können tiefe Töne (niedrige Frequenz) schlechter geortet werden. Deshalb ist es auch egal wohin man seinen Subwoofer stellt.

    "Diejenigen, die grundlegende Freiheiten aufgeben würden, um geringe vorübergehende Sicherheit zu erkaufen, verdienen weder Freiheit noch Sicherheit."
    Benjamin Franklin (1706-1790)

    Meine Erfahrungen in der Open Source-Welt: blog.bugie.de

  • Um die Verwirrungen wieder zu entwirren:

    Zitat von Wiki

    Diese Technik, welche die meisten Encoder nur bei sehr niedrigen Bitraten einsetzen, speichert lediglich einen Monokanal und Richtungsinformationen zur Rekonstruktion der Stereodaten. Allerdings gehen dabei Phaseninformationen verloren.

    Der eventuell auftretende Phasenunterschied ist jedoch oberhalb einer gewissen Frequenz nicht mehr wahrnehmbar. Dennoch geht die ursprüngliche Stereoinformation verloren; das Verfahren ist verlustbehaftet und eignet sich nach allgemeiner Ansicht nur für niedrige Bitraten, bei denen man statt Monokodierung lieber doch noch etwas Stereoinformation hätte.

    Sehr viele Encoder entscheiden anhand der gewählten Bitrate, ob sie Intensity Stereo verwenden möchten, jedoch gibt es einige, zumeist ältere Codecs, die ausschließlich auf diese Technik setzen.

    Quelle

    Das heißt also, dass IS in hohen Frequenzbereichen genutzt wird, da dort der Phasenunterschied weniger wahrnehmbar ist. Von Ortung ist nicht die Rede, bzw. gerade weil hohe Töne besser geortet werden können, wird IS nur bei geringen Bitraten benutzt. Der Verlust (eines Teils) der Stereoinformation ist verschmerzbar, da die gewonnenen Bits sinnvoller genutzt werden können. Wie gesagt, alles nur für niedrige Bitraten!

    Zu Parametric Stereo:

    Zitat von Wiki

    Der Encoder wandelt das Stereosignal in ein Monosignal um, wobei zusätzliche Steuerinformationen mit dem Bitstream übertragen werden, welche die parametrische Informationen wie z.B. Phasenunterschiede, Panorama-Informationen, Raumklang beinhalten. Auf der Basis dieser parametrischen Informationen, kann der Decoder das Stereo-Signal reproduzieren. Dadurch entsteht für den Zuhörer der Eindruck eines Stereosignals.

    Quelle

    Im Gegensatz zu IS werden bei PS also nicht nur Richtungsinformationen mitgespeichert, sondern auch die im Zitat genannten.

    Das hieße ja, dass PS ein erweitertes IS wäre, oder? Aufgrund dessen, dass mehr zusätzliche Informationen gespeichert werden, kann das ursprüngliche Stereosignal exakter wiederhergestellt werden, als wenn nur IS benutzt würde.

    "Diejenigen, die grundlegende Freiheiten aufgeben würden, um geringe vorübergehende Sicherheit zu erkaufen, verdienen weder Freiheit noch Sicherheit."
    Benjamin Franklin (1706-1790)

    Meine Erfahrungen in der Open Source-Welt: blog.bugie.de

  • Hui,

    hätte mir vorher doch nochmal das Zitat zu IS durchlesen sollen *gg*, welches ich gepostet hab.

    Ich denke aber nicht das PS ein erweitertes IS ist, da sich die Techniken grundlegend unterscheiden. Bei IS wird ja wie gesagt ein Mono Signal mit Richtungsinformtionen codiert, Phasenunterschiede (zw. L und R) gehen damit aber verloren, warscheinlich sagen auch nur die Richtungsinformationen aus, von wo das "Monosignal" grad herkommt (L/R) (grob geschätzt).

    PS wiederrum analysiert das Stereosignal anhand der Höreigenschaften das wir Stereo aufgrund der Zeit und Lautstärke Unterschiede wahrnehmen. Diese Unterschiede werden in Parametern dem Monosignal beigefügt und der Encoder kann anhand dieser Informationen einen Eindruck eines Stereobildes encodieren. Wird wohl aber dann auch nur Mono sein, denke man kann dann auch kein echtes Stereosignal daraus reproduzieren.
    Wenn eine Stimme von Links kommt und Rechts garnicht gesprochen wird, dann beinhaltet das Monosignal die Stimme, wobei eine zusätzliche Information dann bei der Ausgabe "sagt" Links +0dB und Rechts -70db. So könnt ich mir das vorstellen. Oder Auto fährt von links nach rechts, mono signal enthält nur ein fahrendes Auto, die Informationen "sagen" Links -10ms zu Rechts +10ms übergang von {Links +0dB Rechts -70dB} auf {Links -70dB Rechts +0dB}. Wenn man das jetzt so zusammen auf Stereo ausgibt hätte man wirklich den Eindruck als würde ein Auto von links nach rechts fahren.

    Wie gesagt, vielleicht sollte ich das mit den Posts auch lassen, weil ich mir da überhaupt nicht sicher bin, aber wenigstes schein ich das in Wiki recht gut wiedergegeben zu haben :D

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!