Wieviel Qualitätsverlust bei MP3 Re-Encoding?

mattad

Ich habe hier ein paar *.avi Movies mit leisem (Lame)MP3 Audio-Track.

Ich will den Audio-Teil deutlich lauter machen damit man das Video z.B. auch am Notebook bequem hören kann.

Die Lautstärke erhöhen ohne Re-encoding geht nur bedingt und viele player verstehen das nicht.

Daher werde ich wohl ein Re-Encoding vornehmen müssen.
Ich hätte gerne mal eine Abschätzung der damit einhergehenden Qualitätsverluste.

Angenommen der Ausgangstrack ist mit LameMP3 CBR 144kbs Stereo derzeit codiert.

Jetzt re-encode ich den Audio-Track mit denselben Parametern aber eben nur zwei mal so laut.

Um wieviel Prozent verschlechtert sich da schätzungsweise die Audio-Qualität?

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es CBR oder ABR ist?

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es Stereo oder JointStereo ist?

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es MP3 oder LameMP3 ist?

Danke
Matthias

Selur

Davon ausgegangen, dass es sich um ein Signal handelt was aus reiner Stille besteht sollte keine der Methoden irgendeine Änderung hervorrufen.
Falls es sich nicht um absolute Stille handelt, sondern die Tonspur auch Töne enthält, ist dies nicht pauschal zu beantworten, da:
1. kein Objektives quantifiziertes Messverfahren für Audioqualität existiert, so dass man sagen könnte Reencode X ist Y-Prozent besser als Reencode Z
2. ohne weitere Charakteristika des Materials zu kennen nicht pauschal gesagt werden kann ob Methode X überhaupt eine andere Ausgabe als Methode Y erzeugt
-> Qualität ist subjektiv, teste es einfach aus, wenn Du keinen Unterschied hörst dann ist das schon okay.

LigH

Zitat von mattad

Angenommen der Ausgangstrack ist mit LameMP3 CBR 144kbs Stereo derzeit codiert.

Kann nicht sein, da MP3 (MPEG1 Audio Layer 3) nur die Block-Bitraten 128 oder 160 kbps in dieser Größenordnung bietet. 144 kbps muss also schon eine variable Bitrate sein.

Zitat von mattad

Jetzt re-encode ich den Audio-Track mit denselben Parametern aber eben nur zwei mal so laut.

Einfach durch Verstärkung (kann Clipping = Übersteuern, Kratzen verursachen), Normalisierung (kann mehr oder weniger als doppelte Amplitude bringen) oder Dynamikkomprimierung (verändert den Klang)?

Bedenke auch, dass die Verstärkung eventuell Verluste hörbar macht, die in der Original-Lautstärke noch nicht bemerkt worden wären. Selbst wenn die Recodierung nahezu verlustfrei möglich wäre.

Zitat von mattad

Um wieviel Prozent verschlechtert sich da schätzungsweise die Audio-Qualität?

Demonstrativ "kein Kommentar".

Zitat von mattad

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es CBR oder ABR ist?

Ja. Für optimale Qualität ist es vorteilhaft, wenn die Bitrate nach dem Bedarf der jeweiligen Szene schwanken darf. Für die Kompatibilität mit Consumer-Playern ist eine schwankende Bitrate eventuell schlechter, auch wenn es heutzutage durchaus recht zuverlässig unterstützt wird, das wird aber vor allem davon abhängen, wie die Tonspur im AVI gemultiplext ist.

Zitat von mattad

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es Stereo oder JointStereo ist?

Ja. "Joint Stereo" ist effizienter als "Separate Stereo", weil es nicht Links/Rechts speichert, sondern Mitte/Seite, wenn das vorteilhaft ist; bei Audioquellen, die im akustischen Raum direkt von vorn kommen, ist das besonders nützlich, weil die seitliche Abweichung hier sehr gering ist, dann kann ein Großteil der Bitrate in den Durchschnitt investiert werden. Beinahe so, als würde man mit ähnlicher Bitrate nicht stereo (2 Kanäle), sondern nur mono (1 Kanal) encodieren.

Zitat von mattad

Spielt es bei der Qualitätsverschlechterung eine Rolle ob es MP3 oder LameMP3 ist?

"Ich verstehe die Frage nicht."

Ja, die Wahl des konkreten Encoders kann Einfluss auf die Qualität des Ergebnisses haben. Aber LAME ist (wenn auch einer der besten) nur ein Encoder. Der erzeugt auch nur standardkonformes MP3, nichts besonderes.

HQ-LQ

mp3cutter und mptrim können die lautstärke im bitstream anheben,
ganz ohne gain-tags oder reencoding.

wenn der ursprung eine dvd war,
dann wird die dynamik dir einen strich durch die rechnung machen.
denn die lauten (action)szenen weden dann total übersteuern...

Selur

Zitat

wenn der ursprung eine dvd war,
dann wird die dynamik dir einen strich durch die rechnung machen.
denn die lauten (action)szenen weden dann total übersteuern...

Warum nur bei DVD Input? Sollten sonstige Aufnahmen nicht auch einiges an Dynamik aufweisen?

LigH

Bei Filmstudio-Produktionen sicher eher als bei Dokumentarfilmen oder selbst aufgenommenen Urlaubsfilmen. Und bei Dolby Digital geht das ziemlich einfach in erschreckendem Umfang (eher als bei dts)...

Selur

Okay, der Hobbyurlaubsfilmer wird weniger Dynamic haben, aber wenn es nicht sehr monoton ist sollte doch auch da eine generelle natürliche Dynamik vorkommen, oder denk ich da gerade irgendwie total daneben?

LigH

Was ist denn "Dynamik"?

Der Unterschied zwischen den leisesten und den lautesten verständlichen Szenen.

Bei Formaten, die Ganzzahl-Samplewerte speichern (wie PCM und dts), ist sie durch die Sample-Auflösung nummerisch stärker begrenzt als bei Formaten, die Fließkomma-Koeffizienten speichern können (wie Dolby Digital), weil sich die leisesten Szenen unterhalb der Auflösungsschwelle in Stille auflösen.

Groucho2004

Zitat von LigH

Bei Formaten, die Ganzzahl-Samplewerte speichern (wie PCM und dts), ist sie durch die Sample-Auflösung nummerisch stärker begrenzt als bei Formaten, die Fließkomma-Koeffizienten speichern können

Sorry, das ist nicht korrekt. Es kommt darauf an, wieviel diskrete Sample-Werte gespeichert werden können, der Datentyp (Fliesskomma oder Ganzzahl) spielt dabei keine Rolle. Das Format 32 Bit Int kann genauso viele diskrete Werte speichern wie 32 Bit Float. Dann gibt es auch noch w64...

LigH

Dann denk noch mal über Mantisse und Exponent nach. Der Exponent einer Integer-Zahl ist konstant.

Groucho2004

Zitat von LigH

Dann denk noch mal über Mantisse und Exponent nach. Der Exponent einer Integer-Zahl ist konstant.

OK. Das ändert nichts daran das 32 Bit eben nur maximal 2^32 diskrete Werte aufnehmen können. Beim Fliesskommatyp werden die verfügbaren bits in Mantisse und Exponent aufgeteilt.

LigH

Dabei beachtest du allerdings nicht die logarithmische Wahrnehmung der Lautstärke. Die Größenordnung (~ Exponent) ist entscheidend, nicht der exakte Wert.

Bei 32 bit Integer hast du (abzüglich eines Vorzeichen-Bits und eines weiteren – eigentlich mehr – für die Rauschschwelle) maximal 30 bit für unterscheidbare Dynamik, und je leiser es wird, umso weniger Bit bleiben für die Sample-Auflösung, also die Verständlichkeit (leise Szenen verschwinden im Rauschteppich).

Bei 32 bit Float hast du 24 bit Mantisse auch in leisen Szenen, und 7 bit für den Exponenten = 128 Größenordnungen. Beides dürfte aber deutlich jenseits des Hörvermögens sein, wohl auch jenseits der Auflösung von Mirkofonen und Audio-Aufnahmegeräten, praktisch spielen hier eher noch Audioeffektfilter eine Rolle.

Man bedenke aber, dass Mehrkanal-dts auf DVD Video lediglich auf 16-bit-Integer basiert, und die Komprimierung von 6-Kanal-Ton auf 2-Kanal-Bitrate auch nicht völlig verlustlos ist.

Groucho2004

Zitat von LigH

Dabei beachtest du allerdings nicht die logarithmische Wahrnehmung der Lautstärke. Die Größenordnung (~ Exponent) ist entscheidend, nicht der exakte Wert.

Bei 32 bit Integer hast du (abzüglich eines Vorzeichen-Bits und eines weiteren – eigentlich mehr – für die Rauschschwelle) maximal 30 bit für unterscheidbare Dynamik, und je leiser es wird, umso weniger Bit bleiben für die Sample-Auflösung, also die Verständlichkeit (leise Szenen verschwinden im Rauschteppich).

Bei 32 bit Float hast du 24 bit Mantisse auch in leisen Szenen, und 7 bit für den Exponenten = 128 Größenordnungen. Beides dürfte aber deutlich jenseits des Hörvermögens sein, wohl auch jenseits der Auflösung von Mirkofonen und Audio-Aufnahmegeräten, praktisch spielen hier eher noch Audioeffektfilter eine Rolle.

Man bedenke aber, dass Mehrkanal-dts auf DVD Video lediglich auf 16-bit-Integer basiert, und die Komprimierung von 6-Kanal-Ton auf 2-Kanal-Bitrate auch nicht völlig verlustlos ist.

Von diesem Standpunkt gesehen hast du ja recht. Die Verteilung der Bits für 32 Bit IEEE Float ist allerdings etwas anders (23 Bits Mantisse, 8 Bits Exponent, 1 Bit Vorzeichen). siehe auch hier.

LigH

Um die Uhrzeit lese ich keine Specs mehr...

Und die Lautstärkeanhebung funktioniert bei MP3 (und AC3) auch so ähnlich wie Mantisse und Exponent: Die Frequenzdomain-Koeffizienten haben pro Audioblock eine Art Skalierungsfaktor, der gepatcht werden kann; die dazu m.o.w. "normalisierten", quantisierten und komprimierten Koeffizientenwerte bleiben dabei erhalten wie codiert.

Jetzt mitmachen!