Transcoder versus Encoder – SSIM-Analyse sinnvoll?

  • Quote from max

    falsch ! Ganz im Gegenteil
    [...]
    Selbiges im DC Bereich, mit solch niedrigen Bitraten eine DC10 zu fahren tut nur dem SSIM Wert gut, nicht der optischen Qualität.
    [...]
    Das ist nicht nur von vor 4 Jahren so gewesen sondern immer noch so


    Leider liegst Du absolut falsch weil Du in alten Denkschablonen denkst. Eine DC8 ist zB immer besser, sowohl optisch als auch SSIM-technisch, wenn die Bitrate knapp ist. Knappheit kann bei schwierigem Material auch bei 9000 kbps anliegen.
    Dir würden aktuelle Tests und Erkenntnisse die Sichtweise erweitern - im positiven Sinne ;)


    Archimedes1, ich lade momentan die fertigen Dateien hoch. Habe mit Recode 2.3.7.0 in den vier Qualitätsstufen auf 60% reduziert:
    - max sharp (3)
    - sharp (2)
    - smooth (1)
    - max smooth (0)

    Max sharp produziert zum Teil hohe Schwankungen, während max smooth einen ausgeglicheneren Verlauf schafft, siehe zB "kleinstes Q in Y".

    Download der Dateien (111 MB): http://www.megaupload.com/?d=DEF6QMVA

    Liebe Grüße

    Check It Out

  • Danke dir. Habe mir die Clips soeben heruntergeladen. Interessanterweise hat die 2. Variante („max smooth“) den größten PSNR-Wert. Hier können wir einen Widerspruch zu den SSIM-Werten erkennen (die 2. Variante hat nicht den größten SSIM-Wert). Bis jetzt dachte ich eigentlich immer, der PSNR-Wert steigt und fällt reziprok auch mit dem euklidischen Abstand. Ist aber nicht so.

    Derweil kann ich ja mal - zur allgemeinen Diskussion - die Ergebnisse der SSIM-Analyse für die 95 % Komprimierung veröffentlichen, zunächst einmal ohne Interpretation der Werte. Das sollte den subjektiv noch zu gewinnenden Eindrücken keinen Abbruch tun.

    Nero Recode 2 (95 % Komprimierung):


    Procoder Express (95 % Komprimierung):


    Die etwas auffälligeren Kurvenverläufe seien hier schon mal gezeigt.

    [Blocked Image: http://img100.imageshack.us/img100/990/derzoobesuch95frame0150xj8.jpg]

    [Blocked Image: http://img242.imageshack.us/img242/4213/derzoobesuch95frame0408rs1.jpg]

    [Blocked Image: http://img171.imageshack.us/img171/791/derzoobesuch95frame0672ey5.jpg]

    [Blocked Image: http://img243.imageshack.us/img243/3393/derzoobesuch95frame0822si8.jpg]

    [Blocked Image: http://img174.imageshack.us/img174/2757/derzoobesuch95frame0947ot0.jpg]

    Im nachfolgenden Framebereich habe ich die Y-Skalierung geändert.

    [Blocked Image: http://img155.imageshack.us/img155/4983/derzoobesuch95frame1097ti3.jpg]

    [Blocked Image: http://img124.imageshack.us/img124/9546/derzoobesuch95frame1147em7.jpg]

    [Blocked Image: http://img242.imageshack.us/img242/6736/derzoobesuch95frame1222av6.jpg]

    [Blocked Image: http://img142.imageshack.us/img142/3899/derzoobesuch95frame1384nk3.jpg]

    Es gilt nun herauszufinden, ob die ermittelten SSIM-Werte auch tatsächlich mit den subjektiven Eindrücken übereinstimmen. Da man ja nicht alle Frames per Einzelbildvergleich sichten möchte, muss das halt stichprobenartig verifiziert werden. Falls jemand irgendeinen (aussagekräftigen) Frame entdeckt, der nachweislich nicht mit dem dazugehörigen SSIM-Wert übereinstimmt, der möge diesen bitte melden! Eventuell scheiden sich auch hier schon die Geister. :)

    Verläuft der Stichprobentest soweit erfolgreich, gilt es zu testen, inwieweit die Ausreißer in den Grafiken sich auch in einem laufenden Video erkennbar machen. Schließlich geht es ja auch um die „richtige Interpretation“ der Werte. Mit Sicherheit werden kleinere Ausreißer bei Szenen mit viel Bewegung relativiert usw.

  • mit solch niedrigen Bitraten eine DC10 zu fahren

    Fliegen die Dinger nicht? ;)

    [Blocked Image: http://www.huaxpw.com/images/DC10.jpg]
    __

    Ja, ich weiß: "DC precision = 10 bit" ist gemeint, also die Genauigkeit der Werte für die Quantisierung. Und die muss nur bei wirklich mehr als ausreichender Bitrate 10 bit bieten. Für verkleinertes Material reichen 9 bit, sonst wird die Quantisierung und v.a. die Dezimierung ein wenig behindert.

  • Quote

    Eine DC8 ist zB immer besser, sowohl optisch als auch SSIM-technisch, wenn die Bitrate knapp ist.



    Check It Out ,

    ich bin für wahr kein Erbsenzähler, aber in einem anderen Threads plädierst Du schon fast für die Abschaffung der Encoder, weil sie eben nicht mit den Transcodern, bezogen auf die SSIM Werte mithalten können.

    Nun bestätigst Du meine Aussage und hälst sie mir gleichermaßen vor, ein Transcoder kann eben keine DC Precision fahren, sprich er senkt die Bitrate und behält die ungünstige DC Prazison bei -- und dann lese ich in anderen Foren "Encoder haben bald ausgedient, ich encodiere nix mehr wenn ich transcodieren kann" usw.

    Auf dieser Basis habe ich es einfach nicht nötig mit Dir zu diskutieren, zumal es mir eh nie um irgendwelche Weltverbesserungen Transcoder/ Encoder ging, sondern nur darum, das ich mich verwehre die menschliche Wahrnehmung an eine mathematische Formel zu binden -

    Quote

    Dir würden aktuelle Tests und Erkenntnisse die Sichtweise erweitern - im positiven Sinne


    Dir vielleicht auch, wenn Du dann ab und an mal ein Blick weg von den mathematischen Werten und rauf auf vernünftige Abspielgeräte richtest , dann sieht man einen Unterschied den die Werte eventuell nicht widerspielgeln, gesundes Sehvermögen vorausgesetzt. :D



    In diesem Sinne viel Spass beim Testen, nur eben ohne mich -- out gechekt -- ;)


    max

  • Ich habe mir die 4 Clips der aktuellen Nero-Recode-Version jetzt mal näher angeschaut und mit dem Clip der älteren Version 2.2.6.17 verglichen. Die Komprimierung war ja auf 60 % eingestellt. Die Einstellungen „smooth“, „max smooth“ und „sharp“ erzeugen fast die gleichen Kurven wie die ältere Nero-Recode-Version. Speziell die Einstellung „sharp“ erzeugt eine fast deckungsgleiche Kurve. Einen Sichtungstest habe mir erspart.

    [Blocked Image: http://img409.imageshack.us/img409/6/derzoobesuch60frame0947zm0.jpg]

    So viel scheint sich da wohl doch nicht getan zu haben. ;)

    Die Einstellung „max sharp“ erzeugt zwar die besten SSIM-Werte, aber auch die größeren Ausreißer, auch ist die Kurve alles andere als „ruhig“. Das müsste man getrennt betrachten.

  • Die Mühe, die Ihr Euch macht in allen Ehren - der Sinn indess erschließt sich mir nicht so ganz.
    Der SSIM-Wert kann mir doch gar nicht sagen, ob Ergebnis A besser ist als Ergebnis B. Über das Warum wurde ja schon hinreichend diskutiert.
    Wenn solche Messergebnisse Sinn haben sollen, dann müssen sie innerhalb einer Gruppe gleich arbeitender Programme ermittelt worden sein. Also nur Transcoder oder nur Encoder.

  • Quote from Ligh

    Für verkleinertes Material reichen 9 bit, sonst wird die Quantisierung und v.a. die Dezimierung ein wenig behindert.


    DC 8 ist vorzuziehen ;)

    Quote from Kika

    Wenn solche Messergebnisse Sinn haben sollen, dann müssen sie innerhalb einer Gruppe gleich arbeitender Programme ermittelt worden sein. Also nur Transcoder oder nur Encoder.


    Selbst das wird doch hier vehement bestritten, schließlich "lasse sich die menschliche Wahrnehmung nicht in eine mathematische Formel pressen". ;)
    Und ob die Ergebnisse zwischen Transcodern und Encodern übergreifend interpretiert werden können, soll doch gerade Gegenstand dieses Threads sein. Hier wird so getan, als ob alles seit Jahren zementiert ist und Zweifler werden "verbrannt" :müffel:
    Mittelalter - und nein, die Erde ist keine Scheibe :so-nicht:

    Quote from Kika

    Der SSIM-Wert kann mir doch gar nicht sagen, ob Ergebnis A besser ist als Ergebnis B. Über das Warum wurde ja schon hinreichend diskutiert.


    Der SSIM-Wert wird doch auch nicht isoliert betrachtet. Es laufen mehrere Metriken ab, dann werden Kurvenverläufe betrachtet und an auffälligen Frames werden Sichtvergleiche durchgeführt. Warum das immer noch nicht aussagekräftig sein kann und darf, weiß nur max :seher:

    Quote from max

    aber in einem anderen Threads plädierst Du schon fast für die Abschaffung der Encoder, weil sie eben nicht mit den Transcodern, bezogen auf die SSIM Werte mithalten können


    Leider hast Du Dich ausgeklinkt und legst mir zum Abschluss Aussagen in den Mund, die ich nie getroffen habe. Eine ordentliche Zitierung mit Link sollte nicht zu viel verlangt sein.
    Encoder haben immer weitergehende Möglichkeiten als Requantisierer, allein deshalb wäre eine "Abschaffung" Unsinn. Geht es nur um die Verkleinerung von Mpeg2-Ausgangsmaterial, so sind Requantisierer aber Spezialisten - innerhalb gewisser Grenzen, die aber nicht so eng sind, wie ständig behauptet wird.

    Quote from Archimedes1

    Speziell die Einstellung „sharp“ erzeugt eine fast deckungsgleiche Kurve


    Archimedes1, Recode arbeitet ohne Eingriff in die Registry standardmäßig mit Qualität "sharp", insofern ist klar, warum sich die Kurven fast gleichen. Fast gleichen bedeutet aber auch, dass Änderungen durchgeführt wurden. Zu ermitteln war/ist, ob es eventuell weniger Ausreißer nach unten gibt. Wie stellen sich denn die Minimalwerte der einzelnen Metriken dar?

    Liebe Grüße

    Check It Out

  • Archimedes1, Recode arbeitet ohne Eingriff in die Registry standardmäßig mit Qualität "sharp", insofern ist klar, warum sich die Kurven fast gleichen. Fast gleichen bedeutet aber auch, dass Änderungen durchgeführt wurden. Zu ermitteln war/ist, ob es eventuell weniger Ausreißer nach unten gibt. Wie stellen sich denn die Minimalwerte der einzelnen Metriken dar?


    Die oben gezeigte Grafik ist durchaus repräsentativ. Mehr Unterschiede sind da nicht auszumachen. Einzige Ausnahme ist der „ausklingende Framebereich“ von 1474 bis 1499 – dort laufen die Kurven etwas auseinander.

    [Blocked Image: http://img165.imageshack.us/img165/1677/derzoobesuch60frame1384ao0.jpg]

    Die Zahlenwerte waren dann auch fast gleich. Ich habe die Analyse allerdings ohne die schwarzen Ränder, also mit Crop(16, 16, -16, -16) durchgeführt, deswegen sind die von dir ermittelten Werte vermutlich auch größer. Meine Analyse ergab folgende Zahlenwerte:

    Nero Recode 2 (Version 2.2.6.17):

    Nero Recode 2 (“sharp”):

    Ich bin jetzt noch nicht dazu gekommen, alle Videos zu begutachten. Aufgefallen ist mir jedoch, dass die „Wasserspringbrunnenszene“ bei den Nero-Recode-Videos mitunter sehr übel aussieht. Irgendwo unterhalb von ca. 90 % Komprimierung geht die Qualität, was diesen Framebereich betrifft, schlagartig in den Keller. Die Procoder-Express-Videos sind zwar auch voll von Verblockungen, sehen aber bei weitem nicht so schlimm aus. Vielleicht auch ein Hinweis darauf, wo die Grenzen eines Transcoders liegen.

    [Blocked Image: http://img47.imageshack.us/img47/6145/derzoobesuch60frame1097gp0.jpg]

    Die Frage ist halt, wie sensitiv man solche Stellen aufnimmt bzw. wie wichtig einem solche Stellen sind. Ob die laut SSIM-Kurve besseren Stellen diesen „Ausreißer“ wettmachen, müsste man erst durch eine Sichtkontrolle überprüfen. Denn, was habe ich von hohen SSIM-Werten in den meisten anderen Framebereichen, wenn ich diese auf einem Sichtgerät gar nicht „wahrnehme“, und eine einzige Szene „versaut“ den ganzen Eindruck?

    Der SSIM-Wert kann mir doch gar nicht sagen, ob Ergebnis A besser ist als Ergebnis B. Über das Warum wurde ja schon hinreichend diskutiert.


    Sagen wir mal so, der SSIM-Wert gibt Auskunft darüber, inwieweit das Ergebnis A (subjektiv) besser mit einem Referenzsignal übereinstimmt als Ergebnis B. Ob man dieses „Maß an Übereinstimmung“ als „besser“ ansieht, bleibt jedem selbst überlassen. ;)

    Ich weiß, der Vergleich hinkt, aber genauso gut könnte ich zu meinem Hausarzt bei der nächsten Blutuntersuchung sagen, was jucken mich die Zahlen, das Einzige, was zählt, ist meine subjektive Befindlichkeit. :)

    Dort ist die Sache doch ähnlich. Blutwerte sagen zwar viel aus, aber eben nicht alles. Auch können sie mal daneben liegen. Liegen Werte im Grenzbereich (siehe Ausreißer bei den SSIM-Werten), wird der Sache einfach nachgegangen (erneute Untersuchung etc.).

    Wenn solche Messergebnisse Sinn haben sollen, dann müssen sie innerhalb einer Gruppe gleich arbeitender Programme ermittelt worden sein. Also nur Transcoder oder nur Encoder.


    Das höre ich auch immer wieder. Aber noch niemand hat mir das durch ein Beispiel belegen können. Und gerade solche Beispiele interessieren mich, um eben die Grenzen einer SSIM-Analyse – ja, die gibt es! - mal sichtbar zu machen. Und ich meine jetzt nicht irgendwelche konstruierte Beispiele (z. B. ein schwarzes Loch in der Mitte eines Videos).

    Vielleicht liegt die „überkritische Haltung“ gegenüber solchen Analysen auch daran, dass SSIM-Werte häufig einfach falsch interpretiert werden. Wenn ich z. B. irgendwo einen sog. Codec-Test lese, wo tabellarisch die SSIM-Werte aufgelistet sind und daraus sogar eine Rangfolge ermittelt wird, sträuben sich mir die Haare. Ich weiß häufig gar nichts über die Referenzvideos (Auswahl der Szenen, Art der Szenen etc.), noch über die Einstellungen der Encoder, noch weiß ich etwas über den Kurvenverlauf. Wenn, dann müsste man, ähnlich wie bei Computerschachprogrammen, eine sog. Ratingliste führen, wo eine Vielzahl von ausgewählten Clips analysiert werden. Auf diese Weise hätten die Zahlen eine größere Aussagekraft. Zusätzlich würde ich die ermittelten Ergebnisse (die Unterschiede in den SSIM-Werten) auch noch auf ihre „Wirksamkeit“ hin überprüfen (Sichttests) und aus all dem dann eine Synthese bilden.

  • Ich habe mir die Kurvenverläufe der einzelnen Videos jetzt mal näher angeschaut. Es bestätigt sich, irgendwo bei 85 % Komprimierung würde ich anfangen, darüber nachzudenken, ob die Encoder-Version, trotz des niedrigeren durchschnittlichen SSIM-Wertes, nicht doch vorzuziehen ist. Wohlgemerkt, beim vorliegenden Video.

    Ich mache das hauptsächlich an der „Wasserspringbrunnenszene“ abhängig (bei etwa 85 % Komprimierung beginnt sich die Szene zunehmend zu verschlechtern).

    [Blocked Image: http://img247.imageshack.us/img247/6703/derzoobesuch85frame1097by5.jpg]

    Hinzu kommt, dass die Procoder-Express-Linie in den meisten anderen Frames auch einen lineareren Verlauf hat (was auch immer das im laufenden Video zu bedeuten hat). Eventuell mache ich auch noch einen Test mit den VQEG-Sequenzen, um die Sache bei Szenen mit viel Bewegung zu untersuchen. Das scheint sich schon mal als ein limitierender Faktor beim Transcoden herauszustellen (trotz hoher durchschnittlicher SSIM-Werte).

    Das ist jetzt nur mal ein „Herantasten“, alleinig durch eine SSIM-Analyse. Ob diese Eindrücke Bestand haben, muss erst eine Sichtkontrolle zu Tage fördern.

  • Nun, warum ch SSIM nicht traue:
    SSIM unterschlägt Fehler, die beim Transcoden entstehen. Das deshalb, weil sie nur einzelen Blocks, Macroblocks oder bestenfalls Slices betreffen (bei MPEG2). Dummerweise kann man solche Fehler aber SEHEN.

    Das Problem ist, dass Encoder das Bild global betrachen und alles verändern, während DCT-Transcoder aber gezielt nach bestimmten Kriterien nur einzelne Bildelemente verändern. Global betrachtet, verändern Encoder also immer mehr am Bild, als dies DCT-Transcoder tun - ob dies nun aber zum Guten oder Schlechten geschieht - wer legt die Regeln fest, nach denen das bewertet wird?

    Ein Beispiel: Ein Transcoder entscheidet, dass eine große Fläche, die ein Drittel des Bildes einnimmt, ruhig stärker komprimiert werden kann(wobei sie versaubeutelt wird), während der Encoder aber das geamte Bild verändert - nur, was empfindet man auf psychovisueller Ebene als besser? SSIM mit Sicherheit den Transcoder, Menschen aber den Encoder.

  • SSIM unterschlägt Fehler, die beim Transcoden entstehen. Das deshalb, weil sie nur einzelen Blocks, Macroblocks oder bestenfalls Slices betreffen (bei MPEG2). Dummerweise kann man solche Fehler aber SEHEN.


    Bei der SSIM-Variante für Video haben wir es mit 8x8 Pixel großen „Sliding Windows“ zu tun, damit sollten Fehler in den Blöcken zu mindestens erfasst werden. Bei einem 720x576 großen Frame ergeben sich damit 405697 lokale SSIM-Werte. Wenn nun nur ein paar davon sehr schlecht aussehen, die anderen dagegegen sehr gut, wird das für den durchschnittlichen SSIM-Wert kaum Auswirkung haben. Stimmt.

    Dann wäre es doch sinnvoll, neben dem Durchschnittswert auch den oder die kleinsten lokalen SSIM-Werte pro Frame ausgeben zu lassen (evtl. mit Koordinaten)? Auf diese Weise würde man sehen, wo in einem Frame evtl. größere Probleme in kleineren Bereichen auftreten.

    Ein Beispiel: Ein Transcoder entscheidet, dass eine große Fläche, die ein Drittel des Bildes einnimmt, ruhig stärker komprimiert werden kann(wobei sie versaubeutelt wird), während der Encoder aber das geamte Bild verändert - nur, was empfindet man auf psychovisueller Ebene als besser? SSIM mit Sicherheit den Transcoder, Menschen aber den Encoder.


    Das Beispiel leuchtet mir durchaus ein. Hier kommt etwas ins Spiel, dass eine SSIM-Analyse durchaus „ad absurdum“ führen kann. Aber auch hier geht es wieder um die Verteilung der lokalen SSIM-Werte (nur in einem größeren Zusammenhang). Aber ist das nicht auch wieder ein konstruiertes Beispiel? Arbeiten Transcoder wirklich so? Wenn solche Dinge tatsächlich vermehrt auftreten sollten, dann lassen sich diese doch bestimmt vermehrt an Framebeispielen aufzeigen. ;)

    Mal eine Zwischenfrage an die Runde, welche Bereiche auf dem Bildschirm nimmt das Auge eigentlich am intensivsten wahr? Gibt es so was, wie einen goldenen Schnitt? Randbereiche werden sicherlich weniger kritisch betrachtet. Eventuell könnte man auch eine regionale Gewichtung der lokalen SSIM-Werte berücksichtigen. Alternativ könnte man mit der Crop-Funktion von AviSynth auch ein kleineres Analysefenster wählen.

  • Es gibt nicht bestimmte Bildschirmregionen, die das Auge mehr oder weniger gut erfasst, das kommt darauf an, worauf man schaut. Wenn man darauf achtet wie sich sein Augapfel bewegt, dann kann man selbst feststellen, wie er sich dauernd bewegt.

    Kurzbleiche in Physiologie: Das Auge hat im wesentlichen einen Punkt auf der Netzhaut, mit dem es scharf sehen kann, der sog. gelbe Punkt oder auch Fovea genannt. Das Auge wird immer so gedreht, dass die interessanten Bildteile in der Fovea liegen.

    Ausserhalb der Fovea sind relativ wenig sehzellen, so dass man nicht sehr hochaufgelöst sieht. Experiment: Versuche die Enter Taste auf deiner Tastatur zu fixieren und dann die anderen Tastenbeschriftungen zu lesen, ohne die Fixation zu verlieren.

    Eine sinnvolle psychovisuelle Optimierung wäre also, den Fixationspunkt mit höherer Qualität zu encoden und Bitrate in den peripheren Bereichen zu sparen (z.B. hat der SSIM Entwickler auf diesem Gebiet mal gearbeitet).

    Um SSIM zu verbessern, könnte man auch noch in Betracht ziehen, ob der Bereich fixiert wird oder nicht.

    Fixationspunktbestimmung ist eine interessante und hochgradig nichttriviale Aufgabe. Menschliche gesichter sind z.B. sehr wahrscheinliche Fixationspunkte. Bewegungen und auffällige Farben ebenso.
    Das Fixationsverhalten ordentlich zu modellieren und nachzubilden halte ich für sehr sehr schwierig, da dabei auch sehr "hohe" Funktionen der Wahrnehmung mitwirken. Da kann man beliebig viel Aufwand treiben.

    Archimedes: In welcher Programmiersprache hast du denn dein SSIM Implementiert?

    Denn falls du mit C Code was anfangen kannst, hätte ich hier einige Routinen, die versuchen die Fixation zu modellieren. Dann könnte man versuchen SSIM ein bisschen zu "tunen".

    Es gibt eine Theorie, die besagt, dass das Universum sofort verschwinden und etwas noch Unerklärlicheres und Bizarres an seine Stelle treten wird, sobald jemand herausfindet, wofür es gut ist und warum es existiert.

    Es gibt eine andere Theorie, die besagt, dass das bereits geschehen ist.


  • Archimedes: In welcher Programmiersprache hast du denn dein SSIM Implementiert?

    Denn falls du mit C Code was anfangen kannst, hätte ich hier einige Routinen, die versuchen die Fixation zu modellieren. Dann könnte man versuchen SSIM ein bisschen zu "tunen".


    Das Programm habe ich mit Borland Delphi erstellt. C-Quellcode stellt aber kein Problem dar. ;)

    Die ganze Thematik erscheint mir dann doch etwas „vage“. Hängt da nicht viel zu viel vom „Auge des Betrachters“ ab (Alter, Geschlecht etc.)? Auch stellt sich mir die Frage nach der Performance einer solchen Implementierung. Ein interessanter Ansatz ist es aber durchaus.

  • Ich glaube nicht, dass eine Fixationspunktbestimmung und dort eine verbesserte Qualität der richtige Ansatz ist.

    http://de.wikipedia.org/wiki/Sakkade

    Quote from Wikipedia

    Augenbewegungen sind sehr individuell und können selbst bei der selben Person unter verschiedenen Bedingungen sehr unterschiedlich ausfallen. Die Dauer der Fixationen und das Muster und die Längen der Saccaden sind nicht nur abhängig von allgemeinen Eigenschaften wie Geschlecht und Alter, sondern richten sich auch stark nach Gewohnheiten, Fähigkeiten, Interesse und Absichten des Betrachters. Auch biologische Faktoren wie etwa Drogen- oder Koffeinkonsum können die Augenbewegungen sehr stark beeinflussen. Die für die Forschung wichtigste Eigenschaft ist jedoch die starke Veränderung der Augenbewegungen aufgrund der dargebotenen visuellen Reize, z.B. der Schwierigkeit eines Textes oder der Komplexität eines Bildes. Erst diese Abhängigkeit legt die Eye-Mind Hypothese nahe, nämlich dass das Sehen und die kognitive Verarbeitung des Gesehenen sich gegenseitig beeinflussen und experimentell begründbare Rückschlüsse aufeinander zulassen. Den Vorgang des Sehens selbst bezeichnet man deshalb heute auch als Intentionales Sehen, also einer aktiven, bewusst gesteuerten Handlung durch den Sehenden.


    Ich sehe einen Film allein schon anders, wenn ich ihn das zweite Mal sehe, geschweige denn von Detailbetrachtungen ganz bewusst abseits des Geschehens.

    Möchte das somit ebenfalls als zu "vage" sehen ...

    Quote from Archimedes1

    Aber ist das nicht auch wieder ein konstruiertes Beispiel? Arbeiten Transcoder wirklich so? Wenn solche Dinge tatsächlich vermehrt auftreten sollten, dann lassen sich diese doch bestimmt vermehrt an Framebeispielen aufzeigen. ;)


    Transcoder arbeiten nicht zwangsläufig so und Encoder benutzen Flächen oftmals ebenfalls, um dort verstärkt zu reduzieren. Der CCE benutzt zB einen Regler, der die Bitratenverteilung zu Gunsten von Details oder von Flächen steuern kann.


    Zur Wasserspringbrunnenszene:
    Max. smooth liefert dort deutlich bessere Minimalwerte durch stärkere Weichzeichnung.

    Quote from Archimedes1

    Dazu habe ich zunächst mit dem Procoder Express das Referenzvideo erstellt. Das DV-Video wurde dabei mit variabler Bitrate (3500/6500/8500) und in zwei Durchgängen enkodiert.


    Etwas problematisch finde ich den Ausgangsansatz, ein ProCoder Express Video zu verkleinern - und zwar erneut mit dem ProCoder Express. Evtl. erleichtert das dem ProCoder Express die Arbeit durch gleichlaufende Routinen, zB minimale Vorfilterungen.
    Neutraleres Mpeg-Material wäre gerechter. Bestimmt gibt es da auch Referenzmaterial.

    Liebe Grüße

    Check It Out

  • Etwas problematisch finde ich den Ausgangsansatz, ein ProCoder Express Video zu verkleinern - und zwar erneut mit dem ProCoder Express. Evtl. erleichtert das dem ProCoder Express die Arbeit durch gleichlaufende Routinen, zB minimale Vorfilterungen.
    Neutraleres Mpeg-Material wäre gerechter. Bestimmt gibt es da auch Referenzmaterial.


    Der Gedanke ging mir anfangs auch schon durch den Kopf. :)
    Aber soweit ich das gesehen habe, profitiert der Canopus Procoder Express nicht wirklich davon. ;) Auch ging es mir hier nicht primär um den "knallharten Vergleich" zwischen den beiden Varianten. Dazu müssen sowieso mehrere (unterschiedliche) Referenzclips getestet werden.

    Ich habe in der Zwischenzeit auch noch eine Testreihe mit den VQEG-Sequenzen durchgeführt. Dazu habe ich das Mpeg-2-Video, dass mit dem “Spezialencoder“ enkodiert wurde, wieder in 5-er Schritten (95, 90, 85% usw.) komprimieren lassen. Dazu aber ein anderes Mal mehr.

    Wie’s der Zufall so will, bin ich dabei auf eine Szene gestoßen, die das Thema „Fixationspunkte“ sehr gut veranschaulicht. Als Demonstration habe ich aus den 75-%-Videos mal den Frame 742 herausgepickt. In beiden Fällen handelt es sich um ein B-Frame. Leider ging die Erstellung der Animationen nicht ohne sichtbare (Farb-)Verluste einher. Deswegen mögen die folgenden Grafiken auch nur als grobe Anhaltspunkte dienen.

    Der Frame für das Nero-Recode-Video hatte einen sehr schlechten Wert von 0,8171 (Q in Y).

    [Blocked Image: http://img244.imageshack.us/img244/5208/ne…rame0742rg5.gif]

    Der Frame für das Procoder-Express-Video hatte dagegen einen Wert von 0,9412.

    [Blocked Image: http://img373.imageshack.us/img373/6916/pr…75frame0eq6.gif]

    Bei der Betrachtung dieses Frames relativiert sich der schlechte Werte von Nero Recode ein wenig. Die (möglichen) Fixationspunkte liegen ja irgendwo am Formel-1-Rennwagen (Helm des Fahrers, Kanten, Schriftzüge etc.) und nicht im Hintergrund. Und gerade dieses „Drumherum“ sieht beim Nero-Recode-Frame sehr übel aus. Die Unterschiede am Rennwagen sind dagegen wesentlich geringer. In einem laufenden Video wird man den schlechten „Kontext“ des Nero-Recode-Videos gar nicht (so) mitbekommen, erstens, wegen der Fixationspunkte und, zweitens, wegen dem sich stark bewegenden Hintergrund.

    Das Thema „Fixationspunkte“ ist ja durchaus nicht uninteressant. Aber ich würde jetzt mal (ganz frech) behaupten, dass es letztendlich keine große Rolle spielt, ob die SSIM-Werte in so einem Bereich höher bewertet werden oder nicht. Laut dem Entwickler der SSIM-Metrik würden z. B. auch zufällig erzeugte lokale SSIM-Fenster („Sliding Windows“) ebenfalls brauchbare Ergebnisse liefern (der Vorschlag wurde aus Performancegründen gebracht). In Tests wurde gezeigt, dass hierzu nicht mehr als 100 „Sliding Windows“ nötig sind! Ich behaupte ferner, dass, wenn man nur einen Teil des Bildschirms, z. B. die Hälfte oder ein Drittel davon, analysiert, dass dann die Ergebnisse genauso brauchbar sind („wie im Großen, so im Kleinen“). Insofern könnte es durchaus sein, dass eine Hinzunahme der Fixationspunkte – die ja im Endeffekt nichts anderes als gewichtete lokale SSIM-Fenster sind - keine wirkliche Verbesserung bringen würde.

  • Das mit den Fixationspunkten ist ein zweischneidiges Schwert. Es gibt ja noch sowas wie die globale Wahrnehmung und die Randwahrnehmung. Wir bemerken durchaus große Änderungen eines größeren Bereiches auch dann, wenn sie außerhalb des Fixationspunktes liegen. Am Beispiel des Ferraris fällt das prima auf. Selbst, wenn man sich ausschließlich auf den Wagen konzentriert, nimmt man die doch starke Änderung des Hintergrundes deutlich war.
    Erinnert Ihr Euch noch an Dinge wie "Lebende Wände"? Oder das Pumpen von großen Flächen mit wenigen Details? Das alles betrifft Dinge, die bei der Betrachtung nicht im Fixationspunkt liegen.
    Hinzu kommt, dass man manche Dinge in ruhigen Bildern viel viel stärker bemerkt als bei starker Bewegung. Das macht es ja gerade so schwierig, ein mathematische Modell zur Beurteilung von Bildqualität zu entwickeln.

  • Nun, warum ch SSIM nicht traue:
    SSIM unterschlägt Fehler, die beim Transcoden entstehen. Das deshalb, weil sie nur einzelen Blocks, Macroblocks oder bestenfalls Slices betreffen (bei MPEG2). Dummerweise kann man solche Fehler aber SEHEN.


    Ich lasse mir jetzt auch die kleinsten lokalen SSIM-Werte je Frame ausgeben, um eben auch Problemen in den Blöcken auf die Spur zu kommen. Die Ausgabe erfolgt dann auch mit Angabe der Koordinaten des betreffenden lokalen SSIM-Fensters. Zunächst dachte ich mir noch, dass das nichts bringen würde, da vermutlich in jedem Frame immer auch sehr niedrige lokale Werte vorkommen. Dem ist aber nicht so, wie ich in einem ersten Test festgestellt habe. Es ergaben sich eine überschaubare und damit sinnvoll überprüfbare Anzahl von fragwürdigen Frames.

    Ich habe dann eine Analyse der VQEG-Videos mit 85 % Komprimierung vorgenommen. Interessanterweise hat hier Nero Recode die mit Abstand kleinsten Werte aufzuweisen (z. B. 0,0235). Das Procoder-Express-Video hat diesbezüglich keine so großen Ausreißer (der kleinste Wert lag bei 0,2304).

    Auf Blockebene, vermutlich aber auch in größeren Bereichen, scheint Nero Recode da wirklich öfter mal etwas (kräftig) zu verhunzen. Ob und wie sich diese Ausreißer negativ bemerkbar machen, muss erst durch eine Sichtkontrolle überprüft werden.

  • Quote

    Ob und wie sich diese Ausreißer negativ bemerkbar machen, muss erst durch eine Sichtkontrolle überprüft werden.

    Exakt da steckt das Problem: Wie stark nehmen die verschiedenen Leute sowas wahr? Ich als Video-Irrer bemerke jede Blockbildung und jedes Ruckeln. Egentlich kann ich jede Schwäche sofort entdecken - ist halt die Frage, wie ich sie bewerte. Unschärfen, wie sie z.B. durch Half-D1 enstehen, stören mich weniger als Blockbildung. Ich kenne aber auch durchaus Leute, die sowas auch dann nicht sehen, wenn man sie mit der Nase drauf stößt.

    Das mag aber jeder für sich selbst entscheiden.

  • Hier ist ja eigentlich noch was offen. Ich bin in letzter Zeit gar nicht mehr dazu gekommen, der Frage des Threadtitels nachzugehen. Werde wohl auch in nächster Zeit nicht dazu kommen. Ich erlaube mir, ein wenig zu spekulieren. ;)

    Eines ist mir auf die Schnelle aber schon klar geworden, wenn man nur die reinen Zahlenwerte (ohne Einbezugnahme des Kurvenverlaufs) hernehmen würde, dann würde man auf’s Glatteis geführt werden. Vermeintlich bessere Durchschnittswerte bei den Transcoder-Ergebnissen würden über die Tatsache hinwegtäuschen, dass es ab einem gewissen Komprimierungsgrad in schnellen und komplexen Szenen (z. B. „Formel-1-Szene“ bei den VQEG-Sequenzen) zu sehr starken Einbrüchen kommt, die man auch im laufenden Video als solche zu sehen bekommt. Bei den weniger komprimierten Videos ist davon noch nichts zu sehen, erst ab einem gewissen Komprimierungsgrad wird das System „Transcoder“ „instabil“ (die Ausreißer nehmen in ihrer Heftigkeit zu).

    Wenn man aber den Kurvenverlauf miteinbezieht, so bin ich durchaus der Meinung, dass das System „SSIM“ – bei all den möglichen Gefahren - soweit funktioniert. Es gibt da nämlich so eine Grenze, wo ich nur anhand der Grafiken zwischen Gut und Böse unterscheiden würde – nämlich da, wo die Ausreißer in komplexen Szenen beginnen, zu „entarten“ (starke Ausschläge nach unten). Wobei der stichpunktartige Test, inwieweit SSIM-Werte für einzelne Transcoder-Frames überhaupt mit den subjektiven Eindrücken übereinstimmen, ja auch noch gemacht werden müsste (Fixationspunkte, Fehler auf Blockebene etc.). ;)

Participate now!

Don’t have an account yet? Register yourself now and be a part of our community!