Videomagic

  • "Daher möchte ich zunächst objektive Kompressionsergebnisse in Form von PSNR Diagrammen sehen"
    Würde auch gerne noch ander Maße als PSNR sehen, aber PSNRwerte wären zumindest ein Anfang. ;)
    Würde auch mal gerne Hardwareanforderungen zu en- decoden sehen. ;)

    "Vielleicht sollte Herr Prochnow, nachdem der Codec patentiert ist, die Software einfach im Internet für den Privatgebrauch zur Verfügung stellen."
    Wie schon erwähnt ich bezweifel, dass die was halbwegslauffähiges haben.

    "Und das wäre dann der für mich interessante Punkt. An welcher Stelle kommt der Codiergewinn zustande ???"
    Anstatt ein Objekt zu speichern, würde man eine Transformation auf dem Gespeicherten 'Basisobjekt' + Differenzen speichern.
    => Am Anfang jeder 'Szene' müsste der Decoder erfahren welche Objekte vorkommen und würde für jedes Bild dann Transformationen ausführen und diese dann noch mit gespeicherten Differnzdaten aufbessern.

    Cu Selur

    Ps.: gucke mir das Patent mal an (wahrscheinlich morgen)

  • LigH *g*

    @ Selur: Ich weiß zwar nicht, ob wir aneinander vorbeireden, aber das ist genau, das, was ich mich frage, ob diese "Transformation" (Matrixgleichung zur Translation, Rotation und Skalierung von Objekten) zum einen den Rückstand der Einzelbildcodierung wegmacht und dann noch den 20 fachen Vorsprung rausholt.
    Ich muss dann also bei der Interframe-Codierung wesentlich(!) weniger Bewegungsvektoren/Transformationsparameter für die sich bewegenden Objekte erhalten (und natürlich auch einen wesentlich geringeren Schätzfehler) als bei MPEG.

    Der nächste interessante Punkt wäre für mich auch die effiziente Codierung komplexerer Texturen.

    Ich bringe hier immer schön mein Schrank Beispiel ;) Der Encoder hat eine Textur und Objektdatenbank und setzt aus diesem Baukasten das Bild zusammen. Und die Versicherung sieht dann das Brandloch in der Schranktür nicht ;)

  • @ Videovektor:

    Sorry, aber ich meinte das völlig anders:

    In dem Beitrag hatte die Kopie eine subjektiv bessere Qualität als das Original. Perfekte PSNR-Werte könnten aber nur erreicht werden, wenn Kopie und Original identisch sind - die Kopie dürfte weder schlechter, noch ... besser aussehen! ;)


    Und wenn eine Kopie besser wirkt, dann kann dieser Schärfe-Gewinn zwangsläufig nur künstlich sein. :so-nicht: Wir wollen objektive Ergebnisse!

  • *g*, der Rest des Beitrages war an Selur gerichtet
    Dich hatte ich schon richtig verstanden.


    Bezüglich des Sendebeitrages, den habe ich nur flüchtig überflogen, aber 12000 Euro für eine Kiste hinzulegen, die lediglich ein Prost-processing macht ... das kann mein Windows-MediaPlayer mit den entsprechenden Filtern auch ;)
    In der Regel beschränkt man sich eben auf einen Deblocking-Filter (der Fernseher als Tiefpaß tut den Rest *g*).
    Es soll ja alles bezahlbar beliben *g*

  • Hab die Patentschriften noch nicht gelesen, kann also durchaus sein, das ich mir was zusammenreime, was die gar nicht verwenden. ;)

    Zitat

    Ich weiß zwar nicht, ob wir aneinander vorbeireden, aber das ist genau, das, was ich mich frage, ob diese "Transformation" (Matrixgleichung zur Translation, Rotation und Skalierung von Objekten) zum einen den Rückstand der Einzelbildcodierung wegmacht und dann noch den 20 fachen Vorsprung rausholt.


    Ich denke schon, dass dies Möglich ist, wenn eine hinreichend gute Objektdatenbank existiert bzw. angelegt wird und Objekte auch öfters auftauchen.


    Zitat

    Ich muss dann also bei der Interframe-Codierung wesentlich(!) weniger Bewegungsvektoren/Transformationsparameter für die sich bewegenden Objekte erhalten (und natürlich auch einen wesentlich geringeren Schätzfehler) als bei MPEG.


    Ich denke nicht das bei so einer Codierung ein unterschied zwischen intra und inter frames sinnig ist.
    Viel mehr würde ich vermuten, dass jedes Frame aus einer Sammlung von Objektreferenzen+Transformationen besteht. Wenn die Objektzusammenstellungen sich nicht stark ändern könnte man natürlich nur die Änderungen der Zusammenstellungen und Transformationen speichern.
    'Key'-Frames wären dann eher mit IDR Frames analog zu h.264 zu sehen, also als Frames bei denen der Decoder seinen Speicher refreshen kann. Im Decoderspeicher müssten halt immer die Objektdaten aller Objekte gehalten werden die in ihr vorkommen.


    Wenn man z.B. eine Szene mit einer Wand vor der ein Ball springt der sich dreht, so wäre im 'keyframe' das Objekt Ball und das Objekt Wand gespeichert. Da die Wand in der kompletten Szene statisch wäre würde wie bei Mpeg nur die Veränderung der Wand gespeichert. Für den Ball würde sich immer die Position x,y + Transformation gespeichert werden. Je nachdem wie cool der Codec ist könnte man dann auch Sachen machen wie sie in der Mpeg4 Spritespezifikation angedacht sind:
    Objekte austauschen, Farben von Objekten ändern,....
    Eventuell Vergleichbar damit wie wenn man eine Animation in Flash macht und später versucht diese mit einem Mpeg Codec zu kompremieren.(hinkt etwas)


    Damit keine Mißverständnisse auftreten:
    Ich glaube nicht, dass die Videocodec Leute dies wirklich können, aber ich halte es für theoretisch möglich mit den entsprechenden Objekten die entsprechenden Einsparungen zu erhalten. Der Horror für den Codec wäre dann eine Aneinanderreihnung von Szenen in einem Film, die keien gemeinsamen/ähnlichen Objekte haben, da die Objektdatenbank dann wahrscheinlich zu groß würde da man Objekte nicht wiederverwenden kann.

    => Ich glaube prinzipiell, dass bei normalen Filmen ein enormes Einsparpotenzial besteht.


    Zitat

    Der nächste interessante Punkt wäre für mich auch die effiziente Codierung komplexerer Texturen.

    Ich bringe hier immer schön mein Schrank Beispiel ;) Der Encoder hat eine Textur und Objektdatenbank und setzt aus diesem Baukasten das Bild zusammen. Und die Versicherung sieht dann das Brandloch in der Schranktür nicht ;)


    Ich denke der Encoder sollte (ob er das kann weiß ich nicht):
    1. sein Objekt gehört eine (eventuell einige <= unsicher ob dies etwas bringt ) Textur(en) bzw. das Objekt ist nur 2D und ein 'Textur'.
    2. Der Encoder wird ein Bild 'scannen' und dort Objekte extrahieren (sich für dieses Bild erstmal die Objekte+ Positionen merken). Kommt nun ein neues Bild wird auch dieses gescannt und objektisiert. Die so erhaltenen Objekte werden mit ähnlichen Objekten in seiner Datenbank verglichen. Neue Objekte die nicht zu anderen Objekten zugeordnet werden können müssen auch in die Datenbank kommen. existiert ein ähnliches Objekt, so muss abgecheckt werden ob man aus dem alten Objekt mit einer einfachen Transformation oder 'presiwerte' Texturänderungen + wenige Korrkekturen (die auch gespeichert werden müssten) das neue Objekt erzeugen kann oder nicht. Hier ist einer der Bereiche die ich mir sehr schwer vorstelle und auch keine Lösung parat hätte, die auf einem rechner schnell&gut zu bewältigen wäre. :D

    Ich glaube nicht, dass nur Konturdaten + Texturen gespeichert werden. Anstatt festen Kontrudaten ist es wahrscheinlich sinniger etwas wie den 3D ART- bzw. den 2D Art-Descriptor zu nehmen. Die Texturen wollen/?können? sie wohl teilweise in Mathematischeformeln umwandeln (eventuell mit hilfe von Fraktalen?)?


    Mein Problem am Videomagicgebastel ist, dass zu viele Ecken in dem was ich bis dato von dem Codec gelesen un gehört hab in Bereiche gehen die zwar potential gehen, in denen aber noch nicht (erfolgreich) viel gemacht wurde.
    => Die Stichwörter die man so mitbekommt, versprechen alle einiges, so klang im Bericht Neuronalenetze an. Sicher kann man mit Neuronalennetzen eventuell eine Methode ausknobeln die 'verlässlich' Texturen/Objekte extrahiert die man später wiederverwenden kann. Nur müsste so ein Netz treniert werden und Fehler könnten passieren.
    Sicher kann man mit geeigneten Objekten und Beschreibungen enorm Datenrate einsparen. Man stelle sich das Ersparnis vor, wenn man eine Southparkfolge komplett in Flash machen würde. Die wäre einiges kleiner als es momentan mit Mpeg möglich ist. (ich weiß das Beispiel ist simpel, aber genau darum geht es viele der Ideen die anklingen können helfen, aber ob man sie anwenden kann ist zumindest 'fraglich'.
    (Ob man z.B. einen echten Film mit einer advanced Flashversion erstellen könnte? Machen etwaige Lichteffekte usw. nicht zuviele Probleme? Könnte man diese durch Tricks ausgleichen? ....)

    Cu Selur

  • Zur Patentschrift:


    was gemacht wird:
    - Konturen von Bildstrukturen anhand von sprunghaften Änderungen von Helligkeit und/oder
    Farbwert bei einander benachbarten Pixeln ermittelt werden

    Ableitungen in den verschiedenen Farb- Helligkeitskanälen und Verundung der Ergebnisse
    (damit z.B. auch eine Kante in einer Blauenfläche eine Kante im Bild wird)

    - Konturen interpoliert und Objekte geschließen
    (sollte mit Bildverarbeitungsmitteln gehen)

    - Abschnittsweises parametrisieren durch mathematische Funktionen
    (Basisfunktionen, die auch noch gut komprimierbar sind) <= Magic

    - zu kleine Objekte werden Hintergrund zugeordnet
    (Sinnigkeit seh ich nur begrenzt)

    - eine Farbdominanz und ein Farbverlauf vektoriell
    nach Richtung und Größe ermitteln
    (geht)

    - die Lage und Erstreckung der einzelnen Objekte jeweils vektoriell bestimmen
    (geht)

    - für die einzelnen Objekte und den Hintergrund je eine Strukturfunktion ermitteln
    (Strukturformel für das Objekt sollte gehen, da hochfrequente Teile in zum Hintergrund zugeordnet werden; Strukturformel für einen jetzt hochfrequenten Hintergrund seh ich nicht)

    - bei Folgeanalysen von Videobildern jeweils die differentiellen Veränderungen der
    Helligkeit, Größe, Lage und Orientierung der Objekte unter Berücksichtigung gemeinsamer Konturen aneinanderstoßender Objekte bestimmt
    (geht und spart sicher einiges)


    - die so definierten Objekte und und der Hintergrund zusammen mit ihren so gewonnenen optischen, lagemäßigen und strukturellen Daten in einem strukturierten Grundrahmen oder Folgerahmen angeordnet und bereitgestellt werden
    (geht; IDR Frame und andere)

    ------------

    "Ermittlung und Beschreibung der Objekte anhand ihrer Konturen und deren Strukturen führt zu der extrem hohen Datenkompression im Vergleich zu den herkömmlichen Verfahren"
    Stimme ich zu, wenn die Ermittlung und Beschreibung hinreichend gut ist.

    "Insbesondere die Division und die n-te Wurzel sind einfache Operationen, die mehr oder weniger periodische Pixeldaten einer Zeile gut angenähert erbringen."
    Kann sein, bin ich mir mathematisch aber nicht sicher.

    Neuronalesnetz wird als Speicher bei ihnen verwendet.
    Input: Textur
    Output: Funktion zur Textur
    Funktion wird an die Textur nun angenähert (mittels iterativer Approximation)
    neue Funktion + Textur werden ins Neuronalenetz gepackt.

    "Da die zu verwendenden Funktionen elementar sind und von üblichen Rechnern mit hoher Geschwindigkeit als Festkommaoperationen auszuführen sind, lassen sich aus den Strukturdaten die Pixeldaten in der Laufzeit einer Bildwiedergabe generieren"
    wenn die verwendeten Funktionen wirklich elementar sind

    "Es wird bei der Konturdatenermittlung, Glättung etc. einer hohen Auflösung von bewegten Vordergrundobjekten mehr Aufmerksamkeit gewidmet als dem Hintergrund und den passiven Objekten zuteil wird,"
    HVS

    "indem den Objekten jeweils zur Bearbeitung unterschiedliche maximale Rechenzeiten zugeteilt werden."
    okay, je genauer desto mehr Rechenzeit

    Ihr Beispiel für eine Strukturformel ist mir total unklar, da da Klammern fehlen und es zu viele Deutungen gibt.

    "Werden mehrere Zeilenabschnitte einer Bildzeile oder aufeinanderfolgender Bildzeilen analysiert, so ergibt sich häufig aus einer Fortführung und/oder aus einer Versetzung um einige Stellen der zuvor zutreffenden Strukturfunktion eine passende Lösung in sehr einfacher und zeitsparender Weise. Statt einer neuen Strukturfunktion wird dann die Abwandlung im zugehörigen Rahmen angegeben. "
    passt auch

    Dann wird noch beschrieben in welcher Reihenfolge was analysiert wird usw. was mich abe rnicht stark interessiert...

    Cu Selur

    Ps.: Hoffe das ließt auch wer und es ist einigermaßen Verständlich, wenn man die Patentschrift gelesen hat. :)

    Pss.: Basisfunktionen ist etwas klarer seit mit wieder eingefallen ist, dass man die nte Wurzel bei FFT braucht. ;)

  • Ich wollte nur mal darauf hinweisen, dass der Vidoe-Codec NICHT auf dieser Box ist.

    Das ist eine ganz normale PC-SetTopBox !!!. Wenn Du eine DVD abspielst, wird das Bild nur nochmal bischen mehr aufgemöbelt, als in den normalen 50 Euro DVD-Playern.

  • Das ist eine ganz normale PC-SetTopBox !!!. Wenn Du eine DVD abspielst, wird das Bild nur nochmal bischen mehr aufgemöbelt, als in den normalen 50 Euro DVD-Playern.

    Ich behaupte mal ganz frech, dass nen schneller (> 3GHz) PC mit ffdshow, blinddehalo und limitedsharpen das upscaling von SDTV auf HDTV besser und flexibler beherrscht, als der ALLCANVIEW.

  • {OT: So wie mittlerweile die üblichen PCs längst leistungsfähiger sind als jede aktuelle Spiele-Konsole, und die Spieler sich deshalb aufregen, dass sie bei vielen aktuellen Spielen mit weichen Texturen von Konsolen-Umsetzungen auf PCs leben müssen, statt mit PC-optimierten Varianten... }

  • Zitat von Videovektor

    Ich wollte nur mal darauf hinweisen, dass der Vidoe-Codec NICHT auf dieser Box ist.

    Das ist eine ganz normale PC-SetTopBox !!!. Wenn Du eine DVD abspielst, wird das Bild nur nochmal bischen mehr aufgemöbelt, als in den normalen 50 Euro DVD-Playern.

    Laut 3Sat-Bericht ist doch der Codec, wenn auch nur in einer speziellen Form, auf dem allcanview drauf oder hab ich da etwas falsch verstanden?
    Wozu sonst die ganzen Vergleiche mit Flugzeug etc.?!

  • Zitat von Selur

    Haste falsch verstanden, der Player spielt nur Mpeg2 Material 'toller' ab als normale Player,...
    (siehe BlindDeHalo)

    Der Vergleich beim Flugzeug war nur ne Promoaktion für den Player.

    Cu Selur

    Zitat aus dem Bericht: ...mit weniger Bits ein besseres Bild?! Genial, wenns funktionert! Ein Teil dieses neuen Bildbearbeitungssystems ist in einer MultiMediaBox enthalten, die die Atvisican entwickelt hat.

    Also weiss nicht, aber für mich hört sich das eindeutig an oder nich selur?

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!