HD DVB Untertitel zu SRT (und andere Probleme)

  • Ich hatte vor kurzem schonmal einen Thread eröffnet, dann aber spontan aufgegeben und dann vergessen. Gestern habe ich nun doch nochmal ne ganze Ecke probiert und habe leichte Fortschritte gemacht, aber so allerhand Probleme gibt es immer noch.

    Ausgangssituation: DVB-S2 Aufnahme mit DVB-Untertitel (kein Teletextuntertitel). In meinen "Beispiel" ist der Sender ZDF-HD.
    Mein Ziel ist es den Untertitel einer Sendung behalten zu können, egal was ich mit der Sendung mache. Bisher klappt das nur, wenn ich sie "nur" schneide und als TS behalte. Konvertieren oder ein MKV-Remux "vernichtet" den Untertitel.
    Ein weiteres Ziel wäre eine OCR erkennung für SRT. Denn irgendwie finde ich die nämlich recht hässlich. ;)

    Zum "extrahieren" habe ich zwei Möglichkeiten gefunden, wobei nur eine mich einen Schritt weiter brachte.

    Nicht wirklich was gebracht haben:
    DVR Studio HD2 was mit eine Film.dvbsup erstellt hat.

    Am weitesten kam ich (was auch zu anderen Threads passt) mit ProjectX und aktivierten HD subtitel. Die daraus resultierende idx/sub Dateien ließen sich immerhin in gängigen Programmen öffnen. (BDsup2sub und Subtitle Editor). Auch würde sich diese idx/sub auch in eine mkv muxen lassen. Klingt ja fast schon zu toll ;)

    Und ja, leider haut dies noch nicht ganz hin. Nutze ich die idx/sub direkt, sehen die wesentlich hässlicher aus und sind auch alle an der falschen Position (rechts unten in der Ecke, zum großteil außerhalb des Bildes). Daher probierte ich auch mal mittels BDSup2sub die Position zu zentrieren und dann zu mkv zu muxen. Damit waren die Untertitel zwar wieder im Bild, jedoch (immernoch) deutlich "größer" als die originalen und teilweise auch farblich anders, so dass man manchmal schwarze Schrift auf schwarzen Hintergrund hatte...also auch nicht das wahre. (asynchron wars auch noch, aber dies ließe sich ja vergleichsweise einfach korrigieren)

    Nun gut, könnte mir alles egal sein, wenn ich daraus einen SRT bekomme. Also idx in meinen aktuellen liebling Subtitle-Editor geladen. Aber auch hier leider kein nennenswerten Erfolg. In viele Zeilen wird rein garnicht erkannt, in manchen wurde die komplette Zeile als ein "Zeichen" erkannt und manche Zeilen wurden zwar "korrekt" erkannt, aber ohne Leerzeichen zwischen den Wörtern.
    Ich denke hier kann man aber noch am ehesten ansetzen in dem man mit BDSup2Sub die "Palette" ändert und das ganze auf besser geeignete Subtitle-Editor Werte bringt. Aber da habe ich nun überhaupt keine Ahnung von.

    Woanders gelesen habe ich auch folgende Idee. Mit BDSup2Sub als xml/png speichern und dann mit "klassischer" OCR Software erkennen lassen. Aber auch hier fehlt mir das Know-How, vor allem um dann eventuell korrekt erkannte "Schrift" wieder mit den Timecodes zusammen zu führen.

    Lange rede kurzer sinn: Mag mir jemand Helfen und einen möglichen "Workflow" mitteilen^^
    Hier mal ein einen Schnipsel, falls jemand mit Ahnung gerade keine Aufnahme mit HD DVB-Untertitel zu Verfügung haben sollte :D

    Einmal editiert, zuletzt von qupfer (20. Juli 2012 um 12:07)

  • Mal versucht die Untertitel aus einem nicht-beschnittenen File zu extrahieren und dann mit SubtitleCreator nach idx/sub zu konvertieren? (nicht-beschnitten um sicher zu sein, dass da nicht beim Schneiden was kaputt gemacht wurde,..) vielleicht reicht es auch schon im idx file die Farbpalette zu ändern damit normale OCR Tools damit klar kommen,... da diese i.d.R. wohl mit sich ändernden Schriftfarben Probleme haben,.

  • mit der Farbpalette habe ich auch schon dran gedacht, aber leider keine Ahnung was man da wie einstellen könnte. Gibt es da irgendwo einen Empfehlenserten "Crashkurs"?

    Mit den ungeschnittenen werde ich auch mal ausprobieren....aber da das geschnittene File als TS im VLC/MPC mit DVB-Sub) problemlos geht glaube ich nicht so recht, dass das wirklich was bringt. Aber testen werde ich es

    Edit: die Daten von dvb.matt werde ich mir auch mal anschauen. Danke dafür

    Edit 2: so angeschaut....also auf jedenfall besser als was ich mir da zusammen geschustert habe. Auch wenn mein bisher genutztes "Image compare" nicht zu gebrauchen ist. Da wird z.B. der Zeilenwechsel nicht erkannt und W und A (untereinander stehend) als ein Zeichen erkannt. Teseract klappt aber wohl jetzt wirklich zufriedenstellend. (für den sub)

    Der SUP ist nicht verwertbar *g. Die Bildvorschau sieht auch gut aus, aber weder Image Compare doch teseract erkennen irgendwas nützliches.

    Code
    "11" "11 <i>*</i> rr ::1_:: <i>Q:</i> W114*

    Aber ich denke mit anpassen der Farbpalette und teseract werde ich was brauchbares hinbekommen. Wenn du also noch grob erklären könntest, wie du dieses Ergebnis hinbekommen hast :D

    2 Mal editiert, zuletzt von qupfer (23. Juli 2012 um 19:56)

  • Die 2 Sachen waren eingestellt:

    ++> Untertitel: PID 0x17F3 / PesID 0xBD / SubID 0x20 :
    Multicolor ACTIVE / switches 000003E0 >>FROM GUI<<
    Multicolor: shw1Line=-1 shw1Pic=-1 noRepairs=true NoCOLCON=true SolidBgrd=true Shading=true OldClrs=true
    -> gewähltes DVB Untertitel Farbmodell: ZDFvision(mc) ; fixiert auf Seitennr.:

    Zusatz für ini-Datei vor dem nächsten Start
    Subpicture.S9Debug=3E0

    ulkig, das das .sup nicht verwertet wird, es entspricht vom Bildinhalt und Kodierung 1:1 der sup.sub

    Gruß
    dvb.matt

Jetzt mitmachen!

Sie haben noch kein Benutzerkonto auf unserer Seite? Registrieren Sie sich kostenlos und nehmen Sie an unserer Community teil!