Ich hatte vor kurzem schonmal einen Thread eröffnet, dann aber spontan aufgegeben und dann vergessen. Gestern habe ich nun doch nochmal ne ganze Ecke probiert und habe leichte Fortschritte gemacht, aber so allerhand Probleme gibt es immer noch.
Ausgangssituation: DVB-S2 Aufnahme mit DVB-Untertitel (kein Teletextuntertitel). In meinen "Beispiel" ist der Sender ZDF-HD.
Mein Ziel ist es den Untertitel einer Sendung behalten zu können, egal was ich mit der Sendung mache. Bisher klappt das nur, wenn ich sie "nur" schneide und als TS behalte. Konvertieren oder ein MKV-Remux "vernichtet" den Untertitel.
Ein weiteres Ziel wäre eine OCR erkennung für SRT. Denn irgendwie finde ich die nämlich recht hässlich.
Zum "extrahieren" habe ich zwei Möglichkeiten gefunden, wobei nur eine mich einen Schritt weiter brachte.
Nicht wirklich was gebracht haben:
DVR Studio HD2 was mit eine Film.dvbsup erstellt hat.
Am weitesten kam ich (was auch zu anderen Threads passt) mit ProjectX und aktivierten HD subtitel. Die daraus resultierende idx/sub Dateien ließen sich immerhin in gängigen Programmen öffnen. (BDsup2sub und Subtitle Editor). Auch würde sich diese idx/sub auch in eine mkv muxen lassen. Klingt ja fast schon zu toll
Und ja, leider haut dies noch nicht ganz hin. Nutze ich die idx/sub direkt, sehen die wesentlich hässlicher aus und sind auch alle an der falschen Position (rechts unten in der Ecke, zum großteil außerhalb des Bildes). Daher probierte ich auch mal mittels BDSup2sub die Position zu zentrieren und dann zu mkv zu muxen. Damit waren die Untertitel zwar wieder im Bild, jedoch (immernoch) deutlich "größer" als die originalen und teilweise auch farblich anders, so dass man manchmal schwarze Schrift auf schwarzen Hintergrund hatte...also auch nicht das wahre. (asynchron wars auch noch, aber dies ließe sich ja vergleichsweise einfach korrigieren)
Nun gut, könnte mir alles egal sein, wenn ich daraus einen SRT bekomme. Also idx in meinen aktuellen liebling Subtitle-Editor geladen. Aber auch hier leider kein nennenswerten Erfolg. In viele Zeilen wird rein garnicht erkannt, in manchen wurde die komplette Zeile als ein "Zeichen" erkannt und manche Zeilen wurden zwar "korrekt" erkannt, aber ohne Leerzeichen zwischen den Wörtern.
Ich denke hier kann man aber noch am ehesten ansetzen in dem man mit BDSup2Sub die "Palette" ändert und das ganze auf besser geeignete Subtitle-Editor Werte bringt. Aber da habe ich nun überhaupt keine Ahnung von.
Woanders gelesen habe ich auch folgende Idee. Mit BDSup2Sub als xml/png speichern und dann mit "klassischer" OCR Software erkennen lassen. Aber auch hier fehlt mir das Know-How, vor allem um dann eventuell korrekt erkannte "Schrift" wieder mit den Timecodes zusammen zu führen.
Lange rede kurzer sinn: Mag mir jemand Helfen und einen möglichen "Workflow" mitteilen^^
Hier mal ein einen Schnipsel, falls jemand mit Ahnung gerade keine Aufnahme mit HD DVB-Untertitel zu Verfügung haben sollte