DVB Subtitles aus TS-Videoaufnahmen mit ffmpeg extrahieren?

  • Also remux nach mkv, danach in Subtitle Edit OCR mit Tesseract 4.0 german und alles wurde quasi perfekt erkannt.

    Wobei mit der TS war das Ergebnis das gleiche. Wobei nicht ganz. Die Zeiten haben minimale Unterschiede.


    TS

    00:00:47,901 --> 00:00:50,516

    Also manchmal

    bist du richtig komisch.


    MKV

    00:00:47,900 --> 00:00:50,540

    Also manchmal

    bist du richtig komisch.


    DeafYakuza VLC zeigt die subs bei mir auch nicht an, weder in TS noch MKV und ich bekomme auch die selbe Fehlermeldung im VLC nach dem muxxen.

  • Habe ich mich auch schon gefragt, aber bisher in keinen tool was dazu gefunden.

    In Subtitle Edit kann man "use color (spliting of line my occur)" oben rechts anklicken im OCR Fenster. Zwar wird die Farbe dann gespeichert, allerdings ist die Erkennung sehr komisch. Oft ist der Text abgeschnitten.

  • Ich habe jetzt mal diesen CCExtractor ausprobiert und das Teil gefällt mir ja sehr gut, da es auch die Farbinformation mitspeichert und generell besser für TS optimiert ist.

    Wenn es, wie du sagst, trotzdem Zeilen mal schluckt (was aber nicht an hell/dunkel Sendungen liegen sollte), dann würde ich die Datei einmal zur Sicherheit durch ffmpeg jagen und parallel zb. auch mit Subtitle Edit die subs extrahieren.

    Am Ende kann man ja beide vergleichen und schauen wo ggf. etwas abweicht bzw Zeilen fehlen.

  • Darf ich fragen, wieso muss man in TS umwandeln, wenn man Original schon hat? Mir geht's nur darum die farbige Untertitel von der Videodatei TS rauszunehmen und in den MKV muxen.

    Ich wusste nicht, dass das Abspielprogramm "PotPlayer" gibt und wie ich ihn sehr schätze, finde ich deutlich viel besser als VLC und MPC-HC.


    Habe mit 3 verschiedene Software in Sachen Untertitel beschäftigt:


    - ProjectX

    - TS-Doctor (getestet mit v1.2)

    - CCExtractor


    ProjectX macht das wirklich sehr gut und finde den am besten, wenn man farbige Untertitel (SAA) von der TS-Videodatei extrahieren will und alle Untertitel sind komplett enthalten, auch doppelte oder mehrgleiche Untertitel mit unterschiedlichen Timecodes werden mit hineingezogen. Was ich mit damit meinte, siehe hier: https://cypheros.de/forum_ger2/index.php?topic=4603.0

    Man muss nach dem Extrahieren mit Subtitle Edit oder andere Wunschsoftware die Times synchronisieren, damit sie zu den Dialogen angepasst werden muss, sonst stimmt es nicht, da die UT-Timings ein wenig verschoben wurde, aber das ist ja nicht so schlimm.

    Der kann sogar von der dunklen/schwarzen Sendungen, sowie Freezes oder beschädigte TS-Videodatei Untertitel komplett extrahieren.

    Ein kleiner Negativpunkt hat er auch, aber man kann zum Bsp. mit Subtitle Edit nacharbeiten, um unnötige Zeichen "{\q2\a2}" und "<font color="#ffffff"></font>" auf einmal zu entfernen, damit die Untertitel im Film sauber rüberkommen.


    Zuerst "{\q2\a2}" löschen, dann...



    ...diese "<font color="#ffffff"></font>"



    TS-Doctor macht ganz gut, nur 1 Negativpunkt ist, dass doppelte oder mehrgleiche Untertitel in eine Zeile zusammengefügt werden, was ich nicht gut finde, weil... (siehe Links oben)


    CCExtractor würde ich nicht empfehlen, weil zu viele Untertitel Zeilen werden nach Extrahieren vermisst, falsche Zeitlänge festgelegt und ebenso doppelte oder mehrgleiche Untertitel wurden zusammengefügt.


    Extrahiert mit CCExtractor:



    Extrahiert mit ProjectX:


  • Darf ich fragen, wieso muss man in TS umwandeln, wenn man Original schon hat? Mir geht's nur darum die farbige Untertitel von der Videodatei TS rauszunehmen und in den MKV muxen.

    Ich wusste nicht, dass das Abspielprogramm "PotPlayer" gibt und wie ich ihn sehr schätze, finde ich deutlich viel besser als VLC und MPC-HC.

    Um die Datei zu "reparieren" falls diese nicht sauber aufgenommen wurde oder sonstige Fehler hat. Braucht man nur zu machen wenn es Probleme mit der Datei gibt.

    Kannst ja mal vergleich mal ob die Untertitelextraktion sich "verbessert", wenn man diese vorher durch ffmpeg remuxxed.

  • Axo... Das ist wie bei TS-Doctor, der das auch sowas macht, ja?



    In Subtitle Edit kann ich "use color (spliting of line my occur)" oben rechts im OCR Fenster nicht finden, um die Farben zu speichern.


  • Du hast recht, dass die Erkennung sehr komisch ist und oft sind die Texte abgeschnitten.

    ffmpeg kann die farbige Subs nicht extrahieren und ins ssa/ass-Format, oder auch in srt-Format abspeichern, ja? Die Codierungen der farbige Untertitel können auch im srt-Format enthalten werden und das kann TS-Doctor machen.