Wenn ich mich recht erinnere, hat es etwas mit dem Unterschied zwischen Darstellungs- und Decodier-Reihenfolge zu tun, wo genau eine offene GOP beginnt.
Illustrierende Grafiken: AX-Comp / Apple
Bei einer geschlossenen GOP ist es relativ eindeutig: Aus der vorherigen GOP gibt es keine B-Frames, die Bezug auf das I-Frame der aktuell betrachteten GOP nehmen, mit dem die Decodierung dort beginnen kann; dazu wird die geschlossene GOP beispielsweise mit einem P-Frame abgeschlossen. GOP-Grenzen sind scharf definiert. Man kann den Videostream an GOP-Grenzen ohne Sorgen schneiden, sowohl Anfang als auch Ende sind sicher.
Eine offene GOP aber hat am Ende B-Frames, die zukünftigen Bezug auf das nächste I-Frame nehmen. Dazu muss also das I-Frame der nächsten GOP bereits decodiert worden sein, bevor noch die B-Frames der eigentlich letzten GOP dargestellt werden können. Die GOP-Grenzen werden hierbei also logisch etwas aufgeweicht. Zählen nun die B-Frames, die sich vorwärts auf das I-Frame beziehen, logisch zur aktuellen GOP, dann muss der Decoder hier schon um diese Anzahl B-Frames in den Strom hinein decodieren, wenn er "den Anfang dieser GOP" statt "das I-Frame" als Sprungziel ansieht.