Soweit ich das verstehe, bildest du die Summe der (Ähnlichkeits-Werte multipliziert mit ihrer Wichtung), und die Summe der (Wichtungen); deren Quotient ergibt dann den luminanzmaskierten SSIM-Wert des ganzen Clips.
Ohne Luminanzmaskierung wären die Wichtungen immer 1, also würdest du rein die Anzahl der Messwerte zählen; Summe der Werte geteilt durch Anzahl ergibt Durchschnittswert. So weit trivial.
Mit Luminanzmaskierung ist die Wichtung kleiner 1, die Ähnlichkeitswerte gehen also unterschiedlich stark in die Summe ein. Durch Aufsummierung der Wichtungen ermittelst du eine Art "durchschnittliche Wichtung"; dadurch geteilt, hebt sich deren Verringerung der Ähnlichkeitswerte durch die Multiplikation gerade auf.
Dennoch ist SSIM noch längst kein "objektives Qualitätsmaß". Nur eine deutlich bessere Annäherung an die menschliche Wahrnehmung als PSNR.