Nebenbei: Mal drüber nach gedacht KNLMeansCL anstatt FFT3D... zu nutzen
Hab ich schon das ein oder andere Mal ausprobiert. Kommt aber für mich bzw. den Verwendungszweck den ich hauptsächlich mit Rauschfiltern verfolge nicht an FFT3DGPU ran.
Ich versuche in erster Linie mit möglichst viel Leistung/Watt zu encoden und dabei 10-35% Bitrate einzusparen ohne dabei das Bildmaterial signifikant zu verhunzen / weichzuzeichnen.
Das gelingt imho mit temporal Denoising ziemlich gut, besonders wenn man es z.B. mit X264 10bit kombiniert, da dadurch das Risiko von Banding, welches dabei entstehen könnte, massiv sinkt.
3-4 Frames einzubeziehen bringt (jedenfalls bei fft3dgpu) einen guten Vorteil bei der Komprimierbarkeit, ohne bei Sigma-Werten so zwischen 1.2 und 1.8 je das Material signifikant entstellt zu haben.
Wenn man mehr Wert auf "Original Look" legt, sind 4 Frames imho empfehlenswerter, ich nehme meistens 3 frames wegen der besseren Komprimierbarkeit + Performance und senke Sigma, je nach Material, wie oben erwähnt meist etwas unter 2.0 ab.
Um (zumindest beim allermeisten Bildmaterial) ähnliche Bitrateneinsparungen bei vergleichbarer Qualität mit x264 veryslow o.ä. zu erreichen muss ich ein vielfaches an Rechenzeit inverstieren, mit x265 bestenfalls die 1,5fache Zeit.
-> Das ist alles nicht gerade effizient und passt irgendwie nicht mehr in die Zeit.
FFT3DGPU kostet mich in den meisten Szenarien 1-5% Rechenzeit und erhöht den Gesamtverbrauch meines Systems um maximal 10% bzw. etwa 30W.
Old but gold, man merkt halt, dass es mal für deutlich lahmere Karten entwickelt wurde, als heute üblich sind 
KNLMeansCL bringt meine 75W Grafikkarte (irgendwann war die auch mal die damals modernste GPU Generation, aber davon halt eine der low power/ low budget Karten
) schon bei FHD/1080p ans Limit und bremst, wenn ich da distance von 0 auf 1 erhöhe und damit mehr als 1 Frame (genauer 3 frames), also temporal filtere.
Um damit Einsparungen in der Größenordung von 25-30% zu erreichen musste ich die strength auf etwa das vierfache des defaults von 1,2 erhöhen und dann sah das Material an detailreichen Stellen stellenweise schon gut gesmoothed um nicht zu sagen vermatscht aus (Haare usw.)
Kannst ja mal fft3dgpu Sigma 2.0 mit 3 frames mit KNLMeansCL 4.8 mit 3 frames vergleichen.
Da gefällt mir das Ergebnis von fft3dgpu besser.
Für Einsparungen bis 10% ohne großartige Qualitätseinbußen scheint mir auch FluxSmooth eine guter und flotter temporal denoiser zu sein. Bremst auch nur so um die 5%, und das ganz ohne GPU Einsatz.
Sorry, ist was länger geworden, da lag mir wohl was auf der Seele 