Gaussian Splatting - Vörös Fanni blogja

Jó-jó, hogy Gaussian Splatting, de mi is az, és miért jó?

Ha 3D adatfeldolgozásról és megjelenítésről van szó, szinte azonnal előkerül két kulcsfogalom: a pontfelhő és a mesh. A pontfelhő (point cloud) egy strukturálatlan adathalmaz, amely önálló pontok millióiból áll. Minden egyes ponthoz saját X, Y és Z koordináta tartozik – a felvételezési módszertől függően pedig akár RGB színérték is –, vagyis ezek a pontok valós földrajzi pozíciót hordoznak. Egy LiDAR-felmérés esetében ez a pontfelhő a legfőbb „nyersanyag”. Mivel közvetlen, valós méréseket tartalmaz, ideális alapja az elemzéseknek, precíz méréseknek, és a valóság digitális ikerpárjaként való archiválásnak. Fontos megjegyezni, hogy fotogrammetriai úton is generálható pontfelhő, ám ott a végtermék sokszor közvetlenül a mesh (háromszögháló), így a pontfelhővel mint köztes állománnyal ritkábban dolgozunk közvetlenül.

A mesh ezzel szemben egy struktúrált adathalmaz, ami a pontfelhőből származik. Ebből is látszik, hogy ez egy származtatott adat, tehát számolt (nem valós) érték. A feldolgozó szoftver (jelen esetben a Terra) speciális algoritmusokkal összeköti a pontfelhő szomszédos pontjait, és síkokat (faces) alkot, amelyek éleken (edges) keresztül kapcsolódnak. Ez általában háromszögekből áll (háromszög hálózat, triangulated mesh), így mesterségesen létrejön egy zárt felület. Nincsenek a megjelenítésben (látványban) hézagok, a hétköznapi felhasználó számára sokkal könnyebben értelmezhető az eredmény. Fontos viszont tudni, hogy a (pontfelhő) pontok közötti értékek nem a valóságot tükrözik, hanem matematikai számításokkal próbálják ezek a szoftverek „kitalálni” a köztes értékeket. Minél összetettebb egy objektum, annál nagyobb valószínűséggel hibás ez a számítás. Fotogrammetriánál a mesh közvetlenül előállítható, ám a megfelelő eredményhez sok felvétel szükséges (legjobb a tervezett repülés). A fenti képen kézi repüléssel történt a felvételezés, így erősen hibával terhelt – ám ezeket a hibákat, amik a nyersnek mondható pontfelhőn előjönnek, a mesh esetében a szoftver eltüntette. A lenti képen más szögből nézve előtűnnek a hiányok.

Ennek a megjelenítési módnak a továbbfejlesztéséből állt elő a 3D Gaussian Splatting módszer. Célja a fotorealisztikus jelenetek rekonstrukciója és a valós idejű, új nézőpontból történő szintetizálás (novel-view synthesis) elérése. Ezt egy nagy számú, differenciálható 3D Gauss-függvény (vagy „splat”) gyűjteményeként írja le, ez az explicit reprezentáció teszi lehetővé a gyors optimalizációt és renderelést. Hogy kell ezeket a függvényeket térben elképzelni? A (nyers) pontfelhő alapból indulunk ki megint, de most nem összekötjük őket, hanem minden egyes pontra egy forgási ellipszoidot helyezünk. A módszer azt feltételezi, hogy minél közelebb vagyunk a konkrét (felmért) ponthoz, annál biztosabb az (pl. szín és átlátszósági) információ. Tehát nem határozott élekkel különíti el a két pont közti teret, hanem finom átmenettel. Láthatjuk, hogy ugyanabból az adathalmazból 3DGS-el mennyivel szebb, realisztikusabb képet kaptunk.

Általánosságban, ez a módszer jobban használható vékony objektumok, illetve fényvisszaverő felületek megjelenítésénél.

Összességében – megjelenítés szempontjából egyértelműen jobb ez a fajta megjelenítés. Azonban ne felejtsük el, a „valós” adat, ha mérni vagy számolni kell vele, az nem változik, nem lesz jobb, ezzel csak egy másféle megjelenítést érhetünk el.