Die Lerndaten für mein Master-Arbeit wurden mit Hilfe des 3DMM von Paysan et al. erstellt. Im Rahmen meines Hauptprojektes habe ich mir das Modell genauer angeschaut und möchte meine Erkenntnisse nun hier teilen. Bei Interesse an meiner Master-Arbeit aboniert gerne meine Blog oder besucht mich unter https://jan-scholz.de für weitere Updates.
Principal Component Analysis und Trennung in Farbe und Form
Das genutzt 3DMM hat 398 Parameter, wovon jeweils die Hälfte für die Form und die Textur genutzt werden. Diese Parameter wurden mittels Principal Component Analysis extrahiert. Die PCA ermöglicht die Darstellung eines multidimensionalen Sachverhaltes reduziert auf eine beliebige Anzahl von Dimensionen, wobei der Informationsgehalt trotz der Reduzierung der Dimensionalität möglichst hoch gehalten wird. Die 199 Parameter für die Form zeigen quasi Prototypen von Gesichtern die sich in den gescannten Modellen wiederfinden konnten. Hierbei sind die Parameter hierarchisch nach Intensität der Ausprägung sortiert, das bedeutet, dass der erste Parameter eine stärkere Ausprägung hat als alle folgenden Parameter. Ausprägung bedeutet in diesem Kontext eine Veränderung des generischen Modells mit allen Werten auf 0, im Hinblick auf die räumliche Verschiebung von Polygonen für die Form und farblicher Unterschied zum generischen Modell für die Textur. Der letzte Parameter hat im Vergleich zum ersten kaum noch Auswirkung auf das 3D-Modell. Zur Veranschaulichung dieses Sachverhaltes ist in der Abbildung 1 für Form (α) und Textur (β) jeweils der erste Werte von -5 bis +5 aufgetragen. Hier lässt sich erkennen, dass der erste Parameter für die Form im negativen Bereich sehr weiblich aussieht und im positiven Bereich sehr männlich. Für die Textur ist der erste Parameter im negativen Bereich sehr hell und für den positiven Bereich dunkel. Diese Beobachtung ist intuitiv nachvollziehbar, da Menschen sich einerseits gut anhand von Geschlechtsmerkmalen und andererseits anhand heller oder dunkler Hautfarbe unterscheiden lassen.
Abbildung 1: Permutationen der beiden ersten Parameter von Alpha und Beta von -5 std bis +5std
Eindeutigkeit
Die folgenden Parameter für die Form sind nicht alle wie der erste weiblich oder männlich sondern können auch für positive und negative Werte nur männlich oder nur weiblich aussehen. Häufig sind einzelne Ausprägungen wie fliehendes Kinn ⇒ großes Kinn oder dünn ⇒ dick zu erkennen. Wobei diese Eigenschaften nie in Reinform auftreten sondern immer mit anderen Merkmalen vermischt sind. Parameter können sich in Bezug auf ein Merkmal gegenseitig beeinflussen, was bedeutet, dass die Eindeutigkeit von 3D-Modell und Parametervektors nur in eine Richtung gewährleistet ist. Es existiert keine Umkehrfunktion um einen Parametervektor für ein gegebenes 3D-Modell zu ermitteln.
Eine Variation von Parametern, die sich weit unten in der Hierarchie befinden, hat zudem kaum Auswirkung auf das Aussehen des Modells jedoch auf einen gemessenen Fehler, wenn er als Basis die Distanz zwischen Label und Ausgabewerten berechnet. Dieser Umstand und die Uneindeutigkeit für Bilder, bzw. 3D-Modelle und Parametervektoren, erhöht die Schranke des minimal erreichbaren Fehlers beim Lernen. Mit einem höheren finalen Fehler muss es nicht zwangsweise so sein, dass das Modell schlechte Inferenzen zieht. Jedoch sollte dieser Sachverhalt in der Fehlerfunktion berücksichtigt werden.
Einschränkungen
Das 3DMM hat eine Reihe von Einschränkungen, es können zwar unerschöpflich viele Gesichter dargestellt werden, aber es können definitiv nicht alle Gesichter dargestellt werden. Alle Gesichter haben keine Features wie z.B. Brillen, Bärte, Schmuck oder Haare. Die 200 aufgenommenen Individuen spiegeln keine repräsentative Menge der Weltbevölkerung dar. Die Personen waren wahrscheinlich hauptsächlich Studenten der Universität Basel und repräsentieren also lediglich eine Gruppe von Personen die an dieser Hochschule verkehren. Die meisten Personen sind Mitte 20 und haben Normalgewicht, zudem kann angenommen werden, dass die meisten wahrscheinlich europäischer Herkunft sind. Somit sind wahrscheinlich nicht alle Ethnien und sehr junge und alte Personen ebenfalls nicht enthalten. Diese Beschränkung wird zur Folge haben, dass Inferenzen nicht notwendigerweise für alle Personengruppen passen, soweit sie nicht in der Menge dieser 200 Teilnehmer enthalten sind.
Distribution der Teilnehmer nach Alter und Gewicht von Paysan et al.
Fazit
Das 3DMM ist in der Lage eine unglaubliche Bandbreite von Gesichtern zu generieren. Diese Gesichter sehen sehr realistisch aus und sind für die Anfordernugen, die meine Master-Arbeit mit sich bringt, gut geeignet. Vor kurzem wurde eine Version des 3DMM von der Universität Basel veröffentlicht zu einem späteren Zeitpunkt werde ich mir auch diese Modell genauer ansehen und überprüfen ob ein wechsel auf das neue Modell für mich in Frage kommt.
Congratulations @teslaspoiled! You received a personal award!
Click here to view your Board
Congratulations @teslaspoiled! You received a personal award!
You can view your badges on your Steem Board and compare to others on the Steem Ranking
Vote for @Steemitboard as a witness to get one more award and increased upvotes!