Visuelles Erkennen und Bildschaffen

HOW A BRAIN RECOGNICES; REPRESENTATES AND PICTURES VISUAL IMPRESSIONS

Ein Modell der Objekterkennung, sein Bezug zum Bildschaffen und sein Wert für eine allgemeine Theorie des Erkenntnisgewinns
 
 

MMag. Manfred Gotthalmseder*
 

 Feedback bitte an:  m.gotthalmseder@eduhi.at

Inhaltsverzeichnis: Beginn*Mitte*
Zurück mit Hilfe der Browser Navigationstasten!
 

Die hier dargelegte Arbeit entspricht meiner Diplomarbeit mit dem Titel "Visuelles Erkennen und Bildschaffen". In Zitaten kann daher auf diese Arbeit verwiesen werden. Das Diplom wurde im Juni 1998 an der Grund- und Integrativwissenschaftlichen Fakultät der Hauptuniversität Wien abgelegt.  In dieser Arbeit geht es darum ein fertig entwickeltes, leistungsfähiges visuelles System zu beschreiben. Eine andere, neuere Arbeit widmet sich der Frage, wie sich ein Gehirn durch Lernprozesse so zu verschalten mag.

Diese Internetversion meiner Diplomarbeit besteht aus mehreren Teilen, die über Verknüpfungen aus dem anschließenden Inhaltsverzeichnis aufgerufen werden können. (Alle Dateien müssen in einem Ordner mit dem Titel "Erkennen und Bildschaffen html" gespeichert sein, sonst funktionieren die Verknüpfungen nicht.)
Eigentlich ist die vorliegende Arbeit ungeeignet für das Medium "Internet". Es handelt sich um ein durchgängiges, vielfach neuartiges Modell visuellen Erkennens mitsamt der weiteren Verarbeitung und sollte in jener Reihenfolge gelesen werden, in der es geschrieben wurde. Ohne die vorderen Teile ist Späteres eventuell unverständlich, oder verliert an Bedeutung. Dies war nicht zu verhindern, denn komplexe Themen setzen Vorwissen voraus, und könnten andernfalls nur sehr oberflächlich behandelt werden.
 
 

Einleitung

Eine Einleitung dient dazu, die Aufgabenstellung bzw. die Zielsetzung einer Arbeit näher zu definieren. Insbesondere für die vorliegende Arbeit scheinen solch einleitende Worte notwendig, denn ihre Zielsetzung unterscheidet sich vielfach von den Aufgaben jener Wissenschaften, aus denen sich die Arbeit nährt. Wie schon dem Titel zu entnehmen ist, geht es um visuelle Leistungen unseres Gehirns wie Objekterkennung und um die Reproduktion des Erkannten in Form von Bildern. Es handelt sich also um eine erkenntnistheoretische Arbeit. Man könnte sie so gesehen der Philosophie zuordnen. Die zugrundeliegende Literatur stammt aber großteils aus anderen Fachgebieten wie Biologie, Psychologie und Kunsttheorie sowie Neuropsychologie, Neurophysiologie, Informatik und schwer zuordenbaren kognitionswissenschaftlichen Fachbereichen.

Jedes Fachgebiet schränkt seine Zielsetzungen ein. So entspringen die Neurowissenschaften der Medizin und dienen der materiellen, empirischen Erforschung des Gehirns. Ein Neurowissenschafter fragt nicht danach, wie Objekterkennung geleistet werden kann, sondern ihn interessiert konkret, wie das Gehirn diese Aufgabe meistert. Da das Gehirn schwer zu erforschen ist, sind bisher nur Teilleistungen der Objekterkennung neurowissenschaftlich erschlossen, wobei über deren Zusammenspiel oft wenig bekannt ist.

Ein Informatiker aus dem Fachbereich Automation steht demgegenüber sehr wohl vor der Frage, wie Objekterkennung möglich ist. Allerdings interessieren ihn vor allem jene Modelle, die er mit den derzeit zur Verfügung stehenden technischen Mitteln umsetzen kann. Diese Einschränkung führt dazu, daß auch er nur Teilbereiche zu behandeln vermag.
Die vorliegende Arbeit unterliegt keiner derartigen Einschränkung. Das vorgestellte Modell dient der Beantwortung der Frage, wie Objekterkennung möglich ist. Dafür wird ein klares schematisches Modell gefordert. Neuromedizinische Ansprüche sind hingegen nebensächlich. Deshalb werden Neuronen durch Kreise mit Verbindungslinien dargestellt. Ihr reales Aussehen würde es nur erschweren, die Funktion der dargestellten Verschaltungen zu erkennen. Im Rahmen der Fragestellung sind auch hypothetische Verschaltungen erlaubt, solange sie die erwünschte Funktion erfüllen. Dies erleichtert natürlich die Arbeit. So gesehen mag der Eindruck entstehen, daß das Modell keinen besonderen Ansprüchen genügen müsse. Allerdings ergibt sich zur Erklärung der Objekterkennung sehr wohl eine Forderung, der kaum entsprochen werden kann, nämlich jene nach Vollständigkeit. Anders als in den zugrundeliegenden Wissenschaftszweigen ist es für diese Arbeit durchaus wichtig, daß möglichst alle an der visuellen Objekterkennung beteiligten Prozesse Erwähnung finden. Ansonsten entstünde ein falsches Bild von dieser großartigen Gehirnleistung.

Nur ein möglichst vollständiges Modell des visuellen Systems kann für ein so komplexes Thema herangezogen werden, wie es die Interpretation von Kinderzeichnungen, Kunstwerken und anderen bildenen Arbeiten des Menschen ist. Die Arbeit setzt sich also durchaus ein großes Ziel. Es soll versucht werden, eine Verbindung zwischen den kognitiven Grundlagen der visuellen Wahrnehmung und deren Widerspiegelung im Bildschaffen des Menschen aufzuzeigen. Außerdem sollen diese visuellen Leistungen nicht als Sonderfall behandelt, sondern in ein umfassendes Modell des Erkenntnisgewinns eingebettet werden.

Die philosophischen Aspekte der vorliegenden Arbeit äußern sich weniger in deren Thematik, als vielmehr in deren Forschungsmethode. Ich will im folgenden zeigen, daß es nicht immer naturwissenschaftlicher Experimente bedarf, um ein Modell voranzutreiben. Vielfach darf auch ohne empirische Nachforschung am Gehirn behauptet werden, daß dort ein analoger Prozeß zu den dargestellten Mechanismen stattfinden muß. Dies ist immer dann erlaubt, wenn gezeigt werden kann, daß nur der eine beschriebene Lösungsweg möglich ist. So ist es zum Beispiel logisch unmöglich, Bewegung zu erkennen, ohne auf vorhergehende Bildinformationen zugreifen zu können. Daraus folgt, daß es im Gehirn Zwischenspeicher oder Verzögerungszellen geben muß.

Die Logik kann also helfen, zu erkennen, was real vorhanden sein kann. Diese Methode des Erkenntnisgewinns entspringt der Philosophie. Die Naturwissenschaft fragt danach, was ist; die Philosophie hingegen fragt, was sein kann und was gilt (Logik). In der Annahme, daß die Logik nur einen einzigen möglichen Weg zuläßt, den es zu finden gilt, stellt bereits Kant die Frage, wie Erkennen überhaupt möglich sei (Kant 1787, S.160). Seine Methode der Beantwortung hatte starken Einfluß auf die vorliegende Arbeit, wenn auch das Ergebnis ein grundlegend anderes ist. Kant nimmt an, daß es nur eine mögliche Antwort auf seine Frage gibt und daß mit dieser Antwort Erkennen erklärt sei. Seine Methode besteht darin, mit Hilfe der Logik die Unhaltbarkeit verschiedener Theorien nachzuweisen, bis nur mehr die eine richtige Lösung überbleibt. f1 Würde man hingegen davon ausgehen, daß es viele Lösungen für das Problem des Erkennens gibt, so bliebe nur die naturwissenschaftlich-empirische Überprüfung als Methode, um herauszufinden, wie dieses Problem in einem konkreten Fall, wie zum Beispiel im menschlichen Gehirn, gelöst wird.

Natürlich ist die Trennung von Natur- und Geisteswissenschaften im Bereich ihrer Fragestellung und Methodik nicht so exakt durchzuziehen wie eben dargelegt, aber eine gewisse Tendenz ist schon zu bemerken. Wenn ein Problem sehr detailliert betrachtet wird, wie dies in naturwissenschaftlichen Experimenten üblich ist, so wird aus der Fülle der Versuche eine Vielfalt an Differenzierungen hervorgehen. Zum Beispiel lassen sich viele verschiedene Organismen an der Qualität ihrer Erkenntnisse und der Art ihres erkennenden Systems differenzieren.

Demgegenüber läßt sich global betrachtet auch von Erkenntnis als eine Sache sprechen. Wir können den Begriff "Erkenntnis" umfassend definieren, zum Beispiel als "Qualität und Umfang der Voraussage von Welt, zu der ein System (Lebewesen) fähig ist" (eigene Definition). In diesem Fall macht Kants Fragestellung durchaus Sinn, wenngleich Kant eine solche Definition wohl kaum akzeptiert hätte. Platon, Kant und Wittgenstein haben angenommen, sprachliches, begriffsgebundenes, bewußtes Denken wäre Voraus-setzung, um Erkenntnisse machen zu können (vergl. Liessmann 1990, S. 54). Erkenntnis wird also als Teilbereich sprachlichen Denkens definiert. Demgegenüber ist für Konrad Lorenz Leben ein erkenntnisgewinnender Prozeß, und Sprache, als eine neuere Errungenschaft des Lebens, nur eine Untergruppe des gesamten Erkenntnisgewinns (Lorenz 1992, S. 228). Ich denke, meine Definition von Erkenntnis (siehe oben) stimmt eher mit der von Konrad Lorenz überein.

In der vorliegenden Arbeit wird davon ausgegangen, daß es ein einziges Prinzip gibt, das allem Erkenntnisgewinn zugrundeliegt, sowohl dem ontogenetischen wie auch dem phylogenetischen (dem Erkenntnisgewinn des Individuums und dem Erkenntnisgewinn innerhalb der Evolution, die Wesen mit immer mehr Weitblick hervorbrachte). f2 Unter dieser Voraussetzung rückt auch hier die Frage nach der Möglichkeit von Erkenntnis in den Mittelpunkt. Ihre Beantwortung ist nicht direkt durch Empirie zu erreichen, sondern verlangt eine logische Analyse empirischer Grundlagen, um die übergreifenden Prinzipien zu erkennen.
 
 

Viele gängige Theorien der Erkenntnis erweisen sich als unzureichend, sobald man den Rahmen des Sprachlichen verläßt und versucht, sie praktisch umzusetzen (Computersimulation). Zum Beispiel hört man oft, ein Objekt könne trotz der Vielfalt seiner Erscheinungsformen als ein und dasselbe erkannt werden, weil der Mensch zu abstrahieren vermag. Er zieht dabei jeder Erscheinung die unwesentlichen Faktoren ab. Logisch führt diese Theorie nicht weit, denn wie erkennt der Mensch, was unwesentlich ist bzw. wie vermag er zu abstrahieren, bevor er noch das Objekt erkannt hat? Hier zeigt sich, daß die Frage "Wie ist Objekterkennen überhaupt möglich?" auch heute noch ihre Aktualität besitzt, denn über die allgemeinen Grundlagen des Erkennens ist man sich innerhalb der Wissenschaften noch nicht einig, das zeigt sich schon an der Konstruktivismus/Empirismus-Debatte.

Natürlich hat sich in der Frage nach den Gesetzen des Erkenntnisgewinns seit der Zeit Kants viel getan hat. Wichtige Grundprinzipien sind inzwischen bekannt und empirisch belegt. Die Gesetze der klassischen und instrumentellen Konditionierung sind hier zu nennen. Auch wurde erkannt, daß dem Erkenntniserwerb das Prinzip des Regelkreises zugrundeliegt. Richtige Urteile führen zu positiven Ergebnissen, die als Verstärker wirken. Gemäß dieser Grundidee konnten kybernetische und evolutionstheoretische Ansätze eine weitere Klärung des Erkenntnisproblems erbringen. Allerdings zeigt sich beim Versuch einer Anwendung solcher Erklärungsmodelle auf eine konkrete Aufgabenstellung oft deren Grenze. So sind sie zum Beispiel ein eher untaugliches Mittel, wenn es darum geht zu erklären, wie und welche visuellen Erkenntnisse ein Säugling in seinem ersten Lebensjahr sammelt. Es ist nicht so, daß es einer solchen Fragestellung an gedanklichen Ausgangspunkten fehlt. Schließlich läßt sich abschätzen, welche Bilder auf die Netzhaut des Säuglings fallen, und auch über die weitere Reizleitung und erste Verarbeitungsschritte im Gehirn ist einiges bekannt. In Anlehnung an neurophysiologische Modelle wurden grundlegende visuelle Verarbeitungsschritte, wie zum Beispiel die Auffindung von Objektkonturen, sogar schon computersimuliert. Übergreifende Regeln des Erkenntnisgewinns lassen sich auf solche Verschaltungen aber nur begrenzt anwenden.

Das folgende, großteils hypothetische Modell soll diese Wissenslücke überbrücken. Aber erst nachdem geklärt ist, wie eine Verschaltung überhaupt aussehen kann, die Objekterkennung leistet, ist es sinnvoll zu fragen, wie sich im Gehirn eine derartige Verschaltung entwickeln kann. So ergibt sich folgende Vorgangsweise:
 
 

Aufbau der Arbeit
 

In den ersten drei Teilen der Arbeit werde ich versuchen, möglichst alle Mechanismen, welche zur visuellen Erkennung von Objekten notwendig erscheinen, in groben Zügen aufzulisten und zu beschreiben, wie ein neuronales Netzwerk sie erbringen könnte. Im vierten Teil der Arbeit wird schließlich versucht, die Entwicklungsprinzipien zu ergründen, die dafür sorgen, daß sich solche oder ähnliche Mechanismen durch visuelle Erfahrungen Netz ausbilden können. Wenn ich weiter oben von "Gesetzen des Erkenntnisgewinns" gesprochen habe, so waren die Regeln für solche Entwicklungsprozesse gemeint. Der vierte Teil soll also eine konkrete Anwendung der Gesetze des Erkenntnisgewinns auf das Problem des visuellen Erkennens bringen. Notwendigerweise werde ich in dieser Arbeit auch eine Antwort auf die Frage wagen, mit welchem Ausgangszustand ein erkenntnisgewinnendes System beginnen kann.

Die ersten und besterforschten Verarbeitungsschritte, welche die visuellen Signale durchlaufen, nachdem sie von der Netzhaut in die Großhirnrinde übertragen wurden, dienen unter anderem der Auffindung von Konturen. Aufgrund ausreichender wissenschaftlicher Literatur konnte das Thema Konturfindung besonders ausführlich beschrieben werden. Die Ergebnisse können im vierten Teil genützt werden, wenn es darum geht, die allgemeinen Gesetze des Erkenntnisgewinns zu erweitern. Wenn es derartige Gesetze von allgemeiner Gültigkeit gibt, so geht aus deren Definition hervor, daß sie an jedem beliebigen Erkenntnisthema erforscht werden können. Ein überschaubares, klar beschreibbares und eingrenzbares Teilgebiet ist natürlich auf jedem Wissensgebiet geeigneter, um allgemeinen Regeln auf die Spur zu kommen. So hat Mendel die Vererbungsgesetze an Erbsen erforscht, weil sich deren Erforschung an komplexeren Lebewesen schwieriger gestaltet hätte. Analog dazu lassen sich Erkenntnisregeln wohl besser am Thema "Konturfindung" als an höheren visuellen Erkenntnisleistungen, wie "Gesichtererkennung", erforschen. Dementsprechend lang und ausführlich ist der erste Teil der Arbeit zum Thema Konturfindung ausgefallen. Ich hoffe, er ist nicht so mühsam zu lesen, wie es Mendels genaue Aufzeichnungen zu seinen Erbsen und Bohnen sein müssen.

Im Anschluß an die Konturfindung werden im zweiten und dritten Teil viele Probleme der Objekterkennung durch eine Sonderform neuronaler Netze erklärt, die ich "Signalflußmodell" genannt habe. Die Idee, den Signalfluß als Erklärungsmodus einzuführen, entstand, als ich begriff, daß Erkenntnisgewinn viel mit räumlich-zeitlichen Korrelationen zu tun hat. Da Fließbewegungen von Signalen eine räumliche und zeitliche Komponente besitzen (Strecke pro Zeit), können sie genützt werden, um die räumliche Bildinformation zeitlich zu codieren. Das wird an jenem Punkt wichtig, wo die Bildinformation ihre flächige Form verliert, die sie auf der Sehrinde noch hat. Der Signaltransport ist im Gehirn, im Vergleich zu einem Computer, sehr langsam. Es ist naheliegend, daß das Gehirn Signalflußzeiten sinnvoll nützt.

Jeweils anschließend an die Modelldarstellungen wird gezeigt, wie sich die Wesenszüge eines solchen erkennenden Systems auch im Bildschaffen des Menschen zeigen. Indirekt dienen die beschriebenen Beobachtungen dazu, das Modell zu stützen. Umgekehrt liefert das Modell aber auch eine Grundlage für eine fundiertere Interpretation des bildenden Schaffens. Die Einblicke in die zeichnerischen Leistungen des Menschen sind in Form von Exkursen den jeweiligen Buchteilen angefügt, in denen die betreffenden Teilleistungen erklärt werden. Die Exkurse sind im Gegensatz zu den Modellen mit römischen Ziffern numeriert. Von allgemeinem Interesse dürfte vor allem das Modell ästhetischen Empfindens im letzen Exkurs sein.

Der heutige Stand der Wissenschaft erlaubt es vielfach nicht, das Gehirn darauf zu überprüfen, ob dort Mechanismen, wie sie im weiteren Verlauf beschrieben werden, existieren. Ich will im folgenden einige Gründe anführen, die zu dem Entschluß geführt haben, die Beschreibung in Form neuronaler Mechanismen auch in Themenbereichen beizubehalten, die der Neurophysiologie noch nicht zugänglich sind:

  1. Verschaltungen brauchen nicht interpretiert zu werden wie sprachliche Aussagen. Man versteht sie, oder eben nicht. Die "mathematische" Exaktheit dieser "Sprache" läßt kein Mogeln zu. Es wird sofort augenfällig, wenn ein Teilproblem ungelöst geblieben ist. Es läßt sich klar sagen, inwieweit das dargestellte Modell Objekterkennung leistet. Sprache läßt es demgegenüber zu, Probleme zu vertuschen oder dem Leser zu suggerieren, die Lösung sei bereits erbracht worden. So wird heute noch darüber gestritten, ob Kant das Problem der Möglichkeit von Erkenntnis gelöst hat oder nicht. Kants Ziel war es, der Philosophie ein Fundament zu schaffen, um sie zu einer exakten Wissenschaft zu machen, wie es die Physik damals schon war. Heute haben wir, zumindest in Hinblick auf das Problem der Erkenntnis, eine neue Chance, dieses Ziel zu erreichen, und zwar durch die exakte Sprache der neuronalen Netze.
  2. Irgendwie liegt ein besonderer Reiz darin, wie diese exakte Sprache in den Exkursen zum ersten, zweiten und vierten Teil auf die Vieldeutigkeit bildnerischer Mitteilungen prallt. Ein durchgängiges Modell des Erkennens ermöglicht eine neue Art der Kunstbetrachtung, die frei von subjektiven Geschmacksurteilen ist.
  3. Das Sprechen läßt es nicht zu, mehr als einen Ablauf zugleich zu verfolgen. Ein grafisch dargestelltes Netzwerk hingegen ermöglicht es, ein Gesamtgeschehen aus vielen Wechselwirkungen gleichzeitig zu überblicken. Es ist daher viel geeigneter, um das Thema "visuelle Objekterkennung" zu behandeln. Eine rein sprachliche Behandlung hingegen würde diesem Thema schon deshalb nicht gerecht, weil es sich hier um Gehirnleistungen handelt, die noch vor aller bewußten sprachlichen Erfassung eines Objektes ablaufen und somit nicht sprachlich sind.
  4. Ein Zellnetz ist nichts anderes als eine Zerlegung einer Gesamtaufgabe in Einzelleistungen, die eben durch Zellen erbracht werden können. Dies ist für die meisten Menschen leicht nachzuvollziehen, weil Arbeitseinteilung etwas ist, das auch im Alltag vorkommt. Die einzelnen Wissenschaften, welche heute an der Erforschung von Denken und Kognition beteiligt sind, haben in den Jahrzehnten getrennten Schaffens Fachterminologien entwickelt, die eine übergreifende Kommunikation sehr erschweren. Auch in dieser Hinsicht erweisen sich Grafiken von schematischen Zellverschaltungen als ideale Basis. Vor allem die Signalflußmodelle sind visuell gut vorstellbar und können daher leicht nachvollzogen werden.
Soviel zu den Gründen, die dazu geführt haben, viele Prozesse in Form von Verschaltungen zu durchdenken. Um überhaupt Modelle zu benötigen, müssen aber erst einmal Fragen aufgeworfen werden. Die ersten zwanzig Seiten der Arbeit werden somit dazu dienen, Verwirrung zu stiften. Es wird sich zeigen, daß die Fähigkeit lebender Wesen, Dinge zu erkennen, durchaus einige Bewunderung verdient. Das Thema wurde bereits von vielen Seiten betrachtet und gab Anlaß zu grundlegenden Meinungsverschiedenheiten. Wenn es gelingt, die Dinge nur klar und deutlich genug auf den Kopf zu stellen, so steht neuen Lösungsansätzen nichts mehr im Wege.

Diese zwanzig Seiten sind an jene gerichtet, die sich noch kaum mit Wahrnehmung und visuellem Erkennen auseinandergesetzt haben. Sie sind nicht von wissenschaftlichem Interesse, sondern dienen vor allem dazu, dem Leser nachvollziehbar zu machen, was mich an diesem Thema fasziniert. Außerdem dienen sie der Suche nach dem Anfang visuellen Erkennens. Die Überlegungen, welche dann im ersten Teil der Arbeit folgen, sollen schließlich nicht am falschen Ende beginnen.
 

To the Contens, zum Inhaltsverzeichnis: Beginn*Mitte*