beispielbild - freie universität...thorndike edward lee thorndike (1874-1949) erste experimentelle...

Beispielbild

Lernen & Gedächtnis

Operante Konditionierung: Verstärkung

WiSe 2009

2Grundlagen: Klassische KonditionierungFachbereich, Titel, Datum

Einführung

Belohnung ist das einfachste Prinzip, um ein erwünschtes Verhalten häufiger auftreten zu lassen!

Oder ?

Lernen hat mittel- und langfristig Belohnungswert

Das Einstellen von Rauchen hat mittel- und langfristig

Belohnungswert


Thorndike

Edward Lee Thorndike (1874-1949)

Erste experimentelle Studien zur Wirkung von Belohnung

Thorndikes Ansatzpunkt war die Idee, dass andere Säuger scheinbar erstaunlich ‚intelligente‘Leistungen erbringen können.

Kritik: Berichte über tierische Intelligenz sind anekdotisch, verfälscht und zeigen eher inzidentielles Verhalten als tatsächliche Kompetenz.


Thorndike

Gesetz der Wirkung (Law of Effect)

Puzzle Box: Käfig, der mit einem Hebel oder einer Schnur zu öffnen ist. Vor der Box steht eine Futterschale.

Eine Katze reagiert zunächst mit Kratzen an verschiedenen Teilen der Box – oder anderem ‚irrationalen‘Verhalten.

Nach 5-10 Minuten wird per Zufall der Lösungsweg gefunden.

Aber was passiert im nächsten Trial?


Thorndike

Die Katze hat keine plötzliche Einsicht in den Lösungsweg, sondern reagiert wie beim ersten Trial.

Nur graduell wird die Latenz bis zur Befreiung aus dem Käfig kürzer.

Theorie: Die Belohnung außerhalb der Box führt dazu, dass die Katze langsam eine Assoziation zwischen den Cues in der Box und der operanten Reaktion (Hebeldruck) herstellt.



Thorndike


Law of Effect:

Eine Verbindung wird begünstigt, also „verstärkt" (reinforced), wenn die Reaktion zu einer befriedigenden (lustbetonten)

Nachwirkung führt. Sie wird abgeschwächt, wenn die Nachwirkung unbefriedigend (unlustbetont) ist.

Achtung:

Man spricht man eher von Verstärkung als von Belohnung. Ein Verstärker erhöht die Frequenz

des Verhaltens , wenn er nach einer bestimmten operanten Reaktion gezeigt wird.


Thorndike

Problem: Was unterscheidet Verstärkung und Konditionierung?

Klassische Konditionierung

Reiz (CS) – Reiz (US)

Präsentation des US hängt alleine von der Präsentation

des CS ab.

Operante Konditionierung

Aktion (R) – Reiz (S)

Präsentation des Reizes hängt hängt alleine von Durchführung

eines Verhaltens ab.

Obwohl die Prozeduren unterschiedlich sind, können jedoch die Vermittlungsprozesse identisch sein:

1. Prinzip der Kontiguität oder der Kontingenz

2. Graduelle Verstärkung einer assoziativen Beziehung .


Typen von Verstärkern

Primäre Verstärker

Primäre Verstärker sind alle Reize, die von Geburt an effektiv sind. Se benötigen kein spezielles Training. Dazu gehören…

…Futter

…Wasser

…Fortpflanzungsmöglichkeit

…Sensorische Verstärkung

Butler (1954):

Reaktion 1: Fenster zum Laborraum öffnet sich für 30 Sekunden.

Reaktion 2: Sichtblende geht herunter.

Für Affen ist die Reaktion 1 ein effektiver Verstärker. Insgesamt kann jede visuelle Stimulation als Verstärker eingesetzt werden



Sekundäre Verstärker

Sekundäre Verstärker werden erst durch Erfahrung erworben.

Zu Ihnen gehört Geld, aber auch Lob.

Die sekundären Verstärker werden dadurch ‚erworben‘, indem sie häufig mit einem primären Verstärker aufgetreten sind.

Wolfe-Experiment (1936):

Affen erhalten nach Hebeldruck zunächst Trauben. Dann wird der Hebeldruck schwieriger – und die Trauben durch Spielmünzen ersetzt.

Die Affen drücken weiter den Hebel – und zeigen innerhalb der Gruppe ein (Menschen-) typisches Arbeitgeber-verhalten.



Soziale Verstärker

Soziale Verstärker können nicht genau von primären und sekundären Verstärkern abgegrenzt werden. Sie werden jedoch alleine aus dem Verhalten von Mitgliedern aus der gleichen Spezies gezogen.

Soziale Verstärker können eine angeborene Disposition sein, die erfahrungsabhängig moduliert wird. Zudem sind wir den Verstärkern ununterbrochen ausgesetzt (Aufmerksamkeit, Lob, Tadel.).

Experiment von Allen et al. (1964)

Was macht man mit einer 4-jährigen, die nicht mit anderen Kindern spielt – und eher den Kontakt von Erwachsenen sucht?

1. Verringerung der Zuwendung, wenn sie sich isoliert

2. Verstärkung der Zuwendung, wenn sie mit anderen Kindern spielt.

Resultat: Anstieg des Anteils des sozialen Spielens von 10% auf 60%. Zudem konnte die Verstärkung langsam reduziert werden.



Wie findet man den besten Verstärker ?

David Premack

Der Zugang zu einer Aktivität, die mit hoher Wahrscheinlichkeit ausgeübt wird, kann als Verstärker für eine Aktivität verwendet werden, die seltener ausgeübt wird. (Premack-Prinzip)

Kann effektiv eingesetzt werden – und wird intuitiv eingesetzt: Kinder können sehr effektiv zu diszipliniertem Verhalten (seltene Reaktion) geführt werden, wenn Ihnen kurze Phasen von undiszipliniertem Verhalten (häufige Reaktion) gestatte werden (Homme et al., 1963).


Verstärkung und Verzögerung

Wie wichtig ist die Kontiguität zwischen Reaktion und Reiz?

Wie tolerant ist die Sniffy, wenn sie nach ihrem Tastendruck nicht unmittelbar die Verstärkung erhält?

Und wie kann man möglicherweise ihre Toleranz steigern?



Welche zeitliche Verzögerung wird toleriert?

N(H

eb

eld

ruck

)

Verzögerung (Sekunden)20 40 60

Sobald die Verzögerung auch nur einige Sekunden betrug, wurde die Frequenz der Reaktion drastisch reduziert.

Der Grund ist nicht das schlechte Gedächtnis für die Reize, sondern das Problem der Reaktions-Kontingenz. Der Organismus muss herausfinden, welche seiner Reaktionen den Reiz bewirkt hat.

Experimentator:

R(x) - Verstärker

Versuchstier:

R(1) – R(2) - R(x) – R(3) – R(4) -Verstärker



Wie kann Sniffy toleranter werden?

N(H

eb

eld

ruck

)

Verzögerung (Sekunden)20 40 60

Ein sekundärer Verstärker kann über die Zeitdauer

helfen.

Versuchstier:

R(1) – R(2) - R(x) – R(3) – R(4) -Verstärker

Die Kontingenz kann eindeutiger gemacht werden, wenn synchron mit

dem erwünschten Verhalten ein weiteres äußeres Ereignis einsetzt,

welches selber keinen Verstärkungscharakter haben muss

Problem 1 Problem 2



Verzögerung und Attraktivität der Verstärkung: Tierexperiment

Auf Reaktion 1 von Tauben folgt 2s Zugang zu Futter

Auf Reaktion 2 von Tauben folgt 4s Zugang zu Futter

In 95% der Fälle führen die Tauben Reaktion 1 aus

Verzögerung und Attraktivität der Verstärkung: Humanexperiment

Studenten werden nach Teilnahme am Versuch mit einer Zeitverzögerung entlohnt:

12$ nach 6 Tagen oder

16$ nach 12 Tagen

Studenten bevorzugen schnelle Belohnung

Verzögerung der Belohnung kann mit Hilfe der Sprache zwar vermittelt werden, beseitigt jedoch nicht die grundlegende Bevorzugung

schneller Belohnung (inzentive Verstärkung)

Sind Menschen toleranter für zeitliche Verzögerungen?


Verstärkungspläne

Problem für engagierte Behavioristen am Wochenende:

Die Futterpillen gehen langsam aus!

Konsequenz:

Nicht mehr jede Reaktion wird belohnt, sondern nur noch jede

erste Reaktion nach einer Minute.

Effekt:

Ratten reagieren initial weniger stark, pendeln sich dann aber auf

ein stabiles Niveau ein.

SNIFFY


Verstärkungspläne

FR

VR VI

FI

RATIO INTERVALL

FIXED

VARIABLE

Verstärkung jeder Reaktion:

CRF (Continuous Reinforcement Schedule)


Verstärkungspläne

FR

VR VI

FI

RATIO INTERVAL

FIXED

VARIABLE

Ratio - Schedule

Verstärkung beruht auf der Zahl von Reaktionen, die ausgeführt worden

sind

Interval - Schedule

Verstärkung beruht auf der Zeit, die seit der letzten Verstärkung

vergangen ist. Wichtig: Reaktion muss trotzdem erfolgen


Verstärkungspläne

FR

VR VI

FI

RATIO INTERVAL

FIXED

VARIABLE

Fixed - Schedule

Das Intervall oder die Zahl der Reaktionen bleibt konstant

Variable - Schedule

Das Intervall oder die Zahl der Reaktionen bewegen sich nur um

einen Mittelwert.


Verstärkungspläne

FR

VR VI

FI

RATIO INTERVAL

FIXED

VARIABLE

Fixed - Ratio

FR30 = Jede 30. Reaktion wird verstärkt

Fixed - Interval

FI30 = Nach einer Pause von 30 Sekunden wird die nächste

Reaktion verstärkt

Variable - Ratio

VR30 = Im Schnitt wird jede 30.Reaktion verstärkt (5.-

50.Reaktion)

Variable - Interval

VI30 = Im Schnitt wird die erste Reaktion nach 30

Sekunden verstärkt (5 Sek – 1 Minute)


Verstärkungspläne

Jeder Plan hat eine unterschiedliche Auswirkung auf das Verhalten

Aufnahme der kumulativen Antworten

Linearer Anstieg = monotoner Anstieg

Schwingungen hängen von der Prädiktabilität der Verstärkung ab!


Verstärkungspläne

Gewünscht:

Konstante Reaktion über

einen Zeitbereich

hinweg

Ungewünscht:

Reaktion steigt nur in

Erwartung einer Reaktion

zyklisch an

Fixed Ration:

Konstanter Anstieg – bis auf die Phasen unmittelbar nach der

Verstärkung (Run-and-Pause)


Verstärkungspläne

Aber: welcher Plan ist der Beste?

Nachteile kontinuierlicher Verstärkung (CRF)

1. Schnelle Extinktion

2. Hohe Kosten und Aufwand

Konsequenz

1. Phase 1: CRF-Plan

2. Phase 2: Übergang in einen variablen Verstärkungsplan (VR,VI)

Vorteile kontinuierlicher Verstärkung (CRF)

1. Erwerb einer Reaktion geht sehr schnell

VR-Plan, wenn viele Reaktionen gewünscht werden.

Gefahr der Frustration!

VI-Plan, wenn wenige Reaktionen auch einen

konstanten Niveau gewünscht werden.


Faktoren: Verstärkung

Motivation

Def.: Die Anstrengung, eine Ziel erreichen zu wollen

Def.: Beziehung zwischen Antezedenzbedingungen (z.B. Deprivation, Anreiz) und der Verhaltensstärke

Möhre - Stock

Lernen(R – S)

Motivation(Wert von S)

Anstrengung

DeprivationVon S



Motivation

Kontrast-Effekt

Crespi (1942) untersucht, wie der Anreiz der Verstärkung den

Lernerfolg beeinflusst.

Ratten erhalten entweder 1, 16 oder 256 Futterpillen als

Belohnung.

Erhöht die Belohnung die Motivation oder das Lernen (d.h.

stärkt es die Assoziation)?

Zeit

Laufg

esch

win

dig

keit

256

16

1



Zweite Phase, in der alle Gruppen 16 Futterpillen erhielten.

Unterstützung für die Motivationstheorie, da der

Anreizcharakter des Reizes sich differentiell

verändert hat.

Jedoch gibt es auch eine ‚Überschussreaktion‘, die später als Kontrasteffekt

definiert wurde.

Kontrasteffekt: Weisen nach, dass es einen

deutlichen Effekt der Erwartung gibt (analog der Term V im Rescorla-

Wagner-Modell)

Zeit

Laufg

esch

win

dig

keit

256

16

1



Steigert Motivation linear den Lernerfolg?

Broadhurst (1957) trainiert Ratten in eine Y-Labyrinth, welches unter Wasser gesetzt wird.

In einem Arm des Labyrinths ist eine Plattform (negative Verstärkung). Der

korrekte Arm wird etwas stärker beleuchtet

UV 1: Motivation, d.h. Ratten werden vor dem Trial 1-8 Sekunden unter das Wasser

gedrückt.

UV 2: Schwierigkeit, d.h. wie hell ist das Licht im Arm des korrekten Tunnels.

Motivation



Der optimale Lernerfolg hängt von der Schwierigkeit der Aufgabe ab, wird aber

durch den motivationalen Zustand moduliert. Ist die Aufgabe sehr schwer, so kann eine hohe Motivation den Lernerfolg

reduzieren (Yerkes-Dodson-Gesetz)

Erklärung:

Das Level der Erregung engt auch den Fokus der Aufmerksamkeit ein.

Dadurch können bestimmte relevante Hinweisreize entgehen!

Motivation

Lern

rate

easy

moderat

difficult



Zusammenfassung „Motivation“

Motivation moduliert die Effektivität eines Verstärkers, der von seinem Anreiz abhängt, aber auch von der Deprivation

des Lernenden.

Zu berücksichtigen:

Welche Verstärker wurden zuvor gegeben (Kontrast-Effekt)?

Wie schwierig ist die Aufgaben (Yerkes-Dodson-Law)?



Wirkung des Reizes auf das Verhalten (Stimulus-Kontrolle)

Guttman & Kalish (1956) trainertenTauben darauf, auf eine

Plastikscheibe zu picken.

Die Verstärkungsphasen wurden angekündigt, wenn ein gelbes Licht

(580nm) aufleuchtet.

Picken die Tauben auch, wenn man die Farbe des Lichts ändert?

Generalisierung: Nur ähnliche Reize, oder Reizkonfigurationen, rufen das konditionierte Verhalten hervor. Die Toleranz der Reaktion wird mit dem

Generalisierungsgradienten gemessen.



Wirkung des Reizes auf das Verhalten (Stimulus-Kontrolle)

Welche Reize unterstützen jedoch nun die Assoziation mit einem Verhalten?

Reynolds (1961) verstärkt das Picken auf die rote Scheibe mit dem Quadraten

(S+), nicht aber die Reaktion auf die blaue Scheibe mit dem Kreis (S-).

Diskrimination wird gelernt, aber der indikative Stimulus kann

zwischen den Organismen variieren (Farbe, Form).

Wirkung der selektiven Aufmerksamkeit auf das Lernen!

S+ S-

Tier 1 Tier 2



Effekte des Diskriminationslernens

Redd & Birnbrauer (1969) konnten zeigen, dass kooperatives

Verhalten in einer Gruppe an die Anwesenheit einer Person gebunden werden kann.

Hartshorn & May (1928) zeigten, dass ehrliches Verhalten

unterschiedlich an Orte (Schule, zu Hause) konditioniert werden kann.

Sind Persönlichkeitsdispositionen nur konditioniert?

Effekte der Generalisierung

Um ein konstantes Verhalten zu erreichen, muss eine Verstärkung in

verschiedenen Situationen zugänglich sein.

Griffiths & Craighead (1972) zeigten, dass zwei verschiedene

Verstärkungssettings eine Generalisierung eines Verhaltens

(Artikulation) zur Folge haben kann.

Lernen hängt entscheidend davon ab, Reizsituationen zu kontrollieren.


Anwendungsgebiete

Lernen im Klassenraum (1)

Baseline V1 keine V V2 Post-Test

Fall Robbie

Verstärkung der Mitarbeit im Klassenraum durch

verbales Lob (nach 1 min Arbeit)

Kann es so funktionieren?

Kann ein Lehrer sich kontinuierlich auf einen Schüler konzentrieren?

Wie kann man ein 14-tägiges Training in den Lehrplan einbauen?

Mitar

bei

t


Anwendungsgebiete

Lernen im Klassenraum (2)

Problemfall 1: Lehrer ist nicht konsequent

Problemfall 2: Lob funktioniert nicht als Verstärker

Tokens können ein besserer Verstärker sein!

(1) Sie können unmittelbar verteilt werden

(2) Sie können für den Verstärker mit dem größten Anreiz eingetauscht werden

Tokens funktionieren in der Schule, sogar in Erziehungs-

anstalten (Philips, 1968)

Tokens funktionieren in der Arbeitswelt: Briefmarken konnten

als Tokens eingesetzt werden.


Anwendung & Probleme

Wie verhindert man die Extinktion?

Partielle Verstärkung

Ratio- oder Intervallpläne verzögern die Extinktion

Situationsunbezogene Verstärkung

Die Generalisierung wird stärker, wenn der Verstärker in mehreren Settings

gegeben wird

Fading

Langsame Elimination des Verstärkers (FR1 – FR5 – FR20 – FR100 – FR1000)

Kein abruptes Absetzen der Verstärkung



Kann ich mit Verstärkung auch Schaden anrichten?

Einwand 1:

Ist die Verstärkung nicht eine Form der Bestechung?

Nicht in allen Fällen kann man an das Pflichtgefühl appellieren. Als

Alternative steht dann nur die Bestrafung zur Verfügung.

Aber: In den meisten Fällen gewinnt das verstärkte Verhalten selber

Anreizcharakter.

Einwand 2:

Entwickelt man durch Verstärkung nicht nur die Gier?

Generalisiert das Kind, dass es in für alle Pflichterfüllungen eine

Verstärkung erhält?

Und: Zeigen die Kontrasteffekte nicht die Gefahr, dass es eine

Verstärker-Inflation geben kann?

Aber: Verstärkung kann auch unmateriell sein (Lob) – und ebenso

effektiv.




Einwand 3:

Wird eine intrinsische Motivation nicht unterwandert?

Intrinsisch motiviertes Verhalten ist unabhängig von äußeren Verstärkern. Es ist stabiler und steht mit der subjektiven Einstellung in einem Zusammenhang.

Studie von Lepper et al (1973) zeigt sogar, dass spontanes Verhalten durch die plötzliche Einführung von Verstärkern reduziert werden kann:

Phase 1: 2 Gruppen von Kindern malen frei

Phase 2: 1 Gruppe wird plötzlich verstärkt

Ergebnis: Die nicht-verstärkte Gruppe malt häufiger




Faktor 1: Ist die intrinsische Motivation zu Beginn der Verstärkung schon hoch?

Lepper et al (1972) finden einen Verstärkungseffekt bei Kindern, die

in der Baseline weniger malen.

Faktor 2: Wird die Verstärkung als Verhaltenskontrolle

empfunden?

Ryan (1982) findet, dass verbale Verstärkung auch aversivempfunden werden kann.

Faktor 3: Ist der Grad der Verstärkung der Qualität der Aufgabe angemessen?

Enzle & Ross (1978) finden, dass eine Bezahlung nach Beendigung einer Aufgabe ein schwacher Verstärker ist, wenn sie

nicht das erzielte Leistungsniveau berücksichtigt.




Prinzip 1: Minimal Force

Fange immer mit dem mildesten Verstärker an!

Egal welcher Verstärker gewählt wird, er soll das Gefühl der Kompetenz

unterstützen, nicht das Gefühl des Gehorsams.

Prinzip 2: Verhaltenskontrakte

Entwerfe Verhaltenskontrakte, damit beide Seiten das Gefühl der Kontrolle besitzen. Beide Parteien müssen den Zielen zustimmen – wie auch den

Interventionen.

Pizza-ServiceBaseline Intervention Follow-Up

Ver

kehrs

über

tritte

Zuteilung

Diskussion



Selbstkontrolle

Definition: Der Eindruck, dass das Verhalten von mir selber kontrolliert wird und nicht von Verstärkern abhängt, die von außen gegeben werden

Beispiel: Diät

Was mache ich, wenn ich abnehmen möchte, aber als Abendritual noch 2-3 Snickersesse?



Selbstkontrolle

Verstärkungskontingenzen:

Mein Problem resultiert daraus, dass das Essen der Schokoriegel unmittelbare Verstärkung darstellt, der Gewichtsverlust jedoch eine verzögerte Verstärkung ist.

S(Nacht) – R(Essen)

S(Nacht) – R(Diät)

S(Scholokadenrausch)

S(Gewichtsreduktion)

Was bestimmt jetzt die interindividuellen Unterschiede:

- Momentaner Anreizwert der Verstärker

- Vermittlung durch sekundäre oder soziale Verstärkung

- Entwicklung effektiver Selbstkontrollestrategien



Selbstkontrolle: Techniken

Reizkontrolle (Setting-Kontrolle):

Versuche Kontrolle über die Reizsituation zu bekommen, in der normalerweise die Reaktion auftritt.

Beispiel 1: Assoziiere Schlaflosigkeit nicht mit deinem Bett.

Beispiel 2: Vermeide Essen in Situationen, die mit anderen Aktivitäten (Lesen, Fernsehen) verbunden sind.

Selbstverstärkung:

Wenn die direkte Verstärkung in weiter Ferne liegt, dann versuche Dich selber zu verstärken.

Funktioniert, wenn die entsprechende Lerngeschichte vorliegt (Kinder loben sich selber –und erwarten dann Bestätigung).

In der Folge kann die erworbene Selbstverstärkung auch auf andere Situationen übertragen werden.

beispielbild - freie universität...thorndike edward lee thorndike (1874-1949) erste experimentelle...

Documents