professur für allgemeine psychologie - tu-dresden.de · zwei konkurrierende verstärkungspläne vi...

Vorlesung im WS 2014/15

Lernen und Gedächtnis

Instrumentelles Konditionieren II

Prof. Dr. Thomas Goschke

Professur für

Allgemeine Psychologie

1

Überblick

Thorndikes Gesetz des Effekts

Skinners Forschung zum operanten Konditionieren

Shaping und Verhaltenssequenzen

Was wird beim O.K. gelernt?

Arten von Verstärkern

Verstärkungspläne

Wahlverhalten

Kontiguität und Kontingenz

Bestrafung, Flucht- und Vermeidungstraining

Generalisierung und Diskrimination

Neurobiologische Grundlagen des instrumentellen Konditionierens

2

Wahlverhalten

3

Zwei konkurrierende Verstärkungspläne

VI 60“

• Verstärkt wird die erste Reaktion, die nach einem Intervall von durchschnittlich 60 Sekunden gezeigt wird

VI 120“

• Verstärkt wird die erste Reaktion, die nach einem Intervall von durchschnittlich 120 Sekunden gezeigt wird

?

4

Herrnsteins (1961) Matching Law

Optimales Verhalten = Maximierung des erhaltenen Futters

Gluck, Mercado and Myers

Copyright © 2008 by Worth Publishers

R1 ___________

R1+R2

V1 ___________

V1+V2 =

66% 33%

5

Verhaltensökonomie

Gluck, Mercado and Myers

Copyright © 2008 by Worth Publishers 6

Premack-Prinzip: Verhalten als Verstärker David Premack (1959, 1961)

Tierexperiment

• Ratten erhielten freien Zugang zu Trinkwasser und einem Hamsterrad

• Ratten verbrachten anfangs ca. 5 x soviel Zeit mit Rennen als mit Trinken

• Danach erhielten Ratten nur Zugang zum Laufrad, wenn sie bestimmte Wassermenge getrunken hatten

• Ratten tranken doppelt so lange wie zu Beginn

Ratten lernten zu trinken, um Zugang zum Laufrad zu erhalten

Ein Verhalten (Rennen) wurde zum Verstärker für ein anderes Verhalten (Trinken)

Analoge Effekte bei Menschen

• Kinder, die Flipper spielen oder Süßigkeiten essen konnten

Die Möglichkeit ein bevorzugtes Verhalten auszuführen kann ein weniger präferiertes Verhalten verstärken

Kontiguität vs. Kontingenz: Instrumentelles Konditionieren als kausale Inferenz

8

Zeitliche Kontiguität

Dickinson et al. (1992): Kürzere Abstand zwischen Verhalten und Verstärkung effektivere Konditionierung

9

Effekt des Zeitabstands zwischen Reaktion und Konsequenz

Schlinger & Blakey (1994):

• Ratten erhielten nach Drücken eines Hebels nach 0, 4 oder 10 Sekunden Futter als Belohnung

© 2008 by Worth Publishers

Bedeutung der Kontingenz

Hammon et al. (1980): Ratten wurden trainiert, Hebel zu drücken, um Futter zu erhalten

Reaktion innerhalb 1 s

5% Chance eines

Verstärkers

5% Chance eines

Verstärkers nach 1 s

egal ob Reaktion

oder nicht

Wie Phase 1 Wie Phase 2

11

Instrumentelles Konditionieren als kausale Inferenz

Wasserman (1990)

Vpn konnten Taste drücken

Dies führte manchmal dazu, dass Licht aufleuchtete

UV1: p(Licht|Taste)

= 0; 0.25; 0.5; 0.75; 1.0

UV2: p(Licht|keine Taste)

= 0; 0.25; 0.5; 0.75; 1.0

vgl. Rescorla-Wagner-Theorie des klassischen Konditionierens!

(O = Outcome; R = Response) 12

Nicht-kontingente Verstärkung und „abergläubisches“ Verhalten

Skinner (1948):

• Tauben erhielten alle 15 s Futterkörner unabhängig vom Verhalten

• Einige Tiere entwickelten bizarre „Rituale“ (z.B. mehrmals gegen den Uhrzeigersinn drehen) und verhielten sich, als ob sie „glaubten“, durch ihr Verhalten die Verstärkergabe kontrollieren zu können

Skinners Erklärung:

• Verstärker erhöht die Wahrscheinlichkeit jedes Verhaltens, dass zufällig unmittelbar vor der Verstärkergabe gezeigt wurde

• höhere Wahrscheinlichkeit, dass dieses Verhalten (zufälligerweise) erneut vor der Verstärkergabe auftritt weitere Verstärkung

• Im Lauf der Zeit können sich komplexe Verhaltensmuster bilden (analog zu natürlicher Selektion)

14

Allgemeinere Schlussfolgerungen

Organismen lernen kausale Regularitäten, die es ermöglichen, Effekte des eigenen Verhalten zu antizipieren

Dies ermöglicht es Organismen, sich adaptiv („rational“) zu verhalten = Verhalten zu selektieren, dass positive Konsequenzen hat und negative Konsequenzen zu vermeiden

Adaptives Verhalten muss nicht auf bewusster Überlegung oder Einsicht in die relevanten Kontingenzen beruhen

Relativ einfache assoziative Mechanismen können Verhalten erzeugen, das rational und zielgerichtet erscheint

17

Abbau unerwünschter Verhaltensweisen: Löschung und Bestrafung

18

Arten von Verstärkern

Verhaltenskonsequenz

Angenehm Unangenehm

Reiz erscheint nach Reaktion

Positive Verstärkung

(Belohnung)

Bestrafung 1. Art

Reiz verschwindet nach Reaktion

Bestrafung 2. Art

Negative Verstärkung

(Flucht / Vermeidung)

19

Abbau unerwünschter Verhaltensweisen

3 Möglichkeiten:

• Löschung: die das Verhalten aufrechterhaltenden Verstärker entziehen

• Bestrafung des unerwünschten Verhaltens

• Alternativverhalten aufbauen, das das unerwünschte Verhalten ablöst

Bestrafung kann sehr wirksam sein:

• Eine einzige Lernerfahrung kann Verhalten eliminieren (z.B. heiße Herdplatte)

20

Löschung

Die das unerwünschte Verhalten aufrecht erhaltenden Bedingungen (Verstärker) identifizieren

Entzug eben dieser Verstärker

Beispiel:

• Kind erhält durch ständiges Stören mehr Aufmerksamkeit

• Entzug der Aufmerksamkeit Löschung des Verhaltens

Löschung ist besonders effektiv, wenn gleichzeitig Alternativverhalten positiv verstärkt wird

• Bsp.: Kind erhält Aufmerksamkeit für erwünschtes Verhalten

21

Bestrafung und Zeitverzögerung

0

10

20

30

40

50

60

70

80

0 7,5 30 Kontrolle

Mit

tle

re A

nza

hl v

on

Re

ak

tio

ne

n

Camp, Raymond & Curch, 1967

1.Phase: Ratten wurden trainiert, Hebel zu drücken, um Futter zu bekommen

2. Phase: Auf 50% der Hebeldrücke folgt ein Elektroschock sofort, nach 7,5 oder nach 30 Sekunden (Kontrollgruppe: gleiche viele Schocks, aber kein Zusammenhang zu den Reaktionen)

22

Intensität der Bestrafung

Unterdrückung eines Verhaltens (Hebeldrücken) steigt mit Intensität der Bestrafung

Church, 1969

0

0,1

0,2

0,3

0,4

0,5

0,6

0,7

0,8

0 0,15 0,5 2

Stärke des Schocks (mA)

Au

sm

aß

de

r U

nte

rdrü

ck

un

g

(%)

23

Bestrafung und Verhaltensalternativen

Unterdrückung eines Verhaltens durch Bestrafung ist effektiver, wenn alternative Verhaltensmöglichkeiten bestehen (insbesondere, wenn diese belohnt werden)

Anzrin & Holz (1966):

• Phase 1: Tauben lernten, auf einen Schalter zu picken, um Futter zu erhalten

• Phase 2: Auf Picken folgte Schock

– Gruppe A: Taube konnte auf anderen Schalter picken

– Gruppe B: Nur ein Schalter

• Ergebnis: Tauben in Gruppe A zeigten stärkere Unterdrückung des Pickens auf den ursprünglichen Schalter

24

0

50

100

150

200

250

300

0 20 40 60 80R

eak

tio

ne

n /

min

. Bestrafungsintensität (V)

AlternativeReaktionverfügbar

keinealternativeReaktionverfügbar

Kontingenz der Bestrafung

Vortraining: Ratten lernten, Hebel zu drücken, um Futter zu bekommen

Phase 1:

• Experimentalgruppe: Elektroschocks unabhängig vom Verhalten

• Kontrollgruppe: Nur Belohnung

Phase 2: Beide Gruppen erhalten nur Belohnung

Phase 3: Beide Gruppen erhalten reaktionskontingente Schocks

Church, 1969 25

Kontingenz der Bestrafung

Bestrafung war nur wirksam, wenn sie kontingent auf das Verhalten folgt

0

20

40

60

80

100

120

140R

ea

kti

on

sra

te (

% d

er

Ba

se

lin

e)

Kontrollgruppe(keine Schocks inPhase 1)

Exp.-gruppeSchocks in Phase 1)

Nicht

Kontingente

Bestrafung

Erneutes

Training

(Belohnung)

Kontingente

Bestrafung

Erfahrung nicht-kontingenter Bestrafung verhinderte späteres Lernen einer reaktions-kontingenten Bestrafung ( vgl. erlernte Hilflosigkeit)

26

Konsequenzen nicht-kontingenter Bestrafung: Erlernte Hilflosigkeit

Exp. von Overmier & Seligman (1967) / Maier & Seligman (1976) mit Hunden

Phase 1:

• Experimentgruppe: Glockenton -> unausweichlicher Stromstoß

• Kontrollgruppe: Konnten Schock durch eigenes Verhalten vermeiden

Phase 2:

• Beide Gruppen Vermeidungstraining

• Stromstoss wurde durch Ton angekündigt; Tiere konnten Stromstoss durch Sprung über eine Barriere vermeiden

Ergebnis:

• Kontrolltiere lernten schnell die Vermeidungsreaktion

• Tiere der Experimentalgruppe zeigten Anzeichen von Furcht, aber machten keine Anstalten, dem Schock zu entfliehen

„Erlernte Hilflosigkeit“:

• Erfahrung, dass Bestrafung nicht durch eigenes Verhalten beeinflusst werden kann, erschwert Erwerb und/oder Ausführung instrumenteller Reaktionen

• Tiere lernen, dass eigenes Verhalten keinen Effekt hat

27

Konsequenzen nicht-kontingenter Bestrafung: Erlernte Hilflosigkeit

28

Erlernte Hilflosigkeit bei Menschen Hiroto (1974)

Phase 1: unangenehme laute Geräusche

• Gruppe 1: Töne weder vermeidbar noch kontrollierbar

• Kontrollgruppe 2: Töne nicht vermeidbar; per Knopfdruck abstellbar

• Kontrollgruppe 3: keine Vorbehandlung

Phase 2: Ton wurde durch 5 sec. Lichtsignal angekündigt und konnte durch Schieberegler abgestellt werden

A.V: Latenzzeit für das Lernen Abstell-Reaktion

Ergebnis: Gruppe 1 lernte langsamer als Gruppe 2 und 3

Interpretation:

• Erfahrung der Unkontrollierbarkeit hat drei Effekte:

(1) motivationales Defizit (keine Anstrengung zu fliehen)

(2) kognitives Defizit (verzögertes Lernen)

(3) emotionales Defizit (Apathie, „Depression“)

30

Negative Folgen von Bestrafung

Bestrafung kann unter bestimmten Bedingungen zur Unterdrückung von jeglichem Verhalten führen

Diskriminative Hinweisreize, die Bestrafung signalisieren, können zu Täuschungsverhalten führen (Bsp.: Radarfalle)

Bestrafung unterdrückt oft lediglich Verhalten (Performanz); aber hohe Wahrscheinlichkeit, dass unerwünschtes Verhalten wieder gezeigt wird, sobald keine Bestrafung mehr erwartet wird

Beziehung zwischen Bestrafendem und Bestraftem leidet (kann Ärger und Aggression erzeugen)

Falsche Vorbildfunktion: Kinder könnten lernen, dass Bestrafung (Aggression) ein angemessenes Mittel zur Konfliktlösung ist

Wenn Bestrafung, sollte stets erwünschtes Alternativverhalten ermöglicht und verstärkt werden

33

Negative Verstärkung: Flucht- und Vermeidungsverhalten

36

Negative Verstärkung

Verhalten kann verstärkt / aufrechterhalten werden, weil es Bestrafung vermeidet

Exp. von Solomon & Wynne (1953): Hunde in Käfig mit Stahlgitter als Boden

Licht aus Elektroschock

10 Sek. Hund springt

über Barriere

in sicheren Käfig

Licht aus

Hund springt

über Barriere

in sicheren Käfig

37

Negative Verstärkung und Vermeidungsverhalten

Vermeidungsverhalten kann sehr löschungsresistent sein

Auch wenn kein Schock mehr gegeben wird, springen Hunde weiter (mitunter 200 mal) über Barriere (Solomon, Kamin, & Wynne, 1953)

Latenz des Vermeidungsverhaltens nimmt sogar weiter ab

Warum wird Vermeidungsverhalten nicht gelöscht wird, obwohl die Tiere nie mehr einen Schock erhalten?

Vermeidungsverhalten verhindert, dass die Hunde lernen, dass die Kontingenz zwischen Licht und Schock gar nicht mehr besteht

Erklärt die Aufrechterhaltung von Vermeidungsverhalten bei phobischen Ängsten (z.B. soziale Angst; Flugangst)

38

Negative Verstärkung und Vermeidungsverhalten

Wie kann Vermeidungsverhalten gelöscht werden?

(1) Bestrafung (z.B. Schock) wird erteilt, obwohl das Vermeidungsverhalten gezeigt wird Organismus lernt, dass es keine Kontingenz zwischen Verhalten und Bestrafung gibt

(2) Verhindern, dass das Vermeidungsverhalten ausgeführt wird

Baum (1969):

• Vermeidungstraining (Ton Schock Flucht)

• Danach wurden Ratten daran gehindert, beim Ton in sicheren Teil des Käfigs zu flüchten

• Nach kurzer Zeit hatten Ratten gelernt, dass es keine Kontingenz mehr zwischen Ton und Schock gab

Klinische Anwendung: Reizkonfrontationstherapie bei Phobien

39

Zwei-Prozess-Theorie des Vermeidungslernens (Mowrer, 1947)

1. Phase: Klassisches Konditionieren

CS (Ton) US (Schock) UR (Angst)

CS (Ton) CR (Angst)

2. Phase: Operantes Konditionieren

Angstreaktion ist mit wahrnehmbaren inneren Reizen verbunden (z.B. Veränderung der Herzrate, Atmung, etc.)

Vermeidungs-

reaktion Ton aus Angstreduktion

(Vermeidungsreaktion wird als Fluchtreaktion (vor dem angstauslösenden

CS) uminterpretiert) 40

Probleme der Zweifaktorentheorie I

Phase 1: Klassisches Konditionieren

Wenn konditionierte Angst die Vermeidungsreaktion auslöst (bzw. Angstreduktion der Verstärker ist), sollte Angst umso größer sein, je stärker Vermeidungsreaktion ist

Aber:

Vermeidungsverhalten tritt auch auf, wenn CS keine Anzeichen von Furcht mehr auslöst (z.B. Kamin, Brimer, & Black, 1963)

Nachdem Vermeidungsreaktion gelernt wurde, verschwinden oft Anzeichen von Angst (z.B. Solomon & Wynne, 1953)

Alternative Erklärung:

Gelernt wird nicht CS-CR-Assoziation (Ton-Furcht), sondern CS-US-Assoziation (Ton-Schock)

CS (Ton) Antizipation des US (Schock)

Vermeidungsreaktion wird durch Antizipation des US ausgelöst

41

Probleme der Zweifaktorentheorie II

Phase 2: Operantes Konditionieren

Zweifaktorentheorie: Elimination des CS und damit verbundene Angstreduktion soll verstärkend sein

Aber: Elimination des CS ist gar nicht nötig für Vermeidungslernen

Kamin (1956): Tiere lernen Vermeidungsverhalten, auch wenn der CS nach dem Vermeidungsverhalten andauerte

43

Probleme der Zweifaktorentheorie II Sidmans (1953, 1966): Freie operante Vermeidung

(a) Wenn das Individuum nicht reagiert, wird alle 5 Sekunden ein Schock verabreicht.

(b) Jede Reaktion verschiebt den nächsten Schock um 30 Sekunden.

0

0

20

20

40

30 Sekunden

Zeit (Sekunden)

Zeit (Sekunden)

Reaktionen

Reaktionen

b) Elektroschocks

a) Elektroschocks

30 Sekunden

40

60

60

80

80

100

100

• Schock kommt ohne Warnung (kein äußerer CS)

• Tier kann Schock für 30 Sekunden aufschieben, indem es Hebel drückt

• Tiere lernen, Schock komplett zu vermeiden, indem sie Hebel rechtzeitig drücken

• Vermeidungsverhalten obwohl kein CS durch das Verhalten eliminiert wird

44

Schlussfolgerung und alternative kognitive Erklärung

Lebewesen lernen Kontingenzen zwischen CS, Reaktionen und Verhaltenskonsequenzen

Dies ermöglicht es, negative Konsequenzen zu antizipieren und Verhalten auszuwählen, dass negative Konsequenzen vermeidet

45

Generalisierung und Diskrimination

47

Das Generalisierung-Diskriminations-Dilemma

48

Das Generalisierung-Diskriminations-Dilemma

Grundproblem für Lebewesen beim klassischen Konditionieren:

• Wann signalisiert ein neuer (dem CS mehr oder weniger ähnlicher) Reiz den gleichen US?

• Generalisierung: Auslösung der konditionierten Reaktion durch ähnliche Reize

• Diskrimination: Auslösung der Reaktion nur durch ganz bestimmte Reize

Grundproblem beim instrumentellen Konditionieren:

• Wann führt die gleiche Reaktion auf einen neuen (mehr oder weniger ähnlichen) diskriminativen Hinweisreiz zur gleichen Konsequenz und wann nicht?

49

Reizgeneralisierung

Guttman & Kalish (1956)

• Trainierten Tauben, auf eine beleuchtete Taste zu picken

• Picken auf Licht einer bestimmten Wellenlänge wurde mit Futter belohnt

• Transferphase: Licht anderer Wellenlänge beleuchtet

50

Generalisierung als Suche nach ähnlichen Effekten

Generalisierung spiegelt die erwartete Wahrscheinlichkeit, dass die gleiche Reaktion auf zwei verschiedene Reize die gleiche Konsequenz haben wird

52

Differenzielles Training und Generalisierungsgradienten (Jenkins & Harrison 1960)

Nichtdifferenzielles Training • Tauben wurden nach variablem Intervallplan

trainiert, auf eine beleuchtete Scheibe zu picken, wenn ein 1000-Hz Ton dargeboten wurde

• Löschungsphase: Töne anderer Frequenz oder kein Ton

Differenzielles Training • Durchgänge mit beleuchteter Scheibe und

1000 Hz Ton Verstärkung • Durchgänge mit beleuchteter Scheibe ohne

Ton Keine Verstärkung

F r e q u e n z i n Z y k l e n p r o S e k u n d e

3 0

2 0

1 0

0 3 0 0 4 5 0 6 7 0 1 0 0 0 1 5 0 0 2 2 5 0 3 5 0 0 N o T o n e

N o . 7 0

N o . 7 1

N o . 7 2

F r e q u e n z i n Z y k l e n p r o S e k u n d e

5 0

4 0

3 0

2 0

1 0

0 3 0 0 4 5 0 6 7 0 1 0 0 0 1 5 0 0 2 2 5 0 3 5 0 0 N o T o n e

S D

N o . 8

N o . 5 2

N o . 5 4

N o . 5 8

N o . 6 0

S

© Mazur (2006). Pearson Studium. 55

Reizdiskrimination (Jenkins & Harrison, 1962)

Standardtraining: 1000-Hz-Ton auf Taste picken Verstärkung

Diskriminationstraining: Zusätzlich 950-Hz-Ton keine Verstärkung

Gluck, Mercado and Myers (2008) Copyright © 2008 by Worth Publishers

56

Negative Generalisierungsgradienten (Terrace 1972)

• Tauben wurden trainiert, bei Licht auf Scheibe zu picken, erhielten aber keine Verstärkung, wenn das Licht gelb-rot (570nm) war

• Testphase: Licht unterschiedlicher Wellenlänge

58

Spences (1937) Theorie des Diskriminationslernens

Verstärkung in Anwesenheit eines Reizes positiver Generalisierungsgradient

Keine Verstärkung negative Generalisierungsgradient

Verhalten ist Kombination positiver und negativer G.-Gradienten

Peak

Shift

59

Relationales Lernen

Anwendung von Spence‘s Theorie auf Auswahl zwischen zwei Reizen:

• Training, zwischen Reizen von 160 und 256 cm2 zu diskriminieren

• Test: Tier bekommt Wahl zwischen Reizen von 256 und 409 cm2

Tiere wählen meist Reiz von 409 cm2 Steht in Einklang mit Spence-Theorie Alternative Erklärung: Tiere lernen die Relation zwischen den Reizen („Wähle den größeren Reiz“)

60

Relationales Lernen (Lawrence & DeRivera, 1954)

Karten in unterschiedlichen Grauschattierungen (1= weiß; 7 = schwarz)

Ratten wurden trainiert,

• sich nach rechts zu drehen, wenn obere Karte heller war

• sich nach links zu drehen, wenn obere Karte dunkler war

Ratten drehten sich

nach links

Ratten drehten sich

nach rechts

Tiere haben die relationale Information gelernt! 61

Biologische Einschränkungen beim operanten Konditionieren

66

Biologische Einschränkungen beim operanten Konditionieren: Instinktive Drift

Breland & Breland (1961):

• Trainierten Waschbären, Holzmünzen aufzuheben und in einen Behälter zu legen

• Tiere zeigten bald nicht verstärkte Verhaltensweisen (z.B. „Waschen“ der Münzen) machte Trainingsprogramm zunichte

• Entspricht artspezifischem Verhalten bei der Nahrungssuche

• Analoge Ergebnisse für andere Spezies

Lerneffizienz wird durch angeborene Lernbereitschaften moduliert

Breland, K. & Breland, M. (1961) The misbehavior of organisms. American Psychologist, 16, 681-684.

67

Biologische Einschränkungen beim operanten Konditionieren: Reizmerkmale

Organismen sind biologisch prädisponiert, bestimmte Reize als bedeutsam zu betrachten und andere zu ignorieren

Foree & LoLordo (1973):

• Trainierten Tauben mit kombiniertem CS (Licht + Ton)

• Verstärker = Futter Verhalten wurde durch Licht kontrolliert

• Verstärker = Schock Verhalten wurde durch Ton kontrolliert

In natürlicher Umwelt

• ist visuelle Information oft kritisch, um Futter zu identifizieren

• Signalisieren Geräusche oft Gefahr

72

Biologische Einschränkungen beim operanten Konditionieren: Reaktionsmerkmale

Shettleworth (1975):

Hungrige Hamster zeigten bestimmtes Verhalten häufiger

• Auf Hinterbeine aufrichten

• An Wänden kratzen

• Graben

Andere Verhaltensweisen traten nicht häufiger auf

• Waschen; kratzen; markieren

Im Experiment wurden Hamster dann für unterschiedliche Verhaltensweisen mit Futter belohnt

Tiere sind biologisch prädisponiert, bestimmte Reaktions-Verstärker Assoziationen besser zu lernen als andere

Mittlere Zeit, die die verstärkte Reaktion innerhalb

120 sek ausgeführt wurde

73

professur für allgemeine psychologie - tu-dresden.de · zwei konkurrierende verstärkungspläne vi...

Documents