LRS Least Reinforcing Stimulus/Scenario

Arrangörsjobbet klart för denna gång 🙂 Dagarna med Ken Ramirez gick bara alltför fort… men var förstås inspirerande, som alltid!

Ett  av ämnena under de gångna dagarnas föreläsningar var ”vad gör man när det blir fel” – ett av mina och Emelies favoritämnen! Dessutom har jag haft ett halvfärdigt blogginlägg på temat LRS liggande ett bra tag… så det här blev ett bra tillfälle att få det klart!

Det här vad man gör när något blir fel är en frågeställning med två sidor; dels gäller det förstås att ha en långsiktig plan för att förebygga och förhindra att fel och misstag uppstår – och dels gäller det att ha en plan för vad man ska göra i det ögonblick då djuret gör något man inte vill förstärka.

Ett värdefullt verktyg är då LRS; Least Reinforcing Stimulus (kallas även Least Reinforcing Scenario).

En LRS innebär att konsekvensen av ett felbeteende blir att inget i miljön ändras. Det felaktiga beteendet har helt enkelt ingen effekt, tränaren fortsätter göra det han/hon gjorde just före det felaktiga beteendet. LRS-en utgörs av en KORT neutral paus (bara så länge att den förväntade belöningen hinner utebli – en sekund om man har snabb träningsrytm, 2-3 sekunder om man håller en långsammare rytm).

  • LRS-en är alltså en händelse som inte förstärker det felaktiga beteendet.
  • LRS-en är också en signal till djuret om vad det ska göra för att få belöning eller ny signal. (Signal till vilket beteende? Det beror på vad man tidigare har tränat djuret till att göra då inget speciellt händer.  Tränare av marina däggdjur – LRS-ens upphovsmakare – har beteendet ”lugn och uppmärksam” som defaultbeteende).
  • LRS-en följs av antingen belöning för defaultbeteendet (lugn&uppmärksam) eller av en signal till ett nytt beteende som tränaren är nästintill säker på att djuret kommer att utföra korrekt och därmed få belöning för.

Tyvärr visade Ken inte så mycket film på LRS-användande. Vi som sett Ken och hans tränare in action på Shedd Aquarium i Chicago kan intyga att dels är där glest mellan misstagen (det är rätt-belöning-rätt-belöning i högt tempo i princip hela tiden), och dels är deras LRS-er så korta att vi som åskådare knappt hinner uppfatta dem (det ser i princip ut som att det kommer en ny signal direkt efter ett felbeteende – om vi nu ens hann uppfatta att där var ett felbeteende). Jag frågade Ken om det här med filmer och det var mycket riktigt så att det inte är så enkelt att för honom att få uppenbara ”fel” på beställning när han står där med videokameran…

I situationer där man jobbar med signaler ges alltså varje signal bara en gång. Antingen blir det rätt beteende — belöning, eller så blir det fel beteende — LRS — defaultbeteende — belöning eller signal till annat beteende.

Om samma beteende blir ”fel” ofta får man helt enkelt gå tillbaka till kindergarden med det beteendet dvs träna om det från början igen – djuret behärskar det bevisligen inte tillräckligt bra!

I situationer där man jobbar utan signal och utan targets eller andra prompter (dvs frishejpar) innebär LRS-tanken att man vid behov kan ”avbryta” genom att ge djuret en välbekant signal, så att man får möjlighet att belöna. Sedan kan man eventuellt starta om med frishejpingen igen. Så vitt jag känner till använder dock tränare av marina däggdjur traditionellt mycket mindre frishejping än vad till exempel skandinaviska hundtränare gör… vilket jag tror är en förklaring till att vi som frishejpar mycket har lite svårt att se framför oss exakt hur vi ska översätta en LRS till de delarna av vår träning.

Personliga reflektioner från min egen träning

Jag personligen upplever att konsekvensfunktionen av en LRS är helt suverän.  Jag använder den själv flitigt – försöker ha LRS som mitt eget ”defaultbeteende” vid alla fel – och upplever att jag som tränare blir mer skärpt och tar större ansvar för mitt djurs beteende då jag inte tillåter mig själv att göra något annat än a) ingenting, följt av b) belöning för defaultbeteende eller signal till nytt beteende som jag tror blir rätt.

När det gäller signalfunktionen av en LRS beror den för min del på hur situationen ser ut. Vad vill jag att djuret ska göra i den aktuella situationen om LRS uteblir? Om jag har gett en signal och djurets beteende inte möter mina kriterier för den signalen så vill jag ha just ”lugn uppmärksamhet”. I sådana situationer belönar jag ”lugn uppmärksamhet” (för Tizla ”titta på mig och var tyst”) flitigt, både efter LRS-er och vid andra tillfällen, och detta blir därför defaultbeteendet i sådana situationer.

Däremot finns det andra situationer där jag inte vill ha ”lugn uppmärksamhet” som defaultbeteende om belöning uteblir. T ex om jag håller på och frishejpar något: då vill jag ha ”fortsätt testa” som default. Och om jag befinner mig i en agilitysituation vill jag ha ”fortsätt följa min handling”. Här vill jag därför att konsekvensen/signalen ”jag ändrar inget (alltså LRS)” ska ha en annan signalfunktion för djuret; jag vill att den ska betyda ”fortsätt försöka”. För min och Tizlas del betyder alltså utebliven belöning här inte ”titta på mig och var tyst” utan ”fortsätt testa” (i frishejpingpasset) eller ”fortsätt följa min handling” (i agilitypasset). Om jag vill avbryta av någon anledning (för att få upp belöningsfrekvensen, och/eller för att kunna ge djuret en ny startpunkt) så gör jag det med en signal djuret känner igen; i shejpingpasset kanske en handtarget; på agilitybanan med en ”transport” (se AgilityRightFromTheStart).  Går allt detta in under kategorin LRS? Jag tolkar det nog så men ber att få återkomma i frågan efter att ha pratat med fler av dem som jobbar mycket med LRS-er och som jag därför tycker har tolkningsföreträde när det gäller definitionen 🙂

Andra förklaringar av vad LRS är:

Åsa har gjort en jättebra sammanfattning från söndagen med Ken, inklusive det här med LRS, i sin blogg: http://glada-hunden.bloggplatsen.se/2011/11/29/6761106-lrs/#kommentarer

Sedan finns det några bra beskrivningar på nätet (obs att det även finns många dåliga; förfärligt många blandar ihop LRS med negativt straff dvs ett aktivt tillbakadragande av något djuret vill ha. LRS innebär att du inte ändrar något av det du gör; du bara inte belönar)

Denna förklaring är nog den tydligaste jag läst:

The Least Reinforcing Scenario or LRS is a tool that cannot only be used to reduce aggression but also to prevent it. The LRS is a 2-3 second calm and passive response of the trainer after the animal performs an undesirable behavior. The LRS is applied when the trainer would normally deliver the reinforcement and is merely a neutral response, not a fixed or pre-determined posture. The animal’s response to the LRS is an actual behavior and can be reinforced. The animal’s criteria for the behavior is generally to return to the trainer in a calm manner and remain calm until the trainer continues with the session. Since the LRS is reinforced periodically the animal still has opportunity for reinforcement even if the previous behavior was performed incorrectly. (http://www.primatesinc.com/images/PDF’s/04/summer2004abma.pdf )

Sea Worlds förklaring förtydligar att LRSen har dubbla funktioner: Dels är den en konsekvens av det tidigare beteendet, dels är den en signal till ett default-beteende:

1. To eliminate undesired behavior, SeaWorld trainers have successfully developed a training technique called the Least Reinforcing Scenario (LRS). The LRS follows an undesired behavior. If a trainer requests a particular behavior and the animal responds with inappropriate behavior, the trainer must be careful not to reinforce the response. The trainer delivers an LRS – they stand still and do nothing. This way, they are least likely to deliver a reinforcer.2. The LRS continues for 2 to 3 seconds. The trainer’s relaxed demeanor is the stimulus for the animal to be calm and attentive. After the LRS, the trainer reinforces the animal for being calm. Then, the animal is given the opportunity to perform another behavior that will result in reinforcement.

3. The LRS is not a fixed posture, but instead a flexible system enabling the trainer to deliver the LRS in a variety of contexts. The trainer does not ignore the animal but must monitor the animal’s behavior while taking care not to show a response to inappropriate behavior.

4. When used consistently, the LRS technique eventually decreases undesired behavior. Reinforcing the animal for calm, attentive behavior following the LRS helps reduce frustration that might result from the lack of reinforcement and teaches the animal to react in a non-aggressive way. An animal never is forced into a situation, nor is it ever punished.

(http://www.seaworld.org/animal-info/info-books/training/application-of-philosophy.htm )

 

 

Det här inlägget postades i Uncategorized. Bokmärk permalänken.

9 kommentarer till LRS Least Reinforcing Stimulus/Scenario

  1. Eva! Vilken trevlig blogg! 🙂

    Hörde Kathy Sdao föreläsa för några år sen och hon sa att hon aldrig gjorde en LRS kortare än 10 sekunder under träning utan publik; 2-3 sekunder blev det under show inför publik. Själv tänker jag att det borde vara en funktion av vilket momentum man har i träningen och hur den tränade responsen ser ut – det måste ju vara helt tydligt för djuret att det blir ett vacuum när strömmen av tertiär förstärkare – sekundär förstärkare – primär förstärkare – tertiär förstärkare… plötsligt kommer av sig. Bör LRSen vara lång nog att motsvara en hel cykel (3-2-1) eller bara (2-1)? Om man tänker sig att djuret skulle visat en respons mellan 3an och 2an kan man nog komma upp i 10 sekunder ibland beroende på responsens art (ex hoppande delfin) om man tänker sig att LRSen ska motsvara en hel förstärkningscykel cue-beteende-klick-godis. Frustrationen vill man förstås undvika, men informationen måste gå fram. Tänker stor risk för ”superstitious” analys av tränaren när det gäller tolkningen av resultatet av LRS. Frågade Ken om vetenskapliga referenser, han nämnde Scarpuzzi 1998 eller 1999. Hittar inte…

    Förresten – apropå vår diskussion om ”är respondent betingning (CC) i själva verket operant (OC)”: hur är det då med timingen? Har inte hunnit fundera närmare men frågan som slog mig är: för respondent inlärning fungerar väl trace conditioning bäst? Men vid operant är det simultant (vilket inte funkar alls för respondent). Eller är förklaringen att det betingade stimulit (CC) motsvarar ungefär cuen (den tertiära förstärkaren; OC), vilket genererar responsen som då visas simultant som det obetingade stimulit (CC) / primära förstärkaren (OC) presenteras? Usch det är mitt i natten, är för trött för detta. Sorry att det blev helt obegripligt. Får försöka igen nån annan dag!

    KULatt ses igen! stor kram, Karro

    • evabertilsson skriver:

      Hej Karro, vad kul med fortsatt snack här 🙂
      Kathy; undrar om hennes LRS-definition är densamma som Sea Worlds? Jag vet att hon även använder det jag skulle kalla en time-out. Tror vi behöver försöka få till en definitionsdiskussion kring LRS-er i ClickerExpo-facultyn 🙂 Jag är inte helt säker på att alla har samma defintion… Och vi hade himla spännande diskussioner om shaping/frishaping-definitioner i fjol så det kanske går att få till något liknande om LRS i år! (Ang frishejping kom vi fram till att det åtminstone kräver ”ingen annan antecedent än att föregående belöning slutar”. Lite olika hur folk såg på belöningsplacering – vissa använder uttrycket ”directed shaping” för frishejping med aktiv belöningsplacering. På det hela taget viktigt att inte bara använda begrepp utan beskriva exakt vad man gör…)

      Tid för LRS, hm, intressant! När jag sett Ken och andra på Shedd träna så är det i princip bara klicket som hinner utebli – möjligen klick + orienteringsrespons mot primärförstärkare. Tiden för cue + beteende är definitivt inte med; det är ingen skillnad på längden beroende på vilket beteende det gäller, och LRS-en är betydligt kortare än så. Tanken är ju just att den förväntade konsekvensen ska utebli, inte mer. Om man utgår ifrån Sea Worlds text, och LRS-cykeln ser ut ”Beteende – inget klick -.”calm attentive” – belöning eller ny signal” så tolkar jag att det som krävs är att beteendet ”calm attentive” hinner utföras. Men kan ”calm attentive” ske på avstånd? Medan djuret är på väg tillbaka till tränaren? Eller måste djuret hinna in till position hos tränaren först? Vet ej! Men jag inbillar mig att LRS-ens signalfunktion är en nyckel i resonemanget; dessutom blir ju defaultbeteendet ett kvitto till tränaren att djuret uppfattat LRS-en.

      Nästa ämne; operant/respondent. Jesus resonemang gick såvitt jag förstod ut på att det finns ett stimuli till – en konsekvens – inblandad i respondenta beteenden. Typ blinkning vid vindpust: vindpust-blink-luftpust mot ögat försvinner. Så ordningen US/CS fortsätter vara som den är och där fortsätter trace conditioning att gälla; det som tillkommer är en operant komponent, blinkningen avbryter luftpusten (och här är betingningen simultan). Kärnfrågan är kanske egentligen om respondenta beteenden verkligen är helt respondenta eller om de också har en operant komponent dvs är påverkbara av sina konsekvenser 🙂

      Kul med lite tankenötter så här på morgonkvisten, ser fram emot fortsättning. KRAM!

  2. evabertilsson skriver:

    PS tror mig ha hittat Scarpuzzi-referensen, i IMATAs proceedings från 1991:

    Scarpuzzi, M.R., Lacinak, C.T., Turner, T.N., Tompkins, C.D. and Force, D.L. (1991). Decreasing the frequency of behaviour through extinction: An application for the training of marine mammals. In S. Allen (Ed) Proceedings of the 1991 International Marine Animal Trainers Association Conference. San Diego: International Marine Animal Trainers Association.

  3. Men om det är bara klicket som hinner utebli, hur skiljer sig då denna info till djuret från annan info under inlärning, när ju klicket uteblir rätt ofta under shapingprocessen? Blir det då under shapingen antingen en positiv förstärkare eller en LRS som möter varje respons? MIn förståelse av LRSen är att den just ska särskiljas från ”uteblivet klick” med att den dröjer YTTERLIGARE ett par sekunder. Att djuret ska kunna särskilja mellan en oförstärkt respons under shaping från en rentutsagt oönskad respons (aggression, inattention etc). Men jag är inte lika bevandrad i litteraturen som du… tack för referensen btw, ber EMW om en kopia!

    I de flesta fall har väl inte en respondent respons någon konsekvens på huruvida det obetingade stimulit presenteras? Vill minnas att det i textböcker brukar stå ungefär så. Isåfall handlar det ju mer om ett”superstitious behaviour”, djuret TROR att responsen har en konsekvens. Vill minnas att jag nämnde detta exempel:

    http://www.youtube.com/user/daleswartzentruber#p/u/3/KnJPPaiJG6Y

    Tycker att ”superstitious behaviour” ganska väl beskriver det vi ser… eller vad tycker du?

    //Karro

  4. evabertilsson skriver:

    Det här att hinna uppfatta utebliven förväntad konsekvens kan ju gå på en millisekund – vet själv hur jag reagerar när inte dvd-facket på datorn öppnas precis direkt då jag trycker på knappen… Som jag har uppfattat idén med LRS-ens konsekvensfunktion är det att utsläckningsförhållande sätts in genom att förväntad R+ uteblir – i teorin borde det i sig självt inte behöva betyda att mer än klicket hinner utebli tidsmässigt. Men yes du har rätt i att i praktiken blir tiden längre än så – såvitt jag förstått handlar det dock åtminstone delvis om att djuret ska hinna utföra det beteende som LRS-en är signal till – kanske inte nödvändigtvis om att dra ut på tiden för att djuret ska hinna uppfatta den uteblivna belöningen. Jättenyfiken på vad som står i Scarpuzzi-artikeln!!!

    Håller med att LRS under frishejpingpass är ett klurigt koncept – främst då eftersom det jag vill att djuret efter uteblivet klick ska ”default-orientera-dig-mot-mig-calm-attentive” utan ”fortsätt försöka”. Så mitt svar på hur det ser ut i praktiken är ”Vet inte”!!

    Vidare till det här med respondent/operant: Kopplingen US-UR kvarstår som vanligt och yes det kan dyka upp superstitious behaviors före US eller CS (duvan klockrent exempel!). Där är ju Men det Jesus spekulerade i var huruvida det spelar roll vad som händer efter UR; i luft-mot-öga-exemplet blir det US luftpuff – UR blinkning – luftpuff avbryts. Är luftpuffens avbrytande helt irrelevant (som konsekvenser ”ska vara” när det är respondenta beteenden vi pratar om)? Om inte, närmar vi oss då att blinkning vid luftpuff påminner om ett operant beteende? Måste fråga Jesus om han har några vidare referenser kring detta – i fjol lät det mest som fria men intressanta spekulationer 🙂

    • … vore kul att få se hur det funkar i praktiken med LRS under shaping resp. inlärda beteenden! Inte minst djurets respons! 🙂

      Den betingade responsen visas strax innan och ökar i frekvens innan det obetingade stimulit börjar i t ex delay conditioning. Men slutar den betingade responsen alltid i samband med att det obetingade stimulit upphör? oavsett om vi pratar obetingat stimulus: obehag / mat ..?

  5. Åsa skriver:

    Fick just svar från Ken om hur han tänker om LRS i frishejping: det används inte, eftersom det vi vill är att djuret ska fortsätta försöka tills det får sitt klick. Enda gången skulle vara om djuret ”ger upp” och kommer till föraren för information. Och stort tack för mer info genom ditt inlägg! Länkar, hoppas det är OK.

  6. evabertilsson skriver:

    TACK ÅSA!!! Där fick vi rett ut det, makes perfect sense 🙂
    Funderar på om det finns någon term för den icke-respons vi ger då vi shejpar eller bygger duration… hade kanske varit praktiskt. Aldrig hört nån såvitt jag vet.

    Karro, ang. betingad (eller obetingad) respons och när den slutar – ännu en bra fråga! Jag lagrar dem på hög 🙂 Och gnuggar geniknölarna det värsta jag kan; stoppar blinkning alltid då luftstöt (eller därtill betingad ton) avbryts? Stoppar salivering alltid då köttsaft (eller därtill betingad klocka) inte längre är närvarande? Frågan blir då egentligen: vad är det som avgör när en respondent respont slutar?
    Vidare tanke (men nu är jag kanske riktigt ute och cyklar!): Kan man kanske tänka homeostas på nåt vis; att ”rubbning i balansen” är det som US orsakar, och att därmed ”målet” med alla respondenta responser är att återställa/bibehålla nåt visst läge? Nån sorts fysikaliskt läge som, om det rubbas (eller inte nås), kan ses som aversivt? Och att responsen slutar när rätt läge är uppnått? Jisses, här räcker mina biologikunskaper inte till!
    Men, om man nu fortsätter snöa in på konsekvenstänket, så skulle man då kunna spekulera att konsekvensen av UR är ”escape” (från obalansen t ex luft i ögat eller köttsaft i munnen, båda är ju liksom biologiskt nåt som behöver åtgärdas) medan konsekvensen av CR är ”avoid” (förebyggande, liksom…). I så fall skulle man kanske möjligen kunna hävda negativ förstärkning på båda… Att testa detta skulle på något vis betyda att försöka svara på huruvida biologisk förprogrammering gör det omöjligt att påverka responsen genom att manipulera de ”naturliga” konsekvenserna, eller om organismen skulle svara på en ändring av konsekvenserna med en ändring i beteendet (vilket då skulle vara det som skulle göra att man på nåt vis skulle kunna hävda att även respondenta beteenden är operanta…). Puh!

    • Eva, spännande tanke det där med escape / avoidance och UR/ CR! 🙂 Måste fundera mer på homeostas-konceptet. Spontant var jag mer inne på motivationsreduktion – men de två är ju ibland intill förväxling lika och kanske kan betraktas som synonymer..? Är inte tillräckligt bevandrad i motivationsteori eller för den delen neurofysiologi – det här är ju med största säkerhet rätt välstuderat. Jag tror att man behöver prata med någon neurofysiolog som kan en del om inlärning, tycker själv att litteraturen är svårgenomtränglig, iaf med mina begränsade kunskaper om hjärnans funktion. Kanske nåt för er i Clicker Expo-gruppen! 🙂

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google-foto

Du kommenterar med ditt Google-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s