Partie II : Le néo-béhaviorisme

Objectifs

Concepts clés

1. Les principes du conditionnement opérant

La naissance du béhaviorisme moderne ou néo-béhaviorisme remonte à la publication de l'article de B.F. Skinner intitulé " The science of learning and the art of teaching " (1954) dans lequel l'auteur plaide pour une approche scientifique des processus d'apprentissage. Dans ce travail, l'auteur envisage l'application à l'apprentissage humain d'une méthodologie appelée conditionnement opérant mise au point au cours de nombreuses expériences réalisées sur l'animal.

Pour réaliser ces expériences, l'auteur utilise un dispositif appelé cage de Skinner (figure 1) dans lequel un rat reçoit de la nourriture lorsqu'il appuie sur un levier. Le protocole de base de l'expérience est simple : un rat affamé est placé dans la cage ; le rat explore activement son environnement et actionne, par hasard, le levier qui provoque la présentation de la nourriture. On constate par la suite que le rat appuie de plus en plus fréquemment sur le levier. Après un certain temps, on supprime la présentation de la nourriture et on constate que le rat continue d'appuyer sur le levier.

Figure 1: Cage de Skinner

L'objet de cette procédure consiste à construire de nouvelles conduites (figure 2.1) à travers l'établissement d'un lien entre un stimulus (le levier) et une réponse (la pression sur le levier) grâce à l'intervention d'un agent de renforcement (la nourriture). La conduite est acquise lorsque le lien stimulus-réponse devient autonome c'est-à-dire qu'il se manifeste indépendamment de la présentation de la nourriture (figure 2.2).

Figure 2.1: Etablissement du lien S-R
 
Figure 2.2: Lien S-R autonome

Sur la base du protocole que nous venons de décrire, Skinner s'est donné pour ambition de mettre en évidence les lois qui gouvernent l'apprentissage en se référant uniquement à l'observation du comportement et des conditions qui, dans l'environnement du sujet, ont engendré ce comportement.

L'application de la procédure décrite dans la figure 2 à un grand nombre de situations, a conduit Skinner à définir les principes de base qui régissent l'acquisition d'une nouvelle conduite:

Le conditionnement opérant se distingue du conditionnement répondant (Pavlov) par le fait que l'animal est actif : il doit lui-même, par son activité, obtenir la nourriture qui va permettre la construction du lien entre un stimulus et une réponse. Par contre, dans le conditionnement répondant l'animal répond par une activité de salivation à la nourriture qui lui est présentée.

2. Les variables qui agissent sur l'installation et le maintien d'une conduite

A partir de ces principes de base, Skinner mettra au point différentes procédures de conditionnement permettant d'augmenter la résistance à l'extinction c'est-à-dire de maintenir la conduite plus longtemps après suppression de l'agent de renforcement.

Ainsi, par exemple, une procédure dans laquelle l'agent de renforcement est présenté dans des délais variant de quelques secondes à 6 minutes peut s'avérer très efficace chez l'animal (programme à intervalle variable). Chez l'homme, on a pu constater que pour des apprentissages cognitifs on pouvait prolonger le délai de plusieurs heures voire de plusieurs jours sans que l'apprentissage ne soit perturbé.

Dans le même ordre d'idées, Skinner observe que le fait de ne renforcer que certains des comportements corrects ne perturbe pas la construction de la conduite (on ne donne la nourriture qu'une fois sur deux ou sur trois…). L'application de programmes à renforcement intermittent chez l'homme a connu un grand succès notamment pour développer certaines conduites chez des sujets handicapés mentaux.. Sur cette base se sont développés des systèmes connus sous le terme " économie de jeton " (token economy) qui consistent à fournir au sujet des renforcements dits secondaires sous la forme de jetons qui lui permettront par la suite d'obtenir des friandises, de visionner une cassette vidéo, de se faire raconter une histoire… (renforcement primaire)

Ces procédures basées sur le choix du moment de présentation de l'agent de renforcement sont souvent mises en œuvre en contexte pédagogique. C'est le cas notamment dans les laboratoires de langue où le professeur écoute tour à tour ses étudiants sans que ceux-ci ne connaissent le moment où ils sont écoutés. Dans cette situation, seule une partie des réponses correctes de l'élève sont renforcées (lorsque le professeur les écoute).

Skinner propose également de manipuler directement les agents de renforcement afin de mettre en évidence les éléments qui, à ce niveau, permettent de renforcer la robustesse du lien S-R. Tout d'abord, il distingue entre renforcement positif et renforcement négatif. Un renforcement positif est tel que sa présentation augmente la fréquence d'apparition du comportement. C'est notamment le cas de la présentation de nourriture à un sujet affamé. Le renforcement négatif a pour effet d'augmenter la fréquence d'apparition du comportement lorsqu'il est supprimé. Skinner a, à cet effet, imaginé un dispositif tel que le rat placé dans la cage reçoit une décharge électrique s'il n'a pas fourni la réponse (pression sur le levier) après un certain temps.

L'effet du renforcement positif s'observe couramment en situation de classe : l'élève qui fournit une bonne réponse est félicité par le maître ce qui augmente la fréquence d'apparition de cette réponse. Le renforcement négatif, qu'il ne faut pas confondre avec la présentation d'un feed-back négatif (ta réponse est erronée) qui n'a, selon Skinner, pas d'effet sur l'apprentissage, est plus rarement mis en œuvre. On peut néanmoins en trouver quelques exemples dans la vie quotidienne comme c'est le cas par exemple dans les dispositifs sonores qui rappellent à l'automobiliste qu'il doit attacher sa ceinture avant de démarrer. Ainsi, l'agent de renforcement négatif disparaît lorsque l'automobiliste adopte la conduite adéquate (attacher sa ceinture).

Les renforcements positifs et négatifs constituent des éléments qui ont pour but de renforcer l'apparition des comportements désirés. Par contre, la punition, qui ne doit pas être confondue avec le renforcement négatif, a pour fonction de réduire la fréquence d'apparition des comportement non désirés. La punition est souvent utilisée en contexte scolaire où elle peut prendre des formes telles que : critiquer, tourner en ridicule, déprécier, donner de mauvaises notes ou des travaux supplémentaires à réaliser à domicile. Toutefois, ce type d'interventions ne seront considérés comme une punition du point de vue béhavioriste que si elles conduisent à faire cesser le comportement non désiré.

La possibilité d'utiliser soit des renforcements soit des punitions a fait l'objet de nombreux débats chez les pédagogues. Pour répondre à ces interrogations de nombreuses expériences ont été réalisées qui montrent, qu'à court terme, les deux formes de renforcement sont également efficaces mais que rapidement l'efficacité du renforcement négatif diminue alors que celui du renforcement positif perdure. Dans un premier temps les élèves acceptent d'être réguliers dans leur travail pour éviter les punitions mais par la suite l'effet des punitions s'estompe et le comportement devient de plus en plus difficile à contrôler.

Certaines études ont également mis en évidence que certains programmes de conditionnement pouvaient, tout en étant efficaces, générer chez le sujet humain une forte anxiété. C'est le cas notamment des renforcements négatifs ainsi que des programmes à intervalle variable qui maintiennent le sujet dans un état de tension important.

Il est également possible d'agir sur le comportement en supprimant une source de renforcement qui est naturellement présente dans la situation : on peut corriger le comportement d'un élève qui a pris l'habitude de déranger la classe en amenant les autres élèves à ne plus prêter attention à ses remarques. On supprime ainsi l'apparition de l'agent de renforcement constitué ici par l'attention accordée par les condisciples. Ce phénomène est connu sous le nom d'extinction. Toutefois en pratique l'extinction du comportement par suppression du renforcement est souvent longue à obtenir car il est fréquent qu'un comportement réapparaisse spontanément (recouvrement spontané) sans avoir été renforcé.

Type de stimulus
Mode de présentation
Effet sur le comportement
Dénomination
Positif
Ajout
Renforce
Renforcement positif
Négatif
Retrait
Renforce
Renforcement positif
Négatif
Ajout
Affaibli
Punition
Positif
Retrait
Affaibli
Extinction
Tableau 1: Caractéristiques du renforcement, de la punition et de l'extinction

La généralisation et la discrimination constituent deux principes essentiels qui régissent l'installation d'une conduite par conditionnement.

La généralisation apparaît lorsqu'un sujet fait une réponse particulière à un stimulus particulier et fait ensuite la même réponse à un autre stimulus. Les pigeons de Skinner qui ont été conditionnés à picorer un spot rouge picorent également des spots différents en couleur, en forme et en taille. En principe, plus le stimulus est éloigné du stimulus original, plus la réponse sera faible. La généralisation peut conduire à des effets positifs ou négatifs selon le contexte où elle se produit. Par exemple, l'élève qui a appris à utiliser son dictionnaire au cours de français, et qui l'utilise spontanément au cours d'histoire réalise une généralisation positive. Par contre, l'élève, qui déclare qu'une araignée est un insecte parce qu'il généralise les caractéristiques de l'insecte en incluant des petites bestioles qui comportent huit pattes alors qu'un insecte n'en comporte que six, réalise une généralisation abusive qui s'avérera néfaste à son apprentissage.

Lorsque des généralisations abusives apparaissent, celles-ci peuvent être corrigées par discrimination de manière à amener l'élève à découvrir ce qui distingue les deux situations de manière à leur faire des réponses différentes.

Pour Skinner tout comme pour Thorndike, l'apprentissage se réalise à partir de l'activité du sujet, les conduites les plus adéquates sont ensuite sélectionnées en fonction des résultats obtenus. Par contre, ces auteurs se différencient lorsqu'il s'agit d'établir les éléments qui permettent de construire une nouvelle conduite. Pour Skinner, seule la réponse correcte joue un rôle d'agent de renforcement et contribue à l'acquisition d'une nouvelle conduite alors que, pour Thorndike, l'erreur participe pleinement à l'apprentissage en diminuant la probabilité d'apparition du comportement qui l'a engendré.

Skinner recommande d'organiser l'enseignement en vue de minimiser l'apparition des erreurs dans le cadre d'une méthode qu'il appelle l'apprentissage sans erreur. Pour lui, tout comportement, qu'il soit psychomoteur ou cognitif, peut être acquis de manière efficace en évitant à l'élève de commettre des erreurs.

3. Les machines à enseigner et l'enseignement programmé linéaire

Skinner entrevoit très rapidement l'application à l'homme des principes d'apprentissage mis en évidence chez l'animal. Pour lui, ce qui est commun à l'homme et à l'animal "c'est un univers dans lequel prévalent certaines contingences de renforcement". Cette extrapolation parfois un peu simpliste voire hasardeuse lui a d'ailleurs été souvent reprochée.

Skinner envisage d'abord l'application du conditionnement à l'apprentissage humain dans le cadre de la conception de machines à enseigner. Il s'agit de dispositifs, plus ou moins sophistiqués, qui permettent de mettre en œuvre les principes qu'il a expérimentés avec succès chez l'animal.

Ainsi, un dispositif connu sous le nom de "machine arithmétique" (figure 3 ) permet à Skinner de présenter des exercices d'arithmétique tout en contrôlant strictement l'intervention des contingences de renforcement. L'élève se voit présenter une situation d'apprentissage comportant un exercice qui exige de l'apprenant une réponse construite en manipulant une série de curseurs mis à sa disposition. Une fois la réponse construite, l'élève valide celle-ci en tournant une manivelle qui permettra le passage à la situation suivante et entraînera l'émission d'une sonnerie lorsque la réponse proposée est correcte. Par contre, en cas de réponse erronée, la manivelle reste bloquée et l'élève est invité à recomposer sa réponse pour pouvoir progresser.

Figure 3: Machine arithmétique de Skinner

Pour Skinner, ce dispositif permet de mettre en œuvre les principes du conditionnement opérant:

Par la suite, Skinner envisage la mise au point d'une machine plus simple dans laquelle l'évaluation de la qualité de la réponse est prise en charge par l'élève lui-même (figure 4). Ce dispositif ne comporte pas de clavier, l'élève écrit sa réponse sur un rouleau de papier à travers la fenêtre aménagée à cet effet. Une fois la réponse inscrite, la pression sur le levier entraîne le rouleau de papier et fait glisser la réponse en dessous d'un cache transparent. Parallèlement, dans la fenêtre ayant servi à présenter la situation d'apprentissage, la réponse exacte apparaît de sorte que l'élève puisse évaluer sa réponse en la comparant à la réponse correcte qui lui est proposée.

Figure 4: Machine de Skinner

Bien que le contrôle sur l'apparition des contingences de renforcement soit moins strict que dans la situation précédente (l'élève décide lui-même de l'exactitude de sa réponse), Skinner considère que cette machine permet de mettre en œuvre les principes du conditionnement.

Comparée à une présentation du matériel d'apprentissage sur papier, la machine de Skinner a un rôle assez limité : elle permet d'éviter la tricherie en interdisant à l'élève de recopier simplement la réponse correcte qui lui est proposée puisque, lorsque cette dernière apparaît, la réponse inscrite par l'élève ne peut plus être modifiée (elle est protégée par un cache transparent).

Après avoir constaté que, pour autant qu'ils soient bien informés, les élèves sont peu enclins à tricher, Skinner abandonne progressivement le recours aux machines en faveur d'un support plus souple : les livrets programmés.

Activité 2

Cette activité va vous permettre de suivre quelques pages d'un cours programmé. Le fait de vous être engagé de manière active dans un apprentissage à l'aide d'un cours programmé devrait vous permettre de mieux appréhender les richesses mais aussi les limitations de ce type d'apprentissage.

  1. Téléchargez le document programmé
  2. Suivez les instructions qui s'y trouvent jusqu'au moment où vous parvenez à la fin du document
  3. Répondez aux questions ci-dessous

Question 1: Pensez-vous qu'il soit possible de réaliser n'importe quel type d'apprentissage à l'aide d'un livret programmé ou d'un autre outil d'auto-formation inspiré des principes définis par Skinner ?

  • Apprentissage cognitif de haut ou de bas niveau ?
  • Apprentissage sensori-moteur ?
  • Apprentissage affectif, action sur les attitudes ?

Question 2: Comment envisagez-vous l'utilisation d'un livret programmé en contexte scolaire ? Pour réaliser certains apprentissages, comme outil de remédiation, pour faire progresser davantage les élèves les plus forts… ?

Le court apprentissage que vous venez de réaliser à l'aide d'un livret programmé vous a certainement permis de vous rendre compte du caractère rigide de cette forme d'apprentissage : vous avez été contraint (du moins pour progresser efficacement) de suivre le cours du début jusqu'à la fin en répondant de manière active aux sollicitations qui vous ont été proposées. Pour répondre à ces critiques, Skinner puis d'autres auteurs ont été amenés à assouplir la conception prévue initialement.

Des études ont montré que, à l'exception de quelques apprentissages dans lesquels les aspects psychomoteurs sont importants (l'orthographe d'usage par exemple), la réponse simplement pensée était tout aussi efficace que la réponse construite (écrite). Par contre Skinner a toujours refusé le recours aux questions à choix multiple en s'appuyant sur le fait que le choix d'une réponse parmi plusieurs propositions ne relevait pas du principe d'activité.

Les cours proposés par Skinner sont qualifiés de linéaires en ce sens qu'ils obligent l'apprenant à les parcourir du début jusqu'à la fin sans prendre en compte le fait que certains élèves sont susceptibles de progresser plus rapidement. Cette contrainte associée à l'exigence que l'apprentissage soit réalisé en minimisant la fréquence d'apparition des erreurs (pour qu'un cours soit efficace, Skinner estime que l'élève doit commettre moins de 10% d'erreurs) rend souvent les cours programmés linéaires longs et assez fastidieux à suivre. Pour pallier cet inconvénient, certains chercheurs envisageront diverses procédures afin de permettre de différencier les itinéraires en cours d'apprentissage .

Avant d'envisager d'autres modalités de conception des cours programmés, rappelons un certain nombre de principes issus des travaux de Skinner qui ont eu une influence notoire sur les conceptions pédagogiques en vigueur à l'époque:

4. L'enseignement programmé ramifié

Bien qu'ils ne se réclament pas explicitement du béhaviorisme, les travaux qui ont conduit à définir les principes de l'enseignement programmé ramifié se situent dans le prolongement naturel des cours produits à la suite des travaux de Skinner.

Crowder commence par concevoir, pour répondre aux problèmes qui se posent à lui dans le cadre de sa fonction de formateur à l'US Air Force, une machine connue sous le nom de "Autotutor" (figure 5). Dans un second temps, il envisagera également de recourir à des livrets programmés tout comme l'avait fait Skinner.

En partant d'un point de vue strictement pragmatique, Crowder en arrivera à définir les spécificités d'une machine à enseigner capable:

Figure 5: Machine à enseigner de Crowder

Comparée aux machines de Skinner, le dispositif mis au point par Crowder dispose d'une possibilité supplémentaire : la capacité d'orienter l'élève à l'intérieur du cours en fonction des réponses fournies par l'apprenant. Pour mettre en œuvre cette fonctionnalité, Crowder considère que l'activité de l'élève peut prendre la forme d'une réponse à une question à choix multiples. C'est sur la base de la réponse à une question de ce type que sera prise la décision d'orientation comme nous le schématisons dans la figure 8. Si l'élève répond correctement (b7), le dispositif l'orientera vers une situation d'apprentissage qui tiendra compte de la justesse de sa réponse (figure 6). En cas de réponse erronée, l'orientation de l'élève se fera vers une situation à l'occasion de laquelle l'erreur commise par l'élève fera l'objet d'un redressement (figure 7).

Figure 6: Confirmation de la réponse

Figure 7: Redressement d'erreur

Figure 8: Représentation des cheminements possibles à l'intérieur d'un cours ramifié

Contrairement à Skinner qui fonde son approche sur un travail expérimental considérable, l'apprentissage pour Crowder se résume à un processus de communication dont le contrôle est assuré par l'intermédiaire des réponses fournies par l'élève. Ainsi l'auteur insiste sur le fait que la connaissance des résultats par l'élève n'est qu'accessoire, le but premier de la sollicitation adressée à l'élève est de vérifier si le processus de communication s'est déroulé correctement et de permettre, lorsque celui-ci a échoué, la mise en œuvre des démarches correctrices adaptées.

Crowder ne pense pas qu'il faille construire des programmes dans lesquels l'élève ne commettrait aucune erreur. Pour lui, il est important de laisser à l'apprenant la possibilité de commettre des erreurs non seulement pour lui apprendre à les éviter mais aussi afin de permettre une adaptation des stratégies d'apprentissage aux différences individuelles.

Contrairement à ce qui s'est passé pour l'enseignement programmé linéaire, la programmation des cours ramifiés sous forme de livrets n'a connu qu'un succès fort limité. Par contre les techniques de branchements et le souci d'adapter l'enseignement aux stratégies d'apprentissage individuelles connaîtront un développement considérable avec l'arrivée de l'informatique.

5. Les évolutions du béhaviorisme

Le modèle béhavioriste tel que l'a développé Skinner est souvent qualifié de béhaviorisme radical en ce sens qu'il refuse de prendre en compte dans son explication des comportements humains tout élément qui ne pourrait faire l'objet d'une observation directe. D'autres auteurs tels que Hull ou Guthrie ont adopté par rapport au modèle béhavioriste des positions plus nuancées.

Pour Hull, le comportement humain est placé sous le contrôle de stimuli mais certains de ces stimuli peuvent être internes c'est ce qu'il appellera des variables intermédiaires. La variable intermédiaire est un processus ou un état propre du sujet qui intervient entre le stimulus extérieur et le comportement de l'individu et qui permet de mieux comprendre ce comportement. Au modèle S-R du béhaviorisme radical se substitue un modèle S-VI-R qui permet de prendre en compte certaines variables liées à l'individu. Ces variables concernent des caractéristiques telles que : la force de l'habitude, la motivation…

Guthrie récuse certaines idées centrales du béhaviorisme en affirmant que la répétition n'est pas nécessaire à l'apprentissage (l'apprentissage peut se dérouler en un seul essai selon un processus de tout ou rien) ou encore que "le mécanisme de l'apprentissage se trouve à l'intérieur de l'individu". Par cette dernière affirmation, il adopte une position qui va à l'encontre de l'idée chère aux béhavioristes selon laquelle le comportement est placé sous le contrôle exclusif des stimuli extérieurs.

Hull et Guthrie en prenant en compte dans l'explication du comportement certaines caractéristiques liées à l'individu sont très probablement influencés par le modèle gestaltiste mais annoncent aussi l'approche cognitiviste qui fera une place beaucoup plus grande que chez les béhavioristes, aux caractéristiques internes de l'individu dans l'explication des phénomènes d'apprentissage.


Haut de la page

Partie I du cours