chapitre 3: La méthodologie

Table des matières

Nous sommes intéressés à connaître la contribution relative de chacune des variables à l’étude, en particulier les six caractéristiques personnelles mesurées lors de l’APS, pour prédire le succès initial en enseignement qui est mesuré soit par l’engagement dans l’enseignement après une année de travail soit par la performance aux stages pratiques.

Dans le chapitre qui suit, nous présentons l’échantillon, les variables à l’étude ainsi que les instruments qui ont servi à les mesurer. Puis nous traitons des qualités psychométriques de ces instruments.

La population visée par cette étude est formée par les candidats aux études en enseignement primaire et préscolaire. Ces candidats sont des étudiants des collèges et des universités qui font une demande d’admission à des baccalauréats en enseignement primaire et préscolaire comme, par exemple, le BEPEP de la Faculté des sciences de l’éducation de l’Université Laval. L’échantillon est formé des candidats des deux premières cohortes qui ont été soumises à l’APS en 1995 et en 1996.

Le but du programme BEPEP est de permettre aux futurs maîtres d'être en mesure d'offrir les services éducatifs prévus à l'éducation préscolaire, leur permettre également d'enseigner, au primaire, l'ensemble des disciplines prévues dans le régime pédagogique (excluant les disciplines des spécialités). Le but est de permettre aussi la consolidation des savoirs disciplinaires, dans les disciplines enseignées, ainsi qu'une sensibilisation aux disciplines artistiques (Université Laval, 2002).

En 1995 et en 1996, l’APS impliquait en fait l’observation de 6 caractéristiques personnelles, d’où les 6 variables indépendantes retenues :

  • 1- la gestion de soi;

  • 2- l’ouverture d’esprit, la créativité et la curiosité intellectuelle;

  • 3- le leadership et le sens de l’organisation;

  • 4- le respect des personnes et esprit de collaboration;

  • 5- l’esprit d’analyse, le jugement et le sens de l’éthique;

  • 6- l'habileté de communication verbale et non verbale.

Toutes ces caractéristiques étaient évaluées par trois juges indépendants qui disposaient de 35 minutes (une première période de 20 minutes et une deuxième de 15 minutes) pour attribuer une cote sur 4 points aux candidats. Ces candidats étaient convoqués par groupes de six à neuf personnes qui étaient placées dans une situation qui évoquait le plus près possible une situation d’enseignement.

Par la suite, les juges se réunissaient et attribuaient une cote finale consensuelle, soit un nombre entier pouvant varier de un à quatre, à chacune des six composantes après avoir délibéré sous la présidence d’un des juges. Ainsi, la note maximale attribuée à l’ensemble des six composantes était théoriquement égale à 24.

Cependant, pour les fins de nos analyses, nous avons considéré la moyenne donnée par les trois juges plutôt que la note accordée par le consensus. Le fait d’utiliser la moyenne plutôt que le consensus est recommandé par Zedeck (1986) car il permet entre autre de minimiser un biais potentiel dû aux juges (Desjardins et Bertrand, 1993).

L’annexe 1 présente les catégories ainsi que les comportements associés correspondant à la grille utilisée (présentée avec l’autorisation de la Faculté des sciences de l’éducation).

Lors de la mise en situation simulée (APS), les juges notaient également les candidats selon leur capacité à s’exprimer oralement de façon correcte en langue française sur une échelle de 0 à 10. En fait, pour la cohorte 1995, cette évaluation était trichotomique, les notes pouvant être de 0, 5 ou 10 sur 10. De plus, cette évaluation a été faite par appréciation globale, les juges évaluant le degré de respect des règles de la grammaire, de la syntaxe, le vocabulaire et l’élocution des candidats.

L’annexe 2 présente la grille d’évaluation du français oral. Il s’agit d’un extrait du manuel de l’APS, obtenu de la Faculté des sciences de l’éducation de l’Université Laval. Même si la variable de l’oral n’est pas importante dans le contexte qui nous intéresse, nous avons vérifié l’entente inter-juge pour évaluer l’oral; elle semble élevée en général (Tableau A présenté à l’annexe 2).

Notons que l’APS comptait pour 20 % de la note finale à l’examen d’admission lors de la sélection. La mesure du dossier scolaire était représentée par le rang centile collégial en 1995 et par la cote de rendement collégial en 1996. Cette mesure comptait pour 70 % des points totaux. Par ailleurs, une note d’appréciation globale de la qualité du français oral par les membres du jury comptait pour 10 % des points totaux.

Les consignes données aux juges étaient au nombre de six, et ce, afin de standardiser la procédure et de diminuer au minimum le risque d’erreur de mesure. Les observateurs devaient en particulier respecter au mieux de leurs possibilités, les deux consignes suivantes :

  1. se placer dans la salle à un endroit approprié de manière à pouvoir observer les personnes désignées et suffisamment éloigné pour ne pas déranger ou ajouter au stress des candidates ou candidats;

  2. bien s'assurer d'avoir compris les comportements-types illustrant les catégories à observer, de façon à être réceptif à toutes les informations provenant des personnes observées; ne pas oublier qu’il s’agit d’un examen de sélection, ayant donc pour but de discriminer les candidates et les candidats. Après avoir observé trois groupes de 9 candidats, chaque observatrice ou observateur avait comme consigne d’exploiter toute l’étendue de l’échelle, à savoir de 0 à 4. Lorsqu’on n’a rien pu observer, on doit normalement s’abstenir de noter les candidates ou les candidats. Les candidates et les candidats devraient normalement tous se révéler lors des triades.

Comme nous l’avons vu dans la partie portant sur la revue de la littérature, le succès aux stages pratiques et l’engagement dans l’enseignement sont censés correspondre au succès initial en enseignement.

Cette variable a été retenue car il nous a semblé qu’elle pouvait ajuster la relation entre les variables prédictives et la variable dépendante. Ainsi, nous avons demandé aux nouveaux enseignants faisant partie de l’échantillon de nous indiquer le nombre de jours d’enseignement qu’ils ont pu effectuer depuis avril 1999. Cependant, il s’avère que peu de répondants ont répondu de façon précise à cette question. De plus, cette variable est très faiblement corrélée avec l’une ou l’autre des dimensions de l’engagement dans l’enseignement. Le tableau 3-2 indique les corrélations entre, d’une part, cette variable modératrice et d’autre part l’engagement dans l’enseignement ainsi que les trois dimensions de l’engagement au travail, soit la satisfaction, l’enthousiasme et la persévérance au travail.

p=seuil de signification, n=nombre de sujets

Peu de répondants ont répondu à cet item (72 en tout sur 204). Ces 72 enseignants débutants ont travaillé en moyenne presque 940 heures de juin 1999 à juin 2000 (voir tableau 3-2), ce qui leur fait l’équivalent d’une expérience d’enseignement continu (sept heures par jour) de plus de 6 mois de travail. Étant donné que le nombre de jours enseignés est à peine relié à une dimension de l’engagement au travail, la persévérance au travail, nous n’avons pas retenu cette variable dans l’étude de la validité prédictive de l’APS.

Cela étant, avant de déterminer la valeur prédictive de l’APS, il convient d’étudier la fidélité des mesures des variables à l’étude.

La base de données de cette recherche a été constituée à partir de plusieurs sources différentes. Les données de l’APS, l’oral et le rang centile collégial ont été fournies par le programme du BEPEP de la Faculté des sciences de l’éducation de l’Université Laval. Nous avons ainsi compilé les résultats des cinq cohortes des candidats au BEPEP (cohortes 1995, 1996, 1997, 1998 et 1999) sur des fichiers lisibles. Les résultats aux stages pratiques ont été fournis par le bureau des stages de la Faculté. Après avoir compilé toutes ces données, nous avons vérifié systématiquement toutes les données manquantes. De plus, nous avons vérifié, par un échantillon aléatoire de sujets, si les exportations, d’un fichier à l’autre, avaient été bien effectuées, que ce fussent les fichiers de type File Maker, Excel ou SPSS.

Étudions d’abord la fidélité de l’APS pour les différentes cohortes des candidats qui l’ont passé (en 1995, 1996, 1997 et 1998) car il s’agit du même bassin des juges qui y ont participé.

L’objectif de cette partie de la méthodologie est de répondre à la question de savoir si les données de l’APS sont fiables pour prendre une décision relative au sujet des candidats qui ont passé ce test, plus précisément de savoir si ce dispositif de mesure est suffisamment fiable pour décider quels sont les meilleurs candidats.

Rappelons que chaque candidat était évalué séparément par trois juges et ce sur six critères : la gestion de soi, l’ouverture d’esprit, le leadership, le respect, l’analyse et la communication. Tous ces critères étaient notés sur 4 points.

Pour l’analyse de fidélité de l’APS en 1995, en 1996 et en 1997, nous n’avions pas le détail des notes accordées par chaque jury; nous ne pouvions donc pas estimer le coefficient de généralisabilité relatif moyen comme nous l’avons fait pour la cohorte 1998. Nous avons plutôt calculé les corrélations entre chacun des membres du jury et le consensus final des trois juges.

Le tableau suivant présente les corrélations entre les notes de chacun des juges et le consensus final pour chacune des six composantes de l’APS.

Au départ 984 candidats avaient été convoqués à ce test, mais beaucoup se sont désistés ou bien n’ont pas été sélectionnés car leur rang centile collégial était inférieur à 33 (voir tableau 4-1).

Finalement, la base de données pour la cohorte des candidats 1995 est constituée de 533 sujets.

** p< .001, *** p< .0001

Comme on le voit, les corrélations entre les notes de chacun des juges et la note consensuelle varient de .67 à .82. Toutes les autres corrélations sont non seulement significatives, mais relativement élevées. Cela nous permet donc de croire, qu’en général, les juges s’accordent plutôt bien entre eux pour attribuer une cote aux candidats. Ajoutons à cela que le consensus entre les trois juges a nécessairement pour effet de stabiliser la mesure de cette variable.

Nous avons à nouveau tenté de répondre à la question à savoir si les données de la cohorte de 1998 de l’APS étaient fiables pour prendre une décision relative au sujet des candidats qui ont passé ce test (Alem et Bertrand, 1998 b). Par conséquent, nous sommes intéressé ici à savoir si les données recueillies étaient suffisamment fiables pour sélectionner les meilleurs candidats.

Pour répondre à cette question, nous avons effectué une étude de généralisabilité. La théorie de la généralisabilité repose sur l’hypothèse suivante: si on connaît mieux la part de l’erreur due à chacune des sources (les sujets, les évaluateurs, les dimensions..), on pourrait mieux connaître ce que serait la mesure lorsque l’une ou plusieurs de ces sources d’erreurs sont contrôlées. D’où l’idée de la généralisation : si toutes les sources d’erreurs pouvaient être isolées et contrôlées, on pourrait avoir une vraie mesure (idéale). Resterait à discuter la réalité de l’estimation d’une mesure ainsi épurée (Cardinet et Tourneur, 1985).

Nous avons donc compilé les résultats des 453 candidats qui ont passé le test de l’APS en 1998. Cette année là, chaque candidat était évalué séparément par trois juges et ce, sur quatre dimensions: le leadership, le respect, l’analyse et la communication. Notons que cette même année, le comité d’admission du BEPEP avait décidé de ne retenir que quatre critères au lieu de six. Tous les critères étaient encore notés sur quatre points alors que le français oral était noté sur 10 points. La note finale a été obtenue après discussion et consensus entre les trois membres du jury.

La question posée de façon plus explicite était la suivante: jusqu’à quel point peut-on se fier aux résultats accordés par trois juges, pris dans un échantillon théoriquement infini de juges, qui évaluent des groupes de six, huit, ou neuf sujets pris dans un échantillon théoriquement infini de sujets sur quatre habiletés, pour prendre une décision relative sur ces sujets (choisir les meilleurs) ?

Les seules facettes analysées ici furent celles des candidats, des juges et des dimensions. Le calcul du coefficient de généralisabilité relatif rhô(delta) nous a permis d’estimer jusqu’à quel point nous pouvions nous fier au dispositif utilisé pour sélectionner les meilleurs candidats. Le plan de cette étude de généralisabilité comporte trois parties :

  • la définition du plan d’observation, du plan d’estimation et du plan de mesure;

  • l’analyse de généralisabilité : les résultats;

  • l’interprétation des coefficients de généralisabilité relative obtenus.

La moyenne des coefficients de généralisabilité obtenue est fort respectable puisqu’elle est supérieure au seuil de .80 pour les trois dimensions du leadership (.84), de l’analyse (.80) et de la communication (.86). On peut donc affirmer que le dispositif conduit à une différenciation satisfaisante des candidats dans le cas de ces trois dimensions.

Par contre, pour la dimension “ Respect ”, la valeur moyenne du coefficient est nettement sous le seuil acceptable de .80 puisqu’elle est égale à .65. Cette valeur traduit l’inaptitude du dispositif à produire une différenciation fiable des candidats pour cette dimension. Selon nous, cela peut être dû à la difficulté de classer les candidats sur une dimension aussi complexe, et ce, en un temps aussi court.

L’une des solutions serait de prendre plus de temps entre les jurés pour se mettre d’accord sur les indicateurs plus observables de la manifestation de ce concept. Une autre solution, plus radicale, serait d’éliminer cette dimension de l’analyse.

À quoi pourrait bien être due l’imprécision de la mesure du respect ? La théorie de la généralisabilité peut estimer la part d’erreur de chacune des facettes, en particulier celle des juges ainsi que celle de l’interaction avec les autres facettes.

Une étude en profondeur révélerait probablement la source d’erreur la plus importante et permettrait d’optimiser le dispositif en éliminant ou en réduisant notablement ces effets sur l’estimation du score vrai.

Une observation plus spécifique des données permet d’identifier les jurys et par conséquent les jurés dont la disparité des décisions est la plus grande. Par exemple, pour la dimension du leadership, les trois jurys 18-57-58, 43-12-57 et 43-44-45 sont ceux dont le coefficient de généralisabilité (respectivement .13, .70 et .00) est nettement sous la moyenne du coefficient moyen obtenu (.84). Le jury 13-51-33 est celui qui est arrivé à discriminer le mieux entre les candidats puisqu’il réalise un coefficient de généralisabilité relatif moyen de .99.

Cela signifie que ces jurés sont fidèles dans leur manière de classer les candidats et qu’ils sont en accord entre eux quand ils les classent. De même pour les jurys 55-76-77 et 75-65-66, nous pouvons nous fier à leur classement à plus de 90% et ce pour chacune des quatre dimensions évaluées, en particulier pour la dimension complexe du respect. Cela suggère qu’il est possible d’obtenir une mesure fiable de ce concept.

En conclusion, nous pouvons dire que ces études démontrent en général une fiabilité du dispositif de l’APS tout à fait réelle, mise à part la dimension du respect qui semble plus difficile à mesurer (Alem, Bujold et Bertrand, 1999 a et b).

Cela suggère que l’on puisse désormais se baser sur la moyenne des notes octroyées et non plus sur le consensus pour déterminer la note finale. Pour augmenter la fiabilité des mesures, on aurait avantage à mieux former (ou encore éliminer) les jurés dont les coefficients de généralisabilité relative sont faibles. On pourrait aussi identifier les jurys qui ont le mieux réussi à différencier entre les candidats. Ces juges pourraient alors en former d’autres.

En ce qui concerne la dimension du respect, elle semble poser des difficultés liées vraisemblablement à la complexité du concept; ces mêmes jurés pourraient expliquer aux autres comment ils sont arrivés à classer les candidats sur la dimension du respect et ce, de façon aussi stable. Ils permettraient d’identifier de meilleurs indicateurs ou encore des mises en situation plus efficaces pour rendre plus fidèle la mesure de cette dimension importante des habiletés relationnelles qu’est le respect.

Nous sommes d’autant plus confiant que le dispositif APS est fidèle que nos résultats vont dans le même sens que les conclusions d’autres auteurs quant à la fidélité des juges lors des évaluations des procédures comme l’APS, encore appelées « assessment centers » aux USA (Shechtman, 1992 et 1998). En effet, aussi bien pour des programmes de conseillers en éducation, que pour des programmes de formation d’enseignants ou encore des programmes de formation d’enseignants pour l’armée, cette chercheuse en arrive à la conclusion que les candidats soumis aux centres d’évaluation comme l’APS sont en général évalués de façon fidèle par les juges.

Pour visualiser l’évolution de l’entente inter-juge selon les quatre cohortes des candidats qui ont passé le test APS (1995-1998), nous avons dressé les graphiques présentés aux deux prochaines pages. Ces graphiques ont été obtenus à partir de la base de données présentée à l’annexe 5 (tableau C).

Figure 3-1 : Évolution de la fidélité inter-juge, minimum (en noir), maximum (en gris) et moyenne des corrélations trouvées (en blanc), selon les cohortes pour chacune des composantes de l’APS.

**p<.01

Toutes ces corrélations sont positives et significatives. À la lecture de ces différents graphiques, il apparaît clairement qu’après une légère baisse en 1996, il y a de plus en plus d’entente entre l’évaluation des juges et la note consensuelle finale et ce, pour toutes les caractéristiques personnelles mesurées lors de l’APS, y compris celle du « respect ».

Nous avons estimé la fidélité de la mesure des stages en calculant les corrélations pour chaque item évalué en commun par l’enseignant associé (EA) et par le chargé de formation pratique (CFP).

En 1995, l’évaluation du stage 3 était basée sur neuf items, dont quatre étaient évalués autant par les enseignants associés (EA) que par les chargés de formation pratique (CFP). Ces quatre items sont les suivants : l'item 7 qui correspond à la compétence à gérer les routines de l’organisation didactique pour le stage d'automne et les items 6, 8 et 9 qui correspondent respectivement à la compétence à gérer les routines d’une continuité, la compétence à gérer les routines sociales et les compétences personnelles et professionnelles pour le stage d'hiver.

Le tableau suivant présente les corrélations obtenues entre les notes des enseignants associés et celles des chargés de formation pratique pour chacun des quatre items évalués en commun.

*** p<.001.

Comme on le voit, mis à part l'item 7, les corrélations obtenues sont plutôt satisfaisantes. Nous considérons donc qu’il y a un niveau satisfaisant de fidélité inter juges (EA et CFP) pour le stage pratique de troisième année qui est un stage de gestion de classe.

Pour le dernier stage pratique, celui de responsabilité, nous n’avions pas les détails des notes de la direction d’école, des chargés de formation pratique (CFP) et des enseignants associés (EA) puisque la note était accordée par consensus et qu’aucune trace des évaluations effectuées par chaque juge n’a été conservée. Toutefois, signalons que l’évaluation sommative s’effectuait conjointement par l’enseignante associée (EA), la direction d’école et la chargée de formation pratique (CFP) lors d’une rencontre dans la dernière semaine de stage.

L’évaluation se faisait principalement à partir d’une production spécifique pour chacune des habiletés ou attitudes. À titre d’exemple, pour les habiletés relatives à l’action en classe, les évaluateurs se réfèrent principalement à la dernière semaine de la période intensive de prise en charge de la classe par la stagiaire.

Pour une habileté ou une attitude donnée, l’évaluation sommative se faisait à l’aide d’une échelle de Lickert en cinq catégories : MI= maîtrise insuffisante, FM= faible maîtrise, BM= bonne maîtrise, TBM= très bonne maîtrise et EM= excellente maîtrise. La chargée de formation pratique coordonne cette activité d’évaluation dans laquelle les cotes sont attribuées d’abord individuellement puis par consensus des trois évaluateurs.

Deux coresponsables du stage intervenaient dans ce travail en partenariat. Dans le cas où un consensus ne pouvait être atteint, ils avaient alors la responsabilité d’attribuer la note finale.

Cependant, les trois évaluateurs ne participaient pas systématiquement ensemble à l’évaluation des 5 habiletés ou attitudes évaluées lors du stage pratique de quatrième année.

Le prochain tableau présente les évaluateurs qui ont participé à l’évaluation des habiletés ou attitudes du stage 4 ainsi que l’importance relative de ces habiletés ou attitudes.

(tiré de : Université Laval, Faculté des sciences de l’éducation, Bureau des stages d’enseignement, 1998).

Comme on le voit au tableau ci-dessus, seule la première habileté était évaluée par un seul évaluateur : l’enseignant associé. Il s’agit de l’habileté relative à la préparation qui correspond à la conception, la planification et l’organisation de l’enseignement de façon pertinente et efficace. Chacune des quatre autres habiletés ou attitudes était évaluée par au moins deux évaluateurs qui, après consensus, accordaient la note finale au stagiaire.

Voyons maintenant les résultats de l’étude de consistance interne de la mesure de l’engagement au travail utilisée comme un des deux critères pour représenter le succès en enseignement.

Nous avons réussi à récupérer 147 questionnaires sur les 205 distribués aux enseignants qui ont gradué du BÉPEP en avril 1999 (Alem, Bertrand et Bujold, 2000 et 2001). Il s’agit de la première cohorte qui a subi le test APS en 1995. Nous avons estimé la consistance interne de cette mesure en calculant le coefficient alpha de Cronbach à partir de 20 puis de 18 items sur la base des données recueillies auprès des 147 sujets qui ont répondu au questionnaire. Le tableau suivant présente les résultats de cette analyse.

N = 134, nombre d’items = 20, alpha = .81

*Notons que toutes les statistiques ont été calculées sans l’item.

Remarquons que les items 5 et 20 corrélaient très faiblement avec le total corrigé. Rappelons que l’item 5 était formulé comme suit : « Je me rends généralement tôt au travail pour tout préparer à temps ». Quant à l’item 20, il était formulé comme suit : « Je voudrais parfois me frapper pour avoir commis des erreurs à mon travail ». Ces deux items ne touchaient donc qu’en périphérie le concept mesuré.

Le tableau 3-11 indique les fréquences de réponses associées à ces items déviants, aussi bien pour les 147 enseignants au primaire que pour l’échantillon des 130 enseignants associés.

Plus de 65% des répondants ont endossé l’item 5 en choisissant en masse le quatrième ou le troisième choix de réponse, et ce aussi bien pour les 147 sujets de notre étude que pour les 130 sujets de notre pré-enquête. Nous interprétons cela comme une limite dans la formulation de cet item car, de toute façon, les enseignants sont tenus de se rendre à l’école avant le début des cours, ne serait-ce que pour préparer la classe.

Quant à l’item 20, il a été endossé par moins de 15% des répondants et ce pour les deux échantillons. Cela pourrait être dû à la formulation de cet item, laquelle a probablement entraîné un effet d’évitement puisqu’il demandait aux sujets s’ils avaient déjà voulu se frapper pour avoir commis des erreurs dans leur travail. Cela pouvait leur sembler invraisemblable.

Par ailleurs, soulignons que cet instrument n’a pas été conçu spécifiquement pour des populations d’enseignants.

En supprimant les items 5 et 20 des données pour l’analyse, le coefficient alpha devient égal à .83, coefficient que nous jugeons satisfaisant.

De plus, lors d’une analyse effectuée précédemment sur un échantillon de 130 enseignants au primaire ou au préscolaire, ces deux items étaient ceux dont la corrélation avec le total corrigé était la plus faible, et ils étaient aussi les items dont l’élimination faisait augmenter le plus le coefficient alpha.

Nous avons donc retenu les 18 autres items du questionnaire pour mesurer le degré d’engagement dans la profession enseignante. En effet, avec un coefficient de .83, il nous semble que la mesure est suffisamment fidèle pour poursuivre les analyses.

Pour déterminer les dimensions de l’engagement dans l’enseignement, nous avons choisi comme méthode d’analyse factorielle celle des facteurs communs et spécifiques, suivie d’une rotation ``varimax``. Notons que le seuil pour conserver les saturations est .30.

Les tableaux 3-12 et 3-13 présentent les résultats de l’analyse. Signalons que les définitions des facteurs obtenus ont été validées par un consensus avec notre codirecteur de recherche.

Le pourcentage de variance expliquée par chaque dimension est présenté au tableau 3-12. Le tableau 3-13 présente les coefficients de saturation obtenus par l'analyse factorielle en facteurs communs et spécifiques avec rotation varimax des 18 items par ordre d’importance.

Enfin, le graphique des valeurs propres (figure 3-2) indique l’importance relative des dimensions de ce concept.

Il apparaît que 34% de la variance de l’engagement dans l’enseignement peut être expliqué par les trois dimensions retenues, chacune expliquant respectivement 12.7%, 11.7% et 9.7% de la variance totale de l’engagement. Le tableau suivant indique la structure factorielle de la mesure de l’engagement dans l’enseignement ainsi que les trois dimensions émergentes de ce concept.

Les saturations (loadings) inférieures à 0.30 n’apparaissent pas dans le tableau

La première dimension de l’engagement au travail est définie par les items 3, 6, 11, 10, 18 et 14; la deuxième dimension l’est par les items 13, 19, 17, 16, 14, 18, 4 et 12 tandis que la troisième dimension est représentée par les items 15, 8, 1, 9, 2, 7 et 18.

Après avoir consulté un expert dans l’engagement dans l’enseignement (le codirecteur de cette recherche) et avoir analysé le contenu des items, nous avons identifié ces trois dimensions comme étant respectivement la satisfaction au travail, l’enthousiasme au travail et la persévérance au travail. Nous sommes d’autant plus confiant que ce sont bien ces items qui définissent ces dimensions que les résultats de l’analyse factorielle sur un autre échantillon de sujets, les 130 enseignants associés, donnent des résultats très similaires (voir tableau 3-14). De plus, nous retrouvons deux des dimensions du modèle de Dubé (1994), soit l’enthousiasme au travail et la persévérance au travail.

Figure 3- 2 : Le graphique des éboulis correspondant à l’analyse factorielle en facteurs communs et spécifiques avec rotation varimax des 18 items du questionnaire traduit et adapté de Loadahl et Kejner (1965) qui mesure l’engagement dans l’enseignement.

Le graphique des valeurs propres (figure 3-2) confirme que les trois premières dimensions sont suffisantes pour avoir une compréhension claire du concept d’engagement dans le travail. En effet, on peut voir qu’après la troisième dimension, la pente de la courbe devient pratiquement nulle.

Pour mesurer l’engagement au travail, nous avons utilisé la version francophone du questionnaire de Loadahl et Kejner (1965). Nous voulions étudier la structure factorielle à partir de deux échantillons de sujets : les 130 chargés de formation pratique (CFP) et les 205 stagiaires en enseignement qui ont gradué en 1999. Le tableau suivant présente les structures factorielles après rotation varimax de ces deux échantillons.

Les saturations (loadings) inférieures à 0.30 n’apparaissent pas dans le tableau

La méthode d’extraction est la factorisation en axes principaux. Pour montrer les ressemblances entre les deux structures, les saturations inférieures à 0.30 n’apparaissent pas dans le tableau. Les deux structures montrent certaines ressemblances, du moins en termes de nombre de facteurs. Signalons qu’après avoir enlevé les deux items déviants (item 5 et 20), la consistance interne pour les deux groupes de sujets était de .75 pour les CFP et de .83 pour les stagiaires.

Pour nous assurer que les structures factorielles des deux groupes de comparaison étaient bien comparables, nous avons calculé la corrélation de Pearson entre l’ensemble des saturations des trois dimensions pour les CFP et pour les enseignants (voir annexe 4). Le coefficient obtenu est de r=.73, (n=54). Même si cette valeur semble élevée, elle est tout de même sous la valeur critique suggérée par Van de Vijver et Leung (1997, p. 92) qui rapportent des valeurs de l’ordre de .90 (Van de Vijver er Portinga, 1994) ou de .85 et plus (Ten Berge, 1986).

Pour déterminer la contribution relative de la mesure des caractéristiques personnelles telles que mesurées dans l’APS pour prédire le succès initial en enseignement nous avons utilisé l’analyse de régression linéaire séquentielle (ou pas à pas). Cette méthode d’analyse est basée sur la même approche qu’avait utilisée Shechtman (1993) :

« Finally, we compared the GA (i.e. group assessment, i.e. APS) ratings to existing admission criteria (IS and MS, i.e. dossier scolaire) with regard to the degree to which each matched the measure of initial teaching success (PTS, i.e. stage pratique). We performed a stepwise multiple regression analysis on PTS, in which step 1 included IS and MS and step 2 added the OR (overal rating; i.e. un score global de l’APS) dimension of the group procedure. Results indicate non-significant correlations following step 1 (R2=.00; F(2,218)=.94; p=NS) and highly significant correlations after step 2 (R2=.68; F=(3,217)=1.64;p<.001). Thus, the Group Assessment is a much more effective measure of initial teaching success. The comparison with IS is somewhat problematic because this measure was used as an admission criterion previous to our study, creating a range restriction problem. However, we had the opportunity to examine a group of 39 students accepted to the program in spite of their failure to pass the intelligence test. A comparison between them and the rest of the study population indicated no significant difference in PTS (X2(2)=2.13; p=NS.” (Shechtman, 1993, p.133).

Cette chercheuse avait utilisé la méthode d’analyse de régression multiple pas à pas en plusieurs blocs, le premier bloc contenant les variables indépendantes classiques, soit la mesure du dossier scolaire, alors que le deuxième bloc contenait les variables de son APS. Nous avons procédé de la même façon.

Ainsi, la contribution additionnelle de l’une ou l’autre des six variables de l’APS est déterminée lors de la deuxième étape, en tenant compte de la variable du dossier scolaire et en introduisant les variables de l’APS dans le deuxième bloc (avec comme méthode de régression pas à pas cette fois-ci).

Nous avons donc comparé les proportions de variance expliquée avec et sans les six caractéristiques personnelles de l’APS comme variables indépendantes dans les différents modèles de régression pour les trois variables dépendantes (le stage pratique 3, le stage pratique 4 et l’engagement dans l’enseignement).

Le test pour comparer les coefficients de détermination obtenus avec et sans les composantes de l’APS est défini dans Pedhazur (1982, p. 62). Il s’agit d’un test F dont la valeur peut être comparée aux valeurs de la table statistique F pour décider si les différences entre les pourcentages de variance expliquée (obtenues avec les coefficients de détermination) sont significatives ou non.

La méthode de régression linéaire pas à pas permet non seulement de déterminer la contribution relative de chacune des variables indépendantes à la prédiction de chacune des variables dépendantes, mais aussi d’effectuer une étude de régression suivant une approche hiérarchique (souvent appelée  stepwise en anglais). L’approche vise simplement à créer, étape par étape, l’équation de régression en y ajoutant une à la fois les variables indépendantes.

Cette méthode permet de cerner la contribution additionnelle de chaque variable à la prédiction. L’ordre d’entrée des variables dans l’équation repose soit sur une heuristique selon laquelle les meilleurs prédicteurs (c’est-à-dire les variables indépendantes dont la corrélation simple avec la variable dépendante est la plus forte) sont entrés en premier ou suivant l’ordre établi par le chercheur.

Ainsi, à chaque étape de l’analyse, il est possible de déterminer l’amélioration de la prédiction qu’entraîne l’ajout au modèle d’une variable indépendante déterminée (Vallerand et Hess, 2000, p. 392).

Pour comparer la contribution relative des variables indépendantes à la prédiction de chaque variable dépendante, nous avons utilisé les coefficients de régression standardisés appelés parfois coefficients bêta et désignés par la lettre grecque β.

Enfin, nous avons systématiquement calculé le Cp de Mallows pour chaque modèle de régression. Le Cp de Mallows est une statistique qui estime l’erreur d’échantillonnage et le biais statistique, ce qui permet de se fier ou non au modèle de régression obtenu (Neter, Wasserman et Kutner, 1990) :

«« This criterion is concerned with the total mean squared error of the n fitted values for each subset regression model. The mean squared error involves a bias component and a random error component. ... Thus, when the Cp values for all possible regression models are plotted against p, those models with little bias tend to fall near the line Cp=p. Models with substantial bias will tend to fall considerably above this line. Cp values below the line Cp=p are interpreted as showing no bias; that is, they are below the line due to sampling error”. (Neter et al., 1990, p. 447).»

Ce chapitre sur la méthodologie nous a permis d’étudier les caractéristiques psychométriques de nos mesures. Le chapitre suivant permettra de déterminer la valeur prédictive de l’APS à l’aide de la méthode de la régression linéaire multiple.