Mesure de la qualité des systèmes éducatifs des pays de l'OCDE
François-Marie
GERARD
En 1990, la Déclaration mondiale sur l’Éducation pour tous adoptée à Jomtien (Thaïlande), sous l’égide de l’UNESCO, soulignait la nécessité de fournir à tous les enfants, à tous les jeunes et à tous les adultes une éducation qui réponde à leurs besoins et qui soit pertinente pour leur vie. Cette déclaration ouvrait la voie au concept de qualité conforme à des critères fondés sur des besoins. Elle permettra de redéfinir l’objectif de nombreux systèmes éducatifs en faisant en sorte que les compétences, les connaissances, les valeurs et les attitudes, que l’enseignement et l’apprentissage encouragent, reflètent et prennent en compte les besoins et les attentes des personnes, des pays, de la population mondiale et du monde du travail aujourd’hui. Il s’en suit que la qualité des systèmes éducatifs est une exigence fondamentale. Il reste que ce concept n’est pas encore clairement défini et que la question de l’évaluation de cette qualité reste ouverte. Plusieurs auteurs se sont efforcés de délimiter ce que recouvrent la qualité de l’éducation et son évaluation (note 1 ). De ces travaux, il ressort que la qualité d’un système éducatif est un concept polysémique. Son évaluation doit donc prendre en compte plusieurs facettes. C’est d’ailleurs le cas d’autres phénomènes mesurés dans les décennies récentes [développement humain (ONU) ; compétitivité économique (World Economic Forum, WEF) ; « vivre-mieux » (OCDE)]. À cette polysémie du concept s’ajoute – dans le cas de la qualité – une difficulté supplémentaire : comment quantifier une mesure de la qualité qui, par nature, est qualitative ? Tout cela explique qu’à ce jour, il n’existe aucune mesure validée de la qualité des systèmes éducatifs. Jusqu’à présent, cette qualité a principalement été mesurée par le niveau de performance des élèves. Or, dans les tests, tant nationaux qu’internationaux, comme PIRLS, TIMSS ou PISA, la variable latente n’est ni les performances des élèves, ni la qualité des systèmes éducatifs des pays (principalement pour ce qui nous concerne ici des pays de l’OCDE), mais le niveau de connaissances et de compétences des élèves. L’écart méthodologique, entre l’objectif visant à mesurer la qualité des systèmes éducatifs et l’usage qui est fait des tests passés par les élèves, est donc considérable et les erreurs d’interprétation qui s’en suivent dans les classements peuvent être d’un degré très élevé. Notre problématique – initiée au sein du Séminaire international « École et République » qui s’est tenu au Collège des Bernardins (Paris), de 2014 à 2016 (Hugonnier & Serrano, 2017) – était ainsi de développer un indicateur dont l’objet était de mesurer réellement la qualité des systèmes éducatifs des pays de l’OCDE. 1. Les critères d’évaluation de la qualité des systèmes éducatifsMesurer la qualité d’un système éducatif nécessite de disposer d’informations sur un nombre très élevé de facteurs : la qualité des moyens (économiques, financiers, culturels, humains) qui font fonctionner le système ; mais aussi la qualité de la formations des enseignants et la qualité de leur engagement (par exemple, leur conscience professionnelle) ; l’origine sociale des élèves et des parents, la motivation des élèves, le soutien des élèves par leurs parents pour les devoirs à la maison ; la qualité de l’enseignement (qualité des programmes et de leur équilibre, des rythmes scolaires, des didactiques, des pédagogies, des relations élèves-enseignants, du climat scolaire) ; la qualité des résultats en termes de pourcentage de réussite, de taux d’échec et d’abandon, de niveau de performances ; les niveaux d’efficience et d’équité ; enfin la qualité du contexte scolaire (situation sanitaire, l’environnement socio-économique, les conditions culturelles, l’autonomie des établissements)(note 2 ). Cependant, réunir des informations statistiques fiables et comparables portant sur tous ces facteurs et pour l’ensemble des 35 pays de l’OCDE est strictement impossible à l’heure actuelle. En conséquence, pour structurer nos travaux, nous nous sommes dirigés vers le modèle en « E » proposé par Gerard (2001, 2015), largement inspiré par les travaux antérieurs, dont Sall et De Ketele (1997). « E » comme enseignement, évaluation, éducation, élève, enseignant, mais aussi envie, expérience, éthique, échec, énergie, empathie, éveil, entrave, élitisme, économie, encourager, exigence, être, examen, erreur, émotion, enthousiasme, école, esprit, excellence, émerveillement, emploi, émancipation, entrepreunariat, évolution… Tous des éléments qui, d’une manière ou d’une autre, contribuent à la qualité d’un système éducatif. Figure 1 - Modèle en E pour l'évaluation de la qualité des systèmes éducatifs Ce modèle en E, présenté en Figure 1 , permet d’organiser les critères constitutifs de la qualité d’un système éducatif autour de différents axes :
À partir de ces axes, cinq critères d’évaluation de la qualité peuvent être identifiés, en lien avec quatre dimensions : l’efficacité (dimension économique), l’efficience (dimension économique), l’équité (dimension sociale), l’équilibre (dimension pédagogique) et l’engagement des acteurs (dimension conative). Les critères retenus pour mesurer la qualité des systèmes éducatifs à travers l’indicateur synthétique de qualité (ISQ) rencontrent ce modèle, mais leur choix est cependant restreint par les statistiques permettant de procéder à l’évaluation puisque ces statistiques doivent être non seulement disponibles pour les 35 pays de l’OCDE, mais aussi fiables et comparables, y compris de manière diachronique. Ainsi, l’équilibre – critère essentiel pour évaluer la qualité d’un système éducatif dans la mesure où il est le seul qui porte spécifiquement sur la dimension pédagogique, au cœur des systèmes éducatifs – n’a pas été retenu dans ce cadre, car il n’existe actuellement pas de statistiques qui permettraient de le mesurer. Nous ne désespérons pas de pouvoir le faire, comme c’est d’ailleurs le cas actuellement dans une application de la démarche de l’indicateur synthétique de qualité aux systèmes éducatifs des cantons suisses (Varin, 2018). Les cinq critères retenus dans la présente recherche sont dès lors les suivants (Gerard, Hugonnier & Varin, 2017) :
2. Les statistiques utilisées pour évaluer les critèresPour évaluer chacun de ces critères et les mesurer par un score, nous avons identifié les statistiques qui paraissaient les plus pertinentes. La première application de la démarche ISQ a porté sur les données issues de l’enquête PISA 2012, enrichies d’informations contenues dans Regards sur l’éducation (2013), également publiés par l’OCDE. Six statistiques ont été identifiées pour chacun des cinq critères, soit au total trente. Lors de la deuxième application, portant sur les données PISA 2015, nous avons constaté l’impossibilité de continuer à travailler avec ces trente statistiques, certaines d’entre elles n’étant plus disponibles. Le choix s’est donc limité à un total de 15 statistiques, à raison de trois statistiques pour chacun des cinq critères, non sans nous être assurés que ce passage de 30 à 15 statistiques ne changeait pas fondamentalement les résultats. Le calcul de l’ISQ nécessite la standardisation des données, car toutes ne se présentent pas sous un format identique. Même si les valeurs aberrantes sont peu nombreuses, les distributions des données auxquelles nous avons à faire sont asymétriques et présentent souvent de longues queues. Dans de tels cas, il convient d’utiliser des estimateurs robustes et efficaces (note 3 ). Pour standardiser les données, nous avons dès lors opté, comme indice de tendance centrale, pour le Hodges-Lehmann (HL) estimateur qui est efficace à 95% et assez robuste, car il tolère 29% de valeurs aberrantes avant d’être inefficace. Comme indice de dispersion des données, nous avons eu recours au ScaleTau2 estimateur (Robust Tau-estimate of scale) qui est très efficace à 95% et robuste à 50% (note 4 ). Le score de chaque critère est obtenu en faisant la moyenne des 3 statistiques qui le composent. L’indicateur synthétique de qualité (ISQ) correspond à la moyenne des cinq scores finaux des critères. Chaque statistique a donc le même poids dans l’évaluation des critères. Ceux-ci sont également équipondérés. C’est un choix, relevant d’une certaine subjectivité inhérente à toute évaluation (Gerard, 2017). Techniquement parlant, il serait évidemment très facile de décider d’un autre choix, en donnant plus de poids à l’un ou l’autre critère, voire à l’une ou l’autre statistique. La question essentielle serait alors la pertinence de cette pondération différenciée. Si l’OCDE décidait d’utiliser l’ISQ, la décision quant à cette pondération serait évidemment du ressort de l’ensemble des pays membres de l’OCDE. 3. Résultats et utilisation de l’ISQL’indicateur synthétique de qualité débouche sur une évaluation chiffrée de la qualité des systèmes éducatifs des 35 pays de l’OCDE. Il permet d’établir un classement de ces 35 pays. Nous pensons que celui-ci n’est pas le plus important. De nombreuses critiques ont été adressées quant à la pertinence, la validité et la fiabilité des classements présentés par les enquêtes internationales (Champollion & Barthes, 2012 ; De Ketele, 2006 ; Roegiers, 2012). Les classements des pays n’apportent pas réellement d’information pertinente pour l’action, et ils risquent d’entraîner une course à la première place aussi vaine qu’inutile. En effet, tous les tests internationaux (PISA, PIRLS, TIMMS…) classent les pays suivant les scores des élèves. Les pays les moins bien placés s’intéressent dès lors aux politiques des pays les mieux classés pour éventuellement tenter de les dupliquer alors même que les contextes sont fondamentalement différents. Au lieu de se limiter à faire de tels classements, l’indicateur synthétique de qualité développé ici propose trois nouvelles approches permettant une analyse politique de la qualité des systèmes éducatifs des pays de l’OCDE nettement plus constructive. 3.1. Première approche : une catégorisation de la qualité des systèmes éducatifsAfin de permettre aux pays d’apprécier la qualité de leur système éducatif (note 5 ) et sans mettre en avant le classement de cette qualité que permet la valeur de l’ISQ, on pourrait se baser sur lui pour créer des catégories hiérarchisées correspondant à des niveaux de qualité. Une telle catégorisation pose cependant des difficultés pour déterminer les frontières entre chaque catégorie, surtout si on prend en compte les marges d’erreur (note 6 ). Cependant, l’ISQ est composé de 5 critères dont l’indice de tendance centrale (HL estimateur) est à chaque fois de 500 points. La qualité des systèmes éducatifs pourrait dès lors être évaluée suivant le nombre de critères égaux ou supérieurs à ce score de 500. On pourrait ainsi considérer que les pays qui ont 5 critères égaux ou supérieurs à 500 ont une haute qualité de leur système éducatif, alors que ceux qui en ont 4 seraient de très bonne qualité, 3 de bonne qualité, 2 de qualité moyenne et 1 ou 0 de qualité insuffisante. Dans le Tableau 1 , les critères n’atteignant pas 500 sont indiqués en gras. Tableau 1 - Scores des 35 pays de l'OCDE pour chaque critère et l'ISQ
Cette méthode présente une limite évidente qui est celle de considérer comme équivalent un pays dont les 5 critères auraient des scores proches de 600 et un autre dont les scores seraient égaux à 500 de même que de considérer comme étant dans des catégories différentes des pays ayant des scores juste supérieurs à 500 et d’autres avec des scores juste inférieurs à 500. Après plusieurs essais d’autres catégorisations non convainquantes, nous avons combiné les deux entrées : l’ISQ et le nombre de critères égaux ou supérieurs à 500. Le graphique (Figure 2 ) présente le croisement de ces deux entrées et permet de dégager six catégories : Figure 2 - Croisement de l'ISQ et du nombre de critères ≥ 500 Ces 6 catégories correspondent à différents niveaux de qualité des systèmes éducatifs. Ceux-ci peuvent dès lors être positionnés sur le continuum suivant (Figure 3 ) :
Figure 3 - Niveaux de qualité des systèmes éducatifs Cette catégorisation permet d’indiquer aux pays qu’au regard des cinq critères utilisés, on peut qualifier la qualité de leur système éducatif dans la mesure où les pays qui ont les plus forts engagements de leurs élèves et de leurs enseignants et présentent des systèmes éducatifs qui ont l’efficacité, l’efficience et l’équité les plus élevées, sont à notre sens, par construction, ceux qui disposent des meilleurs systèmes éducatifs. Même si ce type de catégorisation est imparfait et ne permet sans doute pas de rendre compte de la qualité réelle des systèmes éducatifs, il invite cependant les pays concernés à se poser des questions et à prendre d’éventuelles mesures non pas pour améliorer leur classement, mais pour améliorer la qualité de leur(s) système(s) éducatif(s). C’est précisément l’objet de la seconde approche. 3.2. Deuxième approche : l’appréciation de chaque critèreL’indicateur synthétique de qualité (ISQ) apporte à chaque pays de l’OCDE des informations précieuses : le niveau d’engagement des élèves et celui des enseignants est-il plus ou moins haut ou bas, d’une part, et qu’en est-il de celui de l’efficacité, de l’efficience et de l’équité de leur système éducatif, de l’autre ? En d’autres termes, l’ISQ permet à chaque pays de déterminer ses forces et ses faiblesses propres. À partir de leur analyse, chaque pays peut donc :
Il en résultera vraisemblablement des politiques bien plus efficaces, car s’adressant aux problèmes spécifiques du pays, que celle consistant à s’inspirer des mesures prises par les pays qui se trouvent en haut du classement. Chaque pays pourrait ainsi être analysé par un graphique « radar », comme le montre la Figure 4 reprenant les scores par critère de l’Islande et du Danemark qui ont un ISQ équivalent (note 7 ). Figure 4 - Forces et faiblesses de l'Islande et du Danemark On voit que l’Islande (en rouge) devrait améliorer l’efficacité et l’efficience de son système éducatif (critères qui sont tout deux inférieurs à la moyenne), et capitaliser sur ses forces qui sont un engagement des élèves très supérieur à la moyenne, sur une bonne équité et sur un engagement des enseignants qui sont dans la moyenne. De son côté, le système éducatif du Danemark (en vert) présente des forces avec une efficacité et une équité supérieures à la moyenne, mais aussi un engagement des élèves et une efficience dans la moyenne, et une faiblesse avec l’engagement de ses enseignants. Les améliorations que pourrait apporter chacun de ces pays pour améliorer la qualité de leur système éducatif et les points positifs sur lesquels ils pourraient s’appuyer sont donc très différents, bien au-delà d’un simple score basé sur les performances de leurs élèves. L’analyse différenciée peut encore aller plus loin. Chaque critère est composé, dans cette deuxième application de l’ISQ, de trois statistiques. Ce sont donc trois informations supplémentaires dont disposent les pays pour distinguer, au sein de chaque critère, quelles sont, à chaque fois, les forces et les faiblesses sur lesquelles ils peuvent, à nouveau, agir. Par exemple, si le score d’engagement des élèves du Danemark est juste en dessous de la moyenne (484), les résultats pour chacune des statistiques qui le constituent sont très différenciés :
Si le Danemark souhaite améliorer la qualité de son système éducatif, il pourrait donc s’appuyer sur une assiduité importante de ses étudiants (en s’interrogeant sur ce qui l’explique), mais devrait se poser des questions en ce qui concerne des éléments plus « affectifs » liés à la dimension conative de ses étudiants. Par contre, l’Islande a un score d’engagement de ses élèves équivalent (488), mais réparti d’une manière très différente :
Les actions à mener par le Danemark ou l’Islande pour améliorer la qualité de leur système éducatif au plan de l’engagement des élèves devraient donc être très différentes. Ce type de constat est bien éloigné des conclusions qui pourraient être tirées d’un simple classement des pays en fonction des performances des élèves dans les trois disciplines étudiées par PISA. 3.3. Troisième approche : les corrélations entre critèresLes cinq critères peuvent être considérés comme des instruments politiques puisque – au-delà de leur mesure – chacun peut être une perspective d’action pour contribuer à l’augmentation de la qualité du système éducatif. Même si les statistiques sur lesquelles ils se basent correspondent à des mesures indépendantes l’une de l’autre, ces critères sont – dans la réalité complexe qu’est un système éducatif – naturellement interdépendants, de sorte qu’agir sur l’un peut entraîner un impact sur d’autres. Le Tableau 2 fournit cette information (plus le chiffre est proche de 1, plus cet impact est élevé). Tableau 2 - Matrice des corrélations croisées (Kendal-tau (note 9 ) et MIC (note 10 )) (note 11 )
Une lecture des corrélations deux à deux telles que présentées dans le Tableau 2 fournit les informations suivantes (note 12 ) :
La conclusion qui se dégage est que deux instruments politiques semblent à privilégier : l’équité d’abord et l’efficacité ensuite. L’équité est en effet le seul des cinq instruments politiques qui conduit à des accroissements des 4 autres instruments ou vice versa (on remarque que la somme de leurs coefficients d’interdépendance est respectivement de 1,09 et de 1,16 ce qui est bien supérieur à la situation des trois autres outils). L’équité conduit directement à une augmentation marquante de l’efficacité et de l’efficience ou vice versa, mais aussi de l’engagement des élèves et de celui des enseignants ou vice versa. C’est donc par essence le premier outil à utiliser. L’efficacité peut être également considérée, avec un effet positif sur l’efficience, sur l’engagement des élèves et sur l’équité ou vice versa. Ces constats confirment l’intuition défendue par Lessard et Meirieu (2004) que la norme ultime du pilotage réussi d’un système éducatif restera toujours l’efficacité en termes de performances des élèves ainsi que l’équité pédagogique. Ajoutons que les analyses réalisées permettent de montrer
ConclusionLa mesure de la qualité des systèmes éducatifs est et restera un défi permanent tant le concept est, comme on l’a vu, polysémique et par nature difficilement quantifiable. Les résultats de la recherche donnée ici doivent donc être poursuivis et ce d’autant plus que l’ISQ présente certaines limites : par manque de données, certains facteurs que nous jugeons essentiels (comme par exemple, la qualité de la formation des enseignants, l’origine sociale des élèves, le soutien des parents, l’équilibre des programmes) ne sont pas analysés. La qualité du processus et du contexte scolaires n’est pas non plus mesurée. La qualité est mesurée en fin de parcours et certains pourraient faire valoir qu’il conviendrait de la mesurer à chaque palier (la maternelle, le primaire, le collège, le lycée). Enfin, question d’importance, l’ISQ pourrait-il valoir pour tous les pays dans le monde ? Force est cependant de reconnaître que l’indicateur synthétique de qualité (ISQ), qui a été présenté dans ces lignes, apporte une contribution importante à la recherche, même si la démarche doit encore être améliorée. D’un point de vue méthodologique, ce travail met, en effet, en avant :
D’un point de vue des politiques d’éducation, la recherche fournit pour chaque pays des informations innovantes à trois niveaux :
Bibliographie Behrens, M. (Éd.). (2007). La Qualité en éducation. Pour réfléchir à la formation de demain. Québec : Presses de l'Université du Québec, collection Éducation-Recherche. (4) La standardisation effectuée transforme donc les données en soustrayant à chaque valeur le HL estimateur et en la divisant par le ScaleTau2 estimateur. Les scores standardisés sont ensuite retransformés de telle sorte que l’indice de tendance centrale (HL estimateur) soit égal à 500 et celui de dispersion (ScaleTau2 estimateur) égal à 100. (5) Les analyses réalisées globalisent chaque fois ici les données des pays, alors même que ceux-ci ont parfois des systèmes éducatifs régionalisés, par exemple en Allemagne, en Belgique, en Suisse…
(6) Une limite inhérente à toute étude basée sur l’établissement d’une mesure à partir de données échantillonnées est liée à la marge d’erreur. Dans le cas du PISA, cette marge d’erreur est relativement minime étant donné les procédures très rigoureuses d’échantillonnage et la taille importante des échantillons nationaux. Dans PISA 2015, pour les 35 pays de l’OCDE, la taille moyenne des échantillons est de 7104 élèves par pays (OCDE, 2016, p. 306). La marge d’erreur à 95% de confiance est dès lors de 2 ou 3 points par résultat sur l’échelle PISA. L’ISQ étant lui-même une moyenne de moyennes, ces marges d’erreur peuvent se cumuler, tout en restant relativement réduites. Il n’empêche que ces marges d’erreur existent et invitent toujours à être prudent dans l’analyse des résultats et dans les conclusions qui peuvent en être tirées. (7) Si nous présentons ici deux pays dans le même graphique, c’est avant tout à des fins heuristiques. Dans la pratique et en cohérence avec la démarche, nous pensons qu’il est préférable que chaque pays ait son propre graphique afin d’analyser sa propre situation. (8) Selon PISA, si la motivation intrinsèque correspond à des énoncés du style « j’aime faire des sciences, car j’aime les sciences », la motivation instrumentale se caractérise par des énoncés tels que « j’aime faire des sciences, car j’ai compris qu’en étant bon en sciences, j’aurai, par exemple, plus de chances de passer dans la classe supérieure et de faire de meilleures études et d’avoir un meilleur emploi plus tard ».
(9) Kendal-tau plutôt que Spearman, car relations non linéaires mais monotones et petits échantillons (N=35 pays). Kendal-tau donne de meilleurs résultats que Spearman en cas de petits échantillons. (11) À titre indicatif, relevons que les intervalles de confiance calculés grâce à la méthode du BCa bootstrap (Varin, 2016) révèlent que la corrélation (-0.001) entre l’engagement des enseignants et l’engagement des élèves ou vice versa, la corrélation (0.06) entre l’efficacité et l’engagement des enseignants ou vice versa et celle entre l’efficience et l’engagement des enseignants (0.07) ou vice versa ne sont pas statistiquement différentes de zéro à 95% de confiance. (12) Pour rappel, il s’agit de liens corrélationnels et nullement de relations de causalité. En effet, s’agissant d’une étude observationnelle et non pas expérimentale (dans laquelle nous aurions pu « manipuler » les niveaux de l’une des deux variables), nous ne pouvons pas apporter de conclusion de causalité aux relations observées. |
|