Concevoir une évaluation nationale

Mis à jour le 27 fév 23

Au cours des deux dernières décennies, les évaluations nationales de l’apprentissage sont devenues importantes pour mesurer les acquis scolaires et suivre les progrès vers la réalisation de l'Objectif de développement durable (ODD) 4. Ces évaluations sont souvent administrées lorsque les élèves passent du primaire au premier cycle du secondaire et du premier au deuxième cycle du secondaire. Au niveau systémique, les évaluations nationales de l’apprentissage sont essentielles pour contrôler la qualité et l'équité des systèmes éducatifs nationaux. Bien qu'il existe une variété de programmes d'évaluation nationale avec des objectifs différents, la plupart cherchent à mesurer les changements dans les résultats d'apprentissage au fil du temps.

PRINCIPALES CONSIDÉRATIONS

Quel est l'objectif de l'évaluation ?

Selon l'Institut de statistique de l'UNESCO (ISU), les évaluations nationales devraient permettre de contrôler l'atteinte par les élèves des objectifs d'apprentissage fixés dans les programmes nationaux et de faire progresser l'apprentissage pour tous. Les données d'évaluation peuvent responsabiliser les écoles et fournir aux élèves et à leurs parents des informations sur les progrès de l'apprentissage (UNESCO-ISU, 2017 : 7) et fournir des preuves pour l'élaboration des politiques et l'amélioration des pratiques d'enseignement et d'apprentissage (Cresswell, 2016). Pour que les données soient pertinentes et utiles pour toutes les parties prenantes de l'éducation, les évaluations doivent servir un objectif clair, cohérent et significatif (ACER et UNESCO-ISU, 2017 : 6).

Quelles compétences seront testées ?

Les évaluations sont soit conçues pour tester les compétences générales dans toutes les matières (telles que la lecture, l’écrit, le calcul, la résolution de problèmes ou les compétences en communication), soit pour mesurer le programme scolaire prévu ou réalisé. Toutes les évaluations nationales mesurent les compétences cognitives en langue/lecture et en mathématiques/calcul, certaines couvrant également d'autres domaines tels que les sciences, les études sociales et les langues (UNESCO-ISU, 2017). L'évaluation de ces compétences variées peut nécessiter l'utilisation de différents instruments d'évaluation, tels que des composantes orales, pratiques ou de portefeuille. Quel que soit le domaine, il est important d'élaborer un cadre clair qui définit les compétences et les aptitudes à tester. La langue d'administration de l'évaluation correspond généralement à la langue d'enseignement et constitue une considération importante, en particulier pour les élèves les plus jeunes ou les élèves des classes où la langue d'enseignement ne correspond pas à la langue d'enseignement prévue (Anderson et Morgan, 2008 : 17).

Quels sont les groupes cibles de l'évaluation ?

Lors de la sélection d'un groupe cible, les pays doivent se demander si l'évaluation doit :

  • Être basé sur un échantillon ou sur un recensement. Alors que les examens et les tests destinés à surveiller les écoles sont souvent obligatoires pour tous les élèves, les tests qui se concentrent sur l'évaluation du système éducatif sont souvent administrés à un échantillon représentatif. Lorsqu'on utilise des données pour l'élaboration de politiques ou le suivi de l'éducation au niveau du système, l'évaluation nationale basée sur un échantillon peut réduire le coût de l'administration des épreuves, réduire le temps nécessaire à l'analyse des données et à l’élaboration des rapports, et améliorer la précision grâce à une supervision plus intense (Ross, 1987, cité dans Greaney et Kellaghan, 2008 : 37). Cette approche permet le suivi de catégories d'écoles (comme les écoles rurales ou urbaines) ainsi que l'équité entre les sexes et les ethnies dans le système (Greaney et Kellaghan, 2008 : 38).
  • Cibler un groupe d'âge ou un niveau scolaire. Les deux méthodes présentent des avantages et des inconvénients. Avec l'échantillonnage par niveau scolaire, davantage d'informations de fond sur les pratiques d'enseignement et les conditions de classe peuvent être liées aux données sur les résultats d'apprentissage. Cette approche est particulièrement utile dans les pays où les élèves n'entrent pas à l'école au même âge (Greaney et Kellaghan, 2008 : 36). La décision de cibler un âge ou un niveau scolaire spécifique dépend des informations dont le ministère de l'éducation a besoin.
  • Inclure les enfants non scolarisés. Dans les pays où de nombreux enfants d'âge scolaire ne sont pas scolarisés, le suivi des acquis d'apprentissage des enfants non scolarisés est particulièrement pertinent (UNESCO-ISU, 2017). La collecte de données sur les résultats d'apprentissage des enfants non scolarisés à l'aide de méthodes alternatives, telles que les enquêtes auprès des ménages, peut présenter un intérêt pour les décideurs politiques.

Comment assurer la qualité de l'instrument d'évaluation ?

Une évaluation de qualité se caractérise par l'adéquation à l'objectif, la clarté et la cohérence de l'objectif, l'objectivité et l'indépendance, la transparence et la responsabilité, la rigueur technique, ainsi que l'éthique et l'équité (ACER et UNESCO-ISU, 2017 : 5-8).

La validité des tests fait référence à la mesure dans laquelle un test mesure ce qu'il est censé mesurer (Anderson et Morgan, 2008 : 16). La validité est généralement considérée comme cruciale dans les tests éducatifs car elle concerne la signification accordée aux résultats des tests et la mesure dans laquelle on peut faire confiance aux résultats du test pour mesurer les bonnes compétences. Une évaluation hautement valide est une évaluation qui couvre tous les aspects pertinents de la performance des élèves. Les méthodes permettant d'estimer la validité d'un test comprennent la validation croisée, l'analyse des items, l'intercorrélation des items et l'analyse factorielle.

La fiabilité d'un test désigne la mesure dans laquelle une évaluation produit des résultats stables et cohérents. Une fiabilité adéquate est une condition nécessaire à la validité d'un test : si la mesure n'est pas fiable, le test ne peut être valide. De nouvelles méthodes d'échelonnement, telles que la théorie de la réponse d’item, ont donné lieu à une compréhension différente de la fiabilité des tests, car elles reconnaissent que le niveau de difficulté des items individuels peut varier. Lorsqu'on utilise les méthodes de la théorie de la réponse d’item, la fiabilité des tests signifie en gros la précision de la mesure à différents niveaux de la compétence mesurée. L'inverse de la fiabilité est l'erreur de mesure ; par conséquent, l'exactitude et la précision de la mesure sont de la plus haute importance pour garantir la meilleure fiabilité possible d'un test. L'objectivité des évaluations et de l'interprétation des données est nécessaire pour que les parties prenantes aient confiance dans les résultats d'une évaluation (ACER et UNESCO-ISU, 2017 : 6).

L'équité d'une évaluation fait référence à son absence de tout type de préjugé. Tout test doit être approprié pour tous les répondants, indépendamment de leur race, religion, sexe ou âge. Une évaluation ne doit pas désavantager un répondant sur une base autre que son manque de connaissances et de compétences que l'évaluation est censée mesurer. L'inclusivité, la réduction des biais de mesure et le bien-être de la personne testée sont autant de considérations essentielles pour les évaluations nationales de l’apprentissage (ACER et UNESCO-ISU, 2017 : 8). Pour s'assurer qu'un test répond aux exigences de validité, de fiabilité et d'équité, les éléments du test doivent être pilotés et analysés à l'aide de méthodes psychométriques avant d'être utilisés.

Quel format doivent avoir les tests ?

Pour être valide, un test doit être composé d'items représentant l'ensemble du domaine du test. Le test doit contenir suffisamment d'items pour chaque niveau de compétence. Les questions peuvent être à choix multiple, à réponse courte ouverte, à réponse construite fermée, à réponse étendue ou une combinaison des deux (Anderson et Morgan, 2008 : 17). Les questions à réponse écrite nécessitent un manuel de notation très strict et une formation approfondie des correcteurs. De nombreux pays passent des tests sur papier aux tests sur ordinateur. Cela crée la possibilité d'un test adaptatif, où un test est automatiquement ajusté au niveau de compétence de l'élève, permettant ainsi une mesure plus précise de la compétence globale et un test ciblé.

Une conception de test par rotation (échantillonnage matriciel) est souvent utilisé pour les tests par échantillonnage destinés à contrôler l'ensemble d'un système éducatif. Dans ce type de test, le test est constitué de blocs, souvent sous la forme d'un ensemble de livrets, chaque bloc ne représentant qu'une partie de l'ensemble du test. Chaque élève ne répond qu'à un seul livret, qui peut contenir n'importe lequel des différents blocs de matériel. Cela permet de tester un grand nombre d'éléments sans que le test soit trop long pour chaque élève. Cependant, cette méthode ne permet pas de livrer les résultats individuels des élèves.

Comment mesurer avec précision l'évolution des performances dans le temps ?

Pour suivre les tendances des acquis d'apprentissage dans le temps, le test doit contenir un ensemble d'items d'ancrage, qui sont répétés à chaque cycle. Les items d'ancrage peuvent être utilisés pour garantir que les niveaux de compétence rapportés représentent le même niveau de difficulté au fil du temps - en d'autres termes, les résultats numériques représentent toujours les mêmes niveaux de compétence. Les questions d'ancrage doivent rester confidentielles afin de garantir que les conditions de test restent les mêmes au fil du temps.

Pour comprendre les variables susceptibles d'influer sur l'apprentissage, il convient d'examiner attentivement quelles informations de base doivent être recueillies et comment elles doivent l'être (par exemple, via des questionnaires destinés aux enseignants ou aux élèves). Les concepteurs et les administrateurs de tests doivent être conscients de la nécessité de préserver la vie privée et l'anonymat des participants aux tests (ACER et UNESCO-ISU, 2017 : 34).

Qui doit mettre en œuvre le test et à quelle fréquence ?

Il est important de considérer la manière dont l'évaluation sera mise en œuvre. Les pays peuvent se demander si l'évaluation doit être mise en œuvre par un ministère ou un groupe de spécialistes indépendants, et si elle doit être administrée par un administrateur externe formé ou par des enseignants. Le ministère, l'organisme de recherche ou l'agence externe qui administre le test doit avoir les compétences techniques requises pour développer l'évaluation et organiser la logistique d'un test à grande échelle. Il doit également être en mesure d'utiliser un échantillonnage et une analyse statistique fiables (Postlethwaite et Kellaghan, 2008 : 22).

L'objectif de l'évaluation détermine la fréquence à laquelle elle doit être administrée et son moment dans l'année scolaire, par exemple, au début ou à la fin de l'année scolaire. Pour comparer les résultats de l'évaluation dans le temps, toutes les séries de tests d'évaluation devraient avoir lieu à un moment similaire de l'année scolaire (Clarke et Luna-Bazaldua, 2021 : 49).

L'expertise nécessaire est-elle disponible ?

L'élaboration de tests nationaux requiert une expertise en matière de programmes et de contenus, ainsi que des compétences psychométriques. Certains pays disposent d'instituts ou de centres de test nationaux qui apportent l'expertise nécessaire. Les instituts de test nationaux et internationaux peuvent apporter leur soutien aux pays et renforcer leurs capacités. La formation pratique, les ateliers (virtuels ou en face à face), les visites d'étude et les conférences sont autant de moyens de développer la capacité locale à administrer les évaluations nationales (UNESCO-ISU, 2017 : 28).

Comment les résultats doivent-ils être communiqués et à qui ?

Les évaluations doivent répondre à des questions politiques clés, et les résultats doivent être communiqués à la fois aux décideurs et au public. Cependant, il peut être controversé de partager publiquement des données qui ont été désagrégées jusqu'au niveau de l'école. Si les rapports au niveau de l'école sont rendus publics, il faut veiller à ce que les élèves ne puissent pas être identifié individuellement. Il peut être nécessaire de préparer plusieurs rapports - certains plus détaillés que d'autres - pour présenter les résultats à différents publics tels que les décideurs politiques, les enseignants ou le public. Les résultats des évaluations internationales sont généralement publiés sous forme de rapports nationaux. En fonction de la conception et de l'objectif du test, les résultats peuvent être présentés sous la forme d'un score total ou décomposés en sous-échelles représentant différents sous-domaines et niveaux de compétence.

Références et Sources

ACER (Australian Council for Educational Research); UNESCO-ISU (UNESCO Institut de statistique). 2017. Principles of Good Practice in Learning Assessment. Montréal: UNESCO-ISU.

Anderson, P.; Morgan, G. 2008. Mettre au point les tests et questionnaires pour une évaluation nationale des acquis scolaires, Volume 2. Washington, DC: Banque mondiale.

Clarke, M.; Luna-Bazaldua, D. 2021. Primer On Large-scale Assessments of Educational Achievement. Washington, DC: Banque mondiale.

Cresswell, J. 2016. System-level Assessment and Education Policy. Melbourne: ACER.

Greaney, V.; Kellaghan, T. 2008. Évaluer les niveaux nationaux de performance dans l’éducation. Washington, DC: World Bank.

Postlethwaite, T.N.; Kellaghan, T. 2008. National Assessments of Educational Achievement. Paris: IIPE-UNESCO.

Ross, K. 1987. ‘Sample design’. International Journal of Educational Research, 11(1), 57–75.

UNESCO-ISU (UNESCO Institut de statistique). 2017. Quick Guide No. 3: Implementing a National Learning Assessment. Montréal: ISU.

Glossaire

Bibliothèque