Évaluations de l’apprentissage

Mis à jour le 19 juil 18
FICHE 2

Pour améliorer l’apprentissage des élèves, nous devons en savoir plus sur leur niveau actuel et sur les améliorations à apporter. L’évaluation de l’apprentissage est ainsi un point crucial dont les pays devront tenir compte, d’un point de vue stratégique, au cours de l’élaboration de leurs plans de suivi du secteur éducatif.

Evaluations de l’apprentissage dans divers contextes et à des fins diverses

Il existe plusieurs types d’évaluation de l’apprentissage des élèves, utilisés dans divers contextes et à des fins diverses. Nous faisons souvent la distinction entre deux types de catégorie majeurs : 1) évaluations individuelles des élèves, et 2) évaluations au niveau des systèmes ou au niveau des établissements, des régions ou des systèmes éducatifs nationaux. 

Évaluations individuelles

Les évaluations individuelles des élèves peuvent être formatives et informer les élèves et les enseignants de leurs compétences et de leurs progrès, ou sommatives, sous la forme de notes finales ou de résultats d’examen.

En classe, les enseignants peuvent concevoir des tests formatifs ou sommatifs afin de déterminer si les élèves suivent le programme. Les tests formatifs sont diagnostiques par nature : les enseignants souhaitent s’assurer du bon déroulement de l’apprentissage et, dans le cas contraire, effectuer les interventions adéquates. Les tests formateurs permettent également d’informer élèves et parents des progrès des enfants, d’où leur importance. Les tests peuvent être sommatifs. Ils sont alors effectués à la fin du module, du trimestre ou de l’année pour déterminer si les élèves ont acquis les compétences et les connaissances requises. Les tests conçus par les enseignants sont généralement utilisés comme outil d’évaluation dans une salle de classe ou un niveau. Ils ne comparent pas l’apprentissage des élèves entre les écoles.

Les examens publics servent d’autres objectifs que les tests en classe. Les résultats permettent généralement d’attester que les élèves ont atteint un certain niveau dans leurs études. Un examen permet également d’évaluer si les écoles mettent ou non en œuvre le programme et si les enseignants dispensent les instructions appropriées. Ces examens peuvent également être utilisés pour sélectionner les élèves pour un enseignement supérieur. Lorsque l’avenir professionnel ou éducatif d’un élève dépend de ses résultats à un examen, il s’agit d’une évaluation « à fort enjeu ».

Évaluation au niveau du système

Les évaluations régionales, nationales et internationales à grande échelle permettent de mesurer le produit d’un système scolaire. Il s’agit d’instruments conçus pour fournir des preuves sur les niveaux de réussite des élèves dans des domaines d’apprentissage spécifiques. Contrairement aux examens, qui privilégient les résultats individuels et déterminent une certification ou une sélection, les résultats d’évaluation n’impliquent aucune conséquence pour les élèves au niveau individuel. Plus exactement, l’objectif est d’évaluer le niveau d’apprentissage des élèves au sein du système, et d’expliquer la raison pour laquelle certains élèves réussissent mieux que d’autres. Une série d’informations sont recueillies sur les enseignants et les environnements d’apprentissage, ainsi que des données sur les résultats d’apprentissage des élèves. Elles sont ensuite analysées et reliées de façon à ce que des suggestions de politiques éclairées soient formulées aux responsables politiques.

Intégration de données d’évaluation dans un cadre de suivi

Les données d’évaluation peuvent jouer un rôle clé dans le cadre de suivi global d’un pays, dans le cadre de l’analyse des problèmes d’un système éducatif et afin de suivre les plans d’amélioration. En général, les données d’évaluation sont les plus utiles pour le suivi lorsque l’évaluation a été rigoureusement conçue pour comparer différents élèves, résultats et périodes. Les données d’examens nationaux et régionaux peuvent également être intégrées dans un système de suivi via une inclusion dans le Système d'information pour la gestion de l'éducation (SIGE) ou par la publication de ces informations via des livrets scolaires. Cependant, il convient d’utiliser ces informations avec prudence pour analyser les tendances dans le temps car ces examens ne sont en général pas conçus dans cette optique.

Outils d’évaluation internationaux disponibles

Dans le cadre de diverses initiatives internationales, des outils d’évaluation de l’éducation ont été créés au niveau de la gestion des apprentissages et de l’éducation/des écoles. Ces outils d’évaluation internationaux sont fondés sur un échantillon et ont pour but de transmettre les réactions des participants, sur la base de leur expérience, au service de l’élaboration de meilleures politiques en matière d’éducation, ce qui se traduit ensuite par une amélioration de l’apprentissage et de l’enseignement. Nous faisons une distinction entre les tests élaborés au niveau international à utiliser pour les analyses à l’échelle des systèmes dans les pays, et les tests internationaux à grande échelle servant à l’évaluation comparative entre les pays. Les évaluations comparatives à grande échelle visent à comparer les résultats sur une échelle commune entre plusieurs pays. De ce fait, elles permettent aussi de mesurer les tendances en matière de résultats d’apprentissage sur la durée.

Il est important de souligner que les outils décrits ci-après ne sont pas incompatibles. Certains d’entre eux sont polyvalents et génèrent des données qui peuvent être analysées dans différents buts. Par exemple, les données du SACMEQ peuvent être utilisées pour la planification de l’éducation mais aussi pour le suivi.

Évaluations utiles à l’échelle nationale

À l’échelle nationale, il existe deux outils d’évaluation internationalement reconnus pour tester les compétences fondamentales en lecture et en mathématiques. Il s’agit respectivement de l’EGRA (Early Grade Reading Assessment) et de l’EGMA (Early Grade Mathematics Assessment), développés par RTI International et financés par l’USAID. Il existe par ailleurs des initiatives citoyennes, à l’instar de UWEZO, qui pratiquent des évaluations des apprentissages dans le cadre familial.

EGRA – Évaluation des compétences fondamentales en lecture

Il s’agit d’un outil d’évaluation orale destiné à mesurer les compétences de base en lecture et en écriture chez les enfants dans les premières classes du primaire. C’est une évaluation en tête-à-tête qui s’intéresse au cas de chaque enfant. L’outil mesure la reconnaissance des lettres, la lecture de mots simples, la compréhension de phrases et de paragraphes et la compréhension globale. L’évaluation est pratiquée par un pays particulier dans une langue donnée. EGRA contribue à établir les performances nationales en lecture et le niveau de compétences en lecture des enfants dès les premières années de scolarité, après quoi ces données sont converties en mesures d’amélioration et d’élaboration des politiques.

EGMA – Évaluation des compétences fondamentales en mathématiques

Cet outil est l’équivalent de l’EGRA pour les mathématiques et le calcul. Il permet de mesurer les compétences des enfants en calcul et en mathématiques. Il porte sur les fondements des maths, à savoir identification des nombres, discrimination des quantités (plus grand et plus petit que), identification du nombre manquant, résolution de problèmes écrits, addition et soustraction, reconnaissance des formes et agrandissement de schémas. L’évaluation est cruciale pour déterminer l’aptitude aux opérations de calcul ultérieures. Cet outil aide les enseignants à définir le niveau de compréhension des compétences fondamentales par les élèves et à identifier les marges de progression vers l’acquisition des nouvelles opérations dans la classe supérieure. 

UWEZO – Outil d’évaluation piloté par les citoyens utilisé au Kenya, en Tanzanie et en Ouganda

Uwezo, qui signifie « capacité » en swahili, est le nom donné à une initiative qui réalise chaque année une enquête auprès des ménages pour évaluer si les enfants de 6 à 16 ans possèdent les compétences de base en alphabétisme (lecture) et en calcul (maths) requises au Niveau 2. L’évaluation est effectuée à l’échelle régionale et couvre le Kenya, la Tanzanie et l’Ouganda. Les outils d’évaluation de ce recensement recueillent d’autres données démographiques, telles que les revenus du foyer, la situation géographique et les écoles. Ils fournissent donc des résultats qui sont vastes et peuvent être utilisés dans divers secteurs des politiques d’éducation, ce qui permet une analyse solide par exemple du statut scolaire, de la scolarisation, de l’assiduité et du ratio élève/enseignant. Voir aussi ASER (Inde et Pakistan), Beekungo (Mali), Jangandoo (Sénégal), MIA (Mexique), et le Réseau international PAL (People's Action for Learning Network).

Évaluations internationales à grande échelle

Les évaluations internationales à grande échelle sont conçues pour fournir des informations pertinentes en matière de politiques sur les résultats d’apprentissage par des méthodes comparables entre les divers systèmes éducatifs. Ces tests sont généralement fondés sur un échantillon et se composent de tests cognitifs écrits ou informatiques, et incluent des enquêtes auprès des élèves et des directeurs d’écoles. Certaines études comportent également des enquêtes auprès des enseignants et des parents d’élèves. Les évaluations internationales à grande échelle donnent aux pays et aux systèmes éducatifs la possibilité d’établir des comparaisons car les résultats sont présentés sur une échelle commune entre les pays. De plus, elles sont conçues pour fournir des tendances fiables en matière de résultats d’apprentissage au fil du temps, ce qui permet aux pays participants d’évaluer les forces et les faiblesses de leur système éducatif et de juger de l’impact des réformes et des décisions politiques en matière d’éducation sur le long terme.

Il existe de nombreux outils d’évaluation internationaux à grande échelle, développés par différentes organisations internationales :

L’Organisation de coopération et de développement économiques (OCDE) est à l’initiative des enquêtes PISA et PISA pour le développement, qui sont des tests portant sur les résultats d’apprentissage. L’OCDE organise également TALIS, qui est une enquête internationale s’adressant aux enseignants et aux directeurs d’école. La mission de l’OCDE est de promouvoir les politiques qui amélioreront le bien-être économique et social, y compris en générant des données comparatives sur les systèmes d’éducation des différents pays.

PISA – Programme international pour le suivi des acquis des élèves

Le Programme PISA est une enquête internationale menée tous les trois ans par l’OCDE. PISA a pour but d’évaluer les systèmes éducatifs du monde entier en testant les compétences et les connaissances des élèves de 15 ans. Tous les trois ans, des élèves issus d’un échantillon aléatoire d’établissements scolaires partout dans le monde participent à des tests dans les principales disciplines : lecture, mathématiques et sciences, sachant que chaque année d’évaluation un sujet est privilégié par rapport aux autres. À ce jour, plus de 70 économies ont été représentées à travers les élèves qui ont participé à l’évaluation. Les tests de PISA ne sont pas directement liés au programme scolaire. L’objectif des tests est d’évaluer l’aptitude des élèves au terme de la scolarité obligatoire à appliquer les connaissances acquises à l’école aux situations de la vie réelle et à jouer pleinement leur rôle dans la société. Les informations collectées à l’aide de questionnaires de fond fournissent également un contexte qui peut aider les analystes à interpréter les résultats.

PISA pour le développement

Cette initiative entend accroître la participation des pays en développement à l’évaluation PISA afin de suivre les progrès accomplis vers la réalisation des objectifs nationaux d’amélioration de l’éducation, en mettant l’accent sur les résultats d’apprentissage des élèves. Elle est également conçue pour suivre les objectifs d’éducation internationaux dans le cadre de l’après-2015. Une étude pilote est actuellement en cours. Les résultats seront utiles à l’élaboration de l’agenda pour le développement de l’après-2015 en matière d’éducation.

TALIS

L’initiative TALIS est née en 2008 sous la forme d’une enquête internationale à grande échelle sur le corps enseignant, leurs conditions de travail et l’environnement d’apprentissage à l’école des pays participants. L’étude a pour but de fournir aux pays participants des informations utiles, comparables et actualisées pour les politiques futures en matière de conditions d’enseignement et d’environnements d’apprentissage.


L’Association internationale pour l'évaluation du rendement scolaire (IEA) est une association indépendante d’instituts de recherche nationaux et d’organismes de recherche publics. L’IEA conduit des études comparatives à grande échelle sur le rendement scolaire et d’autres aspects de l’éducation, dans le but d’obtenir une vision approfondie des effets des politiques et des pratiques éducatives dans chaque système éducatif et dans l’ensemble de ces systèmes.

TIMSS

TIMSS (Trends in International Mathematics and Science Study - Étude des tendances internationales en mathématiques et en sciences) mesure les tendances en matière d’acquis en mathématiques et en sciences en quatrième et en huitième année de scolarité. L’enquête TIMSS est réalisée tous les quatre ans depuis 1995. TIMSS fait état des acquis généraux ainsi que des résultats selon quatre critères d’évaluation internationaux (avancé, élevé, moyen et faible), par principaux domaines de contenu (ex. numération, algèbre et géométrie en mathématiques, et sciences de la terre, biologie et chimie en sciences). Par ailleurs, l’étude collecte des informations sur les programmes et la mise en œuvre des programmes, les pratiques d’apprentissage et les ressources de l’école.
Pour les pays dans lesquels les élèves en sont encore à acquérir les compétences fondamentales en mathématiques, la nouvelle évaluation de l’IEA TIMSS Numeracy(prévue pour être administrée en quatrième, en cinquième ou en sixième année de scolarité) se concentre sur la mesure des résultats d’apprentissage des enfants en calcul, et notamment sur les connaissances fondamentales en mathématiques, les modes opératoires et les stratégies de résolution de problèmes. Il existe également un outil avancé (TIMSS Advanced) qui mesure les tendances en mathématiques et en physique de niveau avancé pour les élèves en dernière année d’enseignement secondaire.

PIRLS and PIRLS Literacy

L’évaluation PIRLS (Progress in International Reading Literacy Study) porte sur la compréhension écrite des élèves et fournit des données comparatives au niveau international sur l’habileté des enfants à lire à la fin de la quatrième année de scolarité obligatoire. L’évaluation PIRLS est reconduite tous les cinq ans dans plusieurs pays du monde depuis 2001. Par ailleurs, l’étude collecte également des informations sur l’aide reçue dans la famille, les pratiques pédagogiques et les ressources de l’école dans chaque pays participant.
Lancée en 2011, l’enquête PIRLS Literacy(anciennement prePIRLS) repose sur la même vision de la compréhension de lecture que PIRLS mais elle a pour objet de tester les compétences de base en lecture dans les pays où la plupart des enfants en sont encore à acquérir les compétences fondamentales en lecture. PIRLS Literacy peut être administrée en cours de quatrième, cinquième ou sixième année de scolarité et donne aux pays la possibilité de se comparer au test PIRLS normal.

ICCS

L’étude internationale sur l'éducation civique et à la citoyenneté (ICCS) enquête sur les moyens par lesquels les jeunes se préparent à jouer leur rôle de citoyens. L’étude évalue les élèves à la fin de la 8ème année et la dernière session remonte à 2009. Une prochaine session est prévue en 2016. L’ICCS rend compte des connaissances des élèves et de leur compréhension des concepts et des problèmes concernant les affaires civiques et la citoyenneté, ainsi que de leurs convictions, attitudes et comportements.

ICILS

Le projet ICILS (International Computer and Information Literacy Study) est une étude comparative internationale visant à évaluer la capacité des élèves à utiliser un ordinateur pour chercher, créer et communiquer efficacement à la maison, à l’école, sur le lieu de travail et dans la société. L’étude s’adresse à des élèves en fin de 8ème année de scolarité et a été réalisée tout d’abord comme étude de référence en 2013 avec 21 systèmes d’éducation participants à travers le monde. Le prochain cycle d’évaluations d’ICILS est prévu en 2018.
Il existe de nombreux programmes d’évaluation à l’échelle régionale, comme le SAQMEC et le PASEC en Afrique subsaharienne, et le LLECE en Amérique latine, ainsi que d’autres initiatives plus récentes. Ces programmes ont pour vocation de contrôler et d’évaluer les systèmes scolaires et de fournir des informations fondées sur des données probantes et pouvant être utilisées par les décideurs politiques pour établir des plans et améliorer la qualité de l’éducation de base. 

SACMEQ – Consortium de l’Afrique australe et orientale pour le pilotage de la qualité dans l’éducation

Il s’agit d’un organisme qui chapeaute 16 ministères de l’Éducation d’Afrique australe et orientale. L’organisation réunit ces ministères pour les amener à partager leurs expériences et leur expertise en matière de suivi scientifique et d’évaluation des politiques d’éducation sur les conditions de scolarisation et la qualité de l’éducation. Le SACMEQ conduit des programmes de formation pour doter les planificateurs en éducation de compétences techniques, notamment sur la collecte de données et l’analyse à des fins de suivi et d’évaluation. En plus de son intérêt pour le suivi et l’évaluation, le SACMEQ effectue également occasionnellement des évaluations de lecture et de mathématiques dans les pays membres afin d’évaluer les aptitudes des élèves de sixième année de scolarité obligatoire en mathématiques et en lecture de l’anglais.

PASEC – Programme d'analyse des systèmes éducatifs de la CONFEMEN

Créé en 1991, le PASEC est un outil d’appui au pilotage des systèmes éducatifs des Etats et gouvernements membres de la CONFEMEN. Depuis sa création, le PASEC a mené des évaluations nationales dans la quasi-totalité des pays francophones d’Afrique subsaharienne, au Liban et dans trois pays d’Asie du sud (Cambodge, Laos et Vietnam). Depuis 2012, le PASEC pilote des évaluations régionales comparatives dans plusieurs pays sur la base d’enquêtes standardisées à large échelle, donnant de ce fait la possibilité aux pays participants de réaliser des comparaisons. Les différents objectifs assignés au PASEC sont les suivants : mener des évaluations régionales comparatives des performances des systèmes éducatifs dans l’enseignement de base et appuyer les pays demandeurs pour la mise en œuvre d’évaluations et d’études nationales ; mettre à la disposition des pays des indicateurs qui leur permettent de se comparer dans l’espace et dans le temps ; rechercher les facteurs d’efficacité et d’équité associés aux performances des systèmes éducatifs des pays évalués ; assurer une large diffusion des résultats des évaluations pour accroître leur visibilité et la nécessité de leur prise en compte dans les politiques éducatives nationales ; poursuivre, avec chaque état bénéficiaire, le développement d’une capacité interne et durable d’évaluation de leur système éducatif et d’appropriation des résultats ; dynamiser la recherche et aider les pays à définir et à prendre en compte la place et le rôle de l’évaluation des acquis scolaires dans les politiques éducatives nationales en vue de développer une culture de l’évaluation.

Le PASEC a expérimenté et réussi sa première évaluation régionale, appelée PASEC2014 dans dix pays : Bénin, Burkina Faso, Burundi, Cameroun, Congo, Côte d’Ivoire, Niger, Sénégal, Tchad et Togo. La deuxième évaluation régionale intitulée « PASEC2019 » est en cours de préparation et concernera quinze pays : Bénin, Burkina Faso, Burundi, Cameroun, Congo, Côte d’Ivoire, Gabon, Guinée, Madagascar, Mali, Niger, République Démocratique du Congo, Sénégal, Tchad et Togo.
 

LLECE– Laboratoire latino-américain pour l’évaluation de la qualité de l’éducation

Le LLECE est un réseau d’unités nationales axées sur l’évaluation de la qualité de l’éducation. Il a été créé au départ autour de 15 membres —Argentine, Bolivie, Brésil, Chili, Colombie, Costa Rica, El Salvador, Guatemala, Honduras, Mexique, Paraguay, Pérou, République Dominicaine, Uruguay et Venezuela, sous la coordination du Bureau régional de l’UNESCO pour l’éducation en Amérique latine et aux Caraïbes. Le réseau est né avec pour objectifs de fournir davantage d’informations pour l’élaboration des réformes éducatives appropriées, le partage et le développement de l’expertise nécessaire à la réalisation d’évaluations éducatives et l’obtention d’une orientation plus ouverte sur le partage des données d’évaluation avec le public. Trois évaluations régionales ont été réalisées jusqu’à présent : PERCE (1997-98), SERCE (2006-8) et TERCE (2013-15). Depuis l’évaluation initiale exclusivement consacrée à la lecture et aux mathématiques, l’approche a évolué pour inclure également l’écriture et les sciences naturelles (cette dernière discipline ne concernant que les élèves de sixième année d’école primaire). Le programme vise également à identifier les facteurs associés à différents niveaux de réussite, comme le contexte socio-économique, la vie de famille et les problèmes personnels, les politiques éducatives et les processus scolaires.

Du fait de l’intérêt croissant suscité par les évaluations rigoureuses des apprentissages, il est probable que d’autres nouveaux programmes d’évaluation régionaux et nationaux voient le jour. À titre d’exemple, la Métrique de l’apprentissage à l’école primaire en Asie du Sud-Est (SEA-PLM) a été inaugurée récemment, conjointement avec le Comité de réflexion sur la métrique des apprentissages (LMTF), une initiative mondiale dont la finalité est d’améliorer la mesure de l’apprentissage à travers le monde.

Éléments clés de la conception des évaluations nationales de l’apprentissage

Les données fiables sur les résultats des élèves constituent la clé d’une mise en œuvre réussie de politiques éducatives ciblées. Ces deux dernières décennies, les évaluations nationales se sont imposées comme un outil important de mesure de la réussite sur le plan éducatif. Il existe un éventail de programmes d’évaluation nationaux servant différents objectifs. D’une manière générale, il est possible de distinguer les évaluations conçues à des fins de responsabilisation à tous les niveaux, des évaluations conçues dans l’optique du développement et de l’évaluation du système. Dans les deux cas, la volonté de mesurer l’évolution au fil du temps impliquera des exigences spécifiques pour ce qui est de la conception des tests.

Lors de la conception d’un système d’évaluation national, certaines considérations initiales clés guideront les choix à venir :

  • Quel est l’objectif prévu de l’évaluation ?
  • Quelles compétences souhaitons-nous tester ?
  • Quels sont les principaux groupes cibles à tester ?
  • Comment assurer validité et fiabilité ?
  • Quel doit être le format des tests ?
  • Est-il important de mesurer les tendances et, le cas échéant, comment réaliser des mesures précises ?
  • Comment établir des rapports des résultats et à qui les adresser ?
  • Possédons-nous l’expertise nécessaire ?


Ces aspects sont généralement définis dans un cadre d’évaluation national. Ci-dessous figurent de plus amples informations concernant chacun de ces points :

Objectif de l’évaluation nationale

Un programme d’évaluation national peut servir plusieurs objectifs et l’objectif principal doit déterminer la conception de l’évaluation. Il est par conséquent très important de définir clairement, dès le début, cet objectif principal. L’utilisation d’un seul test dans plusieurs buts peut s’avérer inappropriée car les informations idéalement requises dans chaque cas ne sont pas les mêmes. Ainsi, les autorités du système éducatif sont invitées à classer les différents objectifs par ordre de priorité et à ajuster la conception des tests en conséquence. (Voir Standards, Accountability, and Student Assessment Systems, Association canadienne d'éducation (ACE))

La plupart des évaluations nationales s’accompagnent de trois objectifs généraux (lien). Le premier groupe se compose de tests récapitulant les résultats des élèves à la fin d’une année scolaire ou à la fin d’un cycle éducatif particulier, et qui ont un impact significatif sur leur parcours scolaire. Il s’agit de tests à fort enjeu, souvent désignés comme sommatifs. La deuxième catégorie concerne les évaluations destinées à suivre et à mesurer les établissements et/ou le système éducatif dans l’ensemble. Dans ce cas, les résultats des tests servent d’indicateurs de la qualité de l’enseignement et des performances des enseignants, mais également d’outil de mesure de l’efficacité globale des pratiques et des politiques éducatives. La troisième catégorie regroupe les évaluations principalement destinées à contribuer au processus d’apprentissage des élèves via l’identification de leurs besoins spécifiques en la matière et l’adaptation de l’enseignement en conséquence.

Compétences à tester

Les domaines d’évaluation peuvent être basés sur des disciplines particulières du programme, ou bien tester des compétences clés dans différentes disciplines, notamment le calcul, la lecture et l’écriture, la résolution de problèmes, ou encore les compétences en matière d’information et de communication. L’évaluation des compétences clés sera la plus adaptée aux programmes d’évaluation formative conçus pour suivre les systèmes éducatifs et/ou identifier les besoins individuels en matière d’apprentissage. Toutes les évaluations nationales mesurent les compétences cognitives dans les domaines du langage/de la lecture et de l’écriture et des mathématiques/du calcul, reflet de l’importance de ces résultats pour l’éducation de base. Dans certains pays, les connaissances dans d’autres domaines, notamment les sciences, les études sociales, les langues, entre autres, font également partie de l’évaluation.

Quel que soit le domaine évalué, il est important de développer un cadre approprié définissant clairement les compétences à tester, ainsi que les caractéristiques des tests. Ceci s’avère nécessaire à la fois pour élaborer des outils d’évaluation, puis pour interpréter les résultats.

Groupes cibles et stratégie d’échantillonnage

La sélection de groupes cibles pour les évaluations dépend de l’objectif du test. Si leur objectif est principalement formateur, les tests doivent être administrés à des stades où les compétences acquises sont cruciales pour l’apprentissage à venir et l’évolution des élèves. Il peut par exemple s’agir du début ou de la fin de l’enseignement primaire et de la fin du premier cycle de l’enseignement secondaire. Si le principal objectif de l’évaluation est global, elle est généralement réalisée à la fin d’un niveau éducatif, par exemple, à la fin de l’enseignement secondaire, ou du premier ou deuxième cycle de l’enseignement secondaire.

Si les examens et tests de suivi des établissements sont souvent obligatoires pour l’ensemble des élèves, les tests qui se concentrent sur l’évaluation du système éducatif dans l’ensemble sont souvent administrés à un échantillon représentatif. Si un test est basé sur un échantillon, il est nécessaire de se pencher sur la façon d’établir des rapports de résultats lorsque l’échantillon est défini. Si les résultats doivent être détaillés par région, type d’établissement, sexe, langue d’enseignement, etc., il convient de veiller à ce que l’échantillon soit représentatif à tous ces niveaux.

Validité et fiabilité

La validité d’un test correspond à la mesure dans laquelle il parvient à évaluer réellement ce qu’il se propose de mesurer. La validité est généralement considérée comme le point le plus important dans les tests éducatifs car elle concerne le sens des résultats de tests et le degré de confiance que l’on peut accorder aux résultats du fait de la sélection des bonnes compétences à mesurer. Une évaluation extrêmement valide signifie qu’elle recouvre tous les aspects pertinents des performances des élèves. Il existe des méthodes statistiques permettant de calculer la validité d’un test.

La fiabilité d’un test correspond au degré auquel une évaluation produit des résultats stables et cohérents. La fiabilité est la condition sine qua non de la validité d’un test. Cela signifie que si la mesure n’est pas fiable, elle ne peut pas non plus être valide. De nouvelles méthodes de mesure (théorie de réponse par item  ou TRI) ont donné une compréhension différente de la validité d’un test, en raison de la reconnaissance de la différence éventuelle au niveau de la difficulté des items individuels.

 Avec la méthode TRI, la fiabilité d’un test fait plus ou moins référence à la précision de la mesure à différents niveaux des compétences mesurées. L’inverse de la fiabilité étant l’erreur de mesure, il est par conséquent extrêmement important d’assurer la meilleure fiabilité possible du test dans l’ensemble.

Conception du test

Pour assurer la validité d’un test, il convient d’y inclure des items représentant l’intégralité du domaine décrit dans le cadre. Le test doit également comporter suffisamment d’items pour chaque niveau de compétence. Les items peuvent correspondre à des questions soit à choix multiple, soit ouvertes, ou une combinaison des deux. Toutefois, les questions ouvertes nécessitent des instructions de notation et une formation des évaluateurs très strictes. De nombreux pays passent désormais des tests sous format papier aux tests informatisés. Ce qui offre la possibilité de mener des tests adaptatifs, qui s’ajustent automatiquement au niveau de compétence de l’élève. Cette méthode améliore la précision de la mesure de l’intégralité de la compétence, ainsi que le ciblage du test.

Une conception de test alternée (échantillonnage matriciel) est souvent utilisée pour les tests basés sur des échantillons afin de suivre l’intégralité d’un système éducatif. Dans une conception alternée, le test est constitué à partir d’un ensemble de livrets ou en blocs, chacun représentant une seule partie du test global. Chaque élève répond uniquement à un livret, qui peut contenir différents blocs. Cela permet d’évaluer un vaste ensemble d’items sans que le test soit trop long pour chaque élève. Toutefois, avec cette méthode, il est impossible de proposer des résultats individuels aux élèves.

Pour chaque type de test, l’ensemble des items doivent être testés et analysés à l’aide de méthodes psychométriques avant d’être utilisés dans le test final. Objectif : veiller à ce que le test réponde à toutes les exigences en matière de validité et de fiabilité.

Mesure des tendances

Pour mesurer l’évolution de l’apprentissage dans le temps, le test doit comporter un ensemble d’items d’ancrage, répétés à chaque cycle. Les items d’ancrage permettent de s’assurer que les niveaux de compétence dont il est fait état représentent le même niveau de difficulté dans le temps. En d’autres termes, les résultats numériques doivent toujours représenter le même niveau de compétence. La confidentialité des items d’ancrage doit être maintenue pour assurer les mêmes conditions de test dans le temps. Ce n’est qu’en utilisant ce type de test que les tendances peuvent être suivies.

Établissement de rapports de résultats et utilisation d’échelles de scores

Dans l’idéal, les résultats d’évaluation doivent être communiqués à la fois aux responsables politiques et au grand public. La divulgation de ces informations permet de veiller à ce que toutes les parties prenantes contribuent à responsabiliser les institutions éducatives. Néanmoins, la divulgation de données ventilées au niveau des établissements peut soulever de nombreuses controverses et ne s’avère pas toujours bénéfique ; dans certains cas, des niveaux supérieurs d’intégration régionale peuvent être plus appropriés. En outre, si des rapports réalisés au niveau des établissements sont rendus publics, il convient de veiller absolument à ce qu’aucun élève ne soit identifié.

Il est souvent nécessaire de préparer plusieurs types de rapport (certains plus détaillés que d’autres) afin de s’assurer que les résultats importants sont accessibles pour différents publics. Selon la conception et l’objectif du test, les résultats peuvent être révélés soit sous forme de score de test total, soit sous forme de sous-échelles représentant différents sous-domaines et niveaux de compétence.

Pour permettre de comparer les résultats, le plus souvent, les programmes de tests standardisés divulguent les résultats sous forme d’échelles. Les échelles sont obtenues par représentation des scores bruts (pourcentages ou points) sur une échelle courante pour tenir compte des différences de difficulté entre différentes formes.

Expertise des tests

L’élaboration de tests nationaux nécessite une grande expertise, à la fois au niveau des programmes et du contenu, ainsi que d’excellentes compétences psychométriques. Il convient dès lors de se demander comment assurer une expertise applicable tout au long du processus. Dans certains pays, des instituts nationaux ou des centres de test apportent l’expertise nécessaire, mais souvent, ce n’est pas le cas. Il existe cependant de nombreux instituts de test nationaux et internationaux qui seront en mesure de soutenir les pays et d’assurer le renforcement des capacités.
 

Glossaire

Bibliothèque