Diseño de un sistema nacional de evaluación

Last update 27 Feb 23

En las últimas dos décadas, las evaluaciones nacionales se han convertido en una herramienta importante para proporcionar una medida de los logros educativos. Aunque hay una gran variedad de programas nacionales de evaluación, con diferentes objetivos y fines, la mayoría buscan medir los cambios en los resultados del aprendizaje a lo largo del tiempo. Las evaluaciones nacionales pueden emplearse también para proporcionar datos estadísticos para monitorear los progresos nacionales en pos del Objetivo de Desarrollo Sostenible 4 (ODS 4). Un programa nacional de evaluación exige una planificación detallada basada en unas cuestiones clave que listamos a continuación.

¿Qué fin persigue la evaluación?

Según el Instituto de Estadística de la UNESCO (UIS), la mayoría de las evaluaciones nacionales tienen dos propósitos generales:

  1. 'monitorear hasta qué punto el alumnado está alcanzando los objetivos de aprendizaje clave tal y como se expresan en los currículos y apoyar un aprendizaje para todas las personas' y
  2. 'que las escuelas rindan cuentas y proporcionen al alumnado y a sus familias información sobre los progresos del aprendizaje'. (UIS, 2017:7).

¿Qué competencias se examinarán?

Las evaluaciones pueden diseñarse para examinar las competencias generales transversales a las asignaturas (como lectoescritura, aritmética, resolución de problemas o destrezas comunicativas) como hace el Programme for International Student Assessment (PISA) o para medir el currículo que se pretende o que se ha alcanzado, como en otros instrumentos. Todas las evaluaciones nacionales miden las destrezas cognitivas en lengua/alfabetismo y en matemáticas/aritmética, mientras que las evaluaciones de algunos países cubren también otros ámbitos como ciencias naturales, ciencias sociales y lenguas extranjeras. Evaluar estas competencias tan diversas puede exigir el uso de diversos instrumentos de evaluación, como módulos orales, ejercicios prácticos o partes del portfolio.

Sea cual sea el ámbito de la evaluación, es importante desarrollar un marco de trabajo que claramente definen las competencias y las destrezas que se van a examinar. Uno de los desafíos asociados con la evaluación de las competencias transcurriculares es que puede ser difícil consensuar la definición de estas destrezas. En tales casos, puede ser necesaria ayuda experta externa para apoyar en la tarea de definir las competencias.

Para entender las variables que pueden afectar al aprendizaje es necesario sopesar cuidadosamente qué información contextual va a recogerse y cómo deberá recolectarse (por ejemplo, mediante cuestionarios al profesorado o al alumnado).

¿Quien compone el grupo objeto de la evaluación?

Cuando se selecciona un grupo como objetivo de la evaluación, los países deben calibrar si la evaluación debe:

  • ¿Dirigirse a un grupo etario o a un nivel de grado. Hay ventajas y desventajas en ambos métodos. Un beneficio de una muestra basada en los grados escolares es que posibilita más información contextual sobre las prácticas de enseñanza y sobre las condiciones del aula, que luego se puede vincular con los datos estadísticos de los resultados del aprendizaje.
  • ¿Basarse en una muestra o basarse en el censo? Mientras que los exámenes y pruebas que monitorean las escuelas son a menudo obligatorias para todo el alumnado que asiste a ellas, los exámenes que se concentran en la evaluación del sistema educativo en su totalidad a menudo se aplican únicamente a una muestra representativa.
  • ¿Incluir a niños y niñas sin escolarizar? Por ejemplo, usando encuestas de hogares.

¿Cómo puede garantizarse la calidad de los instrumentos de evaluación?

Una evaluación de calidad se caracteriza por su contenido, por su validez consistente y predictiva, por la fiabilidad y por la ecuanimidad.

La validez de un examen es el punto hasta el cual un examen mide realmente lo que busca medir. La validez se suelen considerar el tema más importante en las pruebas educativas porque afecta al sentido que se le puede adjudicar a los resultados de los exámenes y a la medida en la que los resultados de los exámenes pueden tomarse como medidas fiables de las competencias adecuadas. Una evaluación de alta validez es aquella que cubre todos los aspectos relevantes del desempeño estudiantil. Los métodos para calcular la validez de un examen incluyen la validación cruzada, el análisis de las preguntas, la correlación interna de las preguntas y el análisis factorial.

La fiabilidad de un examen es el grado en el cual una evaluación produce resultados estables y coherentes. Una fiabilidad adecuada es una condición necesaria para la validez de un examen: si la medida no es fiable, no puede ser valida. Los nuevos métodos de escalado, como la Teoría de respuesta al Ítem (IRT) han producido un cambio en la percepción de la fiabilidad de los exámenes, puesto que reconocen que las preguntas pueden diferir en su nivel de dificultad según las circunstancias individuales. Cuando se usan métodos IRT, la fiabilidad de un examen se refiere, a grandes rasgos, a la precisión de la medición en los diferentes niveles de las competencias que se miden. Lo opuesto de la fiabilidad es el error de medición. Por lo tanto, la exactitud y precisión de la medición reviste una importancia suprema para garantizar la mayor fiabilidad posible del examen en su conjunto.

La ecuanimidad de una evaluación se refiere a su carencia de cualquier tipo de sesgo. Todo examen debería ser adecuado para cualquier examinando, con independencia de su etnia, religión, género o edad. Una evaluación no debería colocar en desventaja a un examinando excepto por la falta de los conocimientos y destrezas concretos que la evaluación busca medir. Para garantizar que un examen cumple los requisitos de validez, fiabilidad y ecuanimidad, antes de emplearlos hay que hacer exámenes piloto y analizarlos usando métodos psicométricos.

¿Qué formato deberán tener los exámenes?

Para garantizar la viabilidad, una prueba debería consistir en preguntas de examen que cubran todo el espectro del ámbito del examen. El examen deberá contener suficientes preguntas para cada nivel de desempeño. Las cuestiones pueden ser tanto de opción múltiple como abiertas, o una combinación de ambas. Las preguntas abiertas requieren un manual de puntaje muy estricto y una formación exhaustiva para los correctores. Muchos países están adoptando los exámenes con soporte informático en detrimento de los exámenes en papel. Esto abre la posibilidad de los exámenes adaptativos, en los que un examen se ajusta automáticamente al nivel de competencia de cada estudiante, permitiendo así una medición más precisa de su competencia general y unos exámenes más personalizados.

A menudo se emplea un diseño de exámenes rotatorios (muestras de matrices) para para monitorear todo un sistema educativo mediante exámenes basados en muestras. En un diseño rotatorio, el examen se compone de bloques, a menudo en una serie de folletos, en los que cada bloque representa únicamente una parte del examen total. Cada estudiante responde únicamente un folleto, que puede contener cualquiera de los diferentes bloques de material. Esto permite examinar sobre un amplio conjunto de temas sin que el examen se le haga demasiado largo al alumnado. No obstante, este método no permite proporcionar los resultados individuales de cada estudiante.

¿Cómo se pueden medir con precisión las tendencias a lo largo del tiempo?

Para monitorear las tendencias de los logros de aprendizaje a lo largo del tiempo, el examen debe incluir un conjunto de preguntas ancladas que se repitan en cada ciclo. Anclar las preguntas sirve para garantizar que los niveles de competencia de los que se informa se corresponden con un mismo nivel de dificultad a lo largo del tiempo. En otras palabras, que los resultados numéricos siempre representan el mismo nivel de competencia. Anclar las preguntas es algo que debe ser confidencial para garantizar las mismas condiciones de examen a lo largo del tiempo.

¿Quién debería implementar el examen, y con qué frecuencia?

Es importante pensar en cómo se va a implementar una evaluación. Los países pueden decidir si la evaluación será implantada por un ministerio del gobierno o por un grupo independiente especialista, y si los exámenes los hará personal externo con formación o se encargará de ellos el profesorado. El fin de la evaluación también determinará la frecuencia con la que se administra y el momento de hacerlo dentro del año académico, por ejemplo si se hace al inicio o al final del año escolar.

¿Cómo hay que informar de los resultados y a quién?

Las evaluaciones deben responder cuestiones políticas clave y los resultados deben transmitirse tanto a las personas encargadas de tomar decisiones como al público en general. Sin embargo, compartir en público datos estadísticos que han sido desagregados hasta el nivel de las escuelas puede ser controvertido. Si los informes en el nivel de las escuelas se hacen públicos, hay que tomar precauciones para que no se pueda identificar al alumnado de manera individual. Puede ser necesario preparar diversos informes –algunos más detallados que otros– para presentar las conclusiones a diferentes públicos, como legisladores, profesorado o el público en general. Los resultados de las evaluaciones internacionales normalmente se publican como informes nacionales. Dependiendo del diseño y de la finalidad del examen, se puede informar de los resultados bien como una puntuación global del examen o dividido en sub escalas que representen los diferentes ámbitos y los niveles de competencia.

¿Tenemos a nuestra disposición un conocimiento experto suficiente?

El desarrollo de los exámenes naciones requiere tanto conocimiento experto sobre el currículo y los contenidos específicos como una competencia psicométrica. Hay países que tienen institutos nacionales o centros de examen, que aportan el conocimiento experto necesario. También hay institutos nacionales e internacionales de examen que pueden proporcionar un apoyo y capacitación a cada país.

Planes y políticas

Referencias y Fuentes

ACER; ACER-GEM; UNESCO-UIS; GAML. 2017. Principles of good practice in learning assessment. Montreal: UNESCO-UIS.

Greaney, V.; Kellaghan, T. 2008. Assessing national achievement levels in education. Vol. 1. Washington, DC: World Bank.

Postlethwaite, T. N.; Kellaghan, T. 2008. National assessments of educational achievement. París: IIEP-UNESCO.

UNESCO-UIS. 2017. Quick guide no. 3: Implementing a national learning assessment. Montreal: UIS.

UNESCO-UIS. 2018. Quick guide no. 2: Making the case for a learning assessment. Montreal: UIS.

UNESCO-UIS. 2018. Quick guide to education indicators for SDG 4. Montreal: UIS.

Glosario

En la biblioteca