Evaluaciones del aprendizaje

Last update 19 Jul 18
FICHA 2

Para mejorar el aprendizaje de los estudiantes tenemos que saber mucho más acerca de cómo aprenden ahora los estudiantes y en dónde son más necesarias las mejoras. La evaluación del aprendizaje es por lo tanto un tema fundamental que los países tienen que abordar estratégicamente a medida que van desarrollando planes de seguimiento del sector educativo.

Evaluaciones del aprendizaje para diferentes fines y contextos

Existen múltiples clases de evaluaciones del aprendizaje de los estudiantes, que se utilizan en diferentes contextos y para fines distintos. Con frecuencia diferenciamos entre dos grandes categorías: 1) evaluaciones individuales para alumnos, y 2) evaluaciones de sistemas o evaluaciones para escuelas, regiones o sistemas educativos nacionales. 

Evaluaciones individuales

Las evaluaciones individuales para los alumnos pueden ser formativas y ofrecer información a los alumnos y docentes sobre sus avances y competencias, o puede ser sumativas, revistiendo la forma de calificaciones finales o resultados de exámenes.

En las aulas, los profesores pueden diseñar pruebas formativas o sumativas para evaluar si los estudiantes están siguiendo el currículo. Las pruebas formativas son diagnósticas por naturaleza propia: los docentes quieren saber si los alumnos están aprendiendo realmente y, si no es así, adoptar las medidas de intervención más adecuadas. Las pruebas formativas son también importantes para informar a los padres y alumnos sobre la marcha académica de éstos. Las pruebas pueden ser también sumativas, realizadas a la finalización de una unidad, período o año, con el fin de determinar si los estudiantes han adquirido los conocimientos y las competencias necesarias. Las pruebas diseñadas por el docente se utilizan generalmente como una herramienta de evaluación dentro de un aula o curso. No comparan el aprendizaje del estudiante por escuelas.

Los exámenes públicos tienen objetivos diferentes a las pruebas realizadas en clase. Normalmente los resultados se utilizan para certificar que el estudiante ha alcanzado un determinado nivel en sus estudios. El examen puede utilizarse también para evaluar si las escuelas están implementando o no el plan de estudios y si los docentes están dando las instrucciones adecuadas. Estos exámenes pueden utilizarse también para seleccionar a estudiantes para que accedan a niveles educativos superiores. Cuando el futuro educativo profesional de un estudiante depende de los resultados que vaya a obtener en el examen, se denomina evaluación de ‘alto impacto’.

Valoración a nivel de sistema y evaluación

Las evaluaciones regionales, nacionales e internacionales a gran escala se utilizan para evaluar los resultados de un sistema escolar. Son instrumentos diseñados para proporcionar datos sobre los niveles de rendimiento académico del estudiante en determinados dominios del aprendizaje. A diferencia de los exámenes, que se centran en los resultados individuales y que determinan la titulación o la selección del alumno, los resultados de las evaluaciones no tienen consecuencias para los estudiantes individualmente considerados. En el caso de las evaluaciones el objetivo es más bien evaluar la medida en la que los estudiantes están aprendiendo dentro del sistema y explicar la razón por la que algunos estudiantes tienen un mejor rendimiento académico que otros. Además de los datos sobre los resultados del aprendizaje de los estudiantes, estas evaluaciones recopilan una gran variedad de información general sobre el entorno de los alumnos, de los profesores y del aprendizaje. Todas estas informaciones son posteriormente analizadas y relacionadas entre sí para poder ofrecer sugerencias documentadas de formulación de políticas que puedan ser utilizadas por los responsables educativos.

Incorporación de los datos de evaluación a un marco de seguimiento

Los datos de evaluación pueden desempeñar un papel fundamental en el marco de seguimiento general de un país, como parte del análisis de los temas del sistema educativo y para hacer un seguimiento de los planes de mejora. En líneas generales, los datos de las evaluaciones son más útiles con fines de seguimiento cuando la evaluación ha sido diseñada de forma rigurosa para comparar estudiantes, niveles de rendimiento y periodos de tiempo diferentes.  Los datos de los exámenes nacionales y regionales pueden incorporarse también dentro de un sistema de seguimiento mediante su inclusión en un Sistema de Información para la Gestión de la Educación (SIGE) o haciendo pública esta información a través de fichas informativas—aunque esta información debería utilizarse con cierta prudencia al analizar las tendencias a lo largo del tiempo, ya que estos exámenes no son diseñados normalmente con este fin.

Herramientas internacionales de evaluación disponibles

Diversas iniciativas internacionales han creado herramientas de evaluación educativa del aprendizaje y de la gestión de la escuela/educación. Estas herramientas internacionales de evaluación se realizan por muestreo y se han diseñado con el fin de proporcionar información basada en datos e informaciones objetivos para mejorar la formulación de políticas educativas y para conseguir, a su vez, mejorar la enseñanza y el aprendizaje. En términos generales diferenciamos entre pruebas desarrolladas internacionalmente utilizadas para realizar análisis a nivel de sistema dentro de los países y pruebas internacionales a gran escala utilizadas para realizar evaluaciones comparativas entre diferentes países. Las evaluaciones comparativas a gran escala se diseñan para comparar entre diferentes países los resultados obtenidos sobre una escala común y también pueden medir tendencias en los resultados del aprendizaje a lo largo del tiempo.

Es importante señalar que las herramientas que se describen a continuación no son excluyentes entre sí. Algunas herramientas son multifacéticas y generan datos que pueden analizarse para diferentes fines. Por ejemplo, los datos del SACMEQ pueden utilizarse para el planeamiento educativo, así como con fines de monitoreo.

Evaluaciones para su utilización a nivel de país

Existen dos herramientas de evaluación internacionalmente reconocidas para evaluar las competencias de lectura y matemáticas en la primera infancia. Son la Prueba para la Evaluación Inicial de la Lectura en Niños de Educación Primaria (conocida como prueba EGRA) y la  Prueba para la Evaluación Inicial de Matemáticas en Niños de Educación Primaria (conocida como prueba EGMA), elaboradas por RTI International y financiadas por la USAID. Además, hay iniciativas dirigidas a los ciudadanos como la UWEZO que llevan a cabo evaluaciones domiciliarias sobre el aprendizaje.

EGRA – Prueba para la Evaluación Inicial de la Lectura en Niños de Educación Primaria

Se trata de una herramienta de evaluación verbal dirigida a medir las competencias básicas de lectoescritura de niños en educación primaria. Se centra en el niño individualmente considerado y consiste en una evaluación personalizada. La herramienta evalúa el reconocimiento de las letras, la lectura de palabras simples, el entendimiento de frases y párrafos y la comprensión. La evaluación se adapta para su uso en función del país y de la lengua utilizada. El EGRA ayuda a establecer los resultados de las pruebas de lectura a nivel nacional y el nivel de competencia de lectura de los niños en una fase temprana, datos que luego son utilizados para adoptar medidas de mejora y de formulación de políticas.

EGMA – Prueba para la Evaluación Inicial de las Matemáticas en Niños de Educación Primaria

Esta herramienta es la equivalente al EGRA para las matemáticas y la aritmética. Mide las competencias de los niños en matemáticas y aritmética. Se centra en los conocimientos básicos de matemáticas como, por ejemplo, la identificación de los números, la discriminación de las cantidades (mayor y menor), la detección de números que faltan, la solución de problemas de palabras, sumas y restas, el reconocimiento de formas, y la extensión de patrones. La evaluación es fundamental para determinar la capacidad de realizar otras tareas aritméticas. Ayuda a los profesores a determinar el nivel de comprensión de las competencias básicas por parte de los estudiantes y a detectar áreas de mejora de cara a la realización de tareas en grados superiores. 

UWEZO – Es una herramienta de evaluación creada por una ONG que se utiliza  Kenia, Tanzania y Uganda

Uwezo, que significa "capacidad" en swahili, es una iniciativa que  lleva a cabo una encuesta anual en hogares para evaluar si los niños entre 6 y 16 años de edad tienen las competencias normales en materia de alfabetización (lectura) y aritmética (matemáticas) necesarias en el nivel 2. La evaluación se realiza a nivel regional, abarcando Kenia, Tanzania y Uganda. Las herramientas de evaluación de la encuesta recogen otros datos demográficos, como los ingresos del hogar, su ubicación y las escuelas. Estas herramientas proporcionan resultados de naturaleza general y que se pueden utilizar en diferentes áreas de la política educativa, permitiendo realizar análisis sólidos de, por ejemplo, la situación escolar, la escolarización, la asistencia y las ratios de alumnos por docente. Véase también ASER (India y Pakistán), Beekungo (Mali), Jangandoo (Senegal), MIA (México), y la red internacional PAL (People's Action for Learning Network).

Evaluaciones internacionales a gran escala

Las evaluaciones internacionales a gran escala son diseñadas para proporcionar información relevante en materia de política educativa sobre los resultados del aprendizaje de forma tal que pueda ser objeto de comparación entre los diferentes sistemas educativos. Normalmente estas pruebas se realizan por muestreo aleatorio y consisten en pruebas cognitivas escritas o por ordenador, acompañadas por encuestas a los alumnos y directores. Algunos estudios incluyen también encuestas a los docentes y a los padres. Las evaluaciones internacionales a gran escala permiten a los estudiantes y a los sistemas educativos comparar los resultados entre sí, ya que se presentan dentro de una escala común para los diferentes países. Además, han sido diseñadas para ofrecer datos fiables sobre las tendencias de los resultados del aprendizaje a lo largo del tiempo. Esto permite a los países evaluar las fortalezas y debilidades de sus sistemas educativos y valorar el impacto que a lo largo del tiempo tienen las reformas y decisiones en materia de política educativa.

Existen varias herramientas de evaluación internacional a gran escala que han sido desarrolladas por diferentes organizaciones internacionales:

La Organización para la Cooperación y el Desarrollo Económico  (OCDE) es responsable del programa PISA y de PISA para el Desarrollo, que son pruebas sobre los resultados del aprendizaje. La OCDE organiza además el TALIS, que es una encuesta internacional dirigida a docentes y directores de escuela. La OCDE tiene la misión general de promover políticas que mejoren el bienestar económico y social como, por ejemplo, mediante la generación de datos comparativos sobre los sistemas educativos de diferentes países.

PISA – Programa Internacional para la Evaluación de Estudiantes

El Programa Internacional para la Evaluación de Estudiantes (PISA) es una encuesta internacional trienal llevada a cabo por la OCDE. PISA tiene como objetivo evaluar sistemas de educación en todo el mundo examinando las competencias y conocimientos de los alumnos de 15 años. Cada tres años, estudiantes de escuelas seleccionadas aleatoriamente de todo el mundo realizan pruebas sobre asignaturas fundamentales como lectura, matemáticas y ciencias, centrándose cada año en la evaluación de una de ellas. Hasta la fecha han participado en la evaluación estudiantes que representan a más de 70 economías de todo el mundo. Las pruebas del programa PISA no están ligadas directamente al currículo escolar. Las pruebas han sido diseñadas para evaluar en qué medida los estudiantes que están llegando al final de la educación obligatoria pueden aplicar sus conocimientos en situaciones de la vida real y están preparados para participar plenamente en la sociedad. La información recopilada a través de cuestionarios generales proporciona también contexto a los analistas y puede ayudarles a interpretar los resultados.

PISA para el Desarrollo

Esta iniciativa tiene como propósito hacer que los países en desarrollo utilicen cada vez más las herramientas de evaluación de PISA para hacer un seguimiento de los avances realizados de cara a la consecución de los objetivos nacionales de mejora de la educación, centrándose en los resultados del aprendizaje de los alumnos. También ha sido diseñada para hacer un seguimiento de los objetivos de la educación internacional en el marco de la agenda post-2015. En estos momentos se está realizando un estudio piloto. Los resultados contribuirán a la agenda de desarrollo de la educación post-2015.

TALIS

El TALIS fue creado en el 2008 como una encuesta internacional a gran escala sobre los docentes, las condiciones de enseñanza y los contextos de aprendizaje de las escuelas de los países participantes. El estudio tiene como objetivo ofrecer información de política educativa actual, comparable y útil relativa a las condiciones y los entornos de la enseñanza y del aprendizaje en los países participantes.


La Asociación Internacional para la Evaluación del Aprovechamiento  Escolar (IEA) es una asociación internacional independiente de instituciones nacionales de investigación y de agencias públicas de investigación. La IEA realiza estudios comparativos a gran escala sobre el aprovechamiento escolar y otros aspectos de la educación, con el objetivo de conocer en profundidad los efectos de las políticas y prácticas dentro de los diferentes sistemas educativos.

TIMSS

El TIMSS (Estudio Internacional de las Tendencias en Matemáticas y Ciencias) mide las tendencias de los resultados obtenidos en matemáticas y ciencias de los alumnos de cuarto y octavo grado. El TIMSS se viene realizando cada cuatro años desde 1995. El TIMSS informa sobre el rendimiento general así como sobre los resultados de acuerdo con cuatro referencias comparativas internacionales (avanzada, alta, media y baja), por grandes áreas de contenidos (por ejemplo, aritmética, álgebra y geometría en matemáticas, y ciencias naturales, biología y química en ciencias). Además, el estudio recopila información sobre el currículo y su implementación, prácticas de docencia y recursos escolares.

Para aquellos países cuyos estudiantes están desarrollando todavía competencias básicas de matemáticas, la nueva evaluación TIMSS Artmética de la IEA (diseñada para evaluar a los alumnos de cuarto, quinto o sexto grado) se concentra en medir los resultados del aprendizaje aritmético de los niños, incluyendo conocimientos de matemáticas básicas, procedimientos y estrategias de resolución de problemas. Existe también una herramienta avanzada (TIMSS Advanced) que mide las tendencias en matemáticas y física avanzadas para los estudiantes que se encuentran próximos a finalizar la secundaria.

PIRLS y PIRLS Comprensión Lectora

El PIRLS (Estudio Internacional del Progreso en Comprensión Lectora) es una evaluación de la comprensión lectora de los alumnos que proporciona datos internacionalmente comparables sobre la calidad de lectura de los niños al finalizar cuarto grado. El PIRLS se viene realizando cada cinco años desde el 2001 en países de todo el mundo. Además, el estudio recopila también información sobre la ayuda en casa, las prácticas docentes y los recursos escolares en cada país participante.

Iniciado en el 2011, el PIRLS Comprensión Lectora (antiguamente conocido como prePIRLS) se basa en la misma perspectiva sobre la comprensión lectora que el PIRLS, pero está diseñado para examinar las competencias lectoras básicas en aquellos países en donde la mayoría de los niños siguen todavía desarrollando competencias lectoras básicas. El estudio PIRLS Comprensión Lectora se lleva a cabo en cuarto, quinto o sexto grado y ofrece a los países la oportunidad de poder hacer comparaciones con respecto a la prueba PIRLS ordinaria.
 
ICCS

El Estudio Internacional de Educación Cívica y Ciudadanía (ICCS) investiga en qué medida los jóvenes se encuentran preparados para asumir su papel como ciudadanos. El estudio evalúa a los alumnos al final del octavo grado y se llevó a cabo por última vez en el 2009. Está previsto realizar de nuevo el estudio en el 2016. El ICCS informa sobre el conocimiento y la comprensión de los estudiantes de los conceptos y cuestiones relacionadas con la educación cívica y la ciudadanía, así como sobre sus creencias, actitudes y comportamientos.

ICILS

El Estudio Internacional de las Competencias Informáticas e Informacionales (ICILS) es un estudio comparativo internacional diseñado para evaluar la capacidad de los estudiantes de utilizar los ordenadores para investigar, crear y comunicar con el fin de participar de forma efectiva en el hogar, en la escuela, en el lugar de trabajo y en la comunidad. El estudio está dirigido a los estudiantes que finalizan octavo grado y fue creado en un primer momento como un estudio de referencia en el 2013 del que formaban parte 21 sistemas educativos de todo el mundo. La segunda ronda del ICILS está prevista para el 2018.
A nivel regional existen varios programas de evaluación como el SAQMEC y el PASEC en el África Subsahariana y el LLECE en Latinoamérica y otras iniciativas más recientes. Estos programas tienen como objetivo seguir y evaluar los sistemas escolares y ofrecer información basada en datos objetivos que los responsables educativos puedan utilizar para planificar y mejorar la calidad de la educación básica. 

SACMEQ – El Consorcio de África Meridional para la Supervisión de la calidad de la Educación

El SACMEQ es una organización que agrupa a 16 ministerios de educación del África meridional y oriental. La integración de estos ministerios dentro de la organización tiene como objetivo compartir experiencias y conocimientos especializados con vistas a realizar un seguimiento y una evaluación científica de las políticas de educación sobre las condiciones escolares y la calidad de la educación. El SACMEQ imparte programas de formación para dotar a los planificadores educativos de competencias técnicas, incluyendo las relativas a la recogida y análisis de datos con fines de seguimiento y evaluación. Además de ocuparse de manera principal de los temas de seguimiento y de evaluación, el SAQMEQ también lleva a cabo ocasionalmente evaluaciones de lectura y matemáticas en países miembro con el fin de evaluar los conocimientos de matemáticas y de lectura en inglés de estudiantes de sexto grado.

PASEC – Programa de Análisis de los Sistemas Educativos

El PASEC es una herramienta de evaluación regional para los países francófonos de Asia y África occidental utilizada por la CONFEMEN (la Conferencia de Ministros de Educación de  los Países de Habla Francesa). Este instrumento proporciona información sobre los resultados de los sistemas educativos, y contribuye al desarrollo y seguimiento de los resultados académicos en los países miembro. Además, el PASEC lleva a cabo evaluaciones comparativas entre sus países miembros. Los objetivos del PASEC son: evaluar los resultados de los alumnos y detectar problemas de eficiencia y equidad en la educación básica; dotar de indicadores a las políticas nacionales que permitan realizar comparaciones pertinentes; fomentar, a nivel nacional, el desarrollo de capacidades internas y permanentes para la evaluación del sistema educativo; difundir los resultados de las evaluaciones a nivel internacional para contribuir así a la generación de reflexiones y debates sobre los factores que influyen en la calidad de la educación. El objetivo general es contribuir a la creación de métodos de evaluación eficaces que mejoren la capacidad de los ministerios nacionales para evaluar los logros del aprendizaje en la educación primaria.

LLECE – Laboratorio Latinoamericano de Evaluación de la Calidad de la Educación

El LLECE es una red de unidades nacionales que se centra en la evaluación de la calidad educativa. Este organismo fue creado inicialmente con la participación de 15 miembros—Argentina, Bolivia, Brasil, Chile, Colombia, Costa Rica, El Salvador, Guatemala, Honduras, México, Paraguay, Perú, República Dominicana, Uruguay y Venezuela, y bajo la coordinación de la Oficina Regional de Educación de la UNESCO para América Latina y el Caribe. La red nació con los objetivos de proporcionar más información para diseñar reformas educativas adecuadas, compartir y desarrollar los conocimientos especializados necesarios para llevar a cabo las evaluaciones educativas y tener una orientación más abierta hacia la idea de compartir con la opinión pública los datos de las evaluaciones. Hasta la fecha se han realizado tres evaluaciones regionales: PERCE (1997-98), SERCE (2006-8) y TERCE (2013-15). Aunque al principio estas evaluaciones se centraban únicamente en la lectura y las matemáticas, el estudio se ha ampliado hasta incluir la escritura y las ciencias naturales (en el caso de estas últimas únicamente para los alumnos de sexto año de educación primaria). También tiene como objetivo identificar aquellos factores asociados con los diferentes niveles de rendimiento académico, como el contexto socioeconómico, los problemas familiares y personales, las políticas educativas y los procesos escolares.

Dado que cada vez se reconoce más la importancia que tiene el rigor en las evaluaciones del aprendizaje, es probable que sigan apareciendo nuevos programas de evaluación regionales e internacionales. Un ejemplo de esto es la Métrica del Aprendizaje en la Escuela Primaria del Sudeste Asiático (SEA-PLM) recientemente inaugurada en asociación con la Comisión Especial sobre Métricas de los Aprendizajes (LMTF), una iniciativa global que está trabajando para mejorar la medición del aprendizaje en todo el mundo.

 

Aspectos fundamentales a tener en cuenta al diseñar evaluaciones nacionales de aprendizaje

La clave para implementar con éxito políticas educativas específicas es contar con información fiable sobre el rendimiento de los alumnos. En las últimas dos décadas las evaluaciones nacionales se han convertido en una herramienta importante para medir el rendimiento educativo. Existe una gran variedad de programas de evaluación nacional con diferentes metas y objetivos. En términos generales, podemos diferenciar entre evaluaciones diseñadas para promover la rendición de cuentas a todos los niveles y las evaluaciones diseñadas para evaluar y perfeccionar el sistema. En ambos casos,  si el objetivo es medir los cambios en el rendimiento académico a lo largo del tiempo el diseño de la prueba deberá cumplir determinados requisitos.

A la hora de diseñar un sistema de evaluación nacional habrán de tenerse en cuenta algunas cuestiones fundamentales que determinarán todas las demás decisiones que se adopten para elaborar el sistema:

  • ¿Qué es lo que se busca con la evaluación?
  • ¿Qué competencias queremos evaluar?
  • ¿Cuáles son los principales grupos objetivo que se quieren evaluar?
  • ¿Cómo pueden garantizarse la validez y la fiabilidad?
  • ¿Qué formato deberían tener las pruebas?
  • Es importante medir las tendencias, por lo que ¿cómo pueden medirse de forma precisa?
  • ¿Cómo debería informarse sobre los resultados y a quién?
  • ¿Contamos con la competencia y los conocimientos necesarios?


Estos aspectos se encuentran habitualmente definidos dentro de un marco de evaluación nacional. A continuación abordamos otros puntos a tener en cuenta en relación con cada tema:

Objetivo de la evaluación nacional

Un programa de evaluación nacional puede abarcar múltiples objetivos, y el objetivo principal debería determinar el diseño de la evaluación. Por consiguiente, es muy importante tener claro desde el principio cuál es el objetivo principal. La utilización de una única prueba para objetivos diferentes podría no ser lo más adecuado ya que la información que se precisaría idealmente en cada caso no es la misma. Por consiguiente, se recomienda a las autoridades educativas que clasifiquen los diferentes objetivos por orden de prioridad y que adapten los diseños de las pruebas en la medida correspondiente. (Véase Normas, rendición de cuentas y sistemas de evaluación de los estudiantes de la Asociación Canadiense para la Educación (CEA))

La mayoría de las evaluaciones nacionales tienen tres grandes objetivos generales (enlace). El primer grupo consiste en pruebas que resumen el rendimiento académico de los alumnos individualmente considerados al final del año escolar o al final de una determinada etapa educativa y que tienen un gran impacto sobre sus carreras educativas. Son pruebas de alto impacto, que frecuentemente reciben el nombre de sumativas. En segundo lugar, son evaluaciones que tienen como objetivo seguir y evaluar las escuelas y/o el sistema educativo en su conjunto. En este caso, los resultados de las pruebas se utilizan como indicadores de la calidad de la enseñanza y del rendimiento de los docentes, pero también para calibrar la eficacia general de las políticas y prácticas educativas. Una tercera categoría está formada por las evaluaciones que tienen como fin principal ayudar en el proceso de aprendizaje de cada alumno identificando sus necesidades específicas de aprendizaje y adaptando la enseñanza en la medida correspondiente.

Competencias a evaluar

Los ámbitos de evaluación pueden basarse en determinadas materias del currículo o pueden evaluar competencias fundamentales del aprendizaje en varias materias, como la aritmética, la lectoescritura, la resolución de problemas o las habilidades de información y comunicación. La evaluación de las competencias fundamentales será de la máxima relevancia para los programas de evaluación formativa diseñados para hacer un seguimiento de los sistemas educativos y/o detectar las necesidades individuales  de aprendizaje. Todas las evaluaciones nacionales miden las competencias cognitivas en las áreas de lenguaje/lectoescritura y matemáticas/aritmética, un reflejo de la importancia que tienen estos resultados para la educación básica. En algunos países las evaluaciones se ocupan también de los conocimientos de otras áreas, como las ciencias, los estudios sociales, las lenguas particulares y otros ámbitos.

Cualquiera que sea el ámbito de la evaluación, es importante elaborar un marco adecuado que defina claramente las competencias y habilidades a evaluar así como las especificaciones de la prueba. Esto es necesario tanto para elaborar los instrumentos de evaluación como para interpretar después los resultados.

Grupos objetivo y estrategia de muestreo

La selección de grupos objetivo para las evaluaciones depende de la finalidad de la prueba. Si la finalidad es principalmente formativa, las pruebas deberán realizarse en aquellas fases en las que las competencias adquiridas sean fundamentales para el aprendizaje y desarrollo futuros. Un ejemplo de esto podría ser al inicio y a la finalización de la educación primaria y al finalizar la primera etapa de la educación secundaria. En el caso de que el objetivo principal de la evaluación sea formativo, las pruebas se realizarían normalmente al finalizar un nivel educativo, como por ejemplo al finalizar la escuela primaria, la primera etapa de la educación secundaria o la segunda etapa de la educación secundaria.

Los exámenes y pruebas para hacer un seguimiento de las escuelas son frecuentemente de naturaleza obligatoria para todos los alumnos, mientras que las pruebas que se concentran en la evaluación del sistema educativo en su conjunto son frecuentemente realizadas sobre una muestra representativa de alumnos.  En el caso de que la prueba se realice sobre una muestra, es necesario pensar en cómo se va a informar sobre los resultados cuando se haya definido la muestra. En el caso de que los resultados deban ser desglosados por regiones, tipos de escuela, género, lengua de enseñanza, etc. habrá que asegurarse de que la muestra sea representativa a todos estos niveles.

Validez y fiabilidad

La validez de la prueba es la medida en la que una prueba mide realmente lo que se pretende medir. La validez es considerada generalmente como el aspecto más importante al realizar pruebas educativas, ya que afecta al significado que se da a los resultados de la prueba y a la medida en la que se puede confiar en que éstos hayan medido las competencias adecuadas. Una evaluación con una validez elevada garantiza que se han contemplado todos los aspectos significativos del rendimiento académico del estudiante. Existen métodos estadísticos para calcular la validez de las pruebas.

La fiabilidad de la prueba es el grado en el que una evaluación produce resultados estables y sistemáticos. Una fiabilidad adecuada es una condición necesaria para la validez de una prueba. Esto significa que si la medición no es fiable tampoco puede ser válida. Los métodos de escalonamiento más recientes (la Teoría de la Respuesta al Ítem o TRI) han cambiado la forma de entender lo que es la fiabilidad de una prueba, debido a que el reconocimiento de determinados ítems puede variar en su nivel de dificultad. Cuando se utilizan métodos de TRI la fiabilidad de la prueba significa más o menos la precisión de la medición a diferentes niveles de la competencia evaluada. Lo contrario de la fiabilidad es el error en la medición y, por consiguiente, es de suma importancia garantizar que la prueba tenga en su conjunto la máxima fiabilidad posible.

Diseño de la prueba

Para garantizar la validez de la prueba, ésta deberá estar formada por ítems que representen la totalidad del ámbito de la prueba que se describe en el marco. La prueba deberá contener ítems suficientes para cada nivel de competencia. Los ítems podrán ser de respuesta múltiple o abierta, o una combinación de ambas. Sin embargo, las preguntas abiertas exigen contar con un manual de calificación muy estricto y formar a los calificadores. En muchos países se está cambiando rápidamente de las pruebas en papel a las pruebas por ordenador.  Esto permite realizar pruebas adaptativas, que es cuando las pruebas se adaptan automáticamente al nivel de competencia del estudiante. Este método permite medir de forma más precisa el conjunto de las competencias y realizar pruebas más específicas.

En las pruebas por muestreo dirigidas a hacer un seguimiento de todo un sistema educativo se utiliza frecuentemente un diseño de prueba rotatoria (muestreo matricial). En un diseño rotatorio, la prueba está formada por una serie de cuadernillos o bloques, representando cada uno de ellos solamente una parte del conjunto de la prueba. Cada estudiante contesta únicamente un cuadernillo, que puede contener diferentes bloques de materias.     Esto permite examinar sobre un conjunto grande de ítems sin hacer por ello que la prueba sea demasiado larga para cada estudiante. Sin embargo, con este método no es posible ofrecer los resultados individuales de los estudiantes.

Todos los ítems de cualquiera de estos tipos de pruebas deben testearse y analizarse utilizando métodos psicométricos antes de ser utilizados en la prueba final, con el objetivo de cerciorarse de que la prueba cumpla todos los requisitos en materia de validez y fiabilidad.

Medición de las tendencias

Para medir la evolución de los resultados del aprendizaje a lo largo del tiempo, la prueba debe contener unos ítems de anclaje que se repiten en cada ciclo. Los ítems de anclaje  se utilizarán para garantizar que los niveles de competencia comunicados representen el mismo nivel de dificultad a lo largo del tiempo. En otras palabras, que los resultados numéricos representen siempre el mismo nivel de competencia. Los ítems de anclaje deberán mantenerse siempre confidenciales  para garantizar que las condiciones de la prueba sean las mismas a lo largo del tiempo. Si se quiere hacer un seguimiento de las tendencias sólo es posible hacerlo utilizando un diseño de prueba de este tipo.

Comunicación de los resultados y utilización de puntuaciones escalonadas

Lo ideal es que los resultados de la evaluación sean comunicados tanto a los responsables de la política educativa como a la opinión pública. Hacer pública esta información permite asegurar que todos los agentes puedan exigir responsabilidades a las instituciones educativas. Sin embargo, hacer públicos datos que han sido desglosados por escuelas puede suscitar muchas controversias y no siempre resulta beneficioso; en algunos casos puede ser más adecuado facilitar estos datos con un mayor nivel de agregación regional. Además, si se hacen públicos los informes por escuelas, hay que poner especial cuidado en que no se puedan identificar datos personales de los estudiantes.

 Normalmente es necesario preparar más de un tipo de informe—algunos de los cuales pueden ser más específicos que otros—con el fin de asegurar que las conclusiones fundamentales sean accesibles para los diferentes tipos de públicos. Dependiendo del diseño y finalidad de la prueba, los resultados pueden presentarse como una puntuación total o desglosarse en subescalas que representen subámbitos de evaluación y niveles de competencia.

Para poder comparar resultados lo más frecuente es que los programas de pruebas normalizadas presenten los resultados bajo la forma de puntuaciones escalonadas. Las puntuaciones escalonadas se obtienen escalonando las puntuaciones brutas (porcentajes o puntos) dentro de una escala común para tener en cuenta las diferencias de dificultad que presentan las diferentes formas. Enlace a ETS: ¿Por qué los programas de pruebas normalizadas presentan puntuaciones escalonadas?

Competencia profesional para realizar las pruebas

La elaboración de pruebas nacionales exige una elevada competencia profesional, tanto a nivel curricular como de contenidos y una elevada competencia psicométrica. Un aspecto importante a tener en cuenta es cómo mantener el nivel de competencia profesional necesario durante todo el proceso. Algunos países cuentan con institutos nacionales o centros de pruebas que pueden aportar la competencia profesional necesaria, pero esto no es lo más frecuente. Sin embargo, existen institutos de pruebas nacionales e internacionales que pueden ayudar a los países y fomentar la creación de capacidades.

Glosario

En la biblioteca