Opinión: Por qué los resultados del NAEP deben utilizarse con escepticismo al clasificar las escuelas concertadas de los estados

Paul Peterson y M. Danish Shakeel, de la Universidad de Harvard, escribieron una respuesta a una crítica de su informe sobre las escuelas concertadas. Los autores señalan que malinterpreté su estudio al decir que no controlaban a los estudiantes de lengua inglesa y de educación especial, pero en realidad sí controlaban esos factores. Acepto la "L" y pido disculpas a los autores. Sin embargo, quiero explicar un poco más por qué creo que debemos abordar con escepticismo las estimaciones de la NAEP para los sectores de las escuelas concertadas estatales.

La NAEP es muy utilizada y respetada y, en consecuencia, yo solía ser un entusiasta del examen de los datos de la NAEP sobre las escuelas concertadas. Sin embargo, un antiguo director estatal de NAEP me advirtió de que esas estimaciones eran muy poco fiables. La afirmación era la siguiente: extraer una muestra representativa de alumnos de todo el estado no garantiza que se vaya a obtener una muestra representativa de alumnos de escuelas concertadas. Mi primera reacción a este desafío fue algo así como: "En teoría, todos los alumnos del estado tienen la misma probabilidad de ser examinados, y esto debería producir estimaciones generalmente fiables con una cantidad conocida de error de medición". Teoría es la palabra clave aquí; la práctica puede ser desordenada. Me dijeron, en efecto, que las estimaciones de las escuelas concertadas del estado pueden oscilar enormemente de una prueba a otra en función de qué escuelas concertadas se incluyeron y excluyeron de una muestra de pruebas a otra.

Dado que mi fuente tiene muchos más conocimientos prácticos que yo sobre el muestreo del NAEP, decidí echar un vistazo a los datos. Por ejemplo, el porcentaje de alumnos asiáticos (4,9%) es incluso menor que el porcentaje de alumnos de colegios concertados (7,9%). En teoría, debería ser más difícil tomar muestras fiables de alumnos asiáticos que de alumnos de colegios concertados. En la práctica, los resultados de los alumnos asiáticos parecen mucho más estables que los de los alumnos de colegios concertados:

A alguien más le parece un poco inverosímil pensar que los estudiantes de las escuelas chárter de Carolina del Sur experimentaron una mejora de 27 puntos entre 2017 y 2019? Las escuelas chárter de Carolina del Sur también registraron un aumento de 29 puntos en sus puntuaciones de lectura de octavo grado entre 2017 y 2019, que fue cuatro veces mayor que el mayor aumento en una puntuación asiática en un estado. Tal vez los estudiantes chárter de Carolina del Sur estaban viviendo bien, o simplemente tal vez algo raro está pasando en el muestreo. En cualquier caso, todos estos rebotes me llevaron a creer que la fuente de mi antiguo director estatal de NAEP sabía de lo que hablaba.

Peterson y Shakeel señalan: "Al combinar los resultados de 24 pruebas a lo largo de un periodo de 11 años, aumentan enormemente las posibilidades de obtener resultados fiables." Estoy de acuerdo con esto, pero no me parece necesariamente tranquilizador. Aunque la agrupación es una buena idea, ya que los errores aleatorios pueden anularse, no hay garantía de que lo hagan. Por ejemplo, en 2016, el enfoque de "encuesta de encuestas" predijo una victoria aplastante de Hillary Clinton en el colegio electoral basándose en un enfoque de agrupación similar. Si se sondea un grupo de estimaciones ruidosas, es posible que el resultado sea ruido.

En mi post original, ofrecí la opinión de que los datos del Proyecto de Oportunidades Educativas de Stanford serían una mejor fuente de datos debido a dos grandes ventajas. En primer lugar, los datos de Stanford, al vincular los datos de las pruebas estatales en todo el país, contienen un universo mucho mayor de escuelas y estudiantes durante un período continuo de 10 años. En segundo lugar, los datos de Stanford incluyen una medida del crecimiento académico, lo que no es posible con la NAEP. Los expertos consideran que el crecimiento académico es la mejor medida de la calidad escolar.

Las clasificaciones de Peterson y Shakeel sitúan al sector chárter de California en la mitad inferior de su clasificación (en^{el puesto 25} de 36 sectores estatales). Si vamos a los datos de Stanford y examinamos los datos de crecimiento de las escuelas chárter de California, se ve así. (Los puntos verdes representan las escuelas de alto crecimiento, y los puntos azules representan las escuelas de crecimiento).

¿Tiene California un sector de chárteres de alta o baja calidad? La respuesta puede depender de si se quiere confiar en la modelización de las ruidosas estimaciones de la NAEP o, por el contrario, confiar en nuestros propios ojos mentirosos. Yo me inclino por la prueba ocular.

Peterson y Shakeel, sin embargo, no están convencidos de la superioridad de los datos de Stanford. "Pero Ladner quiere que utilicemos los problemáticos datos de los exámenes del SEDA, porque el SEDA informa de los cambios en el rendimiento de los estudiantes en cada distrito escolar y escuela concertada de un año para otro. Eso requiere otra suposición más: que no hay cambios en la composición de una cohorte escolar de un año para otro, una suposición particularmente fuerte para una escuela de elección."

Puede que los datos de Stanford sean "problemáticos", pero parece una acusación de peso. Mi afirmación no es que los datos de la NAEP sean problemáticos en general, sino simplemente que sus estimaciones sobre los alumnos de los colegios concertados son muy ruidosas, algo que me comunicó una fuente bien informada y que yo investigué. Por supuesto, hay cambios en la composición de la cohorte de escuelas concertadas de un año para otro, y lo mismo ocurre con el sistema de escuelas de distrito. Si se trata de un problema sistémico, no creo que haya motivos para sospechar que NAEP sea más inmune a él que los datos de Stanford.

Elogio a Peterson y Shakeel por crear una medida basada en los resultados de los sectores de las escuelas concertadas. Creo que es un tema importante y digno de discusión y debate en cuanto a qué medidores del rendimiento académico y qué fuentes de datos deben utilizarse.

Ver temas

Dejar una respuesta

Manténgase al día

Dejar una respuesta