CONICET | Buscador de Institutos y Recursos Humanos

IIPSI 26795

INSTITUTO DE INVESTIGACIONES PSICOLOGICAS

Unidad Ejecutora - UE

información general

recursos humanos

líneas de investigación

servicios tecnológicos

artículos

libros

capítulos de libros

congresos y reuniones científicas

informe técnico

congresos y reuniones científicas

Título:

Desarrollo y simulación del algoritmo de una prueba adaptativa que evalúa conocimiento en Biología en estudiantes de educación superior

Autor/es:

BRUZZONE, MANUEL; GARRIDO, SEBASTIAN JESÚS; CUPANI, MARCOS; BARADACCO, MILAGROS; AZPILICUETA, ANA ESTEFANÍA; GHIO, FERNANDA BELÉN; BATISTA, WILSON; MORÁN, VALERIA ESTEFANÍA

Lugar:

Santiago de Chile

Reunión:

Congreso; Congreso Latinoamericano de Medición y Evaluación Educacional (COLMEE); 2021

Institución organizadora:

Centro de Medición MIDE UC

Resumen:

Introducción:El avance de la tecnología computacional ha motivado la integración de nuevas herramientas que permiten evaluar el desempeño académico de los estudiantes con medidas más precisas y objetivas. En este panorama, aparecen los Test Adaptativo Computarizados (CAT, Computerized Adaptive Testing, por sus siglas en inglés) que ofrecen medidas de evaluación más eficientes y flexibles (Choi, Podrabsky & McKinney, 2012). La lógica de un CAT es que, en base a la respuesta (acierte o falle) que dé un sujeto a un ítem se determinará el próximo ítems que deberá responder. Este tipo de pruebas ofrecen medidas de evaluación más precisas y adaptadas a los estudiantes. Es por eso que, en este trabajo se presenta el desarrollo, especificación y simulación del algoritmo de un CAT construido a partir de un BI que mide conocimiento en Biología (TCG-B) para estudiantes universitarios (Cupani, Castro Zamparella, & Piumatti, 2017; Cupani, et., 2016). La simulación del algoritmo del CAT resulta una etapa necesaria para comprender su funcionamiento previo a una aplicación en sujetos reales. La simulación de los patrones de respuesta nos permitirá estimar la cantidad de ítems del BI del dominio de conocimiento de Biología que se deberían utilizar para estimar el nivel de habilidad de cada estudiante con un mayor nivel de precisión y determinar el correcto funcionamiento del algoritmo construido según los intereses de evaluación que pretendamos. Descripción de la metodología: Muestra: Simulación de los patrones de respuesta: Se utilizaron 36.000 patrones de respuesta simulados a través del software R para probar el funcionamiento del algoritmo del CAT del BI del TCG-B. Se simularon 1.000 patrones de respuesta en cada uno de los niveles de habilidad de -2.0; -1.5; -1.0; -0.5; 0; 0.5; 1.0; 1.5; 2.0 por cada nivel de conocimiento del TCG-B (del Nivel I al Nivel IV). Instrumento: Banco de ítems del Test de Conocimiento General - Dominio de conocimiento de Biología (Cupani, Castro Zamparella, & Piumatti, 2017; Cupani, et., 2016) El BI está conformado por 414 ítems (98, Nivel I; 69, Nivel II; 117, Nivel III; 130, Nivel IV), Los ítems que componen la prueba son preguntas múltiple opción, con tres alternativas de respuesta donde solo una es la correcta. Este BIs fue calibrado desde el Modelo de Rasch, en una muestra de 2319 participantes, 1368 (59%) fueron del sexo femenino, y 948 (40.9%) del sexo masculino. Las edades estaban comprendidas entre 17 y 58 años (M= 22,13, DE= 4.055). El BIs cumple el supuesto de unidimensionalidad e independencia local. Los niveles de confiabilidad de los ítems (índice de separación) fueron adecuados, variando entre 0.62 en el Nivel III a 0.71 en los niveles II y IV. El BIs del TCG-B para el Nivel I, cuenta con 98 ítems, con un índice de separación de .68, los niveles de dificultad de los ítems variaron entre -3.27 a 2.46. En el Nivel II, se utilizaron 69 Ítems, con un índice de separación de .71, los niveles de dificultad variaron entre -3.01 a 2.02. Para el Nivel III, se utilizaron 117 Items, con un índice de separación de .62, los niveles de dificultad de los ítems variaron entre -3.16 a 3.29. Finalmente, el Nivel IV, quedó conformado por 130 Ítems, con un nivel de confiabilidad .71, los niveles de dificultad de los ítems variaron entre -3.76 a 3.30. Procedimiento: Determinación del algoritmo adaptativo. A partir del software R (R Core Team, 2017) se especificaron los argumentos del algoritmo a utilizar en la prueba adaptativa de los ítems de cada nivel de conocimiento (del Nivel I al Nivel IV) del BIs del TCG-B. Se utilizó el paquete catR y el comando randomCAT para generar los patrones de respuesta a partir de las especificaciones del algoritmo (Magis & Raiche, 2012). Los argumentos del algoritmo especificados fueron: start, test, final y stop. Construidos de la siguiente manera: (a) start: se delimitó que la prueba inicie seleccionando un ítem con un nivel de dificultad entre -1.5 a 1.5, con un mínimo de administración de 4 ítems antes que finalice la prueba, de forma que se garantice la representatividad del contenido (b) test: para la estimación de la habilidad provisional se utilizó el método estimación ponderada de verosimilitud ("WL") (Warm, 1989) y para la selección del próximo ítem el criterio ?MFI? (Maximum Fisher Information), (c) final: como criterio para la estimación de la habilidad final se utilizó la estimación esperada a posteriori (EAP) (Bock & Mislevy, 1982), (d) stop: la regla de parada de la simulación se estableció por medio de criterio de longitud variable, establecido por la regla de ?precisión?, a partir de un error estándar de la habilidad provisional (theta) menor o igual a 0.5. Simulación: Las simulaciones consistieron en un total de 9000 estimaciones de habilidad por cada nivel de conocimiento. La simulación de respuestas para un nivel de habilidad consiste en el siguiente proceso: (a) se selecciona el ítem inicial del BI del nivel de conocimiento correspondiente, (b) se genera la respuesta 1 de forma aleatoria, (c) utilizando una distribución de Bernoulli con 1=1+-1.702 se selecciona un nuevo ítem considerando la respuesta 1, (d) se genera la respuesta 2 de forma aleatoria, con el mismo proceso utilizado para 1, (e) se repiten los dos pasos anteriores, hasta cumplir la condición de finalización de un error menor a 0.5 en la estimación de habilidad. Una vez alcanzadas las 1000 repeticiones de este proceso, el resultado final de cada simulación son dos vectores: uno con mil estimaciones finales de habilidad y otro con los mil valores que indican la cantidad de ítems utilizados para esa estimación.Principales resultados y conclusiones: Este trabajo presenta la construcción, especificación y simulación del funcionamiento del algoritmo de una prueba adaptativa a partir de un BIs que evalúa el dominio de conocimiento en Biología (TCG-B) para aplicar en los ámbitos de educación superior. En la tabla 1 (anexo) se presentan los resultados de las simulaciones de los cuatro niveles de conocimiento del dominio. Los niveles de habilidad entre -1 y 1 presentaron los niveles más altos de precisión, es decir, al simular la aplicación de la prueba, se utilizaron menos ítems con un menor sesgo de estimación que en los niveles de habilidad de los extremos, siendo el nivel de habilidad 0 el más preciso (con un sesgo en la estimación de 0.01). Cabe destacar que, todas las simulaciones permitieron estimar la capacidad de los examinados con menos de 24 ítems y un error < 0.45. La media (M) de los ítems utilizados para estimar la habilidad de los examinados en el rango de habilidad entre -1 a 1 fue de 18.29 a 18.86 ítems, con una desviación estándar (DE) de entre 0.69 a 1.19 ítems. Respecto a los niveles de habilidad de los extremos (-2, -1.5, 1.5 y 2), se observó que, en los niveles III y IV del TCG-B , los ítems del BIs resultaron más precisos que en los niveles I y II, , pudiéndose obtener estimaciones de habilidad con menos de 20 ítems (DS entre 0.83 y 2) y un error < 0.45. Estos resultados indican que, con 19 ítems del BIs del TCG-B es posible obtener estimaciones de la habilidad de los examinados en cada nivel de conocimiento en las habilidades reales entre -1 y 1 con un error estándar ≤ a .45 unidades. Mientras que, con 24 ítems se puede estimar el rango de habilidad de entre -2 a 2. Las figuras 1, 2, 3 y 4 (anexo) muestran las medias de los ítems utilizados en la estimación de la habilidad de los examinados de acuerdo con la habilidad real, para cada uno de los niveles simulados. Con estos resultados podemos concluir que, el algoritmo construido para el CAT, a partir del BIs del TCG-B de 414 items (Cupani, Castro Zamparella, & Piumatti, 2017; Cupani, et., 2016), permite obtener estimaciones precisas (error estándar menor a 0.05) con 19 ítems en los niveles medio de habilidad y con 24 ítems en los niveles más bajos y más altos de habilidad. En este sentido, y comparando estos resultados con la aplicación de los ítems en su etapa de calibración (se aplicaron 60 ítems a cada sujeto) utilizando el presente algoritmo para la aplicación del CAT se produce una reducción de aplicación de ítems de entre el 60 y 70 % para estimar las habilidades de los estudiantes en el dominio de conocimiento de biología con un error de estimación menor a 0.5. Cabe agregar que, si bien se realizó un estudio simulado, futuros estudios deberían explorar el funcionamiento del algoritmo en situaciones prácticas con sujetos reales. Esto resulta necesario porque existen factores que pueden afectar las respuestas de los sujetos, tales como, el tiempo de respuesta y el contexto de administración (Tan et al., 2018). Además, en estudios próximos se deberían probar especificaciones del algoritmo del test con otros métodos de selección de ítems. De igual forma, resta realizar estudios más profundos respecto a la fiabilidad y validez del CAT del BIs del TCG-B. Para concluir, debemos mencionar que la construcción y simulación del algoritmo es una etapa necesaria para la posterior aplicación en una situación real de la prueba adaptativa. El desarrollo de estas herramientas se fundamenta en que su utilización permite obtener medidas con un mayor nivel de precisión, objetividad y economía en pruebas de rendimiento académico. Tal es así que, su aplicación motivará a los estudiantes a responder pruebas que no dependan de la administración de un número fijo de ítems, sino que, las evaluaciones estén adaptadas al rendimiento de cada estudiante. De esta manera se logra reducir la longitud de la prueba y se evita la fatiga de los estudiantes por responder pruebas demasiado extensas (Olea, Ponsoda & Prieto, 1999). Además, la construcción de este tipo de pruebas sienta las bases para la aplicación de un sistema innovador en aspectos tecnológicos en Argentina que pueden ser aplicados en el ámbito educativo.