PROBIEN   20416
INSTITUTO DE INVESTIGACION Y DESARROLLO EN INGENIERIA DE PROCESOS, BIOTECNOLOGIA Y ENERGIAS ALTERNATIVAS
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Eficiencia de métodos alternativos para el análisis de datos mixtos ante la presencia de valores faltantes
Autor/es:
SABINO G, ROVEDATTI MG, MAGNARELLI GG, SOUZA MS Y BRAMARDI S
Lugar:
Montevideo, Uruguay
Reunión:
Congreso; VII Congreso Latinoamericano de Sociedades de Estadística; 2008
Institución organizadora:
Universidad de la República
Resumen:
En trabajos de investigación acerca de la relación entre exposición a plaguicidas y alteraciones en poblaciones humanas, se utilizan frecuentemente enfoques multivariados en el análisis de los datos. El carácter sociológico-cultural de esta problemática, trae aparejada consigo la naturaleza mixta de las variables (ordinales, nominales, continuas, etc.), propia de la temática que circunscribe este tipo de estudios. El Análisis de Coordenadas Principales a partir del coeficiente de similaridad de Gower (1971) es una opción para la caracterización conjunta en función de variables cuantitativas y cualitativas, junto con Análisis de Procrustes Generalizado (Gower y Dijksterhuis, 2004) que contrasta configuraciones originadas por diferentes grupos de variables. Otra particularidad a tener en cuenta en este tipo de investigaciones, es la de  encontrarse con una gran cantidad de datos faltantes ocasionados por cuestiones fortuitas, olvidos, omisiones o imposibilidad de registro de la información. En los análisis estadísticos para este tipo de conjunto de datos es muy frecuente recurrir a dos diferentes estrategias ad hoc: (i) se borran los individuos con al menos un valor faltante, o (ii) se completan dichas celdas con algún criterio particular. Más allá de la metodología utilizada el investigador se pregunta en qué grado se distorsiona la información original, teniendo en cuenta que los procedimientos suelen ser ineficientes cuando la proporción de faltantes en la base de datos es significativa. El objetivo de este trabajo es determinar un valor límite que permita considerar como “aceptable” una proporción de datos faltantes, de acuerdo a la metodología multivariada utilizada. Con este fin, se generaron matrices que combinan variables categóricas y continuas, respetando las estructuras de correlación más relevantes de la base de datos empírica. Las matrices se generaron mediante una rutina programada en el paquete estadístico R, contemplando diferentes tamaños de muestra y distintas combinaciones de variables cuantitativas y cualitativas. Modificando la proporción de faltantes se extrajeron datos de manera aleatoria y se observaron los alejamientos que sufrían las representaciones del Análisis de Procrustes Generalizado y del Análisis de Coordenadas Principales ante la ausencia de esos valores. Finalizando, se compararon las representaciones de las distintas matrices, tomando como “proporción de faltantes aceptable” aquellas en las que la concordancia entre las configuraciones con faltantes y la original es superior al 70%. De esta forma puede establecerse para una base de datos determinada si la proporción de faltantes no altera significativamente los resultados de un estudio y permite elegir el método más robusto para esta situación.