INVESTIGADORES
VERICAT Fernando
congresos y reuniones científicas
Título:
Uso de Árboles de Clasificación aplicados a datos de ingeniería
Autor/es:
CALANDRA, MARÍA V.; VERICAT, FERNANDO
Lugar:
Viña del Mar
Reunión:
Congreso; IX Congreso Latinoamericano de Sociedades de Estadística (IX CLATSE); 2010
Resumen:
En muchas áreas de la aplicación estadística se cuenta con datos sobre algunas características cuantitativas y/o cualitativas que conforman el perfil de un caso en particular, a su vez hay una respuesta individual ligada a dichas características, que puede ser cualitativa. Para el análisis planteado en el presente trabajo, se emplearon datos obtenidos, durante el año 2008, de una encuesta de salud hecha en la Universidad Nacional de La Plata sobre 17 partidos que constituyen el primer cordón del Conurbano Bonaerense, dicha área es una de las más densamente pobladas de la Argentina, albergando al 18% de la población del país (más de 6 millones de habitantes según el censo 2001), con elevados niveles de heterogeneidad socio-económica y de infraestructura. El objetivo de la encuesta fue recabar información sobre el padecimiento de enfermedades de origen hídrico y sus factores de riesgo.  La encuesta permitió obtener información amplia sobre condiciones socio-sanitarias, características demográficas y de salud de los individuos, y específicamente sobre tipo de servicio de agua y saneamiento.   En el presente trabajo se presenta la metodología de árbol de clasificación y regresión (CART) (Breiman et. al. 1984) , utilizada para la estimación de la probabilidad de padecimiento de enfermedades hidrotransmisibles más frecuentes, en este caso la diarrea, y para la identificación de las variables explicativas ó predictores más significativos para asignar los sujetos a distintos grupos de riesgo. Este trabajo ha sido realizado anteriormente usando una herramienta conocida como lo es la regresión logística. Aquí se pretende mostrar la ductilidad de la metodología de árbol de clasificación debido a que no se requiere asumir distribución alguna para las variables explicativas por ser un procedimiento de análisis no paramétrico, permite incorporar predictores continuos, discretos ó mixtos y además es bueno para identificar interacción entre las variables.  Los árboles de clasificación son jerarquías de cortes que se construyen a partir de los predictores, de modo que se maximice cierto criterio de asociación con la variable respuesta. El método Cart lleva a cabo una búsqueda exhaustiva de todos los posibles cortes posibles en las variables explicativas para minimizar el porcentaje de clasificación incorrecta.