PROBIEN   20416
INSTITUTO DE INVESTIGACION Y DESARROLLO EN INGENIERIA DE PROCESOS, BIOTECNOLOGIA Y ENERGIAS ALTERNATIVAS
Unidad Ejecutora - UE
congresos y reuniones científicas
Título:
Proporción aproximada de matrices de distancia con elementos indeterminados
Autor/es:
SABINO GUILLERMO; BOCHÉ SILVIA; BRAMARDI SERGIO
Lugar:
Trelew, Chubut
Reunión:
Congreso; XIV Reunión Científica del Grupo Argentino de Biometría; 2009
Resumen:
<!--
/* Font Definitions */
@font-face
{font-family:"Cambria Math";
panose-1:2 4 5 3 5 4 6 3 2 4;
mso-font-charset:0;
mso-generic-font-family:roman;
mso-font-pitch:variable;
mso-font-signature:-1610611985 1107304683 0 0 159 0;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
{mso-style-unhide:no;
mso-style-qformat:yes;
mso-style-parent:"";
margin:0cm;
margin-bottom:.0001pt;
mso-pagination:widow-orphan;
font-size:12.0pt;
font-family:"Times New Roman","serif";
mso-fareast-font-family:"Times New Roman";
mso-ansi-language:EN-US;
mso-fareast-language:EN-US;}
.MsoChpDefault
{mso-style-type:export-only;
mso-default-props:yes;
font-size:10.0pt;
mso-ansi-font-size:10.0pt;
mso-bidi-font-size:10.0pt;}
@page Section1
{size:612.0pt 792.0pt;
margin:70.85pt 3.0cm 70.85pt 3.0cm;
mso-header-margin:36.0pt;
mso-footer-margin:36.0pt;
mso-paper-source:0;}
div.Section1
{page:Section1;}
-->
En determinados trabajos de
investigación es frecuente encontrarse con una gran cantidad de datos faltantes
ocasionados por cuestiones fortuitas, olvidos u omisiones. Por este motivo se
han desarrollado trabajos en los cuales se compara entre variadas técnicas multivariadas,
para determinar cuál de ellas es más robusta ante la presencia de estos datos faltantes. Más allá de la
metodología seleccionada por el investigador, en ocasiones la falta de
información no permite hallar la distancia entre dos individuos. Así, ciertas
técnicas como el Análisis de Coordenadas Principales a partir del coeficiente
de similaridad de Gower (1971) no pueden desarrollarse, debido a que no puede
obtenerse la matriz de distancia entre individuos. El objetivo de este trabajo
es determinar una función que permita acotar el porcentaje de matrices en las
cuales no se puede calcular la distancia entre por lo menos dos individuos (matrices
con algún elemento indeterminado). Para
decidir entre diferentes técnicas, se estudia el comportamiento de las mismas,
generando matrices que combinan variables categóricas y continuas, que respetan
las estructuras de correlación más relevantes de una base de datos empírica.
Las matrices se simularon mediante una rutina programada en el paquete
estadístico R, contemplando diferentes tamaños de muestra y distintas
combinaciones de variables cuantitativas y cualitativas. Modificando la
proporción de faltantes se extrajeron datos de manera aleatoria y se observó la
proporción empírica de matrices de distancias en las cuales no se podía
establecer al menos la relación entre un par de individuos. De esta forma puede
establecerse no sólo si la proporción de faltantes no altera significativamente
los resultados de un estudio, sino también permite estimar la probabilidad de
que el estudio pueda llevarse a cabo sin eliminar individuos de la base de
datos.