CONICET | Buscador de Institutos y Recursos Humanos

El sesgo introducido por las entradas faltantes (EF) en las reconstrucciones filogenéticas ha sido estudiado por varios autores (ej. Kearney & Clark, 2003). Estos estudios abarcan el análisis de las ventajas y desventajas de las estrategias utilizadas en trabajos empíricos para lidiar con las EF, así como el impacto de estas en la resolución, exactitud y soporte de los árboles obtenidos (ej. Wilkinson, 2003). En otros trabajos se utilizaron simulaciones, en las cuales variaron el porcentaje y el patrón de distribución de las entradas faltantes, así como otros parámetros (ej. estructura de los árboles, largo de rama, tipos de caracteres y número de taxones y caracteres; Wiens 2003, a y b). La mayoría de estos estudios se realizaron usando máxima parsimonia como criterio de optimalidad y en todos los casos se utilizaron pesos iguales. Sin embargo, dado que las búsquedas basadas en estrategias de pesado diferencial de caracteres (ej. pesos sucesivos e implicados) utilizan alguna medida de homoplasia y/o ajuste de los caracteres, las EF podrían generar un impacto adicional (Makovicky, 2000). En el ambiente paleontológico, donde es común que las matrices tengan altos porcentajes de EF, este argumento suele utilizarse para no emplear estas estrategias de búsqueda, aunque no sea explicitado en los trabajos publicados. El principal objetivo de este trabajo es analizar el efecto de las EF en búsquedas realizadas tanto con pesos iguales como implicados, partiendo de matrices morfológicas disponibles en la bibliografía. Se realizaron cuatro tipos de análisis por separado: 1) manteniendo intactas las matrices, se agregaron nuevas EF al azar; 2) se reemplazaron las EF ya presentes en las matrices por un estado al azar de cada carácter y luego se introdujeron distintos porcentajes EF al azar; 3) similar a la anterior, pero las EF fueron restringidas a 15% y 50% de los taxones; 4) las EF introducidas se ubicaron en 15% y 50% de los caracteres. En todos los casos, la probabilidad de ser agregada una EF a una celda varió entre p=0,15 y p=0,9. Para comparar el desempeño de las distintas estrategias de búsqueda (pesos iguales y pesos implicados con k 3, 15, 50 y 100) se utilizaron medidas de similitud topológica. Se consideró como topología correcta al consenso estricto de los árboles más parsimoniosos obtenidos del análisis de las matrices sin modificar (originales). Se calculó el número de nodos correctos (NC) y erróneos (NE) recuperados a partir de las matrices modificadas así como sus porcentajes, PC y PE, respectivamente (Ramírez, 2003). Para comparar estos valores entre las diferentes estrategias de búsqueda se utilizaron el test de Kruskal Wallis y el test U de Mann-Whitney. Se recopilaron 311 matrices que abarcan el rango de 4-443 caracteres y 5-207 taxones, estando más del 50% de las matrices por debajo del límite de 40 taxones y 100 caracteres. Los porcentajes de EF originales de estas matrices van desde 0 a 49,47%, con una media de 12,86%. En el análisis 2 se incluyeron todas estas matrices, mientras que para el 1, 3 y 4 sólo se utilizó un subgrupo de las mismas compuesto por 135 matrices. Las matrices descartadas fueron seleccionadas al azar entre las matrices más chicas (menos de 40 taxones y 100 caracteres). Los cuatro tipos de análisis realizados dieron resultados similares. Como era esperable, al aumentar las EF, disminuye el NC y el PC y aumentan el NE y el PE. Las únicas diferencias significativas encontradas fueron en NC y en NE, siendo mayor el primero y menor el segundo en pesos implicados con respecto a pesos iguales. Esto se pierde en los análisis con altos valores de EF. También se observó que PC, NC y NE muestran una correlación significativa y positiva con el número de caracteres, mientras que el número de taxones se correlaciona positivamente con NC, PE y NE y negativamente con PC. En ciertos análisis, la correlación entre PC y número de taxones tiende a ser positiva al aumentar el EF. El cambio de la distribución de las EF no afectó significativamente los resultados obtenidos, coincidiendo parcialmente con los trabajos publicados previamente por otros autores (ej. Wiens 2003 a y b). La comparación entre pesos iguales y pesos implicados muestra que el último recupera significativamente más nodos (tiene un NC mayor), pero que también posee un error más elevado (NE mayor). Sin embargo, las medias o medianas son muy similares y los rangos se superponen ampliamente (ej. Fig. 1). Por otro lado, el NE y el NC pueden estar influidos por la resolución de los árboles correctos lo cual podría explicar estas inconsistencias (Ramírez, 2003). La ausencia de diferencias significativas en el PC y el PE está en concordancia con esto último. Según estos resultados, la presencia de un elevado número de entradas faltantes no es un argumento válido para no utilizar pesos implicados como estrategia de búsqueda.