INVESTIGADORES
SIANO Gabriel German
congresos y reuniones científicas
Título:
Selección simultánea de muestras y variables mediante algoritmo genético aplicado a problemas de clasificación
Autor/es:
GABRIEL G. SIANO; HÉCTOR C. GOICOECHEA
Lugar:
Bahía Blanca
Reunión:
Congreso; V Congreso Argentino de Química Analítica; 2009
Institución organizadora:
Asociación Argentina de Químicos Analíticos
Resumen:
P { margin-bottom: 0.21cm; direction: ltr; color: rgb(0, 0, 0); widows: 2; orphans: 2; }P.western { font-family: "Times New Roman",serif; font-size: 12pt; }P.cjk { font-family: "Times New Roman",serif; font-size: 12pt; }P.ctl { font-family: "Times New Roman",serif; font-size: 12pt; }A:link { color: rgb(0, 0, 255); } la pertenencia de muestras desconocidas a grupos o clases previamente definidos. Es en esos casos, en los cuales se pretende obtener una identidad general de las muestras más que un exhaustivo análisis de su composición, donde normalmente se utilizan los múltiples métodos de clasificación que se han desarrollado hasta nuestros días, incluyendo adaptaciones de métodos originalmente diseñados para realizar cuantificaciones. A su vez, debe notarse que ciertos procedimientos quimiométricos requieren datos con características específicas, por ejemplo en dimensiones, y que algunos laboratorios, aún con la necesidad de clasificar, pudieran no tener acceso a este tipo de datos, por ejemplo por inaccesibilidad a la instrumentación apropiada para generarlos. En el presente trabajo, se utilizaron datos provenientes de 44 muestras de vinos del tipo Cabernet Sauvignon elaborados en Argentina, Australia, Chile y Sudáfrica [1]. De cada muestra se contó con datos de primer orden, provenientes de espectros FT-IR (842 variables, ya habiendo excluido las bandas correspondientes al agua), y de segundo orden, obtenidos mediante GC-MS (2700 tiempos, m/z: 5-204). A su vez, desde los últimos también se pudieron obtener datos de orden 1, a partir de los perfiles de elución (TIC, total ion count) y de masa. Diferentes métodos de clasificación, como Análisis Discriminante-Regresión por Mínimos Cuadrados Parciales (D-PLS) y Modelado Independiente de Analogía de Clases (SIMCA), ambos del tipo supervisado, fueron utilizados en conjunto con selección simultánea de muestras y variables mediante Algoritmo Genético (GA) [2], con el objeto de optimizar los resultados a partir de los datos disponibles. Mediante esta metodología se intenta eliminar a las variables que no aporten información relevante, facilitando así una interpretación posterior de los modelos simplificados resultantes, a la vez que la selección de muestras, además de contribuir al hallazgo de los datos apropiados, permite detectar la presencia de muestras anómalas. Finalmente, aprovechando la disposición de datos de orden 2, se evaluaron los resultados de clasificaciones con métodos como D-PLS Unfolded (DU-PLS), D-PLS Multidimensional (DN-PLS) y DN-PLS con Bilinearización Residual (DN-PLS-RBL) [3], para realizar comparaciones con los resultados obtenidos a partir de datos de primer orden y así poder evaluar si lo obtenido por distintos métodos podría considerarse compatible en términos de calidad de los resultados.