INVESTIGADORES
SIANO Gabriel German
congresos y reuniones científicas
Título:
Selección simultánea de muestras y variables mediante algoritmo genético aplicado a problemas de clasificación
Autor/es:
GABRIEL G. SIANO; HÉCTOR C. GOICOECHEA
Lugar:
Bahía Blanca
Reunión:
Congreso; V Congreso Argentino de Química Analítica; 2009
Institución organizadora:
Asociación Argentina de Químicos Analíticos
Resumen:
P { margin-bottom: 0.21cm; direction: ltr; color: rgb(0, 0, 0); widows: 2; orphans: 2; }P.western { font-family: "Times New Roman",serif; font-size: 12pt; }P.cjk { font-family: "Times New Roman",serif; font-size: 12pt; }P.ctl { font-family: "Times New Roman",serif; font-size: 12pt; }A:link { color: rgb(0, 0, 255); }
la pertenencia de muestras desconocidas a grupos o clases
previamente definidos. Es en esos casos, en los cuales se pretende
obtener una identidad general de las muestras más que un exhaustivo
análisis de su composición, donde normalmente se utilizan los
múltiples métodos de clasificación que se han desarrollado hasta
nuestros días, incluyendo adaptaciones de métodos originalmente
diseñados para realizar cuantificaciones. A su vez, debe notarse que
ciertos procedimientos quimiométricos requieren datos con
características específicas, por ejemplo en dimensiones, y que
algunos laboratorios, aún con la necesidad de clasificar, pudieran
no tener acceso a este tipo de datos, por ejemplo por inaccesibilidad
a la instrumentación apropiada para generarlos.
En el presente trabajo, se utilizaron datos provenientes de 44
muestras de vinos del tipo Cabernet Sauvignon elaborados en
Argentina, Australia, Chile y Sudáfrica [1]. De cada muestra se
contó con datos de primer orden, provenientes de espectros FT-IR
(842 variables, ya habiendo excluido las bandas correspondientes al
agua), y de segundo orden, obtenidos mediante GC-MS (2700 tiempos,
m/z: 5-204). A su vez, desde los últimos también se pudieron
obtener datos de orden 1, a partir de los perfiles de elución (TIC,
total ion count) y de masa.
Diferentes métodos de clasificación, como Análisis
Discriminante-Regresión por Mínimos Cuadrados Parciales (D-PLS) y
Modelado Independiente de Analogía de Clases (SIMCA), ambos del tipo
supervisado, fueron utilizados en conjunto con selección simultánea
de muestras y variables mediante Algoritmo Genético (GA) [2], con el
objeto de optimizar los resultados a partir de los datos disponibles.
Mediante esta metodología se intenta eliminar a las variables que no
aporten información relevante, facilitando así una interpretación
posterior de los modelos simplificados resultantes, a la vez que la
selección de muestras, además de contribuir al hallazgo de los
datos apropiados, permite detectar la presencia de muestras anómalas.
Finalmente, aprovechando la disposición de datos de orden 2, se
evaluaron los resultados de clasificaciones con métodos como D-PLS
Unfolded (DU-PLS), D-PLS Multidimensional (DN-PLS) y DN-PLS
con Bilinearización Residual (DN-PLS-RBL) [3], para realizar
comparaciones con los resultados obtenidos a partir de datos de
primer orden y así poder evaluar si lo obtenido por distintos
métodos podría considerarse compatible en términos de calidad de
los resultados.