INVESTIGADORES
RODRIGUEZ Juan Manuel
congresos y reuniones científicas
Título:
Clasificación multi-etiqueta utilizando computación distribuida
Autor/es:
JUAN MANUEL RODRIGUEZ; ALEJANDRO ZUNINO; DANIELA GODOY; CRISTIAN MATEOS
Lugar:
San Carlos de Bariloche
Reunión:
Congreso; 2014 IEEE Biennial Congress of Argentina (ARGENCON); 2014
Institución organizadora:
IEEE Seccional Argentina
Resumen:
Las técnicas de clasificación multi-etiqueta fueron desarrolladas para problemas donde los objetos pueden estar asociados a distintas etiquetas disjuntas, por ejemplo las áreas de un artículo científico. Sin embargo, estas técnicas pueden ser computacionalmente costosas, lo que dificulta su aplicabilidad en dominios reales. Este artículo presenta un enfoque para acelerar el algoritmo de clasificación multi-etiqueta llamado Binary Relevance. En este algoritmo, la complejidad de crear un modelo de clasificación crece linealmente con el número de etiquetas que pueden ser asignadas a una instancia a clasificar. Este artículo propone entonces un enfoque para utilizar pequeños clusters de computadoras para gestionar el cómputo de la fase de entrenamiento del clasificador. El enfoque fue probado con 7 conjuntos de datos de entrenamiento con 81 etiquetas asociadas y más de un cuarto de millón de instancias para entrenar el clasificador. Los resultados mostraron que se aceleró de manera lineal el tiempo de entrenamiento a medida que se agregaban nodos computacionales al cluster. Abstract? Multi-label classification techniques have been developed for problems where objects can be associated to several disjoint labels, such as the scientific topics covered by a paper. However, these techniques tend to be computationally complex, which makes it difficult to use them in practice. Therefore, they might be unsuitable for large problems. This paper presents an approach to accelerate a well-know multi-label classification technique, called Binary Relevance, by using small computational clusters. In this classification technique, the training times grow linearly with the number of labels. In particular, this work aims at reducing the times required for training a Binary Relevance classifier. This approach was tested using 7 data-sets with 81 associated labels and more than a quarter million training instances. Experimental results shown a linear increment on the speed-up when computational nodes are added to the cluster.