INVESTIGADORES
MARTINEZ Alejandra Mercedes
congresos y reuniones científicas
Título:
Estimación y Selección de Variables en Modelos Parcialmente Lineales Aditivos
Autor/es:
MARTINEZ, ALEJANDRA MERCEDES; MURRONE, NICOLÁS
Lugar:
Bahía Blanca
Reunión:
Congreso; XLIX Coloquio Argentino de Estadística; 2022
Institución organizadora:
Sociedad Argentina de Estadística
Resumen:
El modelo parcialmente lineal aditivo (PLAM, por sus siglas en inglés) puede considerarse tanto una generalización del modelo aditivo, ya que incluye una componente paramétrica (lineal), como del modelo lineal debido a las componentes noparamétricas aditivas. En otras palabras, el PLAM permite que la variable de respuesta dependa linealmente de algunas covariables y deforma noparamétrica aditiva en las restantes variables. De esta manera, permite eludir con éxito la llamada “maldición de la dimensión” presente en los modelos de regresión no paramétrica,incluir covariables discretas y proveer un enfoque flexible e interpretable. Más precisamente, el PLAM supone que se tienen (Yi , Zti , Xti )t ∈ R × Rq × Rp , 1 ≤ i ≤ n, observaciones i.i.d. tales queYi = µ + β t Zi + ηj (Xij ) + σεi , j=1...,n con Zi = (Zi1 , . . . , Ziq )t , Xi = (Xi1 , . . . , Xip )t y εi independientes de las covariables (Zi , Xi ).En la práctica, es usual recolectar un gran número de covariables aunque no todas ellas puedan ser relevantes para el modelo. Los modelos esparsos suponen que la cantidad de predictoresrelevantes es menor que el número de covariables medidas, lo que lleva a modelos más fáciles de interpretar que los densos. En estas circunstancias, los estimadores penalizados resultan unaherramienta útil para seleccionar en forma automática las variables.En este trabajo, presentaremos una familia de estimadores robustos para el PLAM que combina estimadores robustos de regresión, B−splines y un procedimiento de regularización basadoen la penalidad SCAD introducida en Fan y Li (2001) para seleccionar las variables significativas tanto en la componente lineal como noparamétrica. Mediante un estudio de simulación,mostraremos que la metodologı́a propuesta es estable ante distintos tipos de contaminaciones, mientras que la contraparte basada en mı́nimos cuadrados se ve afectada especialmente cuandohay datos de alta palanca.