La clasificación binaria es un problema muy común cuyo objetivo es determinar correctamente si un sujeto presenta o no una característica de interés. Está estrechamente ligado con los procesos de decisión y es frecuente en una gran variedad de áreas: diagnóstico médico, detección de fraudes, inteligencia de negocios… En base a un gold standard, el objetivo es discriminar entre dos poblaciones (positiva y negativa, según tengan o no la característica de interés, respectivamente) por medio de una variable, llamada marcador. En cualquier categorización binaria, hay dos tipos de error: clasificar a un sujeto negativo como positivo (falso positivo) y clasificar un sujeto positivo como negativo (falso negativo). Las probabilidades de esos errores dependen de la distribución del marcador en cada población. Están determinadas por el complementario de la especificidad (o fracción de falsos positivos) y el complementario de la sensibilidad (o fracción de falsos negativos), respectivamente. El balance entre la sensibilidad (eje Y) y el complementario de la especificidad (eje X) se refleja en la curva de característica operativa del receptor (curva ROC). Este método estadístico gráfico se utiliza, por tanto, para medir y visualizar la capacidad discriminatoria del marcador en estudio. El ajuste clasificatorio se resume usualmente mediante el área bajo la curva (AUC), pero no suelen mostrarse las reglas de clasificación subyacentes, ya que, en la configuración estándar, las reglas de decisión están determinadas de forma inmediata. Sin embargo, puede ocurrir que la información disponible no discrimine inmediatamente a las dos poblaciones y, por tanto, el criterio de decisión no es directo. En ese caso, se deben explorar diferentes criterios de dicotomización, dando lugar a un conjunto de clasificación. Uno de los principales objetivos de esta tesis es elucidar esas reglas de clasificación, conservando su interpretación, si se considera conveniente.
Las reglas de decisión se determinan en última instancia por un conjunto de clasificación en el espacio donde toma valores el marcador. Un sujeto cuyo valor del marcador está dentro de la región de clasificación se clasificado como positivo, mientras que se clasifica como negativo en caso contrario. En esta tesis, se revisita la definición de la curva ROC en términos de los conjuntos de clasificación y se presente un marco teórico que generaliza dicha definición. Éste cubre diferentes formas de las regiones, así como flexibilidad en la naturaleza del marcador en estudio: la capacidad clasificatoria de marcadores multivariantes se puede estudiar directamente.
Se estudian representaciones gráficas para reflejar los distintos tipos de reglas de clasificación y para ilustrar la construcción de la curva ROC resultante a lo largo de las diferentes especificidades. En esta memoria, se tratan varios enfoques: i. en el escenario univariante: - la curva ROC general (gROC) es aquella resultante de considerar dos puntos de corte para definir los conjuntos de clasificación, acomodando aquellos escenarios en los que valores extremos (tanto alto como bajos) del marcador están asociados con una mayor probabilidad de pertenecer a una de las dos poblaciones; - la curva ROC eficiente (eROC) se define usando la transformación óptima del marcador en el sentido de que reporta la mayor sensibilidad posible para cada especificidad fijada en base a dicho marcador; ii. en el escenario multivariante: - se lleva a cabo una revision de diferentes técnicas para buscar los conjuntos de clasificación limitado por un hiperplano de separación que maximizan el AUC o la sensibilidad para cada especificidad fijada, ilustrando los conjuntos de clasificación resultantes y la curva ROC; - la curva gROC se extiende al escenario multivariante y se lleva a cabo un estudio teórico para buscar las reglas de clasificación óptimas bajo restricciones naturales cuando el marcador es bivariante y normalmente (gaussiana) distribuido en ambas poblaciones.
Finalmente, se aplican varios análisis, enfoques y procedimientos de estimación descritos en esta tesis a bases de datos reales. Además, se añaden detalles computacionales de las librerías implementadas en R (nsROC y movieROC) y se proporciona el código de R usado para las aplicaciones indicadas.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados