Positive unlabelled learning with applications in computational biology

Borja Calvo Molinos

Ayuda

Positive unlabelled learning with applications in computational biology

Autores: Borja Calvo Molinos
Directores de la Tesis: José Antonio Lozano Alonso (dir. tes.) , Pedro Larrañaga Múgica (dir. tes.)
Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2008
Idioma: inglés
Tribunal Calificador de la Tesis: Luis Miguel de Campos Ibáñez (presid.) , Iñaki Inza Cano (secret.) , Jesús Salvador Aguilar-Ruiz (voc.) , Yvan Saeys (voc.) , Núria López Bigas (voc.)
Enlaces
- Tesis en acceso abierto en: TESEO
Resumen
- Con el aumento de la cantidad de información almacenada, el uso de técnicas de minería de datos se han convertido en una pieza clave en muchos campos. Los algoritmos de inducción de clasificadores son herramientas muy útiles ya que permiten condensar la información contenida en las bases de datos en clasificadores que pueden luego ser usados para realizar predicciones sobre nuevos datos.
  
  Una de las aplicaciones de los algoritmos de inducción de clasificadores es la recuperación de información, que puede ser definida como la recuperación de los objetos de un tipo determinado (aquellos en los cuales estamos interesados, normalmente llamados 'positivos') de grandes conjuntos de objetos no etiquetados (es decir, objetos que no sabemos a que clase pertenecen). Las aproximaciones clásicas implican tener ejemplos positivos (ejemplos del tipo de objetos que queremos recuperar) y ejemplos negativos (ejemplos de objetos diferentes a los que queremos recuperar), pero no siempre hay disponibles ejemplos negativos. Por este motivo, durante los últimos años se han venido desarrollando algoritmos que permitan aprender clasificadores binarios en ausencia de ejemplos negativos.
  
  El tema de esta tesis es el aprendizaje a partir de ejemplos positivos y no etiquetados. Las contribuciones de esta tesis abarcan la inducción de modelos de clasificación, el promediado de clasificadores, la selección de variables y la evaluación de clasificadores. En la parte aplicada, algunos de los algoritmos propuestos son utilizados para resolver dos problemas del área de la biología, la identificación de genes asociados a enfermedad y genes involucrados en cáncer.