Categorización de texto sensible al coste para el filtrado de contenidos inapropiados en Internet

Autores: Enrique Puertas Sanz , Francisco Carrero García, Manuel de Buenaga Rodríguez , José María Gómez Hidalgo
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 31, 2003, págs. 13-20
Idioma: español
Enlaces
- Texto completo

Resumen
- español
  El creciente problema del acceso a contenidos inapropiados de Internet se puede abordar como un problema de categorización automática de texto sensible al coste. En este artículo presentamos la evaluación comparativa de un rango representativo de algoritmos de aprendizaje y métodos de sensibilización al coste, sobre dos colecciones de páginas Web en español e inglés. Los resultados de nuestros experimentos son prometedores.
- English
  The access to inapropiate Internet content is an increasing problem that can be approached as a cost-sensitive Automated Text Categorization task. In this paper, we report a series of experiments that compare a representative range of learning algorithms and methods for making them cost-sensitive, on two Web pages collections in Spanish and English. The results of our experiments are promising.