P. Rosso, Rafael Guzmán Cabrera , Manuel Montes y Gómez
La Web es sin lugar a dudas el repositorio de información más grande jamás construido por el ser humano. Con más de cuatro mil millones de páginas indexadas por los motores de búsqueda públicos, la Web representa el mayor y más amplio corpus textual disponible en la actualidad. Por su valor lingüístico, dado que contiene información en más de 1500 lenguajes, este corpus está siendo usado con gran éxito en muchas tareas de procesamiento del lenguaje natural. En particular, varios métodos de minería de datos se han aplicado para extraer de la Web algunos tipos de patrones lingüísticos útiles para tareas como la traducción automática y búsqueda de respuestas. En este articulo presentamos un método que permite encontrar combinaciones de palabras significativas a los diferentes sentidos atribuibles a una palabra polisémica. Los experimentos realizados, aunque preliminares, muestran el gran potencial del método propuesto para encontrar estas colocaciones por sentido usando la Web como corpus, así como la viabilidad de la incorporación de dichas colocaciones en sistemas de desambiguación del sentido de las palabras, que pueden a su vez ser usadas en sistemas de traducción automática y recuperación de información.
© 2008-2024 Fundación Dialnet · Todos los derechos reservados