Ir al contenido

Documat


Expansión fonética de la consulta para la recuperación de información en documentos hablados

  • Autores: Alejandro Reyes Barragán, Luis Villaseñor Pineda, Manuel Montes y Gómez
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 47, 2011, págs. 57-64
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      El enfoque tradicional para la búsqueda de información en grandes colecciones de documentos hablados consiste en integrar métodos de reconocimiento automático del habla (RAH) y técnicas de recuperación de información (RI) usadas para texto escrito. Una desventaja de este enfoque es su dependencia a la precisión del sistema de RAH, pues los errores generados por éste impactan fuertemente en la máquina de RI. Con el objetivo de reducir el impacto de los errores de transcripción, especialmente los de sustitución, en este trabajo se propone expandir las consultas con palabras fonéticamente similares y con ello ampliar las posibilidades de emparejar las palabras mal transcritas en los documentos. Los resultados alcanzados en dos colecciones de documentos hablados con características muy disímiles demuestran la pertinencia del método propuesto, el cual logró mejorar el MAP respecto a una expansión tradicional hasta en un 3.68%.

    • English

      The traditional approach for searching information in large collections of spoken documents consists of integrating automatic speech recognition (ASR) methods and traditional text retrieval (IR) techniques. One disadvantage of this approach is its dependence to the precision of the ASR system, since transcription errors strongly affect the IR machine. With the aim of reducing the impact of these errors, especially those concerning substitutions, in this paper we propose expanding the queries by means of phonetically similar words, and by this increasing the possibility of matching incorrectly transcribed words from the documents. Results on two very different spoken-document collections show the relevance of the proposed method, which outperformed the MAP from traditional expansion techniques by up to 3.68%.

  • Referencias bibliográficas
    • Carletta, J. 2006. Announcing the AMI Meeting Corpus. The ELRA Newsletter 11(1), January-March, p. 3-5.
    • Garofolo, J. S., E.M. Voorhees, C. Auzanne, V. Stanford, and B. Lund. 1998. TREC-7 spoken document retrieval track overview and results. In...
    • Garofolo, John S., Cedric G. P. Auzanne, y Ellen M. Voorhees. 1999. The TREC Spoken Document Retrieval Track: A Success Story. In Proceedings...
    • Holmes, D., y M.C. McCabe. 2002. Improving Precision and Recall for Soundex Retrieval. ITCC Proceedings of the International Conference on...
    • Logan, Beth, and JM Van Thong. 2002. Confusion-based query expansion for OOV words in spoken document retrieval. Proceedings of ICSLP.
    • Mamou, Jonathan, and Bhuvana Ramabhadran. 2008. Phonetic Query Expansion for Spoken Document Retrieval." Interspeech.
    • Moreau, Nicolas, Hyoung-Gook Kim, and Thomas Sikora. 2004. Phonetic Confusion Based Document Expansion for Spoken Document Retrieval. SIGIR.
    • Nishizaki, Hiromitsu, and Seiichi Nakagawa. 2002. Japanese spoken document retrieval considering OOV keywords using LVCSR system with OOV...
    • Oard, D. W.; Soergel, D.; Doermann, D.; Huang, X.; Murray, G. C.; Wang, J.; Ramabhadran, B.; Franz, M.; Gustman, S.; Mayfield, J.; Kharevych,...
    • Pecina, Pavel, Petra Hoffmannová, Gareth J. F. Jones, Ying Zhang, and Douglas W. Oard. 2008. Overview of the CLEF-2007 Cross-Language Speech...
    • Singhal, Amit, and Fernando Pereira. 1999. Document Expansion for Speech Retrieval. Proceedings of the 22nd annual international ACM SIGIR...
    • Taft, R. L. 1970. Name Search Techniques. New York State Identification and Intelligence System. Albany, New York.
    • Zhang, Lei. 2009. Topic indexing of spoken documents based on optimized N-best approach. 302-205.
    • Zobel, J., and P. Dart. 1996. Phonetic String Matching: Lessons from Information Retrieval. 166 – 172. Sigir Forum, Association for Computing...

Fundación Dialnet

Mi Documat

Opciones de artículo

Opciones de compartir

Opciones de entorno