Trabajo de Fin de Máster

Desarrollo de un prototipo de motor de búsqueda que incorpore técnicas bibliométricas para mejorar la recuperación

Máster Universitario en Ingeniería Informática

Autor: Aythami Estévez Olivas

Tutor: Juan Manuel Fernández Luna

Índice

  • Objetivos
  • Planificación
  • Contexto
  • Análisis
  • Diseño
  • Desarrollo
  • Demostración
  • Conclusiones y trabajos futuros

Objetivos

Objetivo Principal

Desarrollar un sistema de recuperación de información que incorpore medidas bibliométricas para mejorar la recuperación clásica

Otros Objetivos

  • Descomponer el sistema RI: búsqueda autores y artículos
  • Desarrollar sistema usable

Planificación

Metodología

Metodología ágil basada en SCRUM → Sprints

Contexto

Recuperación de información: Conceptos

  • Disciplina que trata de modelar, diseñar e implementar sistemas capaces de proporcionar acceso basado en contenidos
  • Relevancia y similitud
  • Modelos: Booleano, Vectorial y Probabilístico

Recuperación de información: Componentes sistema

Bibliometría

  • Análisis estadístico de publicaciones escritas. Se emplea para ofrecer análisis cuantitativo de la literatura científica.
  • Número de citas, Índice H...

Análisis

Enfoque

Modelo clásico de RI con reordenación a priori de resultados en función a medidas directas y ordenación a posteriori utilizando un grafo de citación

Historias de usuario

  • Seleccionar el método de ordenación a priori de los resultados de búsqueda
  • Seleccionar el método de ordenación a posteriori de los resultados
  • Realizar búsquedas de autores
  • Realizar búsquedas de artı́culos
  • Desplegar una vista detallada de un artı́culo
  • Desplegar una vista detallada de un autor

Diseño

Modelo de datos

Arquitectura inicial

Desarrollo

Investigación

  • Primeros 4 Sprints de investigación:

    • Recuperación de información
    • Bibliometría
    • Estado del arte
    • Pruebas con motores de búsqueda y conexiones APIs

Obtención de datos

  • Ranking UGRinvestiga: 214 autores
  • Scopus: 202 autores

Procesamiento de datos

  • Limpieza de autores
  • 164 Autores
  • 891 Artículos
  • 742 Referencias

Indexación

Subconjunto de campos útilies para la recuperación

Búsqueda clásica I

Cliente web: Searchkit, MaterialUI, ReactJS

Búsqueda clásica II

Cliente web: Searchkit, MaterialUI, ReactJS

Aplicación medidas bibliométricas

  • Combinación con score ES → Normalización
  • Medidas → Citas, Índice h
  • Algoritmos → CombMAX, CombSUM

Arquitectura final

Demostración

Conclusiones y trabajos futuros

Conclusiones

  • Proyecto interesante, he aprendido bastante y satisfecho curiosidad
  • CombSUM varía más que CombMAX
  • Ordenación a posteriori con citas: 742 citas pero solo 41,53% de los artículos con alguna cita

Trabajos futuros

  • Evaluación: utilizar encuestas a expertos
  • Redes de citación para relevance feedback: necesarias más citas.

Fin

Gracias por su atención