Ir al contenido

Documat


Socio geographical patterns inferred from mobile phone records

  • Autores: Carlos Herrera Yague
  • Directores de la Tesis: Pedro José Zufiria Zatarain (dir. tes.) Árbol académico
  • Lectura: En la Universidad Politécnica de Madrid ( España ) en 2017
  • Idioma: español
  • Tribunal Calificador de la Tesis: Rosa María Benito Zafrilla (presid.) Árbol académico, Miguel Angel Hernández Medina (secret.) Árbol académico, María Victoria López López (voc.) Árbol académico, Francisco de Asis García Benitez (voc.) Árbol académico, Zbigniew Smoreda (voc.) Árbol académico
  • Enlaces
  • Resumen
    • La ubicuidad de los registros de comunicación recolectados de forma automática y la dramática reducción de los costes asociados al almacenamiento y procesamiento de información, nos permiten comenzar a estudiar el comportamiento humano de una forma completamente nueva. En lugar de limitarnos a pequeños experimentos realizados a decenas o cientos de participantes durante lapsos de tiempo relativamente cortos, como ha ocurrido con la investigación en ciencias sociales o la planificación de transportes anterior a los últimos 15 años, hoy tenemos registros detallados de ciertos comportamientos para millones de personas durante años, con el interesante matiz de que los datos se recolectan de forma pasiva, sin requerir ninguna atención ni disciplina por parte de los participantes.

      Esta abundancia de información obtenida de forma sistemática para gran cantidad de sujetos, nos permite abordar la comprensión y modelización del comportamiento humano, aplicando métodos hasta ahora reservados a la física y a otras ciencias naturales, más acostumbradas a tratar con datos masivos generados de forma sistemática. En el caso de la investigación presentada en esta tesis, nos centraremos en analizar los registros de comunicación y posición asociados a unos 7 mil millones de registros de llamadas (CDRs, por sus siglas en inglés) que representan todas las realizadas por más de 25 millones de personas durante un período de seis meses. El conjunto de datos analizados incluye información de tres países distintos (Francia, Portugal y España). Esto nos ha permitido garantizar cierta robustez de nuestros resultados frente a posibles sesgos de observación asociados a las comunicaciones móviles, como pudieran ser las políticas comerciales o las cuotas de mercado del operador que facilita los datos. Además, como mostraremos, nos ha permitido también apreciar diferencias macroscópicas significativas entre las tres redes, posiblemente asociadas a la historia e idiosincrasia de cada uno de los países.

      Entre las múltiples posibilidades que ofrece el análisis de CDRs, en esta tesis nos hemos centrado en los problemas de compleción de red, así como en las relaciones que se establecen entre la red social y el espacio geográfico en la que esta se enmarca.

      En cuanto a la compleción de la red, nos hemos centrado en el análisis de un escenario al que nos referimos como el problema de los nodos opacos. Este problema considera redes con dos tipos de nodos: por un lado están los nodos \emph{transparentes} de los que se conocen todos sus enlaces y ciertos atributos específicos del nodo. Por otro lado, están los nodos \emph{opacos}, de los que solamente se conocen sus enlaces con los nodos transparentes. El problema consiste, pues, en tratar de inferir tanto los atributos de los nodos opacos como los enlaces entre ellos. Nuestro trabajo demuestra que, aprovechando propiedades conocidas de las redes sociales y herramientas del aprendizaje estadístico, es posible conseguir predicciones sorprendentemente acertadas incluso si la población de nodos opacos supera con creces la mitad de la red. Estos resultados tienen especial relevancia en el ámbito de los operadores de telecomunicaciones, ya que demuestran que tienen una capacidad significativa para inferir información sobre usuarios que no son, ni nunca han sido, sus clientes. Asimismo, estos resultados cuestionan la idoneidad de las herramientas de gestión de la privacidad que las grandes plataformas online como Facebook, Twitter o Google han puesto a disposición de sus usuarios, que consideran que para dar a conocer un enlace social (que represente amistad, seguimiento o comunicación) entre dos usuarios, es suficiente conseguir permiso explícito de solamente uno de ellos.

      A la hora de considerar la relación entre las redes sociales y el espacio geográfico que ocupan, nos hemos centrado primero en mejorar la comprensión de los resultados de uno de los experimentos más famosos del siglo XX: el experimento de Milgram o de los seis grados de separación. Tras realizar una revisión exhaustiva de los trabajos publicados sobre búsqueda descentralizada en redes sociales, tanto desde un marco de modelos teóricos como de reediciones del experimento de mundo pequeño, presentamos lo que hasta la fecha supone la simulación más grande realizada sobre datos empíricos de redes sociales. Nuestros resultados respaldan por primera vez, con datos reales, algunas de las hipótesis más relevantes sobre cuál es la estructura de la red social que permite que la búsqueda descentralizada sea efectiva. Concretamente, nuestros resultados demuestran que la cercanía geográfica es una medida muy efectiva a la hora de orientar la ruta de un mensaje en los primeros pasos; su efectividad desaparece de forma muy abrupta una vez que el mensaje llega a la ciudad del destinatario, casi independientemente del número de habitantes de esta ciudad. Sin embargo, el rutado descentralizado dentro de ciudades sigue siendo posible utilizando la estructura de comunidades de la red social.

      Los resultados sobre búsqueda descentralizada nos permiten indagar más sobre una relación hasta ahora desconocida entre la red social y el espacio geográfico. Concretamente, encontramos que las comunidades detectadas algorítmicamente por optimización de modularidad pierden en gran medida la correlación espacial dentro de las ciudades. Asimismo, mostramos cómo las redes formadas por los habitantes de una parte de la ciudad geográficamente conectada, pierden su conectividad comparadas con redes del mismo tamaño en número de nodos, pero que contienen al menos un núcleo de población completo.

      Estos análisis nos han permitido, además, establecer un paralelismo entre los flujos de comunicación y de transporte: ambos decrecen con la distancia física de forma similar. Aprovechando esta similitud, presentamos dos modificaciones del modelo de radiación. En la modificación orientada a flujos de comunicación, garantizamos la simetría de las predicciones, considerando, en el denominador, la población dentro de elipses cuyos focos están en las ciudades cuyo flujo de comunicación tratamos de estimar. En el caso de flujos de transporte casa-trabajo, modelamos la capacidad de atracción de una zona como proporcional al número de negocios en el área, listados en aplicaciones como Google Places y Foursquare. Ambos modelos consiguen predicciones significativamente mejores que los modelos usados anteriormente, y tienen la ventaja adicional de no requerir de datos de entrenamiento para estimar parámetros del modelo.

      Por último, nos centramos en analizar la correlación entre los patrones de movilidad urbana de personas más o menos cercanas en la red social. Encontramos correlaciones espaciales significativas, incluso entre nodos situados a distancia 3 dentro de la red social, siendo esta correlación espacial mayor cuanto mayor es la cercanía entre los nodos en el grafo social. Además, utilizando técnicas de aprendizaje no supervisado, encontramos que las relaciones entre habitantes de una misma ciudad se agrupan en 3 clases diferenciadas según la intensidad de la comunicación y los momentos en los que se producen eventos de colocalización. Finalmente, presentamos un modelo dual para la construcción de la red social y para la exploración de la ciudad, que permite reproducir buena parte de las correlaciones y distribuciones encontradas en los datos.


Fundación Dialnet

Mi Documat

Opciones de tesis

Opciones de compartir

Opciones de entorno