Un recuento total de personas únicas en todos los conjuntos de datos llegó a más de 1.200 millones de personas, lo que hace que esta sea una de las mayores filtraciones de datos de una sola organización fuente en la historia. Los datos filtrados contenían nombres, direcciones de correo electrónico, números de teléfono, LinkedIN e información de perfil de Facebook.
Lo que hace que esta fuga de datos sea única es que contiene conjuntos de datos que parecen originarse en 2 compañías diferentes de enriquecimiento de datos: OxyData y People Data Labs.
¿Cómo funciona el enriquecimiento de datos?
Por un precio muy bajo, las compañías de enriquecimiento de datos le permiten tomar un solo datos sobre una persona (como un nombre o dirección de correo electrónico) y expandir (o enriquecer) ese perfil de usuario para incluir cientos de nuevos puntos de información adicionales. Como en el caso de la empresa Exactis, los datos recopilados sobre una sola persona puede incluir información como el tamaño del hogar, las finanzas y los ingresos, las preferencias políticas y religiosas, e incluso las actividades sociales preferidas de una persona.
Cada vez que una empresa elige «enriquecer» un perfil de usuario, también acuerdan proporciona lo que saben sobre la persona a la organización enriquecedora (aumentando así la validez de los resultados futuros de la organización). A pesar de los esfuerzos de las organizaciones, los datos resultantes continúan siendo enriquecidos, creando una situación sin supervisión que finalmente permite que toda la información de una persona sea descargada fácilmente.
El servidor abierto Elasticsearch
El servidor Elasticsearch descubierto que contiene toda la información no estaba protegido y era accesible a través del navegador web en http://35[.]199[.]58[.]125:9200. No se necesitaba contraseña ni autenticación de ningún tipo para acceder o descargar todos los datos.
Elasticsearch almacena su información en un índice, que es similar a un tipo de base de datos. La siguiente es una captura de pantalla de los diferentes índices (bases de datos) disponibles en el servidor descubierto.
La mayoría de los datos abarcó 4 índices de datos separados, etiquetados como «PDL» y «OXY», con información sobre aproximadamente millones de personas por índice. Cada registro de usuario dentro de las bases de datos fue etiquetado con un campo de «fuente» que coincide con PDL u OXY, respectivamente.
Según el análisis de los datos, los datos en los índices PDL se originaron en People Data Labs, una compañía de enriquecimiento y agregación de datos.
La eliminación de duplicados de los casi 3 millones de registros de usuarios de PDL reveló aproximadamente 1,2 millones de personas únicas y 650 millones de direcciones de correo electrónico únicas, lo que está en línea con las estadísticas proporcionadas en su sitio web. Los datos dentro de los tres índices PDL también varían variadamente, algunos se centraron en la información de LinkedIN, direcciones de correo electrónico y números de teléfono, mientras que otros índices proporcionan información sobre perfiles individuales de redes sociales como las URL de Facebook, Twitter y Github de una persona.
Según su sitio web, la aplicación PDL puede utilizar para buscar:
- Más de 1,5 millones de personas únicas, incluyendo cerca de 260 millones en los Estados Unidos.
- Más de mil millones de direcciones de correo electrónico personales. Correo electrónico de trabajo para más del 70% de tomadores de decisiones en los EE. UU., Reino Unido y Canadá.
- Más de 420 millones de URL de Linkedin
- Más de mil millones de URL e ID de Facebook.
- Más de 400 millones de números telefónicos. Más de 200 millones de números de teléfonos celulares válidos en los EE. UU.
Después de notificar a PDL, la empresa informó que el servidor en cuestión no les pertenecía. Esto es coherente con la investigación, ya que el servidor en cuestión reside en Google Cloud, mientras que la API PDL parece utilizar los servicios web de Amazon.
Debido a preocupaciones obvias de privacidad, los proveedores de la nube no compartirán ninguna información sobre sus clientes, lo que hace que esto sea un callejón sin salida.
Se podría argumentar que debido a que los datos de PDL fueron mal utilizados, les corresponde a ellos notificar a sus clientes. También se podría argumentar que el propietario de la IP es responsable de cualquier daño potencial.
Debido a la gran cantidad de información personal incluida, combinada con las complejidades que identifican al propietario de los datos, esto tiene el potencial de generar preguntas sobre la efectividad de nuestras leyes actuales de privacidad y notificación de incumplimiento.
Fuente: DataViper