03/06/2024

Encuestas maravillosas, pero no mágicas

Escrito por Josu Mezo

Una frase que suelo usar cuando comienzo a explicar cómo interpretar encuestas a alumnos nuevos es que son “maravillosas, pero no mágicas”. Son maravillosas, porque permiten algo asombroso y muy poco intuitivo: entrevistando solo a unos centenares, o a 1.000 o 2.000 personas, podemos averiguar cosas muy valiosas sobre la opinión, los conocimientos o los comportamientos de millones de ellas. Pero no son mágicas: ese conocimiento que adquirimos por la vía de las encuestas no es exacto, sino aproximado, y además no es igual de fiable para cualquier tema de estudio.

De hecho, los errores más comunes en la interpretación de encuestas se pueden agrupar precisamente en dos grandes bloques que tienen que ver con las dos partes de esa frase. Y así, hay quienes desconfían en exceso, y no se acaban de creer que una encuesta a cientos o miles de personas sirva para saber algo sobre millones; y hay quienes confían en exceso, y creen como si fuera un dato absolutamente preciso, como la medición de un termómetro o una balanza, el resultado de una encuesta.

El conocimiento que adquirimos por la vía de las encuestas no es exacto, sino aproximado

A finales de octubre de 2023, se produjo casualmente una ocasión muy llamativa que me va a servir para ilustrar ambos tipos de errores en los medios españoles, a propósito del informe presentado por el defensor del pueblo, Ángel Gabilondo, sobre los abusos sexuales en el ámbito de la Iglesia católica. Se trata de un documento riguroso con mucha información de valor sobre un asunto importante, tan ignorado tanto tiempo, y al que solo muy recientemente han empezado a prestar atención seria las autoridades públicas y las eclesiales. Recomiendo leerlo con calma a cualquier persona interesada (está disponible online).

Una pequeña parte del informe presentaba los resultados de una encuesta encargada por el defensor del pueblo, con la intención de averiguar cuántas personas adultas pueden haber sido víctimas de abusos sexuales en su infancia o adolescencia, no solo en el ámbito de la Iglesia católica, sino también en otras esferas. La encuesta tenía una muestra muy amplia: 8.013 encuestados, de los cuales un 11,7% manifestó haber sufrido violencia o abusos sexuales siendo menor de edad.

Cuando se preguntó a esas personas en qué ámbito se habían producido los abusos, un 9,7% de ellos, que representarían un 1,14% del total de los entrevistados, dijo que se habían producido abusos en el ámbito religioso. En torno a la mitad de estos, representando un 0,60% de la muestra, dijeron más específicamente que el abuso lo había cometido un sacerdote o religioso católico.

Al presentar esos resultados de la encuesta, Gabilondo desaconsejó expresamente a los periodistas que hicieran un cálculo para estimar el número absoluto de personas afectadas. Pero la petición fue desoída y casi inmediatamente empezaron a publicarse noticias en los más importantes medios cuyo titular se centraba precisamente en ese cálculo, con variaciones como “El estudio del defensor del pueblo estima que más de 440.000 personas fueron víctimas de pederastia en la Iglesia” y “El defensor del pueblo señala que más de 200.000 españoles adultos han sufrido abusos sexuales de un sacerdote o religioso”, que aplicaban a la población adulta residente en España, unos 39,4 millones, los porcentajes respectivos del 1,14% y el 0,6%.

Esos cálculos fueron rechazados por los obispos, que pocos días después afirmaron que la estimación de 440.000 víctimas “no corresponde a la verdad”, haciendo hincapié en que una encuesta a 8.000 personas no era evidencia suficiente para una estimación como esa. En la misma dirección se expresaron artículos de opinión y noticias de medios como el diario ABC, que directamente dijo que un cálculo así a partir de una encuesta de “solamente” 8.000 personas era fake news.

Los obispos y los medios que se hicieron eco de su enfoque estaban cayendo en el primer tipo de error: el exceso de desconfianza, al no ser conscientes de lo “maravillosas” que pueden llegar a ser las encuestas. Con los matices que se verán después, una encuesta a 8.000 personas es mucho más que suficiente para poder decir cosas de millones, incluso si hablamos de fenómenos poco frecuentes, como los que estamos discutiendo aquí.

Dicho de otra forma, si en nuestra muestra obtenemos que un 1,14% de los encuestados sufrieron abusos sexuales en el ámbito religioso, estamos razonablemente seguros de que en el conjunto de la población el porcentaje es “aproximadamente” similar, que no es el 0,1% ni el 3%.

Podemos ilustrar esta idea con un ejemplo revelador, proveniente precisamente del ABC: las encuestas diarias que publicó en julio de este año antes de las elecciones generales, hechas justamente por la misma empresa responsable de la encuesta del defensor del pueblo (GAD3), con una muestra acumulada al final del proceso de unas 6.500 entrevistas, solían dar al Pacma una estimación de voto del 0,6% o el 0,7%, según los días. Y el resultado real fue que obtuvo el 0,67%. Nada sorprendente conociendo la dimensión “maravillosa” de las encuestas.

Todo esto solo sucede, claro, si la muestra se ha obtenido con procedimientos rigurosos, bien conocidos por las empresas de encuestas, que seleccionan la muestra con elementos aleatorios para acercarse lo más posible al ideal de la muestra aleatoria simple, en la que todos los miembros de la población tienen la misma probabilidad de aparecer.

Cuando se cumplen estas condiciones, como en la encuesta que nos ocupa, las leyes de la probabilidad nos dicen que una muestra, de pocos cientos o miles, se parecerá mucho a la población de la que se extrae, y que los porcentajes de personas que respondan a las preguntas no diferirán sustancialmente de las que encontraríamos si pudiéramos preguntar a toda la población. Y por ello no es descabellado proyectar esos porcentajes sobre el total de la población, como hicieron algunos medios.

Ahora bien, tampoco ellos se libran de la crítica, porque la mayoría cometieron el error opuesto al anterior: olvidar que las encuestas no son mágicas y caer en el exceso de confianza. Más específicamente: con una muestra de unos pocos miles, podemos saber cosas de millones, pero solo “aproximadamente”. Sabemos que la muestra se parecerá mucho a la población, pero no será idéntica.

Con una muestra de unos pocos miles, podemos saber cosas de millones, pero 'aproximadamente'

Con las reglas de la probabilidad, podemos calcular, según el número de encuestados, y según el porcentaje que obtengamos para una determinada respuesta, cuál será el error muestral o margen de error para un determinado nivel de confianza. Ese margen de error, restado y sumado al porcentaje obtenido en la muestra, nos da un intervalo de confianza, el intervalo de valores dentro del cual podemos estimar que está, con una probabilidad dada de acertar, el porcentaje en la población.

La ficha técnica de las encuestas suele publicar el margen de error o error muestral “para p=q=0,5”, lo cual quiere decir, en jerga estadística, para el caso con el mayor error, aquel en el que la muestra se divide exactamente por la mitad entre los que eligen una respuesta (p) y no la eligen (q), es decir, para el caso en el que una respuesta es escogida por el 50% de los encuestados. En la encuesta del informe se indicaba que ese error era de ±1,1 %.

Ignorar el margen de error es, valga la redundancia, un error típico de exceso de confianza en las encuestas. Por muy bien que se haya hecho la encuesta, el margen de error siempre estará ahí. De manera que los medios que afirmaron en titulares que, según el defensor del pueblo, hay en España 440.000 víctimas de abusos sexuales en su infancia o adolescencia en el ámbito religioso estaban dotando a la encuesta de una precisión que no puede tener.

Para hacer bien esa estimación, tendrían que haber intentado averiguar el margen de error y el intervalo de confianza para el 1,13% de personas que declaran haber sufrido esos abusos. En realidad, ambas cosas las debería haber facilitado el propio informe, como se hace en muchos estudios científicos, en los que los porcentajes más importantes se publican inmediatamente acompañados de sus intervalos de confianza. Pero, a falta de ello, los medios deberían o bien haberse abstenido de hacer la proyección (como aconsejó Gabilondo), o bien acompañarla de una estimación del intervalo de confianza, calculada por alguien con formación estadística.

Ignorar el margen de error es, valga la redundancia, un error típico de exceso de confianza en las encuestas

Usando los mismos criterios de la ficha técnica es fácil aplicar una fórmula para calcular que el error muestral sería de ±0,24%, para un muestreo aleatorio simple. Obsérvese que es un porcentaje mucho más pequeño que el que se aplica cuando una respuesta obtiene un porcentaje del 50%. Pero, comparado con el 1,13% al que se refiere, es un error mucho mayor.

Hecha la proyección del intervalo de confianza, obtendríamos que las personas víctimas de abusos podrían estar entre las 354.000 y las 541.000. Y la estimación de las víctimas de abusos de sacerdotes u otros religiosos católicos, que algunos medios publicaron que eran 224.000, podrían ser en realidad, con un 95,5% de probabilidad, entre 169.000 y 304.000*.

No obstante, cuando decimos que las encuestas no son mágicas, lo hacemos por otro problema adicional. El error muestral del que acabamos de hablar es un cálculo puramente estadístico que se basa en suponer que, de una población de millones de casos, obtenemos una pequeña muestra y observamos si tienen una cierta cualidad.

En las clases de estadística, lo enseñamos poniendo ilustraciones como la de que tenemos una urna gigantesca con millones de bolas de colores y queremos saber qué porcentaje son, por ejemplo, azules. Sacamos al azar un número pequeño de bolas, vemos el porcentaje de bolas de ese color, calculamos el error muestral, lo sumamos y restamos al porcentaje en la muestra, y tenemos el intervalo de confianza con nuestra estimación aproximada del porcentaje de bolas azules en la urna.

Pero, como se explica también típicamente en las clases sobre encuestas, las bolas no pueden elegir estar en la muestra o no, ni negarse a decirnos de qué color son, engañarnos, olvidarse, tener dudas sobre su color o sobre exactamente qué queremos saber sobre ellas. Todas esas cosas pasan cuando hacemos una encuesta: de entrada, muchas personas rechazan participar, aun sin saber el tema de la encuesta; y luego, de aquellas que sí lo hacen, extraemos la información a través de preguntas y respuestas.

Es un hecho bien conocido ente los profesionales del sector que, en ese proceso de preguntar y responder, como en todo acto de comunicación humana, puede haber muchas dificultades que influyan en que las respuestas sean unas u otras. En definitiva, sabemos que la redacción de la pregunta puede influir mucho en la respuesta obtenida.

Eso sucede siempre, si bien más todavía en temas sobre los que es difícil hacer preguntas sencillas y comprensibles, sin ambigüedades, y que además podemos suponer que los encuestados encontrarán incómodas y sobre las que no responderán tal vez con total sinceridad, o meditando bien la respuesta. Entre estos temas están muchos que tienen que ver con la vida privada (familia, relaciones de pareja, sexualidad); con comportamientos (fumar, consumir drogas o pornografía) u opiniones (racismo, machismo) socialmente desaprobados; con experiencias personales negativas, como enfermedades, problemas económicos o de relaciones sociales, y haber sido víctima de acoso, bullying, malos tratos, o, desde luego, abuso sexual.

Sabemos que la redacción de la pregunta puede influir mucho en la respuesta obtenida

Por eso es una práctica bien establecida que este tipo de estudios difundan su cuestionario completo, y sorprende mucho que en este caso no se haya publicado, ni en el informe de casi 800 páginas ni en los anexos online que se han utilizado para otros temas.

Así, a pesar de que el informe contiene en su introducción una amplia sección (once páginas) sobre la complejidad del concepto de abuso sexual y las múltiples conductas que pueden estar incluidas, no sabemos si nada de esto se ha comentado en alguna parte del cuestionario, antes o después de hacer la pregunta clave: “¿Ha padecido usted algún tipo de abuso o violencia sexual durante su infancia o adolescencia (siendo menor de 18 años)?”. Esta cuestión sirvió para considerar a los que respondían afirmativamente víctimas del abuso sexual, a las que se hicieron luego preguntas complementarias sobre las circunstancias del abuso; entre ellas, en qué ámbito (familiar, escolar, religioso...) sucedió.

Como esas once páginas dejan claro, se está preguntando por un concepto suficientemente amplio y ambiguo como para que podamos sospechar que personas diferentes lo han entendido de distintas formas. De hecho, por otra pregunta posterior, sabemos que un 39% de los que dijeron que sí habían sufrido esos abusos estaban pensando en abusos sin contacto físico, cosa en la que tal vez en principio no pensarían muchas personas entrevistadas. Y también sabemos, por la amplia experiencia de los encuestadores de todo el mundo, que preguntas incluso ligeramente diferentes habrían dado lugar a porcentajes de respuestas también distintos.

Por tanto, es imprudente pensar que los porcentajes encontrados en esta encuesta son algo así como “la verdad” sobre el asunto, un hallazgo definitivo, tallado en piedra, que todos debemos dar por bueno. Más bien, debemos verlo como un avance correcto en la dirección de un buen conocimiento del fenómeno. Una aproximación parcial, la mejor disponible hasta ahora, pero no definitiva ni exacta, ni adecuada para hacer comparativas o rankings con otros países que también con encuestas hallaron una incidencia ligeramente mayor o menor del fenómeno.

Es imprudente pensar que los porcentajes encontrados en esta encuesta son 'la verdad' sobre un asunto

Afirmar, como hacía El País en el subtítulo de su noticia principal, que el estudio “convierte a España en el país con la proyección oficial de víctimas más alta” es ir más allá de los límites de lo que razonablemente se puede concluir con una encuesta. Es mucho más apropiado subrayar, como hacía el propio informe, que la encuesta española ha encontrado una incidencia parecida a los de otros países que fijarse en pequeñas diferencias, las cuales no tenemos ninguna seguridad de que no se deban simplemente a decisiones sobre la organización de la encuesta, la selección de la muestra, la redacción de las preguntas o, incluso, su orden.

En definitiva, para interpretar correctamente las encuestas, hay que ser conscientes de sus capacidades y de sus limitaciones. En esta ocasión, hemos visto cómo nuestros medios, llevados tal vez por sus filias y fobias, han olvidado convenientemente las primeras o las últimas. Me gustaría pensar que unos y otros lo pueden hacer mejor.

*En realidad, el cálculo del margen de error podría ser más complejo, porque la muestra se había hecho en dos partes, una telefónica y otra online, pero podemos decir que este sería, como mínimo, el margen de error aplicable.

Contenido relacionado:

Josu Mezo

Profesor de la Universidad de Castilla-La Mancha y editor del blog Malaprensa.com.

Publicación número 47

encuestas / error muestral / periodismo