"Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith

EDUCACIÓN

"Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith

domingo, 1 de mayo de 2022

Foto: Universidad S

Agregue a sus temas de interés
Académico
Economía
Científicos

Destaca el hecho de que los investigadores reales no correlacionan números aleatorios pero correlacionan variables elegidas al azar

En una columna publicada en 'Bloomberg Opinion', Gary Smith, profesor de economía en Pomona College y autor de 'The AI Delusion' y el próximo 'Distrust: Big Data, Data-Torturing, and the Assault on Science', señala el hecho de que si bien antes el problema era la escasez de datos, hoy es todo lo contrario. Existe un exceso de cifras e información que está socavando la credibilidad de la ciencia.

"Supongamos que un desafortunado investigador calcula las correlaciones entre cientos de variables, felizmente inconsciente de que todos los datos son, de hecho, números aleatorios. En promedio, una de cada 20 correlaciones será estadísticamente significativa, aunque cada correlación no sea más que una coincidencia", se lee en el artículo.

Smith destaca el hecho de que los investigadores reales no correlacionan números aleatorios pero correlacionan las variables elegidas al azar, un hecho conocido en estadística como minería de datos.

"Al igual que con los números aleatorios, la correlación entre variables no relacionadas elegidas al azar tiene 5% de probabilidad de ser estadísticamente significativa por casualidad. La extracción de datos se puede aumentar mediante la manipulación, la poda y la tortura de los datos para obtener valores probabilísticos bajos", menciona.

Tal como menciona el columnista, las relaciones "tontas" se publican en buenas revistas simplemente porque los resultados son estadísticamente significativos, y pone de ejemplo estudios como: 'A los estudiantes les va mejor en una prueba de recuerdo si estudian para la prueba después de tomarla', 'Los estadounidenses de origen japonés son propensos a ataques cardíacos el cuarto día del mes' y 'Los precios de Bitcoin se pueden predecir a partir de los rendimientos de las acciones en la industria del cartón, los contenedores y las cajas', entre otros.

Sin embargo, estos estudios ahora desacreditados son la punta de un iceberg estadístico que se conoce como la crisis de replicación.

Un equipo dirigido por John Ioannidis analizó los intentos de replicar 34 estudios médicos muy respetados y descubrió que solo 20 fueron confirmados. El proyecto de reproducibilidad intentó replicar 97 estudios publicados en las principales revistas de psicología y confirmó solo 35. El documento de replicación de economía experimental intentó replicar 18 estudios experimentales informados en las principales revistas de economía y confirmó solo 11.

"Escribí un artículo satírico que pretendía demostrar la locura de la minería de datos. Examiné los voluminosos tuits de Donald Trump y encontré correlaciones estadísticamente significativas entre: Trump tuiteando la palabra “presidente” y el índice S&P 500 dos días después; Trump tuiteando la palabra “nunca” y la temperatura en Moscú cuatro días después; Trump tuiteando la palabra “más” y el precio del té en China cuatro días después; y Trump tuiteando la palabra “demócrata” y algunos números aleatorios que yo había generado", mencionó Smith.

Posteriormente, el autor envió un artículo a una revista científica con los datos encontrados escritos de forma académica y convincente, y los comentarios del revisor demostraron cuán profundamente arraigada está la noción de que la significación estadística reemplaza al sentido común: “El artículo está generalmente bien escrito y estructurado. Este es un estudio interesante y los autores han recopilado conjuntos de datos únicos utilizando una metodología de vanguardia”, mencionaron los pares educativos.

Es tentador creer que más datos significa más conocimiento. Sin embargo, la explosión en la cantidad de cosas que se miden y registran ha aumentado más allá de lo creíble la cantidad de patrones coincidentes y relaciones estadísticas falsas que esperan engañarnos.

Si el número de relaciones verdaderas aún por descubrir es limitado, mientras que el número de patrones coincidentes crece exponencialmente con la acumulación de más y más datos, entonces la probabilidad de que un patrón descubierto al azar sea real se aproxima inevitablemente a cero.

"El problema actual no es que tengamos muy pocos datos, sino que tenemos demasiados datos, lo que seduce a los investigadores para que los registren en busca de patrones que sean fáciles de encontrar, que probablemente sean coincidentes y que probablemente no sean útiles", concluyó.

Lea aquí la columna de opinión completa.

Conozca los beneficios exclusivos para
nuestros suscriptores

MI SELECCIÓN DE NOTICIAS

Noticias personalizadas, de acuerdo a sus temas de interés

BITÁCORA EMPRESARIAL 10.000 LR

Recopilación 10.000 primeras empresas en ventas en Colombia

CENTRO DE CONVENCIONES

Reviva en primera fila todos los foros y cátedras de La República

KIOSCO

Mas de 4.000 libros y revistas, en alianza con OverDrive

BIBLIOTECA PERSONAL

Seleccione y conserve sus artículos favoritos

TINTA DIGITAL

Acceda a nuestras publicaciones impresas en formato digital

NOTIFICACIONES Y ALERTAS

Reciba las noticias seleccionadas por nuestro equipo editorial

SUSCRÍBASE YA

TENDENCIAS

MÁS DE ALTA GERENCIA

Laboral 02/04/2025

Dar un paseo y comer un snack entre las pausas activas que puede hacer en el trabajo

Expertos en bienestar recomiendan que durante la jornada laboral se realicen dos pausas activas para dar descanso al cuerpo y la mete

Laboral 02/04/2025

Al menos 51% de empresas no asumen las expectativas salariales de los empleados

Diario Expansión reveló que la falta de oportunidades de desarrollo profesional es un problema para 47% de los trabajadores

MÁS ALTA GERENCIA

MÁS DE LA REPÚBLICA

Donald Trump, presidente de Estados Unidos

Estados Unidos 31/03/2025

INICIO

ALTA GERENCIA

"Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith

"Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith

Conozca los beneficios exclusivos para
nuestros suscriptores

MI SELECCIÓN DE NOTICIAS

BITÁCORA EMPRESARIAL 10.000 LR

CENTRO DE CONVENCIONES

KIOSCO

BIBLIOTECA PERSONAL

TINTA DIGITAL

NOTIFICACIONES Y ALERTAS

TENDENCIAS

Ni hijos, ni relevo, ni futuro

Gilinski, Vélez y Sarmiento son los empresarios con el mayor patrimonio en Colombia

La Casa Blanca informó que el presidente fijará los nuevos aranceles recíprocos en 20%

En el primer trimestre del año, las ventas de vehículos subieron 23% y lideró Renault

“En Mimo's, tenemos una proyección para la apertura de 35 puntos de venta en 2025”

Deterioro de inflación y riesgo al crédito, entre claves del repunte de la usura en abril

MÁS DE ALTA GERENCIA

Dar un paseo y comer un snack entre las pausas activas que puede hacer en el trabajo

Al menos 51% de empresas no asumen las expectativas salariales de los empleados

MÁS DE LA REPÚBLICA

Trump no descarta un tercer mandato, dice que hay maneras de volver a la presidencia

El PMI del sector industrial alcanzó 49,4 puntos, marcando una contracción moderada

Denunciaron retrasos en investigación del relleno La Paz tras hallar restos humanos

Minsait Payments, compañía de medios de pago digitales, cambió su nombre a Nuek

Copa Airlines celebró su aniversario 55 de en el Museo de Arte Moderno MedellÍn

Dar un paseo y comer un snack entre las pausas activas que puede hacer en el trabajo

"Malos estudios de Big Data pueden sacudir su fe", economista y profesor Gary Smith

Conozca los beneficios exclusivos para nuestros suscriptores

MI SELECCIÓN DE NOTICIAS

BITÁCORA EMPRESARIAL 10.000 LR

CENTRO DE CONVENCIONES

KIOSCO

BIBLIOTECA PERSONAL

TINTA DIGITAL

NOTIFICACIONES Y ALERTAS

TENDENCIAS

MÁS DE ALTA GERENCIA

MÁS DE LA REPÚBLICA

Conozca los beneficios exclusivos para
nuestros suscriptores