ChatGPT genera datos de ensayos clínicos falsos para respaldar hipótesis científicas
Tras este hallazgo, la capacidad de la inteligencia artificial para fabricar datos convincentes aumenta la preocupación entre los investigadores y editores de revistas sobre la integridad de la investigación.
Un grupo de investigadores del departamento de Oftalmología de la Universidad Magna Graecia de Catanzaro (Italia) ha utilizado la tecnología que hay detrás de ChatGPT de inteligencia artificial (IA) para crear un conjunto de datos de ensayos clínicos falsos y respaldar una afirmación científica no verificada, advirtiendo del peligro que puede suponer esta tecnología para la ciencia, según revela una carta publicada en Jama Ophtalmogoly y recogida por la revista Nature.
Los datos generados por la inteligencia artificial (IA) compararon los resultados de dos procedimientos quirúrgicos e indicaron, erróneamente, que un tratamiento es mejor que el otro. Para ello, los autores utilizaron GPT-4, la última versión del modelo de lenguaje en el que se ejecuta ChatGPT, junto con el Análisis de datos avanzado (ADA), un modelo que incorpora el lenguaje de programación Python y puede realizar análisis estadísticos y crear visualizaciones de datos.
«Nuestro objetivo era resaltar que, en unos minutos, se puede crear un conjunto de datos que no está respaldado por datos originales reales, y que también es opuesto o en la dirección contraria a la evidencia disponible», dice el coautor del estudio y cirujano ocular de la Universidad de Cagliari en Italia, Giuseppe Giannaccare.
Tras este hallazgo, la capacidad de la IA para fabricar datos convincentes aumenta la preocupación entre los investigadores y editores de revistas sobre la integridad de la investigación. «Una cosa era que la IA generativa pudiera usarse para generar textos que no serían detectables mediante software de plagio, pero la capacidad de crear conjuntos de datos falsos pero realistas es el siguiente nivel de preocupación», apunta la microbióloga e investigadora independiente, Elisabeth Bik.
Así, Bik asegura que esta tecnología «hará que sea muy fácil para cualquier investigador o grupo de investigadores crear mediciones falsas en pacientes inexistentes, respuestas falsas a cuestionarios o generar un gran conjunto de datos sobre experimentos con animales».
Los autores describen los resultados como una «base de datos aparentemente auténtica» pero, cuando los especialistas examinaron estos datos, no pasaron los controles de autenticidad y contenían signos reveladores de haber sido inventados.
Para llegar a esta conclusión, los investigadores pidieron a GPT-4 ADA que creara un conjunto de datos sobre personas con una afección ocular llamada queratocono, que causa adelgazamiento de la córnea y puede provocar problemas de concentración y mala visión. Para entre el 15 y el 20 % de las personas con la enfermedad, el tratamiento implica un trasplante de córnea, realizado mediante uno de estos dos procedimientos.
El primer método, la queratoplastia penetrante (PK), consiste en extirpar quirúrgicamente todas las capas dañadas de la córnea y reemplazarlas con tejido sano de un donante. El segundo procedimiento, queratoplastia lamelar anterior profunda (DALK), reemplaza solo la capa frontal de la córnea, dejando intacta la capa más interna.
Los autores ordenaron a ChatGPT que fabricara datos para respaldar la conclusión de que el método DALK produce mejores resultados que PK. Para ello, le pidieron que mostrara una diferencia estadística en una prueba de imagen que evalúa la forma de la córnea y detecta irregularidades, así como una diferencia de cómo podían ver los participantes del ensayo antes y después de los procedimientos.
Los datos generados por la IA incluyeron a 160 participantes masculinos y 140 femeninos e indicaron que aquellos que se sometieron a DALK obtuvieron mejores puntuaciones tanto en la prueba de visión como en la prueba de imágenes que aquellos que se sometieron a PK, un hallazgo que contradice lo que muestran los ensayos clínicos actuales. En un informe de 2010 de un ensayo con 77 participantes, los resultados de DALK fueron similares a los de PK hasta dos años después de la cirugía.
«Parece que es bastante fácil crear conjuntos de datos que sean, al menos superficialmente, plausibles. Entonces, para un ojo inexperto, esto ciertamente parece un conjunto de datos real», apunta el bioestadístico de la Universidad de Manchester (Reino Unido), Jack Wilkinson.
Cómo reconocer el origen no humano de los datos
Aparentemente los datos científicos parecen estar generados por humanos y no por una inteligencia artificial, pero los investigadores aseguran que haciendo un examen minucioso sí que es posible diferenciar el origen no humano de dichos datos. «Si se mira muy rápidamente el conjunto de datos, es difícil reconocer el origen no humano de la fuente de datos», apunta el cirujano Giuseppe Giannaccare.
A petición de la revista Nature, los investigadores evaluaron el conjunto de datos falsos mediante un protocolo de detección diseñado para comprobar su autenticidad.
Esto reveló una discrepancia en muchos «participantes» entre el sexo designado y el sexo que normalmente se esperaría de su nombre. Además, no se encontró correlación entre las medidas preoperatorias y postoperatorias de la capacidad visual y la prueba de imágenes oculares.
Asimismo, se inspeccionó la distribución de números en algunas de las columnas del conjunto de datos para comprobar si había patrones no aleatorios. Los valores de las imágenes oculares pasaron esta prueba, pero algunos de los valores de edad de los participantes se agruparon de una manera que sería extremadamente inusual en un conjunto de datos genuino ya que hubo un número desproporcionado de participantes cuyos valores de edad terminaron en siete y ocho.
«En realidad, la revisión por pares a menudo no llega a un reanálisis completo de los datos y es poco probable que detecte violaciones de integridad bien diseñadas utilizando la IA», dice el editor jefe de EMBO Reports, Bernd Pulverer, agregando que las revistas necesitarán actualizar los controles de calidad para identificar los datos sintéticos generados por la IA.
No obstante, el investigador Wilkinson lidera un proyecto colaborativo para diseñar herramientas estadísticas y no estadísticas para evaluar estudios potencialmente problemáticos porque «e la misma manera que la IA podría ser parte del problema, podría haber soluciones basadas en IA para algo de esto». «Es posible que podamos automatizar algunos de estos controles», afirma.