Retiran base de datos para entrenar IA por contener material de abuso sexual infantil
Los investigadores de Stanford Internet Observatory revelan las implicaciones de esta decisión.
Un revuelo en la comunidad de inteligencia artificial se ha desatado después de que investigadores de Stanford Internet Observatory descubrieran la presencia de material de abuso sexual infantil (CSAM, por sus siglas en inglés) en una base de datos utilizada para entrenar modelos de Inteligencia Artificial generativa de imágenes.
Este hallazgo ha llevado a la retirada inmediata de la base de datos en cuestión.
La base de datos, conocida como LAION-5B, contiene la cifra de 5.850 millones de pares de texto e imagen, y ha sido ampliamente utilizada en la industria para entrenar sistemas de IA generativos dedicados a la creación de imágenes.
Según se describe en la página web de LAION, su objetivo principal era «democratizar la investigación y la experimentación en el entrenamiento de modelos multimodales a gran escala».
Sin embargo, LAION advierte desde el principio que esta base de datos no está curada y que la «naturaleza no seleccionada del conjunto de datos» podría dar lugar a «contenido muy incómodo y perturbador». A pesar de esta advertencia, la presencia de material de abuso sexual infantil ha sorprendido a la comunidad de investigación.
Un equipo de investigadores liderado por Jeffrey Hancock, de Stanford Internet Observatory, se embarcó en una misión para determinar en qué medida el material de abuso sexual infantil había sido utilizado en el entrenamiento de modelos de IA generativa de imágenes.
Estos modelos, conocidos por su capacidad para generar contenidos explícitos para adultos, también se sospechaba que podían generar contenido inapropiado relacionado con el abuso infantil.
Para llevar a cabo su investigación, el equipo de Hancock empleó una combinación de técnicas, incluyendo la coincidencia de hash perceptual de PhotoDNA, la coincidencia de hash criptográfica, consultas de vecinos más cercanos y clasificadores de aprendizaje automático, como se detalla en el resumen de su estudio.
Los resultados de su investigación revelaron una cantidad significativa de «cientos de casos de CSAM conocidos en el conjunto de capacitación, así como muchos candidatos nuevos que posteriormente fueron verificados por partes externas».
Ante esta alarmante situación, LAION tomó la decisión de retirar temporalmente la base de datos, como confirmaron a ‘404 Media’, un portal especializado en tecnología. La medida fue tomada para asegurarse de que los conjuntos de datos estén «seguros antes de volver a publicarlos», según declararon representantes de LAION.