Investigadores revelan vulnerabilidades en los grandes modelos de lenguaje en relación a la eliminación de datos confidenciales

Recientes investigaciones de un grupo de científicos de la Universidad de Carolina del Norte en Chapel Hill han arrojado luz sobre un asunto particularmente delicado en el ámbito de la inteligencia artificial (IA): la dificultad de eliminar datos confidenciales de los grandes modelos de lenguaje (LLM), tales como ChatGPT de OpenAI y Bard de Google.

Los LLM son herramientas de IA extremadamente sofisticadas, preentrenadas con vastas cantidades de datos para luego ser afinadas y generar respuestas coherentes a las entradas que reciben. Este complejo proceso de entrenamiento y generación es una parte integral de su funcionalidad, pero también es el origen de un problema aparentemente insuperable.

La naturaleza de los modelos, como ChatGPT, significa que no es posible simplemente retroceder y borrar archivos específicos de la base de datos de entrenamiento para evitar que el modelo genere respuestas relacionadas. La información con la que se entrena un modelo se integra de tal manera en sus parámetros y pesos que se vuelve imposible de eliminar sin generar respuestas. En esencia, es la intrincada «caja negra» de la IA la que complica las cosas.

Esta incapacidad para «olvidar» la información se torna problemática cuando los LLM, por la naturaleza de los datos con los que fueron entrenados, pueden generar información delicada o sensible. Imagine un escenario en el que un modelo, habiendo sido entrenado con información bancaria confidencial, puede generar datos que no deberían ser públicamente accesibles. No hay manera práctica de localizar y eliminar esa información específica de la estructura del modelo.

Una estrategia común utilizada para mitigar comportamientos no deseados y peligrosos en los LLM es el aprendizaje por refuerzo a partir de la retroalimentación humana (RLHF). En este enfoque, los seres humanos interactúan y guían al modelo para potenciar comportamientos deseables y desalentar los indeseables. Sin embargo, incluso esta técnica tiene sus limitaciones, ya que no elimina la información no deseada del modelo y, en cambio, se basa en que los humanos identifiquen y corrijan problemas potenciales.

Los investigadores destacaron una preocupación ética y potencialmente peligrosa al respecto:

«Aunque hay mucho debate sobre lo que los modelos realmente ‘saben’, parece problemático que un modelo, por ejemplo, sea capaz de describir cómo fabricar un arma biológica pero simplemente se abstenga de responder a preguntas sobre cómo hacerlo».

A pesar de los métodos de edición de modelos avanzados, como la Edición de Modelos de Rango Uno, que se han utilizado para intentar borrar información de los LLM, los hechos pueden seguir siendo extraídos con una sorprendente frecuencia mediante diversas técnicas de ataque. Según los investigadores:

«los hechos pueden seguir extrayéndose el 38% de las veces mediante ataques de caja blanca y el 29% de las veces mediante ataques de caja negra».

Trabajando con GPT-J, un modelo relativamente más pequeño en comparación con modelos como GPT-3.5, los investigadores desarrollaron nuevos métodos de defensa para proteger los LLM de ciertos «ataques de extracción», esfuerzos por hacer que los modelos revelen información confidencial.

No obstante, los propios científicos reconocen que «el problema de la eliminación de información sensible puede ser uno en el que los métodos de defensa siempre están jugando a ponerse al día con los nuevos métodos de ataque».

Este descubrimiento pone de manifiesto la necesidad imperante de explorar enfoques más seguros y éticos para el entrenamiento y uso de LLM en el futuro, especialmente dada su proliferación y aplicaciones cada vez más integradas en diversos sectores de la sociedad y la industria. La seguridad de los datos y la ética del IA siguen siendo campos de constante evolución y discusión, y descubrimientos como este subrayan la urgencia de desarrollar y aplicar mejores prácticas en la creación y gestión de tecnologías de IA.

Scroll al inicio