Seis posibles capacidades futuras de la IA que podrían merecer una preparación y compromisos previos, para poder evitar riesgos catastróficos.
Holden Karnofsky
Source: Getty
La IA es una industria que se desarrolla rápidamente en donde el pragmatismo y el dinamismo son clave. La mejor esperanza puede ser un método que priorice un lanzamiento e iteración iniciales para reducir el riesgo a un ritmo satisfactorio.
Las capacidades de la Inteligencia Artificial (IA) están avanzando rápidamente, y existen graves preocupaciones de que la IA alcance un punto en el cual implique un riesgo a la seguridad internacional.1 Al mismo tiempo, el manejo de riesgos de la IA “aún se encuentra en pañales”.”2 Esto genera un dilema para los formuladores de políticas. Los riesgos clave de la IA se entienden vagamente y especulativamente, y se podría concebir erróneamente una regulación prematura o incluso una presión prematura para seguir estándares de seguridad voluntarios y obstruirse los avances. Pero moverse muy lentamente pudiera implicar tolerar niveles de riesgo altos.
Una solución parcial a este dilema es invertir fuertemente en investigación sobre los riesgos de la IA y cómo mitigarlos, con el objetivo de lograr una comprensión madura de estos temas tan pronto como sea posible. Sin embargo, dados los desafíos de esta investigación, llegar a una madurez podría fácilmente llevar décadas.
Con la esperanza de moverse más rápido en un manejo de riesgos, la investigación podría completarse con otro enfoque de desarrollar prácticas de manejo de riesgos: lanzamiento e iteración iniciales. Este enfoque puede apreciarse en los compromisos si entonces de las compañías3 los cuales a menudo son relativamente imprecisos, carecen de una justificación extensiva y están marcados explícitamente como iniciales, exploratorios o preliminares.4 Compromisos como este son de tipo producto viable mínimo. En lugar de compromisos pulidos fundamentados en una investigación extensiva e incuestionable, son intentos iniciales en el manejo de riesgos que una compañía puede intentar, notar con ello si hay problemas, iterar y mejorar continuamente a medida que ingrese más información e investigación.
Este método de lanzamiento e iteración inicial es distinto a cómo tiende a verse el manejo de riesgos en otras industrias más maduras. En su lugar, es más similar a cómo las compañías de IA desarrollan e implementan sus productos. Para una industria que se mueve rápidamente en donde el pragmatismo y dinamismo son clave, este método puede ser la mejor esperanza de desarrollar prácticas para reducción de riesgos funcionales lo suficientemente rápidas para reducir el volumen del riesgo.
Para que este método funcione, será importante que sus practicantes no lo confundan con un manejo de riesgos tradicional en industrias maduras, ni tampoco con una investigación intensiva aislada de la práctica. Las prácticas de manejo de riesgos que vienen de un método de lanzamiento e iteración iniciales estarán con frecuencia poco explicadas y poco justificadas y serán revisadas posteriormente para adaptar nuevos desarrollos o un entendimiento mejorado. Los académicos y otros críticos estarán tentados a enfocar sus críticas sobre la falta de rigor, pero podría ser más productivo enfocar críticas en otros temas, como, por ejemplo, la frecuencia con la cual las compañías revisan sus marcos de trabajo y si estas detallan y eventualmente resuelven preguntas abiertas clave.
Los formuladores de políticas, en lugar de escoger entre imponer regulaciones detalladas y esperar a que el manejo de riesgos madure, pueden apuntar a adaptar y recomendar el desarrollo rápido de prácticas de manejo de riesgos y la continua revisión de las mismas.
En algunas industrias, es común que los operarios realicen evaluaciones de riesgo regulares y extensivas. Un ejemplo es la energía nuclear; la Comisión Reguladora Nuclear de los EEUU utiliza una evaluación de riesgos probabilística para asignar números a posibles riesgos.5 La evaluación de riesgos para plantas nucleares se enfoca en un conjunto específico y limitado de riesgos: aquellos que podrían causar daños al núcleo del reactor nuclear, resultando en la liberación de radioactividad.6
El manejo de riesgos en otras industrias tiende a tener una calidad similar. Por ejemplo, la aprobación de la Administración de Alimentos y Drogas de los EEUU requiere por lo general, estudios empíricos de los efectos de una droga en indicadores de salud predefinidos, incluyendo eficacia positiva y efectos secundarios negativos.7
En contraste, el riesgo de la IA, tal como se entiende hoy en día, presenta un área superficial de posibles riesgos más amplia así como más imprecisa. La IA es una tecnología que pudiera automatizar potencialmente cualquier cosa que pueda hacer la mente humana, y está avanzando rápidamente. La IA ha sido el tema de un vasto conjunto de inquietudes, incluyendo, pero lejos de limitarse a la manipulación de la opinión pública, la automatización de ciber operaciones, invasiones de privacidad, proliferación de la capacidad de producir e implementar armas biológicas y químicas, impactos del mercado laboral debido a la competencia económica de la IA con gran parte de la población, amplificación de parcialidades y “pérdida de control” lo cual se refiere a la posibilidad de que representantes de la IA pudiesen trabajar de manera autónoma para quitar autonomía a los humanos.8 Las discusiones de estos riesgos tienden a hacer énfasis en que algunos de ellos son especulativos, mal entendidos y/o el tema de un vigoroso desacuerdo entre expertos.9
Muchos de estos intentos del manejo de riesgos enfrentan muchas cuestiones difíciles. Consideremos un riesgo como ejemplo: que la IA pudiese asistir en la producción de armas químicas y biológicas.10 Para evaluar y manejar el riesgo, a uno le gustaría respuesta bien fundamentadas a preguntas incluyendo: ¿qué aspectos de la producción (y/o adquisición) de armas pueden mejorar los sistemas de IA? ¿Para qué tipos de armas, y para qué tipos de actores? ¿Qué tanto pudieran ayudar los sistemas de IA a cada tipo de actor de interés con cada tipo de arma de interés? ¿Cómo puede saber uno qué sistemas de IA son capaces de esta mejora? ¿Qué medidas tecnológicas se pueden utilizar para asegurar que los actores de interés no puedan ni instigar la ayuda con la producción de armas de parte de la IA ni robar los pesos del modelo de IA ni manipularlos para sus propios objetivos?
Es especialmente difícil obtener respuestas razonables a estas preguntas dado que la inquietud es acerca de Sistemas de IA futuros hipotéticos en lugar de los actuales. No hay ejemplos empíricos de estos sistemas de IA para estudiarse, no hay estudios de casos para estos incidentes asistidos por IA, no hay estadísticas que puedan utilizarse para estima de manera directa su frecuencia, y no hay programas de seguridad de IA de alta garantía relevantes que puedan estudiarse para emitir estándares.
El hecho de que no tengamos estas cosas no significa que las inquietudes respecto a los riesgos carezcan de fundamento. Los sistemas de IA se han estado aproximando al nivel de desempeño de expertos humanos en muchos frentes a la vez,11 y si tuviesen que alcanzar una paridad con los mejores expertos en química y biología, pudieran expandir rápida y dramáticamente el conjunto de personas que puedan producir armas de destrucción masiva.12 Ha habido preocupaciones considerables respecto a estos riesgos por parte de los formuladores de políticas.13
Pero puede que resulte inabordable obtener respuestas empíricamente fundamentadas y minuciosamente cuantificadas a las preguntas anteriores hasta después de que los sistemas de IA que claramente impliquen los riesgos en cuestión existan, en cuyo momento los riesgos podrían ser considerables.
De manera más general, entender y lograr cierto nivel de consenso del alcance completo de los riesgos, y desarrollar prácticas de manejo de riesgos sólidas y ampliamente utilizadas en torno a este entendimiento, pudiera tomar décadas. Esto estaría alineado con la historia del manejo de riesgos en otras industrias.14
Algunos han recomendado que el desarrollo de la IA debe retardarse hasta (y a menos que) el manejo de riesgos madure lo suficiente para ofrecer una alta seguridad contra riesgos.15 Otros han apuntado al inmaduro estado del manejo de riesgos como la razón para retardar las regulaciones mientras que el desarrollo de la IA avance sin restricciones .16 Cualquiera método podría sonar razonable al primer vistazo, pero se ve menos atractivo (y menos realista) al tener presente qué tan largo podría ser el camino para lograr una madurez de las prácticas de manejo de riesgos.
Las compañías que desarrollan sistemas de IA de vanguardia no están retardando la producción o lanzamiento de productos mientras trabajan para estructurar análisis rigurosos e integrales respecto a las capacidades, funcionamiento interno y potencial de ingresos de sus sistemas. Más bien están desarrollando y lanzando productos de IA con ambición y urgencia.
Por ejemplo, la cultura de compañías tecnológicas en general tiende a priorizar una ética de lanzar rápidamente productos e iterar con ellos, en lugar de buscar perfeccionarlos—un método que significa que los productos a menudo están limitados en un punto dado del tiempo, pero que resulta en una retroalimentación y mejora rápidos.17
La idea de priorizar una iteración rápida sobre un análisis anticipado es crítica para algunos de los participantes clave de la IA. Además de informar métodos para los productos, también se ha presentado de manera prominente en las declaraciones de filosofía para navegar los riesgos de la IA de algunas de las compañías de IA líderes.18
¿Se puede aplicar esta ética al desarrollo del manejo de riesgos, así como también al desarrollo de la IA en sí?
En un grado significativo, esto es exactamente lo que ha estado ocurriendo con los compromisos si entonceslanzados por las principales compañías de IA en el último año aproximadamente, aunque la velocidad de iteración podría ser más rápida y el número de compañías que participen ser mayor.19
Por ejemplo, a inicios de 2024, Google DeepMind lanzó su “Marco de seguridad frontera,”20 el cual enumera las capacidades que pretende comprobar y las mitigaciones de riesgos mejoradas que pudieran requerirse dependiendo de los resultados de la prueba. En su anuncio, destacó de manera explícita que el marco es preliminar y un punto de inicio para la iteración:
“El marco es exploratorio y esperamos que este evolucione considerablemente a medida que aprendemos de su implementación, profundizando nuestro entendimiento de los riesgos y evaluaciones de la IA, y colaboramos con la industria, academia y gobierno. Aunque estos riesgos están más allá del alcance de los modelos de hoy en día, esperamos que implementando y mejorando el marco nos ayude a prepararnos para lidiar con ellos. Buscamos tener este marco inicial totalmente implementado para inicios de 2025.
El marco en sí contiene ambigüedades considerables y áreas que necesitarán un refinamiento adicional con el tiempo. Los “niveles de capacidad crítica” que busca comprobar se describen en un nivel alto y están basados en lo que se denomina explícitamente “análisis preliminar”. Por ejemplo, comprueba los [Sistemas AI] capaces de automatizar completamente ciber ataques oportunistas a organizaciones con una postura de seguridad limitada.” Una sección de “trabajo futuro” del documento reconoce completamente su naturaleza preliminar y enumera algunas expectativas de versiones futuras del marco.
Otros compromisos si entonces tienen propiedades similares. Preparación de OpenAI El marco de trabajo” está marcado como “Beta” y se describe como un “documento en cambio constante.”21 Al discutir sus capacidades de interés, establece lo siguiente:
Tal como se mencionó, el estudio empírico de un riesgo catastrófico de modelos de IA de frontera está creciendo. Por lo tanto, nuestros estimados actuales de niveles y límites para riesgos “medianos” hasta “críticos” son especulativos y seguirán siendo refinados según lo informe la investigación futura.
El anuncio inicial de la “política de escalamiento responsable” de Anthropic estableció, “Queremos hacer énfasis en que estos compromisos son nuestros supuestos actuales más probables, y una iteración inicial sobre la base de la cual desarrollaremos. El rápido ritmo y muchas incertidumbres de la IA como campo implica que, a diferencia del sistema BSL relativamente estable, ciertamente será casi necesario una reafirmación rápida y corrección de curso.”22 Desde entonces ha puesto en regla una versión revisada de esta política, notando muchos cambios que se hicieron para lograr una mayor flexibilidad luego de obtener experiencia con la implementación.23
Uno podría afirmar, y algunos lo han hecho, que estos compromisos si entonces son considerablemente imprecisos y carecen de muchas funciones útiles de manejo de riesgos en industrias más maduras.24 Pero al día de hoy la alternativa a compromisos preliminares y exploratorios no son compromisos rigurosos y fiables—es más probable que básicamente estén dejando en espera el manejo de riesgos hasta que exista una mayor claridad en cuanto a los riesgos.
Estas compañías están adoptando el mismo enfoque con el manejo de riesgos que el que adoptan con los mismos sistemas de IA: desarrollar algo, comprobarlo y mejorarlo con el tiempo. Pero queda espacio para que ellos hagan más y con una mayor velocidad de iteración. Los compromisos si entonces iniciales hicieron alusión a la necesidad de un trabajo adicional y nombraron varias áreas a mejorarse, incluyendo aspiraciones para agregar un seguimiento por parte de terceros independientes.25 Pero hasta ahora ha habido pocas actualizaciones o revisiones públicas a estas políticas.26 Y muchas otras compañías no han lanzado aún sus compromisos si entonces.27 El requerimiento de estos compromisos si entonces para cumplir con normas de rigor absolutas puede ser menos productivo que el requerimiento de un avance e iteración consistente y públicamente visible.
Una compañía puede poner en regla un compromiso si entonces voluntario, luego publicar cualquier número de revisiones y refinamientos luego de una retroalimentación e implementación. Es mucho más difícil para un gobierno adoptar un enfoque de sentar regulaciones inicialmente y revisarlas con el paso del tiempo. Cada cambio a una legislación presenta una nueva batalla política y un nuevo conjunto de compromisos y complejidades, quizás con un equilibrio de poder cambiado entre las alianzas desde la última vez en que se hubiese aprobado una ley. Asignar a una agencia la elaboración y revisión de regulaciones es en sí una acción difícil de reversar, dando a un conjunto específico de personas el criterio y poderes que pudiera requerir una batalla política eliminar.
Aun así, vale la pena considerar cómo los formuladores de políticas pueden equilibrar la urgencia e incertidumbre en lo que respecta a regulación de IA. Algunas opciones incluyen:
Ninguno de estos métodos es a prueba de tontos, pero si se aplican bien, estos métodos podrían ayudar a impulsar el desarrollo tanto de las prácticas para manejo de riesgos como la capacidad del estado para aplicarlos eventualmente, evitando al mismo tiempo atascarse con requisitos basados en ideas inmaduras respecto al manejo de riesgos.
Puede que ChatGPT haya establecido el récord por tener la base de usuarios de más alto crecimiento de todos los tiempos.28 De hecho, una característica descriptiva de los avances de la IA hoy en día es lo rápida que ha sido—una fuente tanto de emoción como de inquietud respecto a la tecnología.
Si la IA continúa avanzando con una velocidad sin precedentes, de manera ideal el manejo de riesgos de IA también lo hará. Lograr que esto ocurra podría requerir un proceso desordenado e iterativo, con compromisos si entonces y/o regulaciones no pulidas que no se fundamenten inicialmente en una investigación minuciosa y rigurosa (y que requiera muchas revisiones). Implementar prácticas de manejo de riesgos imperfectas podría ser de hecho la manera más rápida de compilar información y llegar al punto en el cual sea posible una investigación minuciosa y rigurosa.
Las preocupaciones que afirman que la “ciencia en torno a la seguridad de la IA aún está en pañales” son válidas.29 Pero si estas preocupaciones conducen a abstenerse de cualquier práctica de manejo de riesgos hasta que la ciencia subyacente se establezca, podría significar que la ciencia seguirá en pañales durante mucho tiempo. Impulsar la maduración del manejo de riesgos de la IA debe tratarse como una prioridad urgente, a la par con impulsar el desarrollo de la misma IA.
El autor está casado con la presidenta de Anthropic, una compañía de IA, y tiene una exposición financiera tanto de Anthropic como de OpenAI a través de su cónyuge.
Este documento se ha beneficiado de un gran número de discusiones con el paso de los años, en particular con personal de METR, el Instituto de Seguridad de IA del Reino Unido, Open Philanthropy, Google DeepMind, OpenAI y Anthropic. Para este documento en particular, me gustaría agradecer a Chris Painter y a Luca Righetti por sus comentarios en el borrador.
Carnegie no asume posiciones institucionales sobre asuntos de política pública; las opiniones expresadas aquí son las de los autores y no reflejan necesariamente las de Carnegie, sus empleados o sus fundadores.
Seis posibles capacidades futuras de la IA que podrían merecer una preparación y compromisos previos, para poder evitar riesgos catastróficos.
Holden Karnofsky
La ley expuso divisiones dentro de la comunidad de IA, pero los proponentes de las regulaciones de seguridad pueden tomar en cuenta las lecciones de la SB 1047 y por consiguiente diseñar sus esfuerzos futuros.
Scott Kohler, Ian Klaus
La demografía extrema de Japón está dando forma a la trayectoria de innovación del país.
Kenji Kushida
Siendo el campo de prueba para diplomacia subnacional, las ciudades de Los Angeles y ciudades africanes pueden aliarse para apalancar la innovación y enfrentar desafíos globales como el cambio climático y la gobernabilidad de tecnologías emergentes.
Nanjira Sambuli
La IA (inteligencia artificial) podría conllevar una serie de riesgos catastróficos a la seguridad internacional en algunos dominios. Este artículo es una presentación preliminar de un marco de trabajo emergente para el manejo de este desafío: los compromisos “si-entonces”.
Holden Karnofsky