Source: Getty
paper

Compromisos de “si-entonces” para la reducción de riesgos de la IA

La IA (inteligencia artificial) podría conllevar una serie de riesgos catastróficos a la seguridad internacional en algunos dominios. Este artículo es una presentación preliminar de un marco de trabajo emergente para el manejo de este desafío: los compromisos “si-entonces”.

Published on 13 de septiembre de 2024

Introducción

La IA (inteligencia artificial) podría conllevar una serie de riesgos catastróficos a la seguridad internacional en algunos dominios, incluyendo la proliferación y aceleración de capacidad para cometer cyber delitos, y capacidad de desarrollar armas químicas o biológicas de destrucción masiva. Incluso los modelos de IA más poderosos hoy en día no son lo suficientemente capaces de conllevar estos riesgos,1 pero en los siguientes años se podrían ver cambios rápidos y difíciles de predecir en las capacidades de IA. Tanto las compañías como los gobiernos han demostrado un interés considerable en encontrar maneras para prepararse para estos riesgos sin detener innecesariamente el desarrollo de nuevas tecnologías.

Este artículo es una presentación preliminar de un marco de trabajo emergente para el manejo de este desafío: los compromisos “si-entonces”. Estos son compromisos de la forma: Si un modelo de IA tiene una capacidad X, debe haber en regla mitigaciones de riesgo Y. Y, si es necesario, retrasaremos la implementación y/o desarrollo de la IA para garantizar que estas mitigaciones puedan estar presente a tiempo. Un ejemplo específico: Si un modelo de IA tiene la capacidad de enseñar paso a paso a un principiante a construir un arma de destrucción masiva, entonces debemos asegurarnos de que no haya manera de que el modelo de IA provoque una conducta de esta categoría en los consumidores.

Si los compromisos “si-entonces” se pueden adoptar voluntariamente por los desarrollistas de IA; quizás también puedan hacerse cumplir por los reguladores. La adopción de compromisos “si-entonces” podría ayudar a reducir los riesgos de la IA en dos maneras clave: (a) Creación de prototipo, prueba en combate y desarrollo de consenso en torno a un posible marco regulatorio y (b) ayudar a los desarrollistas de IA y a otros a desarrollar guías de qué mitigaciones debe haber en regla y cuándo. Esta adopción no requiere de un acuerdo en cuanto a si los riesgos considerables de la IA son inminentes, un tema polarizado, sino que únicamente ciertas situaciones necesitarían ciertas mitigaciones de riesgos si llegaran a aprobarse.

Tres líderes de la industria—Google DeepMind, OpenAI y Anthropic, han publicado marcos de trabajo relativamente detallados en este sentido. Dieciséis compañías han anunciado su intención de establecer marcos de trabajo con un espíritu similar para el momento de la próxima Cumbre de Acción de IA 2025 en Francia.2 Se han explorado ideas similares en los Diálogos Internacionales sobre Seguridad de IA en marzo de 20243 y en la Cumbre de Seguridad de IA del Reino Unido en noviembre de 2024.4 Ya a mediados de 2024, la mayoría de discusiones de compromisos de si-entonces han estado en el contexto de compromisos voluntarios por compañías, pero este artículo se enfoca en el marco general como algo que podría ser útil para una variedad de actores con distintos mecanismos de aplicación.

Este artículo explica las ideas clave detrás de los compromisos “si-entonces” por medio de un tutorial detallado de un compromiso particular “sí-entonces”, concerniente a la posible capacidad de un modelo de IA de enseñar paso a paso a un principiante cómo construir un arma química, biológica o de destrucción masiva. Luego discute ciertas limitaciones de los compromisos “si-entonces” y cierra con una indicación de cómo distintos actores, incluyendo los gobiernos y compañías, pueden contribuir a una vía hacia un sistema robusto y aplicable de compromisos “si-entonces”.

Contexto y objetivos de este artículo. En 2023 ayudé con el desarrollo inicial de ideas relacionadas a compromisos “si-entonces”.5 Hasta la fecha, me he enfocado discusiones privadas de este nuevo marco; por ejemplo, motivando a las compañías a adoptar voluntariamente compromisos “si-entonces”. El objetivo de este artículo es hacer fácil que las personas que no estén actualmente familiarizadas con este marco entiendan su potencial, así como también sus limitaciones y desafíos, para reducir riesgos. Mientras más atención e interés haya en los compromisos “si-entonces”, más probabilidad de que algunas instituciones hagan un mayor esfuerzo por continuar desarrollando y experimentando por su cuenta, y mayor los avances que podamos esperar hacia un marco maduro para reducir los riesgos de IA.

Explicando en detalle un posible compromiso “si-entonces”

Esta sección discutirá un ejemplo más amplio de un compromiso “si-entonces” que pudiese adoptarse, para poder ilustrar los conceptos clave y desafíos del marco de trabajo. Tal como se cita a continuación, el ejemplo tiene una interferencia substancial con algunas políticas y marcos de trabajo que las compañías han adoptado. Sin embargo, este ejemplo no se ha copiado simplemente de cualquier compromiso “si-entonces” existente. El objetivo es presentar un ejemplo relativamente claro, libre de cargas de los tipos de objetivos comerciales, legales u otros que pudieran afectar cómo se presenta contenido similar en una política corporativa.

El riesgo: Proliferación de asesoría a nivel de experto en producción de armas

Un riesgo comúnmente discutido de la IA6 es su potencial de contribuir a las armas químicas y biológicas. Dentro del marco general, existe un número de riesgos posibles. El enfoque aquí será en la hipótesis de que un modelo de IA pudiese servir como un substituto virtual para un asesor experto en la producción de armas químicas o biológicas, expandiendo así el número de personas que pudiese producir e implementar estas armas. Un apéndice explica la idea detrás de esta hipótesis.

El desafío de mitigaciones de riesgos suficientes

Incluso los mejores modelos de IA probablemente carecen del nivel de capacidad que incrementaría considerablemente el número de personas capaces de implementar armas catastróficamente dañinas.7 Sin embargo, es difícil saber si los futuros modelos de IA tendrán estas capacidades. Si algunas lo hicieran, podría ser un desafío mantener bajos estos riesgos, por un par de razones.

La primera razón es el problema de prevenir liberaciones. Hoy en día, los tipos de modelos de IA que probablemente tengan la capacidad relacionada señalada anteriormente (modelos extensos de lenguaje o LLM) por lo general están capacitados para rehusarse a solicitudes peligrosas, lo cual, en teoría, debería impedir que aquellos que busquen construir armas químicas y biológicas obtengan ayuda incluso de modelos LLM muy capaces. Pero, actualmente es posible utilizar ciertos patrones de diálogo para “liberar” las restricciones en modelos LLM, haciendo que estos rompan las reglas y cooperen con casi cualquier tarea.8 Hacer que los LLM rehúsen fiablemente a estas solicitudes dañinas, sin simplemente capacitarlas para rehusarse a casi todas las solicitudes, sigue siendo un problema abierto en la IA, y no existe garantía de que se resolverá dentro de ninguna franja de tiempo en particular) (existen otros métodos para el mismo objetivo, como, por ejemplo, intentar deliberadamente de hacer que los LLM sean incapaces de ayudar con ciertas solicitudes, pero esto tiene sus propios problemas9).

Segundo, incluso si se resolviesen estos problemas, cualquiera con acceso a los pesos de modelo de un LLM pudiese todavía “deshacer” la orden de rehusarse u otros controles relacionados a las solicitudes con las que el LLM cooperará o no.10 Esto significa que si los pesos de los modelos no se manipularan utilizando prácticas de seguridad razonablemente buenas, o si los pesos de los modelos se lanzaran públicamente por un desarrollista de IA, incluso las medidas de seguridad a prueba de “liberación” pudiesen eludirse.

El compromiso “si-entonces” de ejemplo

En un intento por contener el riesgo de proliferar ampliamente la pericia en armas de destrucción masiva, aunque no se requiera de mitigaciones de riesgo difíciles y costosas para los modelos de IA que no supongan un riesgo, un regulador de compañías podría utilizar el siguiente enfoque:

  • Identificar una función para disuadirque pudiese desencadenar la necesidad de mitigaciones de riesgo adicionales. En este caso, la función para disuadir podría ser la capacidad para asesorar de manera interactiva a un actor malicioso11 hasta el punto en el cual el actor pudiese tener una posibilidad substancial12 de tener éxito en su intento de producir y liberar un arma de destrucción masiva CBRN catastróficamente dañina.13
  • Hacer el siguiente compromiso “si-entonces”: siun modelo de IA tuviese una capacidad de disuasión, entonces (a) entonces solo se podrá implementar utilizando métodos y entornos en los cuales un actor determinado no pudiera obtener fiablemente una asesoría del modelo; y (b) solo se podrá almacenar en entornos en los cuales fuese altamente improbable que un individuo u organización terrorista pudiese obtener los pesos del modelo. Si estas mitigaciones no son factibles de implementar para un desarrollista de IA en particular, entonces el desarrollista no debería implementar o incluso almacenar un modelo con la capacidad de disuasión hasta que los pueda implementar. (Tal como se discutió anteriormente, esto probablemente implicaría pausar un desarrollo adicional de IA una vez que se detecten signos de llegar a la capacidad de disuasión.)

Si se pone en práctica este compromiso (tal como se explica a continuación) y se sujetan al mismo, pudiese reducir el riesgo sin afectar a los modelos que carezcan de la capacidad de disuasión.

El balance entre los beneficios de reducción de riesgos y los costos de mitigación de riesgos dependerá en los detalles de qué categorías de armas químicas y biológicas se consideren incluidas en el criterio de “catastróficamente dañino” de la capacidad de disuasión, y qué tanto riesgo implica. Para cualquier compromiso “si-entonces”, la sensatez del compromiso dependerá de lo específico de los riesgos. El resto de esta sección asumirá provisionalmente la existencia de una versión del compromiso “si-entonces” que tenga mayores beneficios que costos.

Relación con los compromisos voluntarios existentes. Un número de políticas y marcos de trabajo existentes de compañías de IA tienen un contenido similar al compromiso “si-entonces” anterior.

Marco de preparación para IA abierta enumera las capacidades “baja”, “media”, “alta”, o “crítica” de la IA en cuatro “categorías de riesgo controlado”. Establece que “solamente se pueden implementar los modelos con un puntaje de post-mitigación “medio” o por debajo, y que únicamente se pueden seguir desarrollando los modelos con un puntaje de post-mitigación “alto” o por debajo y además establece que los pesos de modelos deben estar protegidos para modelos con “altas” capacidades14 Por lo tanto, sus capacidades “altas” y “críticas” sirven como algo similar a “capacidades de disuasión” que desencadenan compromisos similares al que se detalló anteriormente. Específicamente, el nivel “alto” desencadena mitigaciones de riesgo similar a aquellas detalladas anteriormente y/o una pausa en la implementación de IA, mientras que el nivel “crítico” desencadena una pausa en un desarrollo adicional de IA.15 Una de sus cuatro categorías de riesgo controladas es “CBRN (química, biológica, radiológica y nuclear).” Sus niveles “alto” y “crítico” incluyen capacidades de IA similares a las de la “capacidad de disuasión” mencionada anteriormente.16

La política de escalonamiento responsable de Anthropic está desarrollada en torno a “niveles de seguridad de IA (ASL), que estén modelados de manera suelta luego de las normas BSL (nivel de bioseguridad) del gobierno de los EEUU para el manejo de materiales biológicos peligrosos. Nosotros [Anthropic] definimos una serie de límites de capacidad de IA que representan incrementar los posibles riesgos, como, por ejemplo, que cada ASL requiera de una protección, seguridad y medidas operacionales más estrictas que la anterior.” Su nivel “ASL-3” presenta mitigaciones de riesgos similares a aquellas en el compromiso “si-entonces” anterior. “Fortalecer la seguridad de modo que ningún atacante no estatal tenga la probabilidad de robar pesos de modelos y los actores con amenazas avanzadas (por ejemplo, estados) no puedan robarlos sin un gasto considerable” e “implementar medidas fuertes de prevención de mal usos, incluyendo tiempos máximos de respuesta a liberaciones.”

También se compromete a pausar la implementación y el desarrollo de IA según se necesite para mantener estos compromisos.17 Por lo tanto, las capacidades de IA que desencadenan la norma “ASL-3” de Anthropic funcionarán de manera similar a la “capacidad de disuasión” anterior. Estos elementos incluyen la capacidad de “incrementar sustancialmente el riesgo de causar deliberadamente un daño catastrófico, ya sea proliferando las capacidades, disminuyendo los costos o permitiendo nuevos métodos de ataque...Nuestra primer área de esfuerzo es en evaluar los riesgos de armas biológicas.” Esto es similar en espíritu, pero menos específico que la capacidad de disuasión anterior.

Marco de seguridad de frontera de Google DeepMind especifica “protocolos para la detección de niveles de capacidad en los cuales los modelos pueden suponer riesgos graves (los cuales denominamos “CCL- Niveles de capacidad crítica”) y . . un espectro de opciones de mitigación para tratar estos riesgos.” Sus CCL incluyen una capacidad similar a la “capacidad de disuasión” anterior.18 Sus opciones de mitigación consisten de “Mitigaciones de seguridad” y “Mitigaciones de desarrollo” en un espíritu similar a aquellos detallados en los compromisos “si-entonces” anteriores.19 Sin embargo, no especifica (como lo hacen las otras dos políticas) qué mitigaciones corresponden a cuales CCL, y en su lugar, queda en manos de la compañía determinar según cada caso qué mitigaciones son apropiadas para un nivel dado. La sección de “Trabajo futuro” establece una intención de trazar CCL específicos para mitigaciones específicas en una versión posterior del marco.20

El marco de Google también contiene una discusión sobre pausar la implementación y desarrollo según sea necesario, al igual que en el compromiso “si-entonces” anterior: “Un modelo puede alcanzar límites de evaluación antes de que las mitigaciones en niveles apropiados estén listas. Si esto ocurre, pondríamos en espera una implementación o desarrollo adicional, o implementaríamos protocolos adicionales (como, por ejemplo, la implementación de evaluaciones de advertencias tempranas más precisas para un CLL dado) para asegurar que los modelos no alcancen los CCL sin las mitigaciones de seguridad apropiadas, y que los modelos con CCL no se implementen sin las mitigaciones de implementación apropiadas.”

En general, la terminología, método y detalles varían entre las políticas, pero todos tienen contenido que interviene considerablemente con el compromiso “si-entonces” expuesto anteriormente.

Posibles beneficios de este compromiso “si-entonces”

Un compromiso “sí-entonces” de acuerdo con lo expuesto anteriormente podría tener beneficios considerables.

Primero, este compromiso podría ser un compromiso interesante entre las personas que piensen que la capacidad descrita anteriormente pudiera emerger de manera inminente y las personas que piensen que no emergerá durante un largo tiempo, si es que lo hace. El primer grupo podría esperar que el compromiso “si-entonces” resulte en importantes mitigaciones de riesgos pronto; el segundo podría esperar que el compromiso “si-entonces” resulte en nada más que ejecutar evaluaciones, tal como se describe a continuación.

Segundo, este compromiso ofrecería un objetivo claro, relevante a la acción para el diseño de evaluaciones de IA: las evaluaciones deben buscar determinar si un modelo de IA dado está cerca de la capacidad de disuasión expuesta anteriormente. Los equipos que diseñen las evaluaciones podrían crear una combinación de (a) evaluaciones relativamente costosas, que consuman tiempo y que claramente informen a los desarrollistas acerca de si un modelo de IA está cerca de la capacidad de disuasión; o (b) evaluaciones menos costosas, más prácticas que busquen aproximarse a (a).

En términos generales, con este compromiso en regla, los desarrollistas de IA y otros podrían experimentar con varias maneras de ponerlo en práctica, varios métodos distintos para evaluar las capacidades de IA, para evaluar la suficiencia de las medidas de seguridad y similares, y descubrir con el tiempo cómo hacer que estas acciones sean prácticas de implementar. Este tipo de experimentación y aprendizaje podría ser útil para desarrollar eventualmente maneras comprobadas en la práctica, escalables de implementar el compromiso lo cual podría ser importante para desarrollar con el tiempo políticas prácticas y de protección (que van desde estándares de la industria hasta políticas nacionales y posiblemente internacionales).

Adicionalmente, este compromiso podría ayudar a los desarrollistas de IA con la planificación y priorizar las medidas de mitigación de riesgos. Por ejemplo, una compañía de IA que hace predicciones internas respecto a las capacidades futuras de sus modelos podría utilizar este compromiso para desarrollar un mapa de implementación para las medidas de mitigación de riesgos, algo de acuerdo con lo expuesto anteriormente: Esperamos los modelos de IA con las capacidades de disuasión en N número de años, por lo que necesitamos instruir a nuestros equipos apropiadamente para hacer restricciones a prueba de liberaciones sobre cómo nuestros modelos de IA se puedan utilizar para ese entonces, y conservar estos modelos de IA bajo prácticas de seguridad lo suficientemente fuertes. La Compañías que han hecho compromisos similares a este han hecho énfasis en este beneficio. Por ejemplo, el marco de preparación de OpenAI discute de manera explícita el mapa de implementación como parte de su trabajo. Anthropic ha establecido que “los equipos, como, por ejemplo, seguridad, confianza y protección, equipo contra ataques e interpretabilidad, han tenido que mejorar la contratación considerablemente para tener una oportunidad razonable de lograr las medidas de seguridad ASL-3 para el momento en el que tengamos modelos ASL-3.” En términos generales, los compromisos como este tienen la posibilidad de crear una “carrera hacia la cima”. Si solo se pueden desarrollar e implementar modelos de IA poderosos con mitigaciones de riesgo sólidas en regla, desarrollar mitigaciones de riesgos sólidas podría convertirse en una parte esencial en la que los desarrollistas de IA competirán y por consiguiente darán prioridad.

Poner en práctica la capacidad de disuasión

¿Cómo sabe uno si un modelo de IA está próximo a o en la capacidad de disuasión? Este tipo de pregunta es el tema de un área emergente que busca diseñar pruebas que determinen qué capacidades peligrosas o de uso doble (tanto beneficiosas como potencialmente inductoras al riesgo) tiene un modelo de IA. Las evaluaciones (evals) de estas capacidades son un enfoque importante del Instituto de Seguridad de IA de los EEUU,21 el Instituto de Seguridad de IA del Reino Unido22 y equipos en algunas compañías de IA importantes.23

A continuación tenemos algunos posibles métodos para desarrollar evaluaciones para la capacidad de disuasión en discusión. Para facilitar la explicación, la lista comienza con evaluaciones altamente relevantes pero costosas y difíciles de ejecutar y finaliza con evaluaciones aproximadas pero prácticas. Esta última categoría incluye la mayoría evaluaciones actuales que se ejecutan o desarrollan.

Experimento hipotético e idealizado. Finalmente, el objetivo es responder a preguntas como: “¿Cuál sería el resultado de un experimento en el cual personas determinadas, razonablemente talentosas con un tiempo y cantidad de dinero moderados, pero sin pericia o experiencia relevante y profunda fuesen instruidas para producir (y liberar) un arma química o biológica específica,24 y se les diera acceso al equipo básico y al modelo de IA en cuestión (así como también a recursos públicamente disponibles como, por ejemplo, motores de búsqueda o textos), pero no a un asesor experto humano? ¿Tuviesen éxito un porcentaje altamente razonable de las veces, y tuviesen un mejor desempeño que un grupo de control al cual no se diese acceso a un modelo de IA (y activos similares)? Este mismo experimento sería inviable, obviamente en su mayoría porque involucraría producir y liberar armas peligrosas, pero también porque pudiese tomar tiempo reclutar a participantes y permitirles intentar el trabajo.

Aproximaciones de este experimento. Uno puede ejecutar varias aproximaciones del experimento anterior. Por ejemplo, uno podría desafiar a participantes de un estudio a completar un grupo de tareas en un laboratorio que sean análogas para distintas partes de producción y liberación de armas, en particular las partes más difíciles para un arma de interés dada, pero que involucre trabajar con un sustituto no peligroso. Un experimento así podría presentar un patógeno que no sea transmisible en humanos, pero que involucre desafíos similares a aquellos requeridos para un patógeno peligroso. Podría modificarse para que sea viable, involucrando quizás los mismos tipos de desafíos, pero tomando menos tiempo. Aunque este método es más práctico que el método anterior, seguiría conduciendo a evaluaciones relativamente costosas que tomen tiempo calendario considerable, y no es el método principal utilizado por las evaluaciones de hoy en día.

Ejecutar experimentos con expertos humanos para generar una inspiración de pruebas más rápidas. Se podrían ejecutar experimentos similares hoy en día con un experto humano real haciendo el rol de un posible modelo de IA futuro. Específicamente, se les pudiera dar acceso a los participantes en el grupo de tratamiento a una conversación suelta con un experto en dominios relevantes, mientras que los participantes del grupo de control no tuvieran ese acceso. Este tipo de experimento no ofrecería evidencia directamente respecto a las capacidades específicas del modelo de IA. Sin embargo, pudiese facilitar mucha información acerca de qué pasos son más difíciles y en qué puntos del proceso los expertos son más útiles. Las transcripciones de discusiones entre los participantes y expertos podrían utilizarse para desarrollar evaluaciones más simples y automatizadas. Una opción posible podría ser ver si un modelo de IA al cual se le haga una pregunta de la transcripción puede producir una respuesta similar a la de un experto; esto podría tomar la forma de algo como ver una foto que haya tomado un participante de su proyecto en curso y diagnosticar un problema. Existen algunos esfuerzos continuos (aunque los detalles no se pueden compartir públicamente) para ejecutar experimentos en este sentido. Como un beneficio secundario, estos experimentos podrían facilitar evidencia acerca de si el modelo básico del riesgo descrito anteriormente es, en primer lugar, legítimo.

Pruebas más fáciles y simples. Un método, y de hecho, la manera más común en la cual se ejecutan las pruebas hoy en día25, es diseñar pruebas relativamente simples que no solo sean más rápidas y baratas de administrar que el experimento idealizado, sino que presenten una tarea estrictamente más sencilla para el modelo de IA que para la capacidad de disuasión. Por ejemplo, uno simplemente podría comprobar la capacidad del modelo de IA para responder correctamente, o ayudar a un humano a responder correctamente, preguntas acerca de química y/o biología. Si lo hiciera relativamente mal, esto es, lograr un desempeño peor que un humano sin acceso a modelos de lenguaje de última tecnología26 esto podría (dependiendo de los detalles de la prueba) utilizarse para argumentar que es improbable que el modelo de IA sea un substituto efectivo para un humano experto en química o biología asesorando en producción de armas.

El campo de evaluaciones para capacidades de IA catastróficamente peligrosas es un campo muy joven.27 Es probable que haya muchas más ideas para pruebas prácticas y asequibles de las capacidades de la IA.

Desafíos de ejecutar e interpretar evaluaciones. La discusión anterior se ha enfocado en qué tipos de tareas podrían ser informativas respecto a si una IA tiene capacidad de disuasión. Vale la pena notar que existe un número de desafíos adicionales en lo que respecta a ejecutar e interpretar evaluaciones.

Por ejemplo, un modelo de IA que parece carecer de capacidades de disuasión en pruebas podría demostrar las capacidades si se le sugiriera de manera distinta, se ajustara distintamente o se les diese acceso a más herramientas. Para contar con esta posibilidad, aquellos que ejecutan la prueba pueden hacer un esfuerzo grande para obtener el mejor desempeño posible de un modelo de IA. Esto probablemente signifique involucrar a investigadores que sean altamente experimentados e informados acerca de cómo lograr un desempeño fuerte en las tareas en cuestión y dándoles tiempo y recursos para hacerlo. El principio aparece en compromisos voluntarios reales de compañías.28

Por otro lado, un modelo de IA que parece tener capacidades de disuasión en pruebas puede de hecho estar utilizando una “memorización” frágil de tareas similares que haya visto antes. Los diseñadores de evaluaciones hacen esfuerzos especiales para evitar que las soluciones (e incluso los problemas) lleguen a la red pública e ingresen información de capacitación de IA .29

Otro tema es que, por razones señaladas anteriormente, las evaluaciones buscan por lo general argumentar que un modelo de IA está razonablemente lejos de poseer una capacidad de disuasión. Por consiguiente, las tareas comprobadas en evaluaciones por lo general equivalen más fácilmente a la tarea final de interés, en este caso, asesorar satisfactoriamente a un actor en la producción de un arma química o biológica. Los compromisos “si-entonces” pueden dejar una “barrera” al desencadenar la parte de “entonces” de un “compromiso si-entonces” cuando las evaluaciones sugieren que la capacidad de disuasión está relativamente cerca, a diferencia de los está claramente presente. Algunos compromisos voluntarios de compañías existentes reflejan este principio.30

Poner en práctica la sección “Entonces” del compromiso “si-entonces”

El compromiso sugerido anteriormente incluye criterio para seguridad de implementación (asegurando que los usuarios no puedan provocar una conducta peligrosa del modelo de IA) y seguridad del peso del modelo (asegurando que sea improbable que se roben los pesos). ¿Cómo lleva uno estos compromisos a prácticas específicas? Esto es, también, un área emergente de la consulta, y hasta ahora, las propuestas principales en la misma han venido de compañías de IA que hacen compromisos voluntarios.31 A continuación tenemos ejemplos de algunos métodos que han emergido.

Seguridad en implementación: Existen varios posibles métodos para prevenir que los usuarios provoquen una conducta peligrosa de un modelo de IA, incluyendo: capacitar el modelo de IA para rehusar solicitudes dañinas; utilizar la IA para supervisar y reportar solicitudes dañinas; e intentar eliminar capacidades peligrosas, como, por ejemplo, el conocimiento de ciertos dominios, por parte de la misma IA. Para evaluar si un método es lo suficientemente efectivo para cubrir el compromiso, uno puede utilizar el equipo “red teaming”. Esto se refiere a un equipo dedicado, quizás externo para la compañía, como, por ejemplo, el equipo en el Instituto de Seguridad de IA del Reino Unido el cual demostró recientemente la facilidad de liberación de los métodos de hoy en día y que busque maneras de provocar una conducta peligrosa de modelos de IA y certifique la implementación de medidas de seguridad como suficientes solo si éstos (el equipo) no han podido hacerlo. Este método se presenta tanto en el Marco de Seguridad de Frontera de Google DeepMind (véase la tabla de “Mitigaciones de implementación” en la página 4) y la Política de escalamiento responsable de Anthropic (véase la página 8).

Seguridad de pesos del modelo: Es desafiante definir “seguridad suficientemente fuerte” para los pesos de los modelos ya que una seguridad robusta tiende a requerir muchas prácticas distintas: cualquier eslabón débil en la cadena puede empeorar dramáticamente la seguridad general.32 Como punto de partida, un equipo en RAND ha publicado pautas sobre el nivel de seguridad necesario para proteger los pesos de los modelos de manera fiable de distintos tipos de actores, y sus pautas se presentan de manera prominente tanto en el marco de seguridad de frontera de Google DeepMind (página 3) como en la política de escalonamiento responsables de Anthropic (página 21).

Aplicación y responsabilidad

Esta sección ha discutido cómo podría diseñarse un compromiso “si-entonces”. Existe una pregunta separada de cómo garantizar que se respete un compromiso realmente, por ejemplo, cómo garantizar que las evaluaciones se ejecuten de manera correcta, los resultados se interpreten razonablemente y las protecciones se implementen de manera efectiva.

Los compromisos voluntarios existentes por las compañías de IA ya contienen algunas estipulaciones en este sentido. Por ejemplo, dos políticas de la compañía discuten un bucle sin fin en la junta directiva y/o en la compañía en general en cuanto a decisiones y razonamientos clave.33 Hacer esto tiene la posibilidad de incrementar el número de involucrados en estas decisiones y de una mayor probabilidad de que las prácticas que no cumplan sean advertidas por alguien. Estas políticas discuten además las intenciones de contratar auditorías de terceros externos, lo cual ofrecería una mayor control y responsabilidad.34

En el largo plazo, el éxito de los compromisos “si-entonces” probablemente dependa de si un ecosistema de auditores externos cualificados emerge, y en si los compromisos “si-entonces” obtienen el respaldo de las regulaciones (no solo compromisos voluntarios). El siguiente es un cronograma de ejemplo de cómo las cosas podrían continuar desde este punto:

Durante el siguiente o dos años, un mayor número de instituciones puede publicar compromisos “si-entonces” voluntarios. Esto podría incluir no solo compañías de IA, sino también a los gobiernos y a las instituciones de la sociedad civil. Los institutos de seguridad de IA pueden actuar en facultad de consultores para articular en dónde creen que deban estar las capacidades de disuasión y qué mitigaciones de riesgo deben incorporarse a las capacidades de disuasión.

Simultáneamente, las organizaciones que ya han establecido compromisos “si-entonces” pueden continuar con la implementación de las evaluaciones necesarias, mitigaciones de riesgo y otros procedimientos; aprender acerca de que métodos son prácticos o no para esto, y repetir para lograr procesos mejor diseñados y poder mantener los compromisos “si-entonces”.

Al cabo de uno o dos años, podría haber un mayor énfasis en los estándares formales de la industria (por ejemplo, normas ISO), así como también auditorías de terceros y control para asegurar que las organizaciones se sujeten a los compromisos “si-entonces” que hay hecho.

Una vez que las prácticas relevantes maduren al punto de ser utilizables para los estándares formales (se cree que podría ser tan pronto como en dos años desde ahora), los formuladores de políticas estarán en la posición de crear regulaciones basadas en compromisos “si-entonces” cuya practicidad de implementación se haya comprobado.35

Otras posibles capacidades de disuasión para los compromisos “si-entonces”

Aunque la discusión anterior se ha enfocado en un conjunto específico de riesgos desde las armas químicas y biológicas, los compromisos voluntarios han incluido referencias a varios riesgos distintos, incluyendo la posibilidad de que los modelos futuros de IA ayuden contra los ciber-delitos o persuasión o de completar de manera autónoma funciones importantes y tareas potencialmente peligrosas.36 Un próximo artículo discutirá algunos posibles criterios para escoger las “capacidades de disuasión” apropiadas y los compromisos “si-entonces” en todas estas categorías, y esquematizar un conjunto de capacidades de disuasión posibles que pudieran desencadenar los compromisos “si-entonces”.

Aplicar este marco a lanzamientos de modelos abiertos

Algunos modelos de IA son liberados como “modelos abiertos” lo cual significa que sus pesos se hacen públicos. Esta práctica puede tener beneficios enormes37, pero también puede presentar riesgos para modelos con capacidades suficientemente robustas, como, por ejemplo, la capacidad de disuasión anterior (en lo concerniente a armas químicas y biológicas). Dado que un modelo abierto permitiría que cualquiera elimine o eluda de manera efectiva medidas de seguridad implementadas (por lo menos con tecnologías actuales), existe un caso para un compromiso “si-entonces” de acuerdo con lo que se expuso de “si un modelo de IA tiene la capacidad de disuasión detallada anteriormente, entonces no puede lanzarse como un modelo abierto.” Dicho esto, los modelos abiertos ofrecen grandes beneficios potenciales especiales a gran escala para el mundo, y estos deben sopesarse con los riesgos. Algunos riesgos catastróficos podrían ser lo suficientemente considerables para justificar una mejora de la seguridad y la implementación de restricciones para modelos de IA propietarios, pero no suficientemente considerables para justificar perder los beneficios de poner ampliamente a disponibilidad del público los pesos de un modelo.

El hecho de que un compromiso “si-entonces” tenga sentido o no para los modelos abiertos es una pregunta abierta. Pero el marco general de los compromisos “si-entonces” podría ser considerablemente prometedor38 para avanzar con los debates divididos respecto a si los modelos abiertos son o no “buenos” o “malos”, y en su lugar enfocarse en temas como: ¿Cuáles son las capacidades de disuasión? y ¿cómo comprobamos si las IA las han cruzado?

Limitaciones e inquietudes comunes acerca de los compromisos “si-entonces”

Los compromisos “si-entonces” ofrecen algunos beneficios potenciales, pero es necesario reconocer algunas limitaciones e inconvenientes para el marco.

Los compromisos “si-entonces” son bastante nuevos, con poca experiencia científica de la cual basarse. Las primeras compañías en emitir políticas de acuerdo con lo expuesto en los compromisos “si-entonces” lo hicieron a finales de 2023.39 Antes de eso, había pocas discusiones de los tipos de ideas cubiertas en este artículo. Existen enormes preguntas abiertas en torno a qué tan grandes son los riesgos que se discuten en estas políticas, qué riesgos se han dejado a un lado, cómo determinar si un modelo de IA tiene capacidades peligrosas específicas, cómo determinar si las mitigaciones de riesgo son suficientes y más.

Trabajar en compromisos “si-entonces” debería verse como una “experimentación y prueba de prototipos”. Muchas de las evaluaciones y mitigaciones de riesgos en las cuales las personas se enfocan hoy en día podrían verse mal concebidas solo un año o dos años después de aprendizaje y repetición. Bajo esta óptica, si los avances de la IA son lo suficientemente rápidos para lanzar capacidades extremadamente peligrosas en los próximos años, uno no debe asumir que los compromisos “si-entonces” estarán lo suficientemente bien desarrollados para entonces y que estén adaptados para la tarea de contener los riesgos (aunque podrían ayudar).

Es poco probable que los compromisos voluntarios por sí solos mantengan los riesgos bajos. Al día de hoy, los compromisos “si-entonces” han venido de políticas y marcos corporativos voluntarios, con poca vigilancia u obligación de cumplimiento por parte de terceros. Esto es valioso para una experimentación inicial con un marco joven, pero en el largo plazo, uno no podría esperar que los compromisos voluntarios pongan un alto a las compañías de competir por grandes oportunidades comerciales. Y uno debe esperar que con el tiempo cualquier conjunto dado de capacidades de IA se abaraten y sean más fáciles de producir, trayendo consigo a más participantes y haciendo menos probable que todos se sujeten a cualquier conjunto de prácticas dadas.

En el largo plazo, se necesitarán más que solo compromisos voluntarios para que este marco de trabajo funcione. Será necesario tener una regulación e incluso probablemente una coordinación internacional. Los compromisos voluntarios y el diálogo público en torno a ellos, incluyendo críticas y recomendaciones para mejoras, pueden ser una fuente importante de información sobre cómo conducir evaluaciones e implementar mitigaciones de riesgos. En esta etapa inicial, esta puede ser la manera más rápida de acumular este conocimiento. Sin embargo, finalmente, los desarrollistas de IA deben ser regulados de manera más estricta a la manera en la cual se regularían a sí mismos.

Probablemente nunca sea posible ordenar completamente que una IA dada tenga capacidades de disuasión. Hoy en día, parece ser que incluso los mejores modelos de IA están cerca de la capacidad de disuasión que se expuso anteriormente, o de otras capacidades de disuasión que se hayan propuesto.40 Pero, siempre hay preguntas en cuanto a si las evaluaciones reflejan lo que realmente es capaz de hacer la IA, y qué capacidades podría adquirir un modelo de IA dado en los próximos años luego de hacer avances en mejoras post-capacitación. Para aquellos que piensen que los riesgos de la IA son enormes e inminentes, es poco probable que el marco de trabajo expuesto pueda ser lo suficientemente conservador para manejar estos tipos de posibilidades.

Por otro lado, también es difícil saber si los riesgos específicos exceden los beneficios asociados. Los efectos de la innovación son inherentemente difíciles de predecir, y hay algunos que piensan que sopesar los costos y beneficios con anticipación nunca será un ejercicio útil.

Los compromisos “si-entonces” no son una buena opción para todos los riesgos de la IA. Están principalmente diseñados para dominios en los cuales la prevención (a diferencia de una respuesta) es una parte factible e importante de la gestión de riesgos. Algunos riesgos, en particular aquellos que acumulan muchos incidentes relativamente más pequeños, a diferencia de un pequeño número de catástrofes discretas, pueden ser muy difíciles de anticipar o preparar con anticipación y pueden ser mejor manejados advirtiendo y reaccionando a dinámicas riesgosas en lugar de enfocarse en compromisos previos.

Es difícil prever riesgos con anticipación. Los riesgos de corto y largo plazo más importantes de la IA no son necesariamente los mismos que están atrayendo la atención y análisis hoy en día. Los compromisos “si-entonces” de hoy en día podrían verse como mal concebidos o irrelevantes en el futuro, mientras que los riesgos que han recibido poca atención (incluyendo riesgos en los cuales nadie ha pensado aún) podrían resultar ser más importantes. Los compromisos “si-entonces” tratan fundamentalmente de intentar prepararnos para riesgos de los modelos de IA que aún no existen. Este es un ejercicio inherentemente difícil, aunque quizás sea necesario si emergieran rápidamente capacidades de IA peligrosas, mientras que las mitigaciones de riesgo clave toman un largo tiempo en desarrollarse.

Dicho esto, no es necesaria una previsión perfecta para que los compromisos “si-entonces” sean útiles. Por ejemplo, muchos modelos con posibles amenazas distintas invocan mitigaciones de riesgo similares (como, por ejemplo, una seguridad robusta para los pesos de los modelos), y parece ser plausible que estas mitigaciones de riesgos sean robustamente útiles para riesgos que no estén aún en el radar de ninguna persona.

Los compromisos voluntarios e incluso las regulaciones podrían ser muy difíciles de aplicarse en forma generalizada, de manera que los actores responsables podrían terminar sujetándose a los compromisos “si-entonces”, mientras que los actores irresponsables podrían precipitarse con una IA peligrosa. Uno de los desafíos con la IA es que un cumplimiento completo de cualquier marco de trabajo de mitigación de riesgos dado se vea extremadamente difícil de lograr, sin embargo un cumplimiento completo podría terminar poniendo en desventaja a los actores responsables en una carrera importante por la tecnología global. Este es un problema general con la mayoría de maneras de reducir los riesgos de la IA, distinto a “adelantarse y esperar que los beneficios excedan los costos” y no es específico a los compromisos “si-entonces”.

Para ayudar a mitigar este problema, de manera anticipada, los compromisos voluntarios “si-entonces” pueden contener “cláusulas de escape” de acuerdo con lo siguiente: “Puede que dejemos de sujetarnos a estos compromisos si algún actor que no se esté sujetando a estos esté desarrollando modelos con más capacidades que los nuestros.” (Un lenguaje más detallado y sugerido para este compromiso es facilitado por METR, una organización sin fines de lucro que trabaja en evaluaciones de IA.)41 Hoy en día, parece probable que los modelos de IA más capaces de la próxima generación serán desarrollados por un número relativamente pequeño de desarrollistas de IA que hayan mostrado interés en los compromisos si-entonces, por lo tanto, esperemos que la situación contemplada por una “cláusula de escape” no sea inminente. Con el tiempo, será importante desarrollar un consenso cada vez más amplio y un cumplimiento sólido.

Vale la pena notar que podría haber un problema similar con “actores irresponsables que tengan una ventaja en una competencia” si los desarrollistas de IA no cumplen con implementar una seguridad lo suficientemente fuerte para los pesos de sus modelos. En este caso, puede que los actores que estén dispuestos y puedan robar pesos de modelos y ejecutar los modelos de IA resultantes con pocas precauciones ganen una ventaja. Un objetivo importante de los compromisos “si-entonces” es ofrecer un impulso más fuerte hacia la mejoras de la seguridad al punto en el cual pueda resistir incluso ataques de servicios de inteligencia extranjeros.42

El camino hacia compromisos “si-entonces” robustos y aplicables

El marco de trabajo que se discute en este artículo es nuevo. Hasta la fecha, solo unas cuantas organizaciones ha publicado compromisos “si-entonces”, todos en el último año, y la mayoría hace énfasis en lo preliminares que son.43 Queda mucho trabajo por hacer para desarrollar áreas maduras de evaluación de riesgos de la IA para identificar, capacidades de disuasión, evaluaciones de capacidades para determinar cuándo pudiesen cruzarse estas capacidades de disuasión, y mitigaciones de riesgos para modelos de IA que tengan capacidades de disuasión. En una sección anterior se muestra un cronograma de ejemplo de cómo pudiese hacerse este avance.

Hoy en día, algunas instituciones tienen posibles papeles que jugar en acelerar la adopción inicial, repetición y mejora de los compromisos “si-entonces”.

Las compañías de IA pueden adoptar voluntariamente compromisos “si-entonces”, y aquellos que hayan publicado marcos de trabajo de acuerdo con lo expuesto aquí pueden refinarlos continuamente. El marco de trabajo de seguridad frontera de Google DeepMind, por ejemplo, termina con una lista específica de problemas que tiene previsto tratar de manera más minuciosa en versiones futuras. El marco de trabajo de preparación de OpenAI está marcado como “Beta,” indicando también que no es un producto definitivo. La política de escalonamiento responsables de Anthropic incluye un compromiso para definir “niveles de seguridad de IA” adicionales en el futuro.

Los institutos de seguridad de IA (como, por ejemplo, aquellos en el Reino Unido y en los Estados Unidos) pueden publicar su propia guía no vinculante sobre los tipos de compromiso “si-entonces” que los desarrollistas de IA deben adoptar. Similarmente, otras organizaciones de la sociedad civil pueden hacerlo. Esto pudiese ofrecer una valiosa verificación de las elecciones hechas por las compañías sin fines de lucro, un punto de comparación con medidas de reducción de riesgos más ambiciosas que las que las compañías han estado dispuestas a adoptar voluntariamente hasta la fecha.

Los expertos en la materia en áreas como, por ejemplo, química, biología y ciberseguridad pueden crear y refinar propuestas de qué capacidades de IA deberían considerarse como capacidades de disuasión, qué evaluaciones serían más informativas respecto a estas y similares. Adicionalmente, los expertos en las áreas relevantes pueden trabajar en cosas como estándares para seguridad de la información y tecnologías para hacer que los modelos de IA sean más difíciles de “liberarse”.

Los formuladores de políticas tienen oportunidades de motivar a las compañías de IA e institutos de seguridad de IA a tomar las medidas anteriores. Esto puede incluir incentivos regulatorios para que las compañías desarrollen sus propios compromisos “si-entonces” (aunque probablemente es muy temprano para ordenar una sujeción a compromisos “si-entonces” específicos. Además puede incluir simplemente hacer énfasis e indagar acerca de dónde piensan las instituciones relevantes que se encuentren sus capacidades de disuasión, y qué compromisos “si-entonces” están listos para elaborar o recomendar, ya sea en audiencias, cartas, reuniones informales u otros medios.

Finalmente, cualquiera y todas las partes pueden demostrar un interés en el marco de trabajo evolutivo de los compromisos “si-entonces”. Simplemente hacer preguntas (que van desde “¿cuándo tiene previsto lanzar la siguiente versión de sus compromisos voluntarios? hasta ¿tiene previsto agregar evaluaciones para riesgos de tipo X?) puede ayudar a demostrar que las personas están poniendo atención a los compromisos y recomendaciones que las organizaciones están haciendo, que estas valorarían los avances por un marco de trabajo maduro que pudiera reducir de manera robusta el riesgo continuando al mismo tiempo incentivando la innovación.

Apéndice: Explicación sobre el riesgo de desarrollo de armas químicas y biológicas asistido por IA

Este apéndice explica brevemente el modelo amenazante presentado (como un ejemplo ilustrativo) en el texto principal.

Existe un número de armas químicas y biológicas que alguien con la experiencia y pericia relevantes podría fabricar e implementar bajo un presupuesto relativamente modesto y sin el acceso necesario a ningún material que sea particularmente difícil de obtener.44 Alguien con la experiencia y pericia relevante también podría asesorar remotamente a un principiante relativo para producir e implementar estas armas, especialmente si estuviesen dando una asesoría dedicada, interactiva e intercambiando imágenes, video y otra información. (Existen esfuerzos continuos para comprobar esta afirmación, tal como se discute en el texto principal).

Afortunadamente, únicamente un pequeño porcentaje de la población tiene la pericia necesaria para desarrollar un arma química o biológica dada, y las coincidencias de personas que quisieran es incluso menos.45 Pero si un modelo de IA (futuro) pudiera jugar el mismo papel que un experto humano en armas químicas o biológicos, entonces cualquier individuo (como, por ejemplo, un terrorista) con acceso a un modelo de IA tendría acceso satisfactoriamente a un asesor experto (notar que existe un precedente de terroristas que intentan producir e implementar armas químicas y biológicas en un intento de generar víctimas masivas46).

Por lo tanto, una IA ampliamente disponible y lo suficientemente capaz podría dar efectivamente a cualquier usuario determinado acceso a un asesor con la experiencia más relevante, multiplicando considerablemente el número de personas con la capacidad de implementar un arma de destrucción masiva.

El riesgo descrito en esta sección es una función tanto de posibles capacidades de IA futura y un número de hechos contingentes acerca de la preparación y medidas de defensa de la sociedad. Es posible que restricciones suficientes al acceso a materiales y tecnologías precursoras clave, por ejemplo, síntesis del ADN, pudieran hacer que las armas químicas y/o biológicas no sean posibles de producir incluso con una fuerte asesoría de peritos o expertos. Ningún riesgo de IA se trata solo de IA, pero puede que siga siendo prudente prepararnos para la posible emergencia repentina de capacidades de la IA que pudieran causar riesgos considerables en el mundo tal como está.

Reconocimientos

Este artículo se ha beneficiado de un gran número de discusiones en el último año además de compromisos “si-entonces”, en particular con personas de METR, el Instituto de Seguridad de IA del Reino Unido, Open Philanthropy, Google DeepMind, OpenAI, y Anthropic. Para este artículo en particular, me gustaría agradecer a Chris Painter y a Luca Righetti especialmente por sus comentarios a profundidad; Ella Guest y Greg McKelvey por sus comentarios sobre la discusión de las armas químicas y biológicas, y mis colegas en Carnegie, en particular Jon Bateman, Alie Brase y Ian Klaus, por su apoyo en el proceso de redacción y edición. Finalmente, he notado que el término “compromisos si-entonces” se debe a este documento.

Notas

1 Habiendo dicho esto, existen cuestiones en cuanto a si nuevas formas de mejoras posteriores a una capacitación podrían cambiar esto en el futuro.

2 De este anuncio. Texto clave:

“II. Establecer límites en los cuales los riesgos graves implicados por un modelo o sistema, se considerarían intolerables, a no ser que se mitiguen adecuadamente. Evaluar si estos límites se han violado, incluyendo supervisar qué tan cerca está dicho modelo o sistema de una violación. Estos límites deben definirse con observaciones de actores fiables, incluyendo a los gobiernos sede respectivos de las organizaciones, según corresponda. Deben alinearse con acuerdos internacionales relevantes de los cuales su gobierno sede sea una parte. Además deben ir acompañados de una explicación de cómo se decidieron los límites, y por ejemplos específicos de las situaciones en las cuales los modelos o sistemas pudieran implicar un riesgo intolerable.

III. Articular cómo se identificarán e implementarán las mitigaciones para mantener los riesgos dentro de los límites definidos, incluyendo mitigaciones de riesgo relacionadas a la seguridad y protección, como, por ejemplo, modificar conductas del sistema e implementar controles de seguridad robustos para pesos de modelos no liberados.

  1. Establecer los procesos explícitos que pretendan seguir si su modelo o sistema implica riesgos que cumplan o excedan los límites predefinidos. Esto incluye procesos para desarrollar e implementar adicionalmente sus sistemas y modelos únicamente si evalúan que los riesgos residuales se mantendrán por debajo de los límites. En último extremo, las organizaciones se comprometen a no desarrollar o implementar un modelo o sistema en lo absoluto, si las mitigaciones no se pueden aplicar para mantener riesgos por debajo de los límites.”

3 Véase la declaración de Beijing en https://idais.ai/.

4 Véase este discurso (y tweets) de la Secretaria del Estado del Reino Unido para la Ciencia, Innovación y Tecnología, Michelle Donelan en vísperas de la cumbre. El “Escalonamiento de capacidad responsable” también aparece en el programa.

5 Específicamente, el autor de este artículo colaboró con METR (Evaluación de modelo e investigación de amenaza) para definir y hacer un caso público para políticas de escalonamiento responsable (aunque desde entonces por lo general instituciones distintas han utilizado términos distintos para ideas similares).

6 Por ejemplo:

La sección 3(k) de una Orden Ejecutiva de los EEUU de finales de 2023 plantea la idea de que la IA pudiera disminuir [sustancialmente] la barrera de entrada para que no expertos diseñen, sinteticen, adquieran o utilicen armas químicas, biológicas, radiológicas o nucleares (CBRN),” “[habilitaran] poderosas cyber operaciones ofensivas” o “[permitieran] la evasión del control o vigilancia humanos a través de medios de engaño u ofuscación”.

Una declaración firmada por 29 países establece lo siguiente “Estamos especialmente preocupados por estos riesgos en dominios como la ciberseguridad y biotecnología.” (Una declaración internacional similar posterior establece “Reconocemos que estos riesgos graves pudieran provocarse por la posible capacidad del modelo o sistema para asistir considerablemente a actores fuera del estado en promover el desarrollo, producción, adquisición o uso de armas químicas o biológicas, así como también sus medios de entrega.”

7 “La Inteligencia Artificial actual no incrementa significativamente el riesgo de un ataque con armas biológicas”, RAND Corporation, 25 de enero de 2024, https://www.rand.org/news/press/2024/01/25.html.

8 “Evaluaciones de IA avanzadas en AISI: Actualización de mayo,” Instituto de seguridad de IA, 2o de mayo, 2024, https://www.aisi.gov.uk/work/advanced-ai-evaluations-may-update.

9 Por ejemplo, uno podría intentar eliminar información relevante a las armas químicas y biológicas de una información de capacitación en IA. Pero podría ser difícil encontrar toda la información relevante, y eliminar esta información podría afectar la facilidad general de la IA con química y/o biología. Adicionalmente, cualquiera de estas eliminaciones tendría que hacerse íntegramente antes de una ejecución de capacitación; las ejecuciones de capacitación consumen tiempo y son costosas y es probable que rehacerlas para eliminar cierta información adicional sea muy costoso. Puede haber maneras para hacer que los modelos de IA “olviden el aprendizaje” de conocimientos en particular después de una capacitación, pero estos aún no se han establecido bien. Véase Haibo Zhang, Toru Nakamura, Takamasa Isohara y Kouichi Sakurai, “Una revisión sobre el olvido de conocimiento de las máquinas,” SN Computer Science 4, no. 337 (19 de abril, 2023), https://doi.org/10.1007/s42979-023-01767-4.

10 Véase, por ejemplo, Pranav Gade, Simon Lermen, Charlie Rogers-Smith y Jeffrey Ladish, “BadLlama: Eliminar de manera económica los ajustes finos de seguridad de Llama 2-Chat 13B,” Arxiv, 28 de mayo, 2024, https://arxiv.org/abs/2311.00117; y Simon Lermen, Charlie Rogers-Smith y Jeffrey Ladish, “Los ajustes finos de LoRA deshacen de manera eficiente la capacitación de seguridad en Llama 2-Chat 70B,” Arxiv, 22 de mayo, 2024, https://arxiv.org/abs/2310.20624; así como también Maxine Labonne, “Quitar censura de cualquier LLM con abliteración,” Hugging Face, 13 de junio, 2024, https://huggingface.co/blog/mlabonne/abliteration.

11 Es probable que este actor malicioso tenga una educación universitaria, una cantidad moderada de tiempo y dinero, quizás $ 50,000 y seis meses, pero no una experiencia o pericia relevante.

12 Por ejemplo mayor al 10 por ciento.

13 Esto deja abierto el límite preciso de qué daños contarían como catastróficos. Para un punto de referencia, un documento sobre los beneficios de preparaciones anticipadas para pandemias futuras establece lo siguiente: “Para 2024, se estima que la pandemia del Covid-19 habrá reducido la producción económica en $ 13.8 billones de dólares en relación con pronósticos previos a la pandemia (Fondo Monetario Internacional 2022). La pandemia resultó en muertes estimadas en exceso de 7 a 13 millones (Economist 2022) y un estimado de $ 10 a $ 17 billones de dólares en pérdidas de productividad futura e ingresos por interrupciones escolares (Azevedo et al. 2021). Estas pérdidas devastadoras por una pandemia no son nuevas: algunas fuentes estiman que en 1918 la influenza mató el 2% de la población del mundo y redujo el PIB en 6% (Barro, Ursúa y Weng 2020) y que la peste negra mató al 30% de la población de Europa (Alfani 2022).” Véase Rachel Glennerster, Christopher M. Snyder y Brandon Joel Tan, “Calcular los costos y beneficios de preparaciones anticipadas para pandemias futuras,” NBER Working Paper 30565, rev. junio de 2023, https://www.nber.org/system/files/working_papers/w30565/w30565.pdf.

14 “Si llegamos a (o se pronostica que lleguemos a) un riesgo previo a mitigación por lo menos “alto” en cualquiera de las categorías consideradas nos aseguraremos que nuestra seguridad se fortalezca en una manera que esté diseñada para prevenir que nuestras mitigaciones y mitigaciones sean eludidas por medio de una exfiltración (para el momento en que lleguemos a un riesgo previo a mitigación “alto”). Esto se define como establecer controles de redes y seguridad informática diseñados para ayudar a impedir que el riesgo capturado sea explotado o exfiltrado, según se evalúe e implemente por el equipo de seguridad.” Desde la página 20 del Marco de preparación de OpenAI (Beta).

15 En particular, el requisito de que el riesgo “post-mitigación” de un modelo implementado sea “medio” o debajo de medio implica que las mitigaciones se utilicen para prevenir que los usuarios accedan a capacidades de riesgo “altas”.

16 Capacidad “alta” (página 9): “El modelo permite que un experto desarrolle un nuevo vector de amenaza O el modelo ofrece una asistencia significativamente mejorada que permite que cualquiera con una capacitación básica en un campo relevante (por ejemplo, curso universitario de introducción a biología) para poder crear una amenaza CBRN.”

Capacidad “crítica” (página 9): El modelo permite que un experto desarrolle un nuevo vector de amenaza altamente peligroso (por ejemplo, comparable a un nuevo agente biológico CDC Clase A) O el modelo ofrece una asistencia significativamente mejorada que permite que cualquiera pueda crear una amenaza de CBRN conocido O el modelo puede conectarse a herramientas y equipos para completar toda la ingeniería y/o ciclo de síntesis de una amenaza CBRN regulada o nueva sin intervención humana.”

La segunda parte de la capacidad “alta” es muy similar a la “capacidad de disuasión” mencionada en este artículo, con un poco menos de detalle y un nivel de conocimiento inicial ligeramente más alto para el actor malicioso (un antecedente biológico en lugar de simplemente una educación universitaria). La segunda parte de la capacidad “crítica” es una versión un poco más extrema de la capacidad de disuasión dada en este artículo, ya que se refiere a que “cualquiera” puede diseñar un arma CBRN. “sin una intervención humana”.

17 “Cumplir con un ASL más alto no es simplemente un tema de procesos, sino que a veces puede requerir de avances en la investigación o técnicos para facilitar una evidencia afirmativa de la seguridad de un modelo (lo cual es por lo general no posible hoy en día), incapacidad demostrada de eludir riesgos catastróficos durante riesgos red-teaming (lo opuesto a meramente un compromiso con realizar procesos contra ataques), y/o controles de seguridad de información inusualmente estrictos. Por lo tanto, el compromiso de Anthropic de seguir el esquema ASL implica que nos comprometamos a pausar el escalonamiento y/o retardar la implementación de nuevos modelos siempre que nuestra capacidad de escalonamiento supere nuestra habilidad de cumplir con los procedimientos de seguridad para el ASL correspondiente”. De la página 2 de la política de escalonamiento responsable de Anthropic.

18Nivel 1 de habilitación de aficionado a la biología: Capaz de permitir significativamente que un no experto desarrolle amenazas biológicas conocidas que pudieran aumentar su capacidad de causar un daño grave en comparación con otros medios.” El “Fundamento” correspondiente en la tabla establece que: “Muchas amenazas biológicas capaz de causar una cantidad de daños considerable están actualmente fuera del alcance de no expertos debido a la falta de conocimientos del potencial de daños y los métodos de su adquisición y mal uso. Un LLM que ayude a superar estos vacíos de conocimientos, por ejemplo, sugiriendo estrategias de ataque plausibles o facilitando instrucciones detalladas para el desarrollo de un agente biológico, podría aumentar considerablemente la vulnerabilidad de la sociedad a ataques fatales por pare de aficionados maliciosos.” De la página 5 del Marco de Seguridad de Frontera de Google DeepMind.

19 Véase las tablas en las páginas 3-4 del Marco de Seguridad de Frontera de Google DeepMind.

20 “A medida que entendamos mejor los riesgos planteados por modelos en distintos CCL, y los contextos en los cuales se implementarán nuestros modelos, desarrollaremos planes de mitigación que tracen los CCL a los niveles de seguridad e implementación descritos.” De la página 6 del Marco de seguridad de frontera de Google DeepMind.

21 De la página de destino del NIST (Instituto Nacional de Estándares y Tecnología): “Nuestros esfuerzos se enfocarán inicialmente en las prioridades asignadas al NIST de conformidad con la Orden Ejecutiva del Presidente Biden sobre Desarrollo y Uso Seguro, Protegido y Fiable de la Inteligencia Artificial. El Instituto de Seguridad aplicará una gama de proyectos, cada uno dedicado a un problema específico que sea clave para nuestra misión; estos incluirán inicialmente promover las ciencias de investigación y medición de seguridad de la IA, conducir evaluaciones de seguridad de los modelos y sistemas y desarrollar pautas para evaluaciones y mitigaciones de riesgos, incluyendo la autenticación de contenido y la detección de contenido sintético.”

22 Véase la sección “Investigación” de la Página de “acerca de” del Instituto de Seguridad de IA del Departamento de Ciencias, Innovación y Tecnología del Reino Unido.

23 Para ejemplos de evaluaciones ejecutadas en compañías de IA, véase las tarjetas de modelos para GPT-4, Gemini 1.5 y Claude 3.

24 El arma en cuestión debe estar entre las armas más fáciles de producir e implementar que tengan un potencial de daño sobre el límite especificado por la capacidad de disuasión. Este límite podría variar por actor, tal como se nota en una nota de pie de página para el lenguaje de capacidad de disuasión.

25 De la sección informe adjunto a la liberación de Gemini 1.5, página 68:

“Realizamos evaluaciones en algunas capacidades relevantes a riesgos extremos. . . . Nuestras evaluaciones de CBRN internas aún son nuevas y hasta la fecha, se han utilizado tres métodos de evaluación distintos , todos los cuales son complementarios al proceso red-teaming externo realizado por organizaciones terceras. Se ha evaluado la información biológica y/o radiológica utilizando métodos desarrollados internamente: 1) Un método cualitativo con indicaciones confrontativas abiertas y calificadores expertos de dominio; y 2) un método cuantitativo basado en preguntas de opción múltiple cerradas y basadas en conocimientos. Se utiliza un tercer método para las evaluaciones de información química el cual está basado en un enfoque cerrado basado en conocimientos relacionado a peligros químicos sin calificadores humanos (desarrollado por Macknight et al.). Los resultados preliminares de los resultados cualitativos indican que la frecuencia de rechazos del modelo se incrementa en comparación con los modelos anteriores. El desempeño de los resultados cuantitativos de Gemini 1.5 Pro no ha mejorado en comparación con modelos anteriores.

De la tarjeta del modelo Claude 3, página 25: “Nuestras evaluaciones biológicas involucran que el modelo responda a una serie de preguntas sobre conocimientos técnicos relevantes que pudieran causar daño. Además complementamos estas evaluaciones automatizadas con pruebas de aumento humanas, comprobando si un grupo con acceso a los modelos Claude 3 tiene más éxito respondiendo a preguntas biológicas dañinas que un grupo de control con acceso a Google.

“Basado en conversaciones con expertos globales, es difícil definir con bastante confianza un criterio estricto de aprobación/reprobación para evaluaciones de mal uso de ASL-3. En su lugar, fijamos la barra de manera relativamente baja, de modo que aprobar las evaluaciones de un mal uso desencadenaría una discusión con los expertos relevantes y una transcripción extensiva para determinar si el modelo presenta un verdadero riesgo o los límites son muy conservadores. . . .

“El modelo no cruzó los límites anteriores. Nuestra prueba de aumento humano encontró lo que creemos es un aumento menor en precisión, y una disminución en el tiempo invertido, por utilizar el modelo sin salvaguardas en comparación con solo utilizar una búsqueda en el internet. No hubo cambios en ninguna de las medidas para el grupo con las salvaguardias. Para riesgos biológicos, estamos cada vez más seguros en utilizar pruebas de aumento humano como medidas altamente informativas de riesgo marginal de los modelos.

“En evaluaciones biológicas automatizadas, encontramos una combinación de resultados. En una nueva evaluación de opción múltiple diseñada para evaluar las capacidades de modelo relevantes a los riesgos biológicos, nos dimos cuenta que Opus tuvo un mejor desempeño que Claude 2.1 aunque por debajo de nuestro límite de desencadenamiento. Sin embargo, en otras evaluaciones experimentales acerca de diseño biológico, Opus tuvo un desempeño peor, sugiriendo que podríamos haber eludido las capacidades del modelo. Ambos conjuntos de evaluaciones son nuevos y experimentales, y creemos que deben refinarse y explorarse adicionalmente.

“Junto a otras evaluaciones científicas, también ejecutamos cuatro conjuntos de preguntas de opción múltiple automatizadas que no se utilizan como indicadores de ASL-3, pero que son indicadores útiles del desempeño en modelos relacionados. Utilizamos PubmedQA [23], BioASQ [69], USMLE [70] y MedMCQA [71]. El modelo tuvo un desempeño mejor de un 10% que Claude 2.1 en estas, aunque en dos casos demostró resultados más bajos. Similar a los resultados anteriores, esto sugeriría cierta elusión de las capacidades del modelo.

“En resumen, el modelo no cumplió con nuestros límites de riesgo biológico más conservadores, y nuestros consultores expertos estuvieron de acuerdo. Ahora estaremos extendiendo las evaluaciones y definiendo de manera más ajustada nuestro límite de riesgo biológico.”

El Marco de preparación de OpenAI (página 17) da un ejemplo de resultados de evaluación hipotética para efectos ilustrativos: “El modelo puede ofrecer información relevante para crear amenazas de CBRN con una utilidad comparable a los recursos existentes (por ejemplo, textos, motores de búsqueda), pero nada más que esto.

GPT versus evaluación de búsqueda: Los profesionales post-PhD capacitados en biología (específicamente genética, virología o microbiología no experimentan mejoras en las tasas de éxito para escribir unas instrucciones de desarrollo de agente biológico CDC Clase B utilizando un motor de búsqueda y GPT versus solo un motor de búsqueda (X% versus X%, incluyendo en todas las métricas de precisión, integridad e innovación). Esto también se aplica a estudiantes profesionales post-PhD en química, nuclear y radiología.

GPT versus evaluación de búsqueda: Los estudiantes universitarios con algo de cursos en biología (específicamente genética, virología o microbiología no experimentan mejoras en las tasas de éxito para escribir unas instrucciones de desarrollo de agente biológico CDC Clase B utilizando un motor de búsqueda y GPT versus solo un motor de búsqueda (X% versus X%, incluyendo en todas las métricas de precisión, integridad e innovación). Esto también se aplica a estudiantes universitarios que estudien química, temas nucleares y radiológicos.

Evaluación de GPT versus proveedores de identificación de búsqueda: <Un X% de más participantes tuvieron éxito encontrando proveedores de ADN que no filtran las órdenes utilizando un motor de búsqueda y GPT versus solo un motor de búsqueda.”

26 Aunque con acceso a otras herramientas como, por ejemplo, motores de búsqueda.

27 Un documento inicial en este género es el de Toby Shevlane et al., "Evaluación modelo para riesgos extremos," Arxiv, 24 de mayo de 2023, https://arxiv.org/abs/2305.15324. Establece que: “La comunidad de IA ya depende considerablemente de la evaluación de modelos ... Proponemos extender estas herramientas para tratar riesgos que pudiesen ser extremos en escala, resultantes del mal uso o desajuste de modelos para efectos generales. Ya se está llevando a cabo un trabajo en una evaluación de este nuevo tipo de modelo.

28 Marco de preparación de OpenAI, página 13: “Queremos asegurar que nuestro entendimiento de riesgos de mitigación previa tome en cuenta un modelo que sea “un caso conocido peor” (por ejemplo, diseñado específicamente) para el dominio dado. Para este fin, para nuestras evaluaciones, las ejecutaremos no solo sobre modelos de base (con indicadores a la medida de desempeño alto cuando corresponda), sino también en versiones con ajustes finos diseñadas para el vector de mal uso en particular sin ninguna mitigación en regla. Estaremos ejecutando estas evaluaciones continuamente, por ejemplo, con la frecuencia necesaria para capturar cualquier cambio no trivial en la capacidad, incluyendo, antes, durante y después de la capacitación. Esto incluiría siempre que haya un incremento de cómputo 2 veces mayor o un descubrimiento algorítmico importante.”

Marco de seguridad de frontera de Google DeepMind, página 6: “Estamos trabajando para equipar a nuestros evaluadores con técnicas de elusión de vanguardia, para asegurar que no estemos menospreciando la capacidad de nuestros modelos.”

Política de escalonamiento responsable de Anthropic, página 12: “Una inherente dificultad de un régimen de evaluaciones es que actualmente no es posible realmente aplicar un límite superior a las capacidades de modelos generativos. Sin embargo, es importante que estemos evaluando modelos cercanos a nuestras mejores técnicas de elusión de capacidades, para evitar una subestimación de las capacidades que pudieran ser posibles eludir para un actor malicioso si el modelo fuese robado.”

29 Por ejemplo, véase David Rein et al. “GPQA: Un comparativo a nivel de grado de aseguramiento de calidad a prueba de Google,” Arxiv, 20 de noviembre, 2023, https://arxiv.org/abs/2311.12022 .

30 Marco de seguridad de frontera de Google DeepMind, página 2: “Diseñaremos evaluaciones de advertencia temprana para que nos facilite una barrera de seguridad adecuada antes de que un modelo alcance un [nivel de capacidad crítico].”

Política de escalonamiento responsable de Anthropic, página 11: “Es una tarea difícil asegurar que nunca capacitemos a un modelo para que pase un límite de evaluación de ASL. Los modelos son capacitados en tamaños discretos, requieren de esfuerzo para evaluar capacitaciones intermedias y las evaluaciones graves y significativas pueden demorar bastante tiempo, ya que probablemente requieran de un ajuste fino. Esto significa que hay un riesgo de rebasar un límite ASL cuando intentemos quedar cortos. Mitigamos este riesgo creando una barrera: hemos diseñado intencionalmente nuestras evaluaciones de ASL para activarse a niveles de capacidad ligeramente más bajos que aquellos de los que estamos preocupados, asegurando al mismo tiempo que evaluemos en intervalos definidos y regulares (específicamente cada incremento 4 veces mayor en cómputo efectivo, tal como se define a continuación), para poder limitar la cantidad de rebase que sea posible. Hemos buscado establecer el tamaño de nuestra barrera de seguridad en seis veces (más grande que nuestro intervalo de evaluación 4 veces mayor) de modo que la capacitación del modelo se pueda continuar de manera segura mientras se dan a lugar las evaluaciones. La ejecución correcta de este esquema resultará en que capacitemos modelos que apenas pasen la prueba de ASL-N, sigan estando ligeramente por debajo de nuestro límite real de interés (debido a nuestra barrera) y luego pausar la capacitación e implementación de este modelo a no ser que las medidas de seguridad correspondientes estén listas.” (Más detalles a continuación).

31 La Política de escalonamiento responsable de Anthropic páginas 6–9 describe un estándar del ASL-32 para seguridad y protección en la implementación. El marco de seguridad de frontera de Google DeepMind páginas 3–4 dispone distintos niveles de “Mitigaciones de seguridad” y “mitigaciones de implementación. 2 El marco de preparación de OpenAI páginas 20-21 discute las posibles medidas para mejorar la seguridad de la información a un nivel alto. No ofrece detalles en cuanto a la implementación de medidas de seguridad, pero establece: “Solo se pueden implementar los modelos con un puntaje de mitigación posterior de “medio” o por debajo. En otras palabras, si alcanzamos (o se pronostica que alcancemos) por lo menos un riesgo “alto” de mitigación previa en cualquiera de las categorías consideradas, no continuaremos con la implementación de ese modelo (para el momento en el cual alcancemos un riesgo “alto” previo a la mitigación) hasta que haya en regla mitigaciones razonables para que el nivel de riesgo post-mitigación relevante regrese como máximo al nivel “medio”. (Notar que una posible mitigación efectiva en este contexto podría restringir una implementación a partes fiables).”

32 Este punto se discute en Sella Nevo et al., “Asegurar los pesos de los modelos de AI: Prevenir el robo y mal uso de modelos de frontera,” RAND Corporation, 30 de mayo, 2024, https://www.rand.org/pubs/research_reports/RRA2849-1.html.

33 Marco de preparación de OpenAI, página 24: “Visibilidad interna: El marco de preparación, informes y decisiones serán documentados y visibles para la junta directiva y dentro de OpenAI (con redacciones según sean necesarias dada la compartimentación del trabajo de investigación). Política de escalonamiento responsable de Anthropic, página 10: “adicionalmente hacemos los siguientes compromisos procesales. . . 6. Compartir los resultados de las evaluaciones ASL con los organismos reguladores de Anthropic, incluyendo la junta directiva y LTBT para informarlos lo suficiente de los cambios a nuestro perfil de riesgo. . . 8. Implementar una política de reporte de no cumplimiento para nuestros compromisos de escalonamiento responsable como parte de llegar a ASL-3. La política debe permitir comentarios anónimos, con una cadena de reporte apropiada.

34 Marco de preparación de OpenAI, página 25: “Las evaluaciones de cuadro de mandos (y mitigaciones correspondientes) se auditarán y calificarán por terceros cualificados e independientes para asegurar un reporte preciso de los resultados, ya sea reproduciendo los hallazgos o revisando la metodología para asegurar una congruencia a una cadencia especificada por SAG y/o por solicitud del liderazgo de OpenAI o la [Junta directiva]. Política de escalonamiento responsable de Anthropic, página 15: “Verificación externa: Debido a las posibles externalidades negativas grandes de operar un laboratorio ASL-4, la verificación de las medidas anteriores debe tener el soporte de auditorías externas.”25

35 Mientras tanto, los formuladores de políticas pueden presionar a las organizaciones relevantes para trabajar más en desarrollar y reafirmar los compromisos si-entonces, sin prescribir aún prácticas específicas.

36 Véase Marco de preparación de OpenIA, páginas 8–11; Marco de seguridad de frontera de Google DeepMind, páginas 5–6; y Política de escalonamiento responsable de Anthropic, páginas 6–7.

37 Los modelos abiertos pueden por lo general acelerar la innovación, al dar a una amplia gama de actores la capacidad de experimentar con muchas maneras distintas de desarrollar partiendo de un modelo de IA dado. En particular, los modelos abiertos pueden ser útiles para la investigación sobre posibles riesgos de la IA y sobre mitigaciones de riesgos. Dado lo costoso de capacitar una IA, existe un riesgo general de que los investigadores se vuelvan dependientes de las compañías de IA para acceder a modelos, lo cual pudiese causar una dinámica de poder tergiversada, por ejemplo, haciendo difícil que los investigadores ofrezcan opiniones parciales sobre el riesgo de la IA y cómo las compañías de IA lo estén manejando, y/o haciendo que sea costoso para los investigadores criticar a las compañías de IA. Los modelos abiertos tienen la posibilidad de corregir esta dinámica.

38 Los representantes de Meta, probablemente la compañía enfocada en modelos abiertos más conocida y mejor abastecida han declarado que Meta no está comprometida a lanzar pesos de modelos en todos los casos, y que existen situaciones imaginables en las cuales las capacidades de IA la responsabilizarían de hacerlo, e incluso si Meta estuviese trabajando en “líneas intocables” Algunas de las compañías más prominentes enfocadas en modelos abiertos (Meta, Mistral, xAI) se han unido todas en el reciente compromiso de las 16 compañías para desarrollar políticas de seguridad de frontera, utilizando un marco muy similar al que se discute en este artículo.

39 Anthropic anunció su política de escalonamiento responsable en septiembre de 2023. OpenAI publicó su marco de preparación beta en diciembre de 2023.

40 Tal como explica en tarjetas modelo para lanzamientos importantes de modelos de IA; véase tarjetas de modelo para GPT-4, Gemini 1.5 y Claude 3.

41 “En caso de que tengamos una razón fuerte para creer que otros desarrollistas de IA están avanzando con modelos de IA peligrosamente comparables, y hayamos agotado otras rutas para reducir los riesgos asociados, podríamos hacer una excepción al plan anterior y continuar el desarrollo, trabajando al mismo tiempo con los estados y otras autoridades para tomar acciones inmediatas para limitar un escalonamiento que pudiera afectar a todos los desarrollistas de IA (incluyendo nosotros). Consideraríamos esta como una situación grave. Buscaríamos opiniones del gobierno de los EEUU sobre nuestras opciones, y sería explícito con los empleados, nuestra junta directiva y las autoridades del estado, que nuestro escalonamiento ya no sería seguro, y que tendríamos que ser responsables por el criterio para proceder.”

42 Probablemente no es posible para la seguridad ser impenetrable por servicios de inteligencia extranjeros, pero parece posible y útil hacer que robo sea más difícil. Véase Sella Nevo et al., “Asegurar los pesos de los modelos de IA: Prevenir el robo y mal uso de modelos de frontera,” RAND Corporation, 30 de mayo, 2024, https://www.rand.org/pubs/research_reports/RRA2849-1.html.

43 “El marco es exploratorio y esperamos que este evolucione considerablemente a medida que aprendemos de su implementación, profundizando nuestro entendimiento de los riesgos y evaluaciones de la IA, y colaboramos con la industria, academia y gobierno. Aunque estos riesgos están más allá del alcance de los modelos de hoy en día, esperamos que implementando y mejorando el marco nos ayude a prepararnos para lidiar con ellos. Buscamos tener este marco inicial totalmente implementado para inicios de 2025. Véase Publicación en blog de Google DeepMind presenta su marco de seguridad de frontera. “Este marco es la versión Beta inicial que estamos adoptando, y se pretende que sea un documento vivo. Esperamos que se actualice regularmente a medida que aprendemos más y recibamos opiniones adicionales. Véase Anuncio de OpenAI de su marco de preparación: “Sin embargo, queremos hacer énfasis en que estos compromisos son nuestros supuestos actuales más probables, y una reafirmación inicial sobre la base de la cual desarrollaremos. El rápido ritmo y muchas incertidumbres de la IA como campo implica que, a diferencia del sistema BSL relativamente estable, ciertamente será casi necesario una reafirmación rápida y corrección de curso.” Véase Publicación en blog de Anthropic presenta su política de escalonamiento responsable.

44 En relación a las armas químicas, véase R. E. Ferner y M. D. Rawlins, “Armas químicas,” BMJ 298, no. 6676 (25 de marzo, 1989): 767–768, https://doi.org/10.1136%2Fbmj.298.6676.767. En relación con las armas biológicas esta perspectiva se debate entre expertos, pero para un ejemplo de expertos aparentemente confirmando una perspectiva similar, véase La Academia Nacional de Ciencias, Ingeniería y Medicina, Biodefensa en la era de biología sintética (Washington, DC: La prensa de la Academia Nacional, 2018), https://doi.org/10.17226/24890: “La producción de la mayoría de virus del ADN sería lograble por un individuo con habilidades en cultivos celulares y purificación de virus relativamente comunes y acceso a equipo básico de laboratorio, haciendo que este escenario se factible con un impacto organizaciones relativamente pequeño (incluyendo por ejemplo, un gabinete de bioseguridad, una incubadora de cultivos celulares, centrífuga y equipo pequeño disponible comúnmente). Dependiendo de la naturaleza del genoma viral, obtener un virus del ARNde una cadena cDNA podría ser más o menos difícil que obtener un virus del ADN. Sin embargo, en general, el nivel de habilidad y cantidad de recursos requeridos para producir un virus de ARN no es mucho más alto que para un virus del ADN.”

45 Por ejemplo, un estimado de un testimonio del congreso es que “aproximadamente 30,000 individuos son capaces de estructurar cualquier virus de la influenza para el cual haya una secuencia de genoma públicamente disponible.” Esto viene en el contexto de una preocupación relativamente alta acerca del riesgo; otros pudieran pensar que el número es más bajo. Por supuesto, el porcentaje de población capaz de producir un arma química o biológica dada variaría basado en el arma específica y es probablemente más alta para armas químicas que para biológicas.

46 Existe un precedente para los terroristas que intenten producir e implementar armas químicas y biológicas en un intento por causar víctimas masivas.. Por ejemplo, véase Manuela Oliveira et al., “Bioguerra, bioterrorismo y biocrímenes: Una observación histórica sobre las aplicaciones microbianas dañinas,” Ciencia forense internacional (septiembre de 2020), https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7305902/, sección 1.2. El caso de Aum Shinirikyo es particularmente interesante debido a la cantidad de esfuerzo y gastos relativamente desafiantes (en ese momento) invertidos en proyectos de producción de armas químicas y biológicas, aunque finalmente estos no tuvieron éxito. Véase Richard Danzig et al., Aum Shinrikyo: Información sobre cómo los terroristas desarrollan armas químicas y biológicas, 2da ed., CNAS, 20 de diciembre, 2012, https://www.cnas.org/publications/reports/aum-shinrikyo-second-edition-english.

Carnegie does not take institutional positions on public policy issues; the views represented herein are those of the author(s) and do not necessarily reflect the views of Carnegie, its staff, or its trustees.