artificial intelligence abstract
Source: Getty
paper

Un esquema de las posibles capacidades de alerta de la IA

Seis posibles capacidades futuras de la IA que podrían merecer una preparación y compromisos previos, para poder evitar riesgos catastróficos.

Published on 10 de diciembre de 2024

Introducción

Existe un interés significativo tanto entre los líderes de la industria como en los gobiernos en los compromisos si entonces de la inteligencia artificial (IA): compromisos de la forma, Si un modelo de IA tiene una capacidad X, debe haber en regla mitigaciones de riesgo Y. Y, si es necesario, retrasaremos la implementación y/o desarrollo de la IA para garantizar esto.  Un ejemplo específico: Si un modelo de IA tiene la capacidad de enseñar paso a paso a un principiante a construir un arma de destrucción masiva, entonces debemos asegurarnos de que no haya maneras fáciles de que el modelo de IA provoque una conducta de esta categoría en los consumidores.

En diciembre de 2024, tres líderes de la industria—Google DeepMindOpenAI y Anthropic—han publicado marcos de trabajo relativamente detallados en este sentido. Dieciséis compañías han anunciado su intención de establecer marcos de trabajo con un espíritu similar para el momento de la próxima Cumbre de Acción de la IA en Francia.  Se ha explorado ideas similares en los Diálogos Internacionales sobre seguridad de la IA (véase la declaración de Beijing) y en la Cumbre de Seguridad de la IA en el Reino Unido.

En un artículo anterior, analicé cómo podrían funcionar los compromisos si entonces, y cuáles son sus componentes clave.  Un componente clave es capacidades de alerta (o señales de alerta): Capacidades de la IA que pudieran implicar riesgos catastróficos graves, y por lo tanto, originarían la necesidad de mitigación de riesgos fuertes y posiblemente costosas.  (Señales de alerta corresponde a la “capacidad X” mencionada anteriormente). Hasta la fecha, la mayoría de intentos en identificar estas capacidades de la IA han venido de políticas y marcos de trabajo establecidos por las compañías de IA,1 con poca explicación de cómo se llegó a los mismos.  Eventualmente, se espera que las señales de alerta se fundamenten en extensivos análisis públicos de qué amenazas por la IA son creíbles, qué mitigaciones pudieran reducir los riesgos, y cómo sopesar los costos y beneficios.  

Este artículo busca contribuir al avance desde lo anterior a lo posterior esquematizando un posible conjunto de (a) métodos y criterios para escoger las señales de alerta y (b) las señales de alerta preliminares que busquen cumplir con este criterio.  Se enfoca específicamente en la cuestión de dónde deberían estar las señales de alerta, y no trata algunos otros desafíos de los compromisos si entonces (cumplimiento, transparencia y responsabilidad, para nombrar unos cuantos).

Presenta además la idea de emparejar señales de alerta con evaluaciones de límite: las evaluaciones más difíciles de capacidades relevantes de IA que pudieran ejecutarse y utilizarse, en principio, para decisiones clave. Hoy en día, la mayoría de evaluaciones de IA se enfocan en tareas mucho más fáciles de lo que sería necesario para implicar un riesgo catastrófico; ahora estas son capaces de ofrecer una garantía, pero podrían no ser suficientes a medida que las capacidades de la IA mejoren.  Una evaluación de límites podría ser una tarea como si el modelo de IA instruyera de principio a fin a un principiante una tarea (segura) que fuese tan difícil como producir un arma química o biológica de destrucción masiva—difícil y costoso de ejecutarse, pero acoplada rápidamente a la capacidad de señal de alerta en cuestión.  Las evaluaciones de límite pueden ser útiles para (a) ofrecer pruebas de seguridad si las capacidades de la IA avanzan rápidamente y (b) ofrecer un objetivo más claro, para el diseño de evaluaciones menos costosas y más prácticas en torno a ella (un modelo de IA que no supera evaluaciones menos costosas debería ser una evidencia clara  de que tampoco superaría evaluaciones de límites). 

El esquema que se presenta en el presente es solo eso, un esquema. No profundiza en analizar ningún riesgo o capacidad de dar alertas específicas de la IA. Con el rápido avance de las capacidades de la IA, los actores clave están adoptando un enfoque dinámico e iterativo con las señales de alerta:2 haciendo conjeturas fundamentadas de cuándo y cómo extraerlas, diseñar políticas y evaluaciones en torno a sus conjeturas y con el tiempo refinar cada parte del cuadro. En vista de que las compañías de IA no están esperando un análisis a profundidad del costo-beneficio o consenso antes de escalar sus sistemas, tampoco deberían esperar que dicho análisis o consenso guíe y se comprometa con las mitigaciones de riesgos.

Este documento ofrece un análisis más profundo de las posibles señales de alerta que los que hubo disponibles en propuestas previas relacionadas a las señales de alerta, pero también queda corto intencionalmente al ofrecer conclusiones firmes. Un análisis adicional puede desvirtuar el caso para el uso de cualquiera de estas señales de alerta o revelar otras que deberían utilizarse en su lugar. El objetivo del presente no es dar fin a la discusión respecto a dónde deberían aplicarse las señales de alerta, sino más bien provocarla.

Este documento:

Discutirá el contexto de este momento en cuanto al desarrollo de señales de alerta y compromisos si entonces: lo que se ha hecho hasta ahora, y qué medidas quedarán por aplicarse en un marco robusto para reducir los riesgos de la IA. 

Establecer posibles criterios para buenas señales de alerta:

  • La señal de alerta está relacionada a un modelo de amenaza plausible.  Esto significa que, un modelo de IA con la capacidad de dar alertas implicaría un riesgo de cierto tipo para la sociedad como un todo (por defecto, si se implementa ampliamente sin los tipos de mitigaciones de riesgo que se discuten a continuación) más allá de los riesgos predeterminados que la sociedad enfrenta.
  • Pudieran ser necesarias mitigaciones de riesgo desafiantes para llevar el riesgo a niveles bajos.  (Si las mitigaciones de riesgo son fáciles de implementar, entonces no existe una necesidad clara para un compromiso si entonces).
  • Sin estas mitigaciones de riesgo, la amenaza tiene la posibilidad de causar un gran daño.  He observado amenazas que impliquen una probabilidad no trivial de una catástrofe con daños totales para la sociedad mayores a 100,000 millones de dólares y/o una probabilidad real de una catástrofe con daños totales a la sociedad mayores a 10,000 millones de dólares.3
  • La descripción de la señal de alerta puede servir como una guía para el diseño de evaluaciones de límites (definidas anteriormente, y en mayor detalle a continuación).
  • La capacidad de dar alertas podría emerger relativamente pronto.  

Establecer posibles señales de alerta para la IA Estas se resumen al final en una tabla. Muy brevemente, las señales de alerta que establezco son las siguientes, categorizadas utilizando cuatro dominios de las capacidades de IA relevantes al riesgo que cubren casi todas las propuestas de capacidades de disuasión anteriores.4

  • La capacidad de asesorar a un novato en la producción y lanzamiento de un arma química o biológica de destrucción masiva catastróficamente dañina.
  • La capacidad de mejorar un programa financiado moderadamente por el estado para que pueda implementar armas químicas o biológicas de destrucción masiva mucho más dañinas.
  • La capacidad de incrementar dramáticamente el costo-eficacia de una persuasión profesionalizada, en términos del tamaño del efecto por dólar invertido (por ejemplo, el número de personas que cambien su voto de un candidato a otro, o tomar alguna acción específica relacionada al cambio de opinión).
  • La capacidad de mejorar dramáticamente las capacidades de las ciber-operaciones de un programa financiado moderadamente por el estado.
  • La capacidad de acelerar dramáticamente la velocidad de descubrimientos y/o aprovechamiento de ciber-vulnerabilidades nuevas y valiosas.
  • La capacidad de automatizar y/o acelerar dramáticamente la investigación y desarrollo (“R&D”) de la IA en sí. 

Contexto sobre el trabajo relevante hasta la fecha

El interés tanto en los beneficios como en los riesgos de la IA surgieron cerca de finales de 2022, luego del lanzamiento de ChatGPT. El año 2023 fue testigo de algunas iniciativas nuevas dedicadas a crear y/o requerir evaluaciones de capacidades peligrosas de los modelos de IA,5 y el final del año 2023 fue testigo de la primera discusión importante de lo que este documento refiere como “capacidades de disuasión”- límites predefinidos para las capacidades y/o riesgos de la IA acompañadas de compromisos para implementar mejoras específicas en mitigación de riesgos para el momento en el cual se presenten estas señales de alerta.6 El caso de estos compromisos si entonces se señala en un documento anterior; para resumir, con el rápido avance de las capacidades de IA, estas facilitan una manera para planificar con anticipación y priorizar mitigaciones de riesgos importantes, sin detener innecesariamente el desarrollo de nuevas tecnologías.

Hasta la fecha, propuestas más específicas para las alertas han venido de políticas y marcos de trabajo corporativos voluntarios lanzados a finales de 2023 y mediados de 2024, la mayoría de estos marcados explícitamente como tempranos, exploratorios o preliminares.7 Fundamentalmente, las propuestas de señales de alerta se han presentado, en todos estos casos, sin explicaciones adjuntas en cuanto a la metodología con la cual se dedujeron.  Como aclaración, esto no es una crítica de las compañías en cuestión.  Las políticas y marcos que se han liberado son documentos ambiciosos, son un llamado a que sus firmantes realicen un trabajo significativo en algunos frentes, no solo definir las alertas, sino también (a) desarrollar evaluaciones prácticas, ejecutables de IA para comprobar las alertas; (b) definir las mitigaciones de riesgo que serían necesarias si se encontrasen señales de alerta y (c) definir procesos (que exijan la participación de las partes involucradas en secciones variadas de la compañía) para asegurar que las pruebas se ejecuten con la suficiente frecuencia, los resultados se interpreten razonablemente y se tomen las acciones necesarias en respuesta, y así.

Si las compañías tuviesen que esperar hasta que cada una de estas cosas se hubiese investigado minuciosamente antes de adoptar o publicar sus políticas y marcos de trabajo, podrían esperar por años, tiempo durante el cual las capacidades de la IA pudiesen progresar rápidamente y la prevención de los riesgos en cuestión pudiese volverse más difícil, si no imposible.  En otras palabras, esperar por un estándar de minuciosidad muy alto pudiese de algún modo dejar inválido el objetivo de estas políticas y marcos.  Las compañías han buscado demostrar su seriedad en cuanto a prevención de riesgos siendo rápidas esquematizando sus marcos de trabajo, incluso con mucho trabajo restante por hacerse, construir el avión mientras se vuela, por decirlo.

Este documento pretende hacer un avance hacia una discusión más detallada de las señales de alerta, pero solo un avance.  Propone varias señales de alerta específicas y señala el razonamiento básico, pero no presenta una base de evidencia efectiva para cada afirmación clave y deja posibles objeciones importantes a sus propuestas sin tratar.  ¿Por qué adoptar este enfoque? Se espera que:

  • Este documento ayude a contribuir a la discusión de qué requisitos deberían utilizarse para crear señales de alerta y cuáles deben ser las alertas.
  • Con el tiempo, se producen análisis más profundos y reducidos con un grupo de expertos amplio y diverso (sobre la cuantificación y modelado de riesgos en general, sobre dominios relevantes específicos, como las ciber-operaciones y producción de armas, y así).  Los comentarios del público en general también serán importantes, dado que los juicios de valor involucrados al determinar qué posibles catástrofes justifican una mitigación de riesgos costosa.
  • A medida que la investigación detrás de las señales de alerta profundiza y mejora, así también lo hacen muchos del resto de componentes de los compromisos si entonces. Las evaluaciones para saber si un modelo de IA ha cruzado una señal de alerta se vuelven cada vez mejor diseñadas, equilibrando lo informativo con la practicidad, a medida que las compañías y los Institutos de Seguridad de IA desarrollan, ejecutan y aprenden de las mismas.  Los intentos de implementar mitigaciones de riesgos también generan lecciones y pautas cada vez más minuciosas.
  • Mientras mejor desarrollados se vuelvan todos estos aspectos (señales de alerta, evaluaciones de capacidades de la IA, mitigación de riesgos), será más útil para los formuladores de políticas que buscan diseñar una regulación que reduzca los riesgos catastróficos de la IA sin frenar innecesariamente el desarrollo de nuevas tecnologías.

Requisitos para las señales de alerta

Este documento busca ofrecer un conjunto de señales de alerta candidatas con un sólido potencial de utilidad para anticipar y definitivamente reducir los riesgos catastróficos de la IA. Específicamente, estas señales de alerta deben utilizarse en compromisos si entonces de la siguiente forma: Si un modelo de IA tiene una capacidad X, entonces debe haber en regla mitigaciones de riesgo Y. Y, si es necesario, retrasaremos la implementación y/o desarrollo de la IA para garantizar esto.

Cada señal de alerta candidata es una descripción de una capacidad que un modelo de IA futuro podría tener y busca cumplir con los siguientes requisitos:

La señal de alerta está relacionada a un modelo de amenaza plausible

Esto significa que, un modelo de IA con la capacidad de dar alertas implicaría un riesgo de cierto tipo para la sociedad como un todo (por defecto, si se implementa ampliamente sin los tipos de mitigaciones de riesgo que se discuten a continuación) más allá de los riesgos predeterminados que la sociedad enfrenta.

Pudieran ser necesarias mitigaciones de riesgo desafiantes para llevar el riesgo a niveles bajos

Si se puede eliminar un riesgo (o llevarse a niveles bajos) con rapidez relativa y medidas económicas entonces no existe una necesidad clara de incorporar el riesgo en un compromiso si entonces (en su lugar, las mitigaciones de riesgos se pueden implementar tan pronto como los riesgos se vean algo plausibles).  La ejecución de los compromisos si entonces es por lo general relativamente ambiciosa y compleja; están diseñados para el desafío de asegurar que se establezcan mitigaciones de riesgo incluso cuando hacerlo pudiese ser muy costoso o más importante, tomar mucha preparación anticipada (e incluso innovación), tal como se discutió en el documento anterior.

Ejemplos de mitigaciones de riesgos desafiantes que sean una buena combinación para los “compromisos si entonces” incluyen:

  • Seguridad en implementación altamente fiable_ asegurando que los usuarios de un modelo de IA no puedan incitar conductas específicas no previstas del mismo.  Aunque los modelos de IA comerciales están por lo general programados para rehusarse a solicitudes peligrosas, actualmente es posible eludirlo a través de ciertos patrones de diálogo, llevándolos a romper sus reglas y cooperar con casi cualquier tarea.8 Hacer que los modelos de IA se rehúsen de manera fiable a solicitudes dañinas (sin entrenarlos simplemente para rehusarse a casi todas las solicitudes) sigue siendo un problema abierto, y no existe garantía de que el problema se resolverá dentro de alguna franja de tiempo en particular.
  • Seguridad robusta del peso del modelo: asegurar que sea difícil para actores externos robar los pesos del modelo de IA, incluso con esfuerzos considerables y la posible ayuda de internos.  Dependiendo del nivel de seguridad que se busque, pudiese ser muy desafiante y tomar bastante planificación anticipada y desarrollo de capacidad lograr una seguridad robusta en los pesos del modelo.9
  • Seguridad contra IA maliciosa: tener un plan robusto para evitar, contrarrestar de manera efectiva y/o detectar la presencia de cualquier conducta buscapoder desalineada (lo que Yoshua Bengio ha descrito como “malicia”) de modelos de IA.10 De manera ideal, dicho plan estaría respaldado por un consenso bastante amplio de investigadores de alineación de IA, pero hoy en día, la ciencia de detectar, evitar y/o controlar esta conducta es aún joven, y no está claro cómo y cuándo se podrá hacer esto de manera fiable.

Sin estas mitigaciones de riesgo, la amenaza tiene la posibilidad de causar un gran daño.

En principio, este criterio podría hacerse efectivo de la siguiente manera: Las mitigaciones de riesgo en cuestión deberían reducir los daños esperados causados por el(los) modelo(s) de IA en cuestión con un costo mayor al de las mitigaciones de riesgo en sí, incluyendo los costos de retardar o restringir las aplicaciones beneficiosas de IA.11 Dado que los costos de retardar o restringir aplicaciones beneficiosas podría ser considerable,12 esta es una meta alta.

Algunas de las capacidades de alerta que se discuten a continuación podrían conducir a eventos muy dañinos, del tipo que se ha asociado en el pasado con decenas de miles de millones de dólares,13 o incluso billones,14 de dólares en daños.  Otros pudiesen conducir a eventos más difíciles de cuantificar, pero plausiblemente equivalentes, costos a la sociedad.

Estos requerimientos reducen significativamente el campo de señales de alertas candidatas, especialmente dado que el posible daño debe ser alto a pesar de las medidas correctivas que se pudiesen implementar luego de observar modelos de IA con las capacidades de alerta. Por ejemplo, si un modelo de IA tiene capacidades que son altamente útiles para perpetrar un fraude a gran escala, los incidentes iniciales pudiesen causar que los bancos y otras instituciones aumenten su inversión en detección de fraude (incluyendo detección de fraude utilizando el mismo tipo de IA avanzada que es útil para un fraude), de modo que la posibilidad de fraude se vea considerablemente reducida antes de que pueda hacerse un gran daño considerable.15

Es inherentemente desafiante determinar si existe la probabilidad sustancial de eventos como estos grandes daños, en un mundo futuro con capacidades tecnológicas que no existen hoy en día.  Un pequeño número de personas exploran actualmente enfoques de esto por posibles riesgos de la IA y su trabajo es referido a veces como modelación de amenazas de IA.  En muchos casos, buscan en la medida de lo posible fundamentar riesgos especulativos en eventos históricos y establecidos, por ejemplo, analizar eventos catastróficos históricos, y cómo el riesgo de eventos similares podría verse afectado cuantitativamente si el número de actores capaces de causar eventos similares se incrementara (por ejemplo, debido a tener acceso a “consultores avanzados en IA”). La mayoría de capacidades de alerta detalladas en este documento han involucrado cierta modelación inicial de amenaza exploratoria, aunque en ningún caso el modelado de amenazas ha alcanzado aún el punto de un informe público a profundidad.  En cualquier caso, el modelado de amenazas nunca será tan riguroso o concluyente como sería lo ideal, e inevitablemente las observaciones críticas respecto a la probabilidad y tolerancia al riesgo (por parte de compañías de IA, formuladores de políticas y otros) jugarían un papel importante en qué “compromisos si entonces” se elaboren.  

La descripción de la señal de alerta puede servir como una guía para diseñar evaluaciones de límite

En las políticas y marcos de trabajo establecidos por las compañías de IA hasta la fecha, existen señales de advertencia de nivel alto que dejan un gran espacio para la interpretación sobre cómo debería uno hacer una prueba de los mismos.

  • Marco de seguridad de frontera de Google tiene “niveles de capacidad crítica” incluyendo “habilitación de aficionado a la biología nivel 1”. Capaz de permitir significativamente que un no experto desarrolle amenazas biológicas conocidas que pudieran aumentar su capacidad de causar un daño grave en comparación con otros medios.”
  • Marco de preparación de OpenAI ha “hecho seguimiento de categorías de riesgo” incluyendo “El modelo permite que un experto desarrolle un nuevo vector de amenaza O el modelo ofrece una asistencia significativamente mejorada que permite que cualquiera con una capacitación básica en un campo relevante (por ejemplo, curso universitario de introducción a biología) pueda crear una amenaza CBRN (química, biológica, radiológica o nuclear).”
  • Política de escalamiento responsable de Anthropic detalla “capacidades peligrosas” incluyendo “El acceso al modelo incrementaría sustancialmente el riesgo de un daño catastrófico causado deliberadamente, ya sea proliferando capacidades, disminuyendo costos o habilitando nuevos métodos de ataque. Este aumento en el riesgo se mide en relación al nivel de riesgo de base de hoy en día que viene de, por ejemplo, un acceso a motores y textos de búsqueda.  Esperamos que los sistemas de IA primero den importancia a este riesgo del uso de atacantes no estatales.  . . . Nuestra primer área de esfuerzo es en evaluar los riesgos de armas biológicas en donde determinaremos modelos y capacidades de amenaza en consulta con algunos expertos mundiales en bioseguridad.

Las evaluaciones señaladas en estas políticas ofrecen relativamente pruebas de dificultad baja de las capacidades de IA,16 como, por ejemplo, si un modelo de IA puede responder preguntas acerca de armas químicas y biológicas, una capacidad que (sin modelo de IA tuviese) aun así quedaría corto en poder asesorar a un aficionado en el desarrollo de un arma química o biológica.

Para el nivel de capacidades que tienen los modelos de IA hoy en día, las evaluaciones con dificultad relativamente baja y los modelos de amenazas relativamente imprecisas son prácticos para el objetivo, ya que se ha determinado que los modelos de IA que tienen un bajo desempeño en evaluaciones sencillas están muy aparte de las alertas asociadas bajo la mayoría de interpretaciones posibles. Sin embargo, si las capacidades de la IA mejoran y cuando mejoren, las evaluaciones sencillas no podrán dar ya sea una garantía o señales claras de peligros, y las señales de alerta imprecisas dejarán un espacio grande para la interpretación en cómo diseñar evaluaciones más difíciles y definitivas.

En un intento de prepararnos para esta situación, este documento contiene señales de alerta propuestas con descripciones de evaluaciones de límites: las evaluaciones más difíciles de las capacidades relevantes de la IA que pudieran ejecutarse y utilizarse en principio dentro de un año aproximadamente. (Se dan ejemplos a lo largo del documento. Uno sería:  “El modelo de IA guía a un aficionado de principio a fin en una tarea (segura) tan difícil como producir un arma química o biológica de destrucción masiva.”) Si un modelo de IA tuvo un buen desempeño en evaluaciones de límites, puede que aun carezca de capacidades de alerta (existe, inherentemente, una brecha entre “un modelo de IA que apruebe pruebas en un entorno controlado” y “un modelo de IA que pueda aumentar sustancialmente riesgos del mundo real al operar abiertamente”), pero ya no habría una manera práctica de evaluar si este fue el caso.  Por lo tanto, en ese punto uno probablemente asumiría una gran posibilidad de la capacidad de alerta en cuestión, y por consiguiente actuaría (por ejemplo implementando mitigaciones de riesgo costosas).

Esperemos que articular evaluaciones de límite aclare el nivel específico de la capacidad de la IA que se prevé, dejando una menor ambigüedad del tipo que existe actualmente con un lenguaje como “el modelo ofrece una asistencia considerablemente mejorada” y “aumentar su capacidad de causar un daño severo en comparación con otros medios.” Adicionalmente, puede ayudar en el diseño de evaluaciones más prácticas. Una vez que se haya articulado una evaluación de límites, un equipo puede diseñar cualquier evaluación que puedan argumentar que es un requisito previo para tener un buen rendimiento en la evaluación de límites, y si un modelo de IA tiene un desempeño bajo en esta evaluación, esto es evidencia de que no tiene la capacidad de alerta en cuestión.

La capacidad de dar alertas podría emerger relativamente pronto

Predecir qué capacidades demostrarán los modelos de IA futuros, y cuándo, es un ejercicio tenso, y este documento no puede hacerlo con precisión. Pero utiliza un par de principios de nivel alto para mantener la lista de alertas relativamente corta y enfocada en capacidades que pueden emerger más pronto.

Primero, se aferra mayormente a considerar posibles capacidades de la IA comparables a capacidades que por lo menos tienen algunos humanos. La intención es evitar totalmente escenarios especulativos que prevean modelos de IA que puedan afectar al mundo de maneras arbitrarias y en su lugar hacer la pregunta: Si un modelo de IA tuviese capacidades cognitivas similares a un experto humano de tipo X, y este sistema pudiera copiarse, ejecutarse a escala y ser implementado por muchos usuarios, ¿qué riesgos pudiese crear? Existen algunas excepciones, casos en los cuales una señal de alerta se refiere a una capacidad más allá de lo que los expertos humanos pueden lograr, pero en estos casos, la capacidad se expresa en términos cuantificados y se facilita un esquema de cómo esta capacidad pudiese medirse en principio.

Segundo, este documento prevé la IA futura interactuando con el mundo de manera digital, como lo haría un empleado remoto, pudiendo conversar, escribir código, hacer planes, utilizar el internet y similares, pero no hacer tareas que dependan más en la presencia física, relaciones y otros. Por ejemplo, al considerar la capacidad de la IA de contribuir a las ciber-operaciones, este documento considera actividades como descubrir y explotar las vulnerabilidades del software, pero no prevé modelos de IA como espías en persona.

Tercero, existen algunos casos en los cuales he excluido algunas posibles capacidades de alerta de la lista porque otra alerta parece un buen indicativo o una advertencia temprana de la misma.  Por ejemplo, podría haber varios riesgos distintos de la IA que pudiesen ejecutar de manera autónoma actividades de investigación y desarrollo en una amplia variedad de dominios; me he enfocado aquí en un dominio específico (la misma Investigación y desarrollo de la IA), por las razones que doy a continuación:

Proceso para llegar a este esquema

Este documento se enfoca en cuatro dominios de capacidades de IA relevantes al riesgo: capacidades de desarrollo de armas químicas y biológicas, capacidades de ciber-operaciones, capacidades de persuasión y manipulación y capacidades relacionadas a la autonomía (maneras en las cuales los modelos de IA pudieran crear o acumular recursos significativos sin humanos en el medio). Que yo sepa, todos los esfuerzos importantes para establecer alertas o desarrollar evaluaciones de capacidades peligrosas se enfocan en riesgos que están dentro de una de estas categorías (o categorías similares).17

Los posibles modelos de amenazas listados en cada dominio reflejan conversaciones de personas de (a) equipos corporativos que trabajan en señales de alerta y compromisos si entonces, (b) de los Institutos de Seguridad de la IA de los EEUU y el Reino Unido; (c) Expertos en la materia que consultan sobre el diseño de las capacidades peligrosas. Luego de ensamblar modelos de amenazas de nivel alto basado en estas conversaciones, trabajé después, junto con colaboradores de otras conversaciones,18 por medio de intentos difíciles para estimar el posible daño que se discutió anteriormente de cada modelo de amenaza relativamente creíble, tanto con cómo sin los tipos de mitigaciones de riesgo fijas que se discutieron anteriormente (con comentarios de los colaboradores que acabo de mencionar entre otros) a través de varias versiones de lenguaje para capacidades de alerta y evaluaciones de límite, que buscan llegar a un conjunto de alertas las cuales cumplan con el criterio anterior de manera plausible.

Tal como se notó anteriormente, este proceso puede ofrecer un pequeño paso hacia adelante, pero no está lo suficientemente cerca. Por ahora, el enfoque ha sido generar un conjunto inicial de alertas que se pueda relacionar, por lo menos plausiblemente (en vista tanto de estimados de posibles daños informales como de discusiones con expertos relevantes) con amenazas de posible daño alto y que cumpla con el otro criterio anterior. Se da un razonamiento breve del por qué los daños muy altos son plausibles, pero no se han facilitado análisis a profundidad que traten contraargumentos y un análisis adicional podría acortar o expandir la lista.

Señales de alerta candidatas

Este sección enumerará las alertas candidatas y, en consistencia con el criterio anterior, señalará:

  1. Capacidad de alerta: la capacidad de la IA que pudiera implicar un riesgo.
  2. Riesgo(s): qué riesgo(s) podría implicar, y por qué los posibles daños pudieran ser altos.
  3. Mitigaciones de riesgo: opciones para reducir el riesgo significativamente.
  4. Evaluaciones: cómo podría uno comprobar la capacidad de alerta de los sistemas de IA, particularmente en términos de evaluaciones de límites (discutidos anteriormente).

Especificando completamente una capacidad de alerta requerirá a veces de decidir en cuanto a números específicos, por ejemplo, qué tanto tendría que incrementar un sistema de IA la velocidad para descubrir y/o explotar vulnerabilidades de ciber-ataques para calificar que ha cruzado la señal de alerta. Por lo general, en estos casos coloco cifras ilustrativas en una nota al pie de página.  Estas deben tomarse como cifras de ejemplo que pudiesen utilizarse como están o ajustarse de acuerdo con la tolerancia a riesgos específica y los objetivos de un actos específico que haga un compromiso si entonces.

Producción básica de armas químicas y biológicas

Esta señal de alerta trata la posibilidad de que un modelo de IA pudiera servir como un substituto virtual para un asesor experto (o grupo de asesores) en cuanto a la producción de armas químicas o biológicas, expandiendo así el número de personas que pudiese producir e implementar estas armas si optan por hacerlo.  El término “básico” está previsto para hacer énfasis en que este riesgo no trata sobre nuevos tipos de armas que se estén desarrollando (la siguiente sección trata esto), pero más bien acerca de la proliferación de la capacidad de crear armas básicas.

Capacidad de alerta: IA capaz de asesorar de manera interactiva al actor de una amenaza (con una educación universitaria y una cantidad moderada de dinero,19 pero sin pericia o experiencia) de manera tan efectiva como un humano experto en los dominios relevantes, de modo que este actor pudiera tener una posibilidad sustancial de tener éxito en el intento de producir y liberar un arma química o biológica que pudiera causar, plausiblemente, un daño catastrófico.20

Riesgo(s): Existen, plausiblemente, algunas armas químicas o biológicas que pudieran producirse e implementarse por alguien con la pericia y experiencia relevantes, si optan por hacerlo, con un presupuesto relativamente modesto y sin requerir el acceso a algún material difícil de obtener.21

Alguien con la pericia y experiencia relevante también podría asesorar remotamente a un novato relacionado, en producir e implementar estas armas, especialmente si estuviesen dando una asesoría dedicada e interactiva e intercambiando imágenes, videos u otros.  (Existen esfuerzos continuos para comprobar esta afirmación, tal como se discute a continuación).

Afortunadamente, únicamente un pequeño porcentaje de la población posee la experiencia necesaria para desarrollar un arma química o biológica,22 y la intervención de personas que desearían hacerlo es incluso menor.

Pero si un modelo de IA (futuro) pudiera jugar el mismo papel que un humano experto en armas químicas o biológicas, entonces cualquier individuo con acceso a dicho modelo de IA tendría efectivamente un acceso a un asesor experto.

Tenga presente que el riesgo descrito en esta sección es una función tanto de posibles capacidades de IA futura así como también de algunos hechos contingentes acerca de la preparación y contramedidas. Es posible que la sociedad pudiera mitigar estos riesgos de manera efectiva con suficientes restricciones efectivas al acceso a materiales precursores y tecnología clave (por ejemplo, síntesis del ADN). Ningún riesgo de IA trata únicamente de IA, sino que quizás siga siendo prudente prepararnos para la posible emergencia repentina de capacidades de la IA que pudieran causar riesgos considerables en el mundo tal como está.

Posibilidad de daño:  El Departamento de Asuntos Económicos y Sociales de la ONU ha destacado la pérdida de billones de dólares en resultados económicos en el contexto de la pandemia del COVID-19,23 y algunas otras fuentes estiman incluso daños mayores.24 Teniendo esto presente, billones de dólares o más en daños es algo plausible.  

Mitigación de riesgos: El riesgo aquí pudiera mantenerse bajo si los usuarios de la IA no pudiesen incitar, de manera fiable, una conducta no prevista,25 y si los pesos del modelo de la IA se pudiesen guardar de manera segura. Ambos pudiesen demostrar ser desafiantes y requerir de descubrimientos de varios tipos para tener éxito, tal como se discutió en un documento anterior.

Evaluaciones: La pregunta que uno finalmente quiere responder es más o menos: ¿Cuál sería el resultado de un experimento en el cual personas determinadas, razonablemente talentosas con un tiempo y cantidad de dinero moderados, pero sin pericia o experiencia relevante y profunda fuesen instruidas para producir (y liberar) un arma química o biológica específica y se les diera acceso al equipo básico y al modelo de IA en cuestión (así como también a recursos públicamente disponibles como, por ejemplo, motores de búsqueda o textos), pero no a un asesor experto humano?26 ¿Tuviesen éxito un porcentaje altamente razonable de las veces, y tuviesen un mejor desempeño que un grupo de control al cual no se diese acceso a un modelo de IA (y activos similares)?

Este mismo experimento sería inviable, obviamente en su mayoría porque involucraría producir y liberar armas peligrosas (y también porque pudiese tomar tiempo reclutar a participantes y permitirles intentar el trabajo). Pero uno podría intentar varias aproximaciones.  Por ejemplo, uno podría desafiar a participantes de un estudio a completar un grupo de tareas en un laboratorio que sean análogas para distintas partes de producción y liberación de armas (en particular las partes más difíciles para un arma de interés dada) pero que involucre trabajar con un sustituto no peligroso (por ejemplo, un patógeno que no sea transmisible en humanos, pero que involucre desafíos similares a aquellos requeridos para un patógeno peligroso) y que se modifique para lograr practicidad (por ejemplo, modificarse para que involucre los mismos tipos de desafíos, pero tomando menos tiempo). 

Un documento anterior tiene más discusiones sobre posibles evaluaciones para este riesgo, incluyendo más evaluaciones prácticas como, por ejemplo, preguntas de opción múltiple calificadas automáticamente.  (Tal como se define anteriormente este documento se enfoca en evaluaciones de límite).

Desarrollo de armas químicas y biológicas avanzadas

La sección anterior discute la posibilidad de que un modelo de IA pudiera guiar a una persona relativamente novata en el desarrollo de un arma de destrucción masiva, jugando un papel similar al de un asesor humano experto. Un posible riesgo separado sería el de una IA que pudiera mejorar considerablemente esfuerzos en un desarrollo con tecnología de punta (y más allá) de estas armas, ya sea contribuyendo con nuevas herramientas científicas (como herramientas de diseño biológico)27 o jugando el mismo papel (trabajar en diseño, ingeniería, desarrollo de armas y otros) como lo haría un humano experto de nivel alto (o de manera más específica, un equipo de estos expertos).

Capacidad de alerta: Una IA capaz de mejorar varias capacidades de programas de desarrollo de armas químicas y/o biológicas moderadamente financiados por el estado al punto de que pudiese desarrollar, producir e implementar armas de destrucción masiva por lo menos tan bien como lo haría un equipo de expertos bien asesorados en 2023.28

Riesgo(s): Los modelos de IA con esta capacidad pudiesen mejorar los prospectos de muchas naciones para desarrollar en secreto armas de destrucción masiva, especialmente dado que trabajar con la IA podría ser más fácil y menos riesgoso que reclutar a humanos de nivel alto en el contexto de un proyecto secreto.  Esto, en cambio podría aumentar los riesgos de un conflicto militar o una implementación inadvertida de un arma de destrucción masiva.29

Posibilidad de daño: Un arma de destrucción masiva desarrollada de manera deliberada podría causar un posible daño considerablemente mayor incluso que las pandemias naturales, lo cual (tal como se discutió anteriormente) podría causar fácilmente billones de dólares en daños.

Mitigación de riesgos: De manera similar al caso discutido anteriormente, el riesgo aquí pudiera mantenerse bajo si los usuarios de la IA no pudiesen incitar, de manera fiable, una conducta no prevista, y si los pesos del modelo de la IA se pudiesen guardar de manera segura. Sin embargo, las mitigaciones de riesgos tendrían que ser más robustas para esta señal de advertencia que para la discutida anteriormente, lo suficientemente robusta para resistir incluso un intento concertado, con el apoyo de programas del estado, para burlar un modelo de IA o robar sus pesos.

Evaluaciones: Las evaluaciones pudieran seguir una estrategia general similar a las evaluaciones para el modelo de amenaza de “producción básica de armas químicas y biológicas” que se discutió anteriormente: que busque observar si un modelo de IA pudiera ayudar a los humanos con tareas substitutas representativas (pero legales y seguras),30 que busquen observar si humanos expertos pudiesen ayudar a humanos menos experimentados al interactuar en una manera similar a como lo haría un modelo de IA (por ejemplo, a través de una plataforma de mensajería instantánea) y utilizando cuestionarios para facilitar información rápida y económica sobre si un modelo de IA pudiese, de manera plausible, tener un gran impacto en una interacción más extensa.

Sin embargo, en lugar de evaluar la tarea de ayudar a una persona relativamente novata a desarrollar armas químicas y biológicas básicas, las evaluaciones para esta señal de alerta deberían evaluar la tarea de ayudar a alguien con cierta experiencia (más o menos representando a la persona que dota de personal a programas de armas químicas y/o biológicas de segundo nivel) a llevar a cabo tareas que ordinariamente requerirían de una experiencia de nivel alto. El Experimento Nth Country es un precedente interesante en el presente: Lawrence Livermore Laboratory buscaba evaluar el riesgo de una proliferación nuclear desafiando a físicos que recién habían recibido su PhD a desarrollar un diseño de armas nucleares con un apoyo básico, pero sin acceso a información clasificada.

Capacidades generalizadas de ciber operaciones

Los modelos de IA futuros podrían tener capacidades similares a aquellas de los altos expertos de ciber operaciones de hoy en día, desde descubrir y explotar vulnerabilidades hasta conducir operaciones coordinadas.

Capacidad de alerta: IA capaz de incrementar las capacidades de ciber operaciones técnicas de un programa financiado moderadamente por el estado (aquellas que solo dependen de una ejecución remota, lo opuesto a cosas como ataques de acceso cercano y reclutar a espías internos) para igualar a aquellas de los servicios de inteligencia de nivel alto (especialmente para efectos de robar pesos de modelos de IA futura y/o desactivar infraestructura crítica en escala).31

Riesgo(s): Los modelos de IA con esta capacidad pudiesen hacer posible que un programa financiado moderadamente por el estado lleve a cabo una variedad de ataques asociados con programas más robustos, incluyendo la posibilidad de ataques coordinados, escalonados a infraestructura crítica, como, por ejemplo, plantas de energía y agua (algo que los Estados Unidos según se reporta planificó por lo menos en un caso), y/o robo a gran escala y dirigido de información clasificada.  Esta capacidad pudiera hacer de la IA un objetivo especialmente atractivo para servicios de inteligencia extranjeros.  Robar los pesos del modelo de una generación pudiera hacer más fácil robar la siguiente generación.

Esta es una meta de capacidad alta, y es posible que puedan emerger riesgos considerables incluso con modelos de IA que tengan capacidades de ciber operación más limitadas o reducidas. Es posible que un mayor análisis de este tema resulte en ideas adicionales para señales de alerta (a continuación tenemos un intento en una alerta para IA con capacidades más reducidas). 

Posibilidad de daño: Esto es difícil de estimar.  No está claro cómo cuantificar los daños de ciber incidentes importantes en el pasado como, por ejemplo, la violación de información de la Oficina de Manejo de Personal, cuyo impacto más grande fue presuntamente el golpe que implicó a las operaciones encubiertas de EEUU en China.32 También es difícil extrapolar cuáles serían las consecuencias si estas violaciones fuesen más fáciles de ejecutar. 

Por lo menos es plausible que riesgos como el anterior puedan justificar fuertes inversiones en mitigaciones de riesgos.  Pero un análisis adicional puede concluir lo contrario.  Probablemente el caso general para daños con un potencial muy alto no es tan fuerte como lo es para algunos otros riesgos discutidos en este documento.  

Mitigación de riesgos: Es posible que los modelos de IA con esta capacidad sean tan útiles para defensa (por ejemplo, encontrar y reparar vulnerabilidades) como para ciber ataques. Pero esto no es seguro, especialmente en el corto plazo.  Si un modelo de IA cruzara esta señal de alerta, podría tener sentido evaluar de manera intensiva sus contribuciones tanto a la ofensa como a la defensa antes de implementar ampliamente el modelo o desarrollar versiones más poderosas.

Dependiendo de esta evaluación, limitar el riesgo de esta capacidad de alerta podría requerir un nivel muy fuerte de protecciones de seguridad de implementación y seguridad de pesos del modelo, dado que los modelos de IA que crucen esta señal de alerta podrían ser objeto de grupos con soporte a nivel de estado.

Evaluaciones: Se podía dar a los expertos en ciber operaciones, representantes de dotación de personal de programas financiados moderadamente por el estado, un acceso a modelos de IA y desafiarlos con intentar hacer ciber ataques difíciles (comparables a los que han logrado históricamente programas de nivel alto) a compañeros colaboradores, sirviendo de manera efectiva como comprobadores de penetración.  Al igual que con pruebas de penetración, los ataques exitosos podrían manejarse utilizando un marco de divulgación responsable: se esperaría que los atacantes se abstengan de exfiltrar información sensible y de exponer cómo tuvieron éxito.

Se podrían diseñar también evaluaciones más simples y prácticas para aproximar el resultado de este tipo de método.

Descubrimiento y explotación de vulnerabilidades para ciber ataques

Los modelos de IA que carecen de amplias capacidades de ciber operaciones podrían seguir teniendo capacidades reducidas, destacándose en algún sub-área relevante a ciber ataques. Un área candidata sería el descubrimiento y la explotación de vulnerabilidades, lo cual presuntamente jugaría en favor de modelos con un lenguaje extenso.33

Capacidad de alerta: IA capaz de acelerar dramáticamente la velocidad de descubrimiento de vulnerabilidades, explotaciones y/o combinaciones nuevas y de alto valor.34

Riesgo(s): El descubrimiento y explotación de vulnerabilidades por sí solos no implican claramente mayores riesgos. Es posible que esta capacidad se utilice mayormente por desarrolladores de software para encontrar y reparar vulnerabilidades, e incluso si no, una vulnerabilidad y explotación conjunta está lejos de todo lo que se necesita para llevar a cabo ciber ataques dañinos. Sin embargo, una proliferación lo suficientemente extrema de cadenas de ataques muy valiosas (por ejemplo, que involucren vulnerabilidades sin clic) podría abrumar la capacidad de los defensores para responder (por ejemplo, liberando parches para las vulnerabilidades). Los modelos de IA que pudieran producir un número lo suficientemente grande de estas vulnerabilidades también podrían ser peligrosos si se utilizan de manera privada por un programa del estado en posesión de pesos robados de un modelo.

Posibilidad de daño: Los daños de ciber ataques considerables se han estimado en decenas de miles de millones de dólares en algunos años, aunque hay muchos años sin estos ataques, y la tendencia general en daños parece bajar con el tiempo.  Más recientemente, se ha estimado que el ataque de ransomware de NotPetya en 2017, impulsado mayormente por dos vulnerabilidades (EternalBlue y MimiKatz) causó 10,000 millones de dólares en daños.35 Si vulnerabilidades como esta se volvieran más comunes, sin que una ciber defensa pueda compensarlo, sería plausible que los daños anuales pudiesen alcanzar decenas de miles de millones de dólares por año.  Incluso si la ciber defensa pudiese ponerse al día en el largo plazo, podría haber daños considerables en el corto plazo.

Es por lo tanto, por lo menos es plausible que riesgos como el anterior puedan justificar fuertes inversiones en mitigaciones de riesgos. Pero un análisis adicional puede concluir lo contrario; el caso general probablemente no es tan fuerte como lo es para algunos otros riesgos discutidos en este documento.

Mitigación de riesgos: Estos serían similares a aquellos detallados para la señal de alerta anterior.

Evaluaciones: Mientras que la señal de alerta anterior es acerca de modelos de IA con capacidades similares a las de humanos en un amplio conjunto de dominios, esta es acerca de los modelos de IA que pueden ir más allá de los últimos avances humanos en un conjunto de dominios más reducido.  Esto requiere de evaluaciones distintas, ya que no se puede instruir simplemente que un modelo de IA no intente igualar el desempeño de expertos humanos existentes.

Un método para evaluaciones de límite sería aliarse con investigadores de vulnerabilidad dándoles un acceso inicial a modelos de IA de última tecnología y una guía sobre cómo utilizarlas de manera efectiva, y observando si pudieran incrementar considerablemente sus velocidades de descubrimiento y explotación de vulnerabilidades.

Persuasión

Existe una amplia variedad de riesgos imaginables que pudieran surgir de la categoría general de “modelos de IA con fuertes capacidades relacionadas a la persuasión, manipulación y/o información falsa.  Por ahora, discutiré una señal de alerta que parece estar particularmente bien adaptada a la operabilidad y evaluación concreta, teniendo al mismo tiempo el potencial de ser informativa respecto a riesgos más especulativos.

Capacidad de alerta: IA capaz de incrementar dramáticamente la efectividad de costo de una persuasión profesionalizada, en términos del tamaño del efecto (por ejemplo, el número de personas que cambia su manera de pensar o que tome alguna acción específica) por dólar invertido.36 Esto podría ocurrir (por ejemplo) a través de un chat interactivo que sea mucho más costoso que la publicidad tradicional.  

Riesgo(s): Existen varios riesgos posibles.

  • Si los modelos de IA tienen prohibido, por lo general, ayudar explícitamente con categorías específicas de persuasión (especialmente la persuasión política, la cual se prohíbe actualmente tanto por las políticas de uso de OpenAI y Anthropic ), entonces los modelos de IA con fuertes capacidades de persuasión podrían ser utilizados principalmente por actores que estén dispuestos y puedan violar restricciones sobre qué modelos se pueden utilizar (incluyendo por medio del robo de pesos de modelos de IA). Esta asimetría podría afectar sistemáticamente las elecciones a nivel mundial en sociedades democráticas.
  • Una manera de impedir el problema específico descrito anteriormente sería que los desarrollistas de IA permitan ampliamente el uso de sus sistemas para persuasión, incluyendo la persuasión política.  Pero esto pudiera tener riesgos de por sí, como exacerbar considerablemente la capacidad de convertir el bienestar o acceso informático en poder político.
  • En términos generales, en el punto en el cual la IA pueda avanzar considerablemente en una persuasión profesional más avanzada, este hecho pudiera ser un signo de advertencia general de otros riesgos, que involucren capacidades de persuasión extrema.  Estos incluyen el riesgo de que IA maliciosa con poderosas capacidades de persuasión puedan manipular a empleados de IA para eludir protecciones de seguridad, así como también manipular a un gran número de usuarios.  Hasta ahora, no está claro si pudieran emerger capacidades de persuasión extremas, pero la señal de alerta anterior pudiera ayudar a identificar cuando esté surgiendo el riesgo de esto.

Posibilidad de daño: Es difícil cuantificar cómo debe pensar uno sobre los daños de, por ejemplo, contribuir a la manipulación sistemática de una elección y, por lo tanto, socavar la legitimidad percibida y real del proceso democrático.  La escala de este daño, y de daños mayores que pudieran venir de capacidades de persuasión mayores, se ve, por lo menos, plausiblemente suficiente para hacer de este modelo de amenaza un complemento creíble al conjunto de amenazas considerado en este documento.

Mitigación de riesgos: Los detalles podrían importar bastante aquí, especialmente con respecto a cuánto pueda amplificar la persuasión profesional un modelo IA, cómo lo hace (por ejemplo, si lo hace facilitando información auténtica, haciendo afirmaciones falsas o replanteando hechos conocidos) y si lo hace en una manera que dé ventaja sistemáticamente a ciertos puntos de vista sobre otros.  Llegar a la señal de alerta pudiera desencadenar una revisión más intensiva de las capacidades de persuasión del modelo de IA y los probables impactos.

Si la conclusión fuese que se deben restringir las capacidades de persuasión extremas, entonces las medidas de protección tendrían que ser muy fuertes para poder hacer restricciones consistentemente aplicado para todos los usuarios. Por ejemplo, tendría que impedirse que los actores estatales relativamente determinados roben pesos de modelos o que ejecuten liberaciones. E incluso en el caso más extremo en el cual una IA maliciosa pudiese persuadir a los empleados de una compañía a ayudar a eludir salvaguardias, las precauciones necesarias podrían seguir siendo más intensas.

Por otro lado, en algunos casos la mejor mitigación de riesgos podría simplemente ser permitir ampliamente el uso de un modelo de IA para persuasión, para poder impedir que actores sistemáticamente dar ventaja a actores que estén dispuestos y puedan violar restricciones sobre el uso.

Evaluaciones: Un tipo de evaluación que se está desarrollando involucra, esencialmente, desafiar a expertos en la persuasión profesionalizada para encontrar una manera de utilizar la IA para vencer la efectividad de costos de vanguardia para lograr la persuasión sobre un tema en particular.  Por ejemplo:

  • Hay una literatura existente sobre qué tan efectivos son varios métodos de persuasión (como por ejemplo, publicidad por televisión o campañas electorales) para influenciar las elecciones de los votantes y esta literatura se puede utilizar para estimar algo como el costo por voto cambiado en una elección o medida de votación dada.
  • Un experto en persuasión sobre un tema específico podría intentar establecer una estrategia céntrica de IA con la posibilidad de un costo mucho menor por voto cambiado que el que ha sido posible tradicionalmente. Por ejemplo, podrían indicar a una IA hablar de manera interactiva con usuarios y aprender suficiente sobre ellos para adaptar una serie de comentarios, anécdotas y observaciones para que sean tan persuasivas como sea posible.
  • Luego, esta estrategia podría comprobarse, probablemente por medio de experimentos relativamente baratos y rápidos.  Por ejemplo, reclutando voluntarios, eligiéndolos aleatoriamente para grupos de tratamiento y de control, exponerlos a métodos de persuasión tradicionales o centrados en IA, y luego evaluar la diferencia en sus posiciones reportadas o votos planificados sobre el tema en cuestión.

Esta estrategia de evaluación dependería de encontrar expertos quienes pudiesen hacer un esfuerzo serio y determinado para encontrar la manera más efectiva de utilizar modelos de IA para persuasión, de modo que esto pudiese ser c0mparado con lo más avanzado tradicional.  Esto refleja un principio general de evaluaciones (y desafíos), que es que deben aproximar lo más cercano que un modelo de IA pueda llegar a la capacidad de alerta si se utiliza de manera efectiva.

Investigación y desarrollo (R&D) de la IA

La IA que pueda automatizar muchas, o todas las todas las tareas realizadas por investigadores e ingenieros de nivel alto de IA pudiera presentar riesgos extremos así como también beneficios extremos (y es probablemente algo que los desarrollistas de IA estarán persiguiendo activamente, dado lo mucho que puede acelerar su trabajo).37 Este documento no ofrecerá una discusión completa de por qué de esto, pero señalará lo básico.

Capacidad de alerta: IA que se puede utilizar para hacer todas las tareas realizadas por los equipos de investigación de capacidades importantes en una compañía de IA de nivel alto (o el equivalente) por costos totales similares (incluyendo salarios, beneficios y calcular los costos de un investigador humano). O IA que, por medio de cualquier mecanismo, conduzca a una aceleración dramática en la velocidad de las mejoras de capacidades de la IA en comparación con la velocidad de 2022-2024, un periodo de grandes avances e inversión, para lo cual hay buena información disponible.38

 Riesgo(s): Hay algunas razones interrelacionadas del por qué esta alerta podría ser importante.

Una es la posibilidad de un circuito de retroalimentación de investigación y desarrollo de la IA. Es probable que hoy en día, los equipos de nivel alto enfocados en investigación de IA de frontera no tengan más que unos cuantos cientos de investigadores e ingenieros cada uno.39 Si se pudiera mantener un modelo de IA para investigadores e ingenieros de nivel alto, esto podría ser el equivalente a agregar cientos de miles (o más) de estas personas.40 Esto a su vez podría conducir a una aceleración dramática en los avances de la IA, mucho más allá de los avances en las mejoras de hoy en día.41 Como resultado, podrían emerger muchos riesgos, incluyendo:

  •  Una IA que se vuelve ampliamente mejor que los humanos en tareas clave, incluyendo tareas relacionadas a otros modelos de amenazas discutidos en este documento (armas químicas y biológicas, ciber operaciones, persuasión) así como también investigación y desarrollo en otros dominios clave, como, por ejemplo, robótica y otras aplicaciones militares, conduciendo a un amplio conjunto de riesgos que emergen rápidamente y son difíciles de predecir.
  • Métodos de desarrollo de IA rápidamente cambiantes (debido a la gran cantidad de investigación automatizada que se da a lugar) que pueden incrementar rápidamente el riesgo de modelos de IA que desarrollen objetivos peligrosos por su cuenta (conocido como IA maliciosa), 42lo cual sería especialmente problemático si se combina con capacidades súper humanas.
  • Con esta velocidad de avances, una compañía o un país que esté unos cuantos meses adelantado del resto del mundo en IA podría resultar rápidamente en que tengan un vasto acceso a modelos de IA más capaces.  Esto podría conducir a cambios de desestabilización en el equilibrio de poder, y esta dinámica podría también dar una ventaja a las compañías y países que compiten de manera adelantada con poca atención a la mitigación de riesgos en cualquier frente.

Otra razón por la cual esta señal de alerta podría ser importante es el potencial de la Investigación y desarrollo de la IA como un indicador temprano de las capacidades de investigación y desarrollo a nivel general. Eventualmente, puede tener sentido tener muchas señales de alerta de las capacidades de la IA en distintos dominios de investigación y desarrollo que pudieran implicar riesgos, por ejemplo, en la robótica y la vigilancia.  Pero existe una razón para pensar que las capacidades de investigación y desarrollo de la IA emergerán antes de las capacidades de investigación y desarrollo generales, dado que es especialmente probable que los desarrollistas de la IA optimicen sus modelos de IA para investigación y desarrollo de IA (y dado que la investigación y desarrollo en IA tiene relativamente circuitos de retroalimentación experimental rápida y relativamente poca dependencia en la presencia física). Tal como se discutió a continuación, podría ser más fácil diseñar evaluaciones de investigación y desarrollo en IA, especialmente en relación con otros tipos de investigación y desarrollo. Por estas razones, puede tener sentido priorizar las evaluaciones de investigación y desarrollo en IA, incluso si uno asume que el circuito de retroalimentación de investigación y desarrollo de la IA descrito anteriormente no está en riesgo.

En relación a esto, la investigación y desarrollo en IA podría servir como un indicador de habilidades generales de resolución de problemas, problemas técnicos y coordinación. Sería útil tener un sentido de si los modelos de IA que trabajan en conjunto pueden llevar a cabo tareas complejas que requieran muchos pasos, creatividad y lidiar con problemas inesperados, tanto para obtener un sentido de las posibles aplicaciones beneficiosas de la IA y evaluar riesgos más amplios de la IA en las manos equivocadas (o una IA maliciosa) capaz de automatizar proyectos grandes y ambiciosos.

Posibilidad de daño: La IA que avanza rápidamente podría dar origen a cualquier cantidad de riesgos adicionales sin dar tiempo para fijar las mitigaciones de riesgo apropiadas. Los riesgos originados anteriormente, en particular de IA maliciosa y de desequilibrios de poder global, sin especulativos y altamente debatibles, pero presentan el tipo de riesgo alto que ha conducido a que muchos invoquen escenarios extremos como, por ejemplo, la extinción.43

Mitigación de riesgos: Si los modelos de IA cruzaran esta señal de alerta, podrían desarrollarse rápidamente un gran número de distintos riesgos (debido a la posibilidad de un avance rápido en las capacidades de IA, así como también la posibilidad de que los modelos de IA que crucen esta señal de alerta también pudiesen adaptarse rápidamente  a la investigación y desarrollo en varios dominios clave distintos).

Debido a esto, podría ser importante prepararse, antes de llegar a esta señal de alerta, para una amplia variedad de riesgos, incluyendo algunos que se ven especulativos y lejos de hoy en día.

  • Tal como se indicó anteriormente, podría haber una presión extrema de competir en el desarrollo de la IA, ya que una ventaja podría volverse auto reforzante. Sufriendo la IA un cuello de botella debido a los recursos escasos (por ejemplo, fábricas de semiconductores y máquinas de litografía) y riesgos con un potencial muy alto, esta carrera podría originar un peligro de conflicto violento.  Podría ser importante tener un marco para vigilancia regulatoria y coordinación internacional para evitar resultados como este.
  • Robar los pesos de modelos de IA que crucen esta señal de alerta podría volverse especialmente atractivo y sería específicamente importante prevenirlo.  Un programa respaldado por el estado podría iniciarse muy por detrás en IA, robar los pesos de un modelo de nivel alto y volverse rápidamente competitivo con el resto del mundo en IA, o incluso tomar la delantera, si invirtiese más capital que otros participantes en la investigación y desarrollo automatizados y/o tomara menos cuidados que otros participantes en garantizar protección y seguridad.  Idealmente, los modelos de IA que llegaran a cruzar esta señal de alerta se guardarían bajo una seguridad suficiente para proteger los pesos de los modelos incluso de ataques bien reforzados de poderosos programas de espionaje.
  • Podría ser importante tener un plan para evitar o para detectar cualquier presencia de una conducta buscapoder desalineada (o maliciosa) de los modelos de IA, para el momento en el cual se vuelva posible una aceleración dramática en las capacidades de la IA. Idealmente, este plan tendría el apoyo de un amplio consenso de investigadores alineados por la IA.

Evaluaciones: Algunas posibles estrategias para evaluar modelos de IA para esta capacidad:

  • Tareas basadas en flujos de trabajo existentes en investigación y desarrollo de la IA. Se puede desafiar a los modelos de IA a completar tareas basadas en las tareas existentes y flujos de trabajo de investigadores académicos de la IA, científicos e ingenieros en compañías de IA, y así.  Hay algunos desafíos considerables aquí. El trabajo de investigación y desarrollo es dinámico por naturaleza y muchas de las tareas clave podrían ser difíciles de evaluar sin darles los meses para desarrollarse (y un considerable cálculo de presupuestos), pero con tiempo e iteración, es posible desarrollar evaluaciones prácticas que sean razonablemente representativas de la mayoría de habilidades que los expertos humanos en investigación y desarrollo necesitan. Algunos intentos iniciales en evaluaciones junto a estas líneas incluyen MLE-benchMLAgentBench yRE-bench.
  • Medir los avances en el desempeño general de la IA buscar signos de aceleración.  En lugar de obtener capacidades de investigación y desarrollo similares a los humanos, los modelos de IA podrían obtener capacidades distintas y complementarias y esto podría conducir a una dinámica de aceleración similar.  Los desarrollistas de la IA pueden llevar un control de las mejoras de desempeño de sus modelos en una manera que haría posible ver si los avances son acelerados.

Posibles señales de alerta adicionales

Este documento no es exhaustivo y existen algunas otras posibilidades de alertas señaladas a continuación.

  • Más señales de alerta de armas químicas y biológicas.  La IA podría contribuir al desarrollo, producción e implementación de armas químicas y/o biológicas en maneras distintas a las detalladas anteriormente.  Por ejemplo, ayudando a un potencial terrorista a formar una estrategia de nivel alto para lograr su objetivo de manera más efectiva o menos costosa, lo opuesto a guiarlos paso por paso sobre su trabajo en un laboratorio.  Este documento se ha enfocado en IA similares a modelos con lenguaje extenso, pero también podría haber señales de alerta para herramientas especializadas (por ejemplo, herramientas de diseño biológico) que podrían ayudar con el desarrollo de armas en otras maneras.
  • Más señales de alerta de investigación y desarrollo Tal como se notó anteriormente, hay algunos dominios adicionales para los cuales las capacidades de investigación y desarrollo automatizadas podrían ser peligrosas, como, por ejemplo robótica y vigilancia.
  • Más señales de alerta de persuasión, manipulación y/o información falsa (fuera del dominio de la política). Existen muchas inquietudes respecto a este tipo de capacidades, pero actualmente pocos planes de evaluación se han vinculado concretamente a riesgos específicos.  Por ahora, este documento se ha enfocado en una estrategia de evaluación particularmente concreta.
  • Más señales de alerta para ciber operaciones. Podría haber tareas particulares relevantes a ciber ataques en las cuales la IA demuestre fortalezas, y que se demuestren realmente importantes, distinto a lo que se detalla anteriormente (por ejemplo, facilitar la evasión de una detección al lanzar ataques y compilar información).
  • Señales de alerta para capacidades generales de la IA, como, por ejemplo, planificación, coordinación y evasión de vigilancia.  Mientras mejor sean las IA en capacidades como esta, más posible podría ser que estas trabajen en conjunto en operaciones grandes y complejas, y esto pudiese resultar en riesgos difíciles de predecir, especialmente en lo que respecta a IA. (Tal como se notó anteriormente, hay existen algunas evaluaciones para medir la capacidad de los sistemas de IA para llevar a cabo proyectos complejos de investigación e ingeniería, las cuales pueden tratar de manera parcial estas propiedades).
Tabla resumida
Capacidad de alerta Riesgo(s) Mitigación de riesgos Evaluaciones
Producción básica de armas químicas y biológicas IA capaz de asesorar de manera interactiva al actor de una amenaza (con una educación universitaria y una cantidad moderada de dinero,ᵃ pero sin pericia o experiencia) de manera tan efectiva como un humano experto en los dominios relevantes, de modo que este actor pudiera tener una posibilidad sustancial de tener éxito en el intento de producir y liberar un arma química o biológica que pudiera causar, plausiblemente, un daño catastrófico.ᵇ Multiplicar considerablemente el número de personas con la capacidad de producir y liberar un arma de destrucción masiva, si así lo optaran. Las armas de destrucción masiva pudieran causar billones de dólares o más en daños. Seguridad en implementación: Incluso un actor determinado no debería ser capaz de incitar de manera fiable una asesoría en armas químicas o biológicas, incluyendo técnicas por medio de liberación.  Seguridad de pesos del modelo: el modelo solo debe almacenarse en entornos en los cuales fuese muy poco probable que un individuo u organización terrorista pudiese obtener los pesos del modelo. Los experimentos sobre si novatos pueden completar tareas substitutas (tareas seguras de dificultad similar para la producción de armas químicas y/o biológicas) con o sin la ayuda de modelos de IA. Evaluar la capacidad de un modelo de IA para responder preguntas (o ayudar a un humano a responder preguntas) respecto a temas relevantes a armas químicas y/o biológicas relevantes.
Desarrollo y producción avanzada de armas químicas y biológicas: Una IA capaz de mejorar varias capacidades de programas de desarrollo de armas químicas y/o biológicas moderadamente financiados por el estado al punto de que pudiese desarrollar, producir e implementar armas de destrucción masiva por lo menos tan bien como lo haría un equipo de expertos bien asesorados en 2023.ᶜ Pudiera mejorar los prospectos de muchas naciones de desarrollar armas de destrucción masiva y por lo tanto, incrementar los riesgos de un conflicto militar o una implementación inadvertida de un arma de destrucción masiva. Similar a lo anterior, pero con un nivel más alto de seguridad: la seguridad en implementación y la seguridad de pesos del modelo deben ser lo suficientemente robustas para resistir incluso intentos concertados, con apoyo de programas estatales para liberar un IA o robar sus pesos del modelo. Similar a lo anterior, pero con mayor énfasis en asesorar a personas con cierta pericia a completar tareas altamente desafiantes (lo opuesto a asesorar a personas sin experiencia para completar tareas moderadamente desafiantes).ᵈ
Persuasión eficiente:  IA capaz de incrementar dramáticamente la efectividad de costo de una persuasión profesionalizada, en términos del tamaño del efecto (por ejemplo, el número de personas que cambia su manera de pensar o que tome alguna acción específica) por dólar invertido., Esto podría ocurrir (por ejemplo) a través de un chat interactivo que sea mucho más costoso que la publicidad tradicional. Varios riesgos potenciales, incluyendo afectar de manera asimétrica los discursos y elecciones.  Pudiera servir como un signo de advertencia temprana para habilidades de persuasión extremas, incluyendo el riesgo de IA maliciosas con poderosas habilidades de persuasión pudiese manipular a empleados de una IA para eludir protecciones de seguridad y protección. Revisión intensiva de capacidades de persuasión de un modelo de IA e impactos similares, seguido posiblemente por la seguridad en implementación y medidas de seguridad de pesos del modelo para aquellos para armas químicas y biológicas avanzadas. Desafiando a expertos en persuasión profesionalizada para encontrar una manera de utilizar la IA para superar la eficiencia de costos más avanzada para persuasión en cuanto a un tema específico y comprobar sus ideas utilizando receptores aleatorios de distintas técnicas de persuasión.
Capacidades generalizadas de ciber operaciones: IA capaz de incrementar las capacidades de ciber operaciones técnicas de un programa financiado moderadamente por el estado (aquellas que solo dependen de una ejecución remota, lo opuesto a cosas como ataques de acceso cercano y reclutar a espías internos) para igualar a aquellas de los servicios de inteligencia de nivel alto (especialmente para efectos de robar pesos de modelos de IA futura y/o desactivar infraestructura crítica en escala).ᶠ Pudiesen hacer posible que un programa financiado moderadamente por el estado lleve a cabo una variedad de ataques asociados con programas más robustos, incluyendo la posibilidad de ataques coordinados, escalonados a infraestructura crítica, (como, por ejemplo, plantas de energía y agua) y/o robo a gran escala y dirigido de información clasificada.  Esta capacidad pudiera hacer de la IA un objetivo especialmente atractivo para servicios de inteligencia extranjeros y robar los pesos del modelo de una generación pudiera hacer más fácil robar los de la siguiente generación. Evalúa intensamente las contribuciones de un modelo tanto a los ciber ataques como a las defensas antes de implementar ampliamente el modelo o desarrollar versiones más poderosas.  Puede que sean necesarias una seguridad en implementación y seguridad de pesos del modelo para capacidades de armas químicas y biológicas avanzadas. Tareas y desafíos representativos de lo que pueden lograr las cyber operaciones humanas de nivel alto.
Descubrimiento y explotación de vulnerabilidades para ciber ataques: IA capaz de acelerar dramáticamente la velocidad de descubrimiento de vulnerabilidades, explotaciones y/o combinaciones nuevas y de alto valor.ᵍ Una proliferación suficientemente extrema de vulnerabilidades y/o explotaciones muy valiosas podría abrumar la capacidad de respuesta de los defensores (por ejemplo, con parches de software). Los modelos de IA que pudieran producir un número lo suficientemente grande de estas vulnerabilidades también podrían ser peligrosos si se utilizan de manera privada por un programa del estado en posesión de pesos robados de un modelo. Similar a lo anterior. Intentar utilizar la IA para encontrar y/o explotar vulnerabilidades nuevas utilizando conjeturas informadas de expertos en cómo podría mejorar esto.
Investigación y desarrollo (R&D) de la IA: IA que se puede utilizar para hacer todas las tareas realizadas por los equipos de investigación de capacidades importantes en una compañía de IA de nivel alto (o el equivalente) por costos totales similares (incluyendo salarios, beneficios y calcular los costos de un investigador humano). O una IA que, por medio de cualquier mecanismo, conduzca a una aceleración dramática en la velocidad de las mejoras de capacidades de la IA en comparación con la velocidad de 2022-2024, un periodo de grandes avances e inversión, para lo cual hay buena información disponible.ʰ Los sistemas de IA con esta capacidad podrían utilizarse para crear un circuito de retroalimentación (cantidades enormes de investigación de IA automatizada conducente a una mayor eficiencia y capacidad de la IA, que conduce a una investigación de IA aún más automatizada, continuando el circuito), conduciendo a una aceleración dramática en los avances de la IA (mucho más rápido que la velocidad de hoy en día).  Esto implicaría varios riesgos significativos, incluyendo:  (a) nuevos riesgos podrían surgir de capacidades de IA desarrolladas rápidamente a una velocidad que haría imposible identificar y adaptarse a los riesgos; (b) un estado (o incluso una compañía) que invierta agresivamente en IA y que tome unas cuantas precauciones podría ganar rápidamente un liderazgo tecnológico enorme y auto reforzado sobre el resto del mundo, lo que significaría que pudiera haber una presión intensa de competir y un riesgo de interrupciones alto al equilibrio de poder; (c) los peligros de una IA maliciosa podrían incrementarse grande y rápidamente.  Una IA que demuestra esta capacidad también podría facilitar una evidencia temprana de capacidades más generales relacionadas a investigación y desarrollo, resolución de problemas general y otros, lo cual podría implicar algunas amenazas distintas. Seguridad en implementación de alta seguridad y seguridad de pesos del modelo, tal como se indica anteriormente.  Adicionalmente, debido a la posibilidad de una rápida aceleración podría ser importante prepararse, antes de llegar a esta señal de alerta, para una amplia variedad de riesgos, incluyendo algunos que se ven especulativos y lejos de hoy en día. Esto podría incluir desarrollar métodos de alta seguridad para reducir los peligros de una IA maliciosa y mecanismos internacionales para mitigar la presión intensa de seguir compitiendo con un escalamiento de las capacidades de IA. Las tareas basadas en flujos de trabajo existentes en investigación y desarrollo de la IA y representativas de las tareas que los investigadores de alto nivel de IA llevan a cabo hoy en día.  Vigilar si hay signos de aceleración en la velocidad de avance en las capacidades de la IA.
Notas de la tabla resumida
a Algo como $ 50,000 y seis meses.
b Operacionalización de ejemplo de “posibilidad sustancial de éxito”: por lo menos 10 por ciento de probabilidad para un actor promedio con estas propiedades. Operacionalización de ejemplo de “catastróficamente dañino”: por lo menos 100,000 millones de dólares.
c En vista de la Convención de armas biológicas, es probable que casi todas los programas estatales de armas biológicas están solo moderadamente financiados, esto significa, no están atrayendo talentos de nivel alto o manejando presupuestos grandes en una medida similar que la de muchas ciber operaciones estatales. Muchas de estas alertas utilizan una línea de base de 2023, cuando los mejores modelos de lenguaje extenso no fueron suficientemente capaces de hacer una diferencia significativa en ninguno de estos dominios.
d Las evaluaciones aquí podrían tomar algo de inspiración del Experimento Nth Country. e Se podría operacionalizar “dramáticamente” en algo como 5 veces o más (relacionado a un comparativo de 2023).
f Aquí, los programas estatales moderadamente financiados se refieren a los programas más fuertes que no están entre los cinco programas más fuertes a nivel mundial, tal como se juzga por el actor que hace un compromiso si entonces.
g Se podría operacionalizar “dramáticamente” como algo como 5 veces o más (relacionado a un comparativo de 2023). “Valor alto” podría evaluarse estimando en cuánto se podría vender en el mercado abierto, basado en similitudes con otras vulnerabilidades y explotaciones cuyos valores de mercado se conocen.
h Tal como se nota en el texto principal, esta señal puede operarse simplemente observando la aceleración dramática, la cual sería de suprema importancia y sugerente de esta dinámica por su cuenta.
Si la aceleración ocurre y se mide, uno no necesita establecer separadamente que esto se debió a una investigación y desarrollo automatizada de IA (realizar el último podría ser algo muy tenso). Aceleración dramática se refiere a, por ejemplo “el incremento en el cálculo de capacitación efectiva del modelo más capaz del mundo, durante el curso de un año, fue equivalente a dos años de la tasa promedio de avances durante el periodo de inicios de 2018 hasta inicios de 2024 .” (Véase la nota de pie de página 4 aquí para ver una definición de “cálculo efectivo”)

Todas las capacidades de alertas candidatas detalladas anteriormente se beneficiarían de un mayor refinamiento, un mayor análisis de los posibles daños de catástrofes asociadas, mayor análisis de las mitigaciones de riesgo que podrían ayudar (y lo costoso que serían), y por lo general una mayor discusión de un amplio conjunto de expertos y partes involucradas.  Pero pueden servir como puntos de partida para participación, y así ayudar a impulsar el objetivo de una ciencia madura de identificación, prueba y mitigación de riesgos de la IA, sin frenar innecesariamente el desarrollo de nuevas tecnologías.

Trabajo futuro

Hay muchos proyectos de investigación posibles que pudieran resultar en un mejor entendimiento de los modelos de amenazas clave y las capacidades de alerta candidatas. A continuación se dan algunos ejemplos.  

Mapeo integral de amenazas. Este documento se enfocó en una lista de amenazas relativamente corta, seleccionadas por la alta posibilidad de daño y otros requerimientos. Podría ser valioso un ejercicio formal para enumerar y clasificar todas las amenazas plausibles, especialmente si esto incorporase observaciones de un conjunto amplio y diverso de expertos.

Examinar y cuantificar riesgos específicos.  Al intentar cuantificar un riesgo de sistemas de IA futura, existe un problema básico: uno no puede utilizar frontalmente estadísticas sobre catástrofes pasadas para determinar la probabilidad y magnitud.  Sin embargo, existen algunas maneras potencialmente productivas de analizar la probabilidad y magnitud, incluyendo la siguiente lista. 

  • Ejercicios de pronóstico sistemático que agreguen criterios respecto al tamaño y probabilidad de riesgos de paneles de expertos en la materia y/o personas (como, por ejemplo, Superpronosticadores) quienes se especialicen en pronósticos en sí.
  • Estudiar qué tan bien pueden los expertos humanos lograr tareas de interés. Por ejemplo, la discusión anterior de armas biológicas propone que uno podría “desafiar a participantes del estudio para completar un conjunto de tareas en un laboratorio que sean análogas para partes distintas de la producción y liberación de armas.” Este estudio podría ejecutarse con algunos participantes que tengan acceso a un humano experto que los guíe, simulando el humano experto el tipo de asistencia que una IA futura podría ser capaz de dar. Esto podría ayudar a (a) capturar el incremento cuantitativo en riesgo que una supuesta IA de nivel experta humana pudiera causar y (b) establecer un punto de referencia para comparar el desempeño de la IA. 
  • Utilizar información histórica y estudios de caso para cubrir parte del cuadro, incluso si habrá inevitablemente un elemento de extrapolación especulativaPor ejemplo, para estimar el posible daño de ciber ataques asistidos por IA, uno podría analizar qué tan dañinos han sido históricamente los ciber ataques, en particular ciber ataques del tipo que podría convertirse en algo más común si hubiese disponible una AI con capacidades relevantes.
  • Ejercicios de estimación cuantitativa. Utilizar modelos analíticos, con supuestos explícitos basados en información del mundo real en la medida de lo factible, para cuantificar riesgos específicos.  Un ejemplo de este tipo de trabajo de otros dominios serían los estimados del costo social del carbón que incorporen posibles daños económicos por el cambio climático.. Desarrollar posibles mitigaciones de riesgos y estimar sus costos. Mientras menos costoso sea mitigar un riesgo, menos necesario será establecer que el riesgo es muy probable y/o tiene un potencial de daño alto.

Reconocimientos

Este artículo se ha beneficiado de un gran número de discusiones en el último año además de compromisos “si-entonces”, en particular con personal de METR, el Instituto de Seguridad UK AIOpen PhilanthropyGoogle DeepMindOpenAI y Anthropic. Para este artículo en particular, me gustaría agradecer a Chris Painter, Luca Righetti y Hjalmar Wijk especialmente por sus comentarios a profundidad; Ella Guest y Greg McKelvey por sus comentarios sobre la discusión de las armas químicas y biológicas, Omer Nevo por sus comentarios sobre la discusión de ciber-operaciones; Josh Kalla por sus comentarios en la discusión de capacidades de persuasión y manipulación y mis colegas en Carnegie, en particular Jon Bateman, Alana Brase, Helena Jordheim e Ian Klaus, por su apoyo en el proceso de redacción y edición.

El autor está casado con la presidenta de Anthropic, una compañía de IA, y tiene una exposición financiera tanto de Anthropic como de OpenAI a través de su cónyuge.

Notas

  • 2Véase Marco de seguridad de frontera de Google DeepMindMarco de preparación de OpenAI, y Política de escalonamiento responsable de Anthropics, todo lo cual hará un énfasis en la necesidad de revisiones con el tiempo (véase la Nota 6 a continuación).

     

     

  • 3Daños puede incluir daños a la propiedad, pérdida económica de peso muerto y pérdida de vida y salud (el último se puede evaluar utilizando el valor de métodos de vida).

     

     

  • 5Estas incluyen un documento que explique el caso para estas (Evaluación modelo para riesgos extremos, publicado en mayo de 2023); un conjunto de compromisos voluntarios anunciados por la Casa Blanca que presentaban fuertemente evaluar las IA para determinar riesgos antes de un lanzamiento; una orden ejecutiva de los EEUU con un enfoque considerable en “Herramientas de evaluación de modelos de IA y bancos de prueba de IA”; y el establecimiento tanto del Instituto de seguridad de IA del Reino Unido como del Instituto de seguridad de IA de los EEUU, ambos bastante enfocados en evaluaciones de seguridad para sistemas de IA.

     

     

  • 7“El marco es exploratorio y esperamos que este evolucione considerablemente a medida que aprendemos de su implementación, profundizando nuestro entendimiento de los riesgos y evaluaciones de la IA, y colaboramos con la industria, academia y gobierno. Aunque estos riesgos están más allá del alcance de los modelos de hoy en día, esperamos que implementando y mejorando el marco nos ayude a prepararnos para lidiar con ellos. Buscamos tener este marco inicial totalmente implementado para inicios de 2025,” de una Publicación del blog de DeepMind de Google presentando su marco de seguridad de frontera.

    “Este marco es la versión Beta inicial que estamos adoptando, y se pretende que sea un documento vivo. Esperamos que se actualice regularmente a medida que aprendemos más y recibamos opiniones adicionales” de Anuncio de OpenAI de su marco de preparación.

    “Sin embargo, queremos hacer énfasis en que estos compromisos son nuestros supuestos actuales más probables, y una reafirmación inicial sobre la base de la cual desarrollaremos. El rápido ritmo y muchas incertidumbres de la IA como campo implica que, a diferencia del sistema BSL relativamente estable, ciertamente será casi necesario una reafirmación rápida y corrección de curso,” de Publicación en blog de Anthropic presenta su política de escalonamiento responsable

     

     

  • 8Véase la actualización de mayo del Instituto de Seguridad de IA

     

     

  • 10IA maliciosa, o IA buscapoder desalineada, se refiere a IA cuya capacitación conduce a que esta desarrolle objetivos peligrosos y no previstos de modo que se optimice para engañar y volver vulnerables a los humanos. El avance suficientemente rápido de la IA podría aumentar la probabilidad de que la IA desarrolle estos objetivos y que tenga capacidades lo suficientemente fuertes para causar catástrofes sin ser utilizada deliberadamente por humanos para hacerlo.

     

     

  • 11Esto es el valor esperado de los daños causados.  Un ejemplo sobre simplificado: un sistema de IA que es responsable (sobre y encima del riesgo predeterminado/de base) 1 por ciento de riesgo anual de una catástrofe que cause $ 10,000 millones de dólares en daños tendría daños esperados de 100,000 millones por año.

     

     

  • 12Por ejemplo, OpenAi busca presuntamente una valoración de 150,000 millones de dólares. Por lo tanto, se podría argumentar que los retrasos (o mitigaciones de riesgo que disminuyan la productividad, como, por ejemplo, seguridad de la información intensiva) que redujesen su valoración por un pequeño porcentaje le costarían a la compañía miles de millones de dólares

     

     

  • 13Por ejemplo, la sección de este documento sobre “Descubrimiento y explotación de vulnerabilidades para ciber ataques”.

     

     

  • 14Por ejemplo, la sección de este documento sobre “producción básica de armas químicas y biológicas”.

     

     

  • 15Una conclusión de este punto acerca de contramedidas es que las amenazas que probablemente califiquen aquí tendrán a involucrar daños concentrados, daños que se dan a lugar relativamente rápido, antes de que la sociedad pueda adaptarse y responder.  Una pandemia es un ejemplo de una catástrofe con daños altamente concentrados

     

     

  • 16Véase las páginas 16-19 de Marco de preparación de OpenAI y las páginas 16-20 de Política de escalonamiento responsable de.Anthropics

     

     

  • 19Algo como $50,000 y seis meses

     

     

  • 20Operacionalización de ejemplo de “posibilidad sustancial de éxito”: por lo menos 10 por ciento de probabilidad para un actor promedio con estas propiedades.

    Operacionalización de ejemplo de “daño catastrófico”: Por lo menos 100,000 millones de dólares en daños.

    Véase “Armas químicas: Fácil de hacer, difícil de destruir” para ver una discusión de armas químicas. En relación con las armas biológicas esta perspectiva se debate entre expertos, pero para un ejemplo de expertos aparentemente confirmando una perspectiva similar, véase “Biodefensa en la era de biología sintética”: “La producción de la mayoría de virus del ADN sería lograble por un individuo con habilidades en cultivos celulares y purificación de virus relativamente comunes y acceso a equipo básico de laboratorio, haciendo que este escenario se factible con un impacto organizaciones relativamente pequeño (incluyendo por ejemplo, un gabinete de bioseguridad, una incubadora de cultivos celulares, centrífuga y equipo pequeño disponible comúnmente). Dependiendo de la naturaleza del genoma viral, obtener un virus del ARNde una cadena cDNA podría ser más o menos difícil que obtener un virus del ADN. Sin embargo, en general, el nivel de habilidad y cantidad de recursos requeridos para producir un virus de ARN no es mucho más alto que para un virus del ADN.”

     

  • 21Véase “Armas químicas: Fácil de hacer, difícil de destruir” para ver una discusión de armas químicas. En relación con las armas biológicas esta perspectiva se debate entre expertos, pero para un ejemplo de expertos aparentemente confirmando una perspectiva similar, véase “Biodefensa en la era de biología sintética”: “La producción de la mayoría de virus del ADN sería lograble por un individuo con habilidades en cultivos celulares y purificación de virus relativamente comunes y acceso a equipo básico de laboratorio, haciendo que este escenario se factible con un impacto organizaciones relativamente pequeño (incluyendo por ejemplo, un gabinete de bioseguridad, una incubadora de cultivos celulares, centrífuga y equipo pequeño disponible comúnmente). Dependiendo de la naturaleza del genoma viral, obtener un virus del ARNde una cadena cDNA podría ser más o menos difícil que obtener un virus del ADN. Sin embargo, en general, el nivel de habilidad y cantidad de recursos requeridos para producir un virus de ARN no es mucho más alto que para un virus del ADN.”

     

     

  • 22Por ejemplo, un estimado de testimonio congresional es que “aproximadamente 30,000 individuos son capaces de generar cualquier virus de influenza para el cual haya disponible públicamente una secuencia de genoma. Esto viene en el contexto de una preocupación relativamente alta acerca del riesgo; otros pudieran pensar que el número es más bajo. Por supuesto, el porcentaje de población capaz de producir un arma química o biológica dada variaría basado en el arma específica y es probablemente más alta para armas químicas que para armas biológicas.

     

  • 23“La pandemia del COVID-19 ha paralizado grandes partes de la economía global, restringiendo profundamente las actividades económicas, aumentando las incertidumbres y desencadenando una recesión no vista antes desde la Gran Depresión.  Se pronostica que el PIB (producto interno bruto) global se reducirá en un 3.2 por ciento en 2020, con una recuperación solo gradual de producción perdida proyectada para 2021. Acumulativamente, se espera que la economía del mundo pierda casi $ 8,500,000 millones de dólares en producción en 2020 y 2021 (Figura 1), casi borrando las utilidades de producción acumulativa de los cuatro años anteriores.” De “Situación económica mundial y prospectos para mediados de 2020,” Naciones Unidas

     

     

  • 24Se proyecta que la pérdida acumulativa en la producción relacionada al indicador proyectado previo a la pandemia crezca de 11,000,000 millones de dólares durante 2020-2021 hasta 28,000,000 millones de dólares durante 2020-2025. Esto representa un retroceso severo a la mejora en los estándares de vida promedio en todos los grupos de país.  De una publicación del blog del FMI

    “En octubre de 2020, David Cutler y Lawrence H. Summers publicaron un artículo breve en JAMA Viewpoint estimando que el COVID-19 le costaría a los Estados Unidos 16,000,000 millones de dólares, al combinar los daños económicos con la pérdida de salud y vida monetizada.  Esta cifra se ha citado y utilizado extensivamente en discusiones de política. En este artículo, actualizamos su estimado, utilizando información acerca de la enfermedad y sus costos a la sociedad que se han dado a conocer desde que se publicó el documento.  Determinamos que el total de daños del COVID-19 a los Estados Unidos aún sigue siendo de unos 16,000,000 millones de dólares (con un intervalo de 10,000,000 millones a 22,000,000 millones9 pero los componentes del daño son significativamente distintos a aquellos estimados por Cutler & Summers.  La pandemia causó un daño económico menor al proyectado, pero más daño de salud mental.  De Institute for Progress.

    “Para 2024, se estima que la pandemia del Covid-19 habrá reducido la producción económica en $ 13.8 billones de dólares en relación con pronósticos previos a la pandemia (Fondo Monetario Internacional 2022). La pandemia resultó en muertes estimadas en exceso de 7 a 13 millones (Economist 2022) y un estimado de $ 10 a $ 17 billones de dólares en pérdidas de productividad futura e ingresos por interrupciones escolares (Azevedo et al. 2021). Estas pérdidas devastadoras por una pandemia no son nuevas: algunas fuentes estiman que en 1918 la influenza mató el 2% de la población del mundo y redujo el PIB en 6% (Barro, Ursúa y Weng 2020) y que la peste negra mató al 30% de la población de Europa (Alfani 2022).” Glennerster, Snyder, y Tan 2023.

     

     

     

  • 25Esto no significa que nunca se permitiría que la IA ayude a los usuarios con tareas relevantes, solo que podría haber restricciones distintas en distintas clases de usuarios. Por ejemplo, puede haber modelos de la IA para utilizarse en academias y que tengan menos restricciones que los modelos de IA de uso general.

     

     

  • 26El arma en cuestión debe estar entre las armas más fáciles de producir e implementar que tengan un potencial de daño sobre el límite especificado por la señal de alerta (este límite podría variar por actor, tal como se nota en una nota de pie de página para el lenguaje de la señal de alerta).

     

     

  • 27Cierta discusión de los riesgos de herramientas de diseño biológico aquí

     

     

  • 28Muchas de estas alertas utilizan una línea de base de 2023, cuando los mejores modelos de lenguaje extenso no eran lo suficientemente capaces de hacer una diferencia significativa en ninguno de estos dominios.

     

     

  • 29Véase Suspensión a investigación prevista para crear nuevos patógenos pandémicos potenciales para una discusión de los riesgos generales de una liberación inadvertida de patógenos.

     

  • 30Por ejemplo, sintetizar viruela equina (no contagiosa en humanos) en lugar de viruela (peligroso).

     

     

     

  • 31Aquí, los programas estatales moderadamente financiados se refieren a los programas más robustos que no están entre los cinco a diez programas más robustos a nivel mundial, tal como se estima por el actor haciendo un compromiso si entonces.

     

     

  • 32De un artículo acerca de la situación: “Hubo resistencia, preocupación o ansiedad respecto a poner a nuestros funcionarios en el campo dado que nuestro escudo de protección había sido perforado [por la violación de OPM], recordaba el exfuncionario de seguridad nacional.  “No sabíamos completamente lo que ellos sabían de nosotros. Posteriormente, “docenas de publicaciones” a funcionarios de la CIA programadas para tareas en China se cancelaron, de acuerdo con The Perfect Weapon, un libro de 2018 por David Sanger. Durante muchos años, la CIA no estaba dispuesta a realizar operaciones directas en persona en China, ya que su confianza se vio tan sacudida por la acumulación de activos y otras violaciones , dijo un exanalista de inteligencia ejecutivo.”

     

     

  • 34“Dramáticamente” podría operacionalizarse como algo aproximado a 5 veces o más (relacionado a un punto de referencia de 2023). El “valor alto” podría evaluarse estimando por cuánto se podrían vender en el mercado abierto, basado en similitudes a otras vulnerabilidades y explotaciones cuyo valor de mercado se conoce.

     

     

  • 35“El resultado fue más de 10,000 millones en daños totales, de acuerdo con una evaluación de la Casa Blanca confirmada a WIRED por el exasesor de seguridad interna Tom Bossert, quien al momento del ataque era el funcionario de ciberseguridad enfocada más antiguo del Presidente Trump.” De un artículo de Wired en NotPetya.

    “La firma de modelado de ciber riesgos Cyence estima que el posible costo del hacking fue de $ 4,000 millones de dólares, mientras que otros grupos predicen que las pérdidas estarían en los cientos de millones.” De CBS News.

     

     

  • 36“Dramáticamente” podría operacionalizarse como algo aproximado a 5 veces o más (relacionado a un punto de referencia de 2023).

     

     

     

  • 37O que la IA puede impulsar de manera autónoma los avances de la investigación y desarrollo en alguna otra manera (por ejemplo, automatizando las distintas tareas que siguen contribuyendo considerablemente a los avances).

     

     

  • 38Tal como se nota en el texto principal, esta alerta se puede operacionalizar simplemente observando la dramática aceleración, la cual sería en gran parte una consecuencia y sugerente de esta dinámica en sí. Si la aceleración se da a lugar y se mide, no es necesario que uno establezca separadamente que esto fue debido a una investigación y desarrollo automatizada de IA (realizar el último podría ser algo muy tenso).

    Aceleración dramática se refiere a, por ejemplo, “un incremento en el cálculo de capacitación efectiva del modelo más capaz del mundo el cual, durante el curso de un año, fuese equivalente a dos años de la tasa promedio de avances durante el periodo de inicios de 2018 hasta inicios de 2024.” (Véase la nota de pie de página 4 aquí para ver una definición de “cálculo efectivo”)

  • 39Es difícil obtener información fiable sobre esto, pero se discutía una cifra alrededor de 800 para la fuerza laboral total de OpenAI total a fines de 2023.

     

     

  • 40Cálculos de muestra aquí (Véase “Podríamos hacer millones de copias (y pronto a 10 veces la velocidad humana) de los investigadores de IA automatizados”) y aquí.

     

     

     

  • 41Elaborar completamente este caso está fuera del alcance de este documento, pero se discute en un informe por Tom Davidson.

     

     

     

  • 42Cómo las IA se pudieran volver maliciosas y cómo se relaciona a la velocidad de avances está fuera del alcance de este documento.  Hay muchos explicativos sobre este tema, yo recomiendo a Yoshua Bengio como punto de inicio.  Discutí en un documento informal que la velocidad de los avances podría ser un factor clave de qué tan grande es el riesgo.

     

     

     

  • 43Cómo las IA se pudieran volver maliciosas y cómo se relaciona a la velocidad de avances está fuera del alcance de este documento.  Hay muchos explicativos sobre este tema, yo recomiendo a Yoshua Bengio como punto de inicio.  Discutí en un documento informal que la velocidad de los avances podría ser un factor clave de qué tan grande es el riesgo.

     

Carnegie does not take institutional positions on public policy issues; the views represented herein are those of the author(s) and do not necessarily reflect the views of Carnegie, its staff, or its trustees.