Lo que ocurre dentro de un modelo de IA cuando escribes un prompt

Determinístico vs probabilístico: cómo funcionan los modelos de IA por dentro, por qué no dan siempre la misma respuesta y qué implica en velocidad, costo e interpretabilidad.

Lo que ocurre dentro de un modelo de IA cuando escribes un prompt

Cuando hablamos de modelos de inteligencia artificial, la gran mayoría los percibe inteligentes, con capacidad de razonar y de tomar decisiones por sí mismos.

Alguna vez, ¿probaste darle una misma consulta a un modelo de IA en distintos chats? Te darás cuenta que siempre vas a obtener una respuesta distinta. Para entenderlo, hablemos de los conceptos determinístico y probabilístico.

Determinístico vs probabilístico

El modelo determinista siempre devuelve la misma salida para la misma entrada, ya que se basa en reglas fijas y fórmulas exactas. Opera con un sentido de certeza, como si estuviera siguiendo una receta de cocina, lo que resulta en una creatividad nula.

El modelo probabilístico puede variar incluso si la entrada es la misma; se basa en patrones y estadísticas. Depende de diversas probabilidades, como el contexto y la distribución estadística aprendida; sin embargo, requiere de aprendizaje y ajustes continuos para mantener su eficiencia.

Determinístico vs probabilístico

Desde un enfoque más técnico, los árboles de decisión y los sistemas basados en reglas son un claro ejemplo de un modelo determinístico: ofrecen previsibilidad pero carecen de adaptabilidad en escenarios dinámicos.

Por otro lado, los modelos probabilísticos expresan resultados en términos de probabilidades, destacando en el manejo de la incertidumbre y la evolución de los datos, aunque mayormente presentan desafíos durante la interpretabilidad.

Cómo generan las respuestas

Todos los modelos de IA modernos son probabilísticos. Cuando generan una respuesta, esta será determinada por una predicción basada en:

  1. La información en la cual el modelo fue entrenado
  2. Lo que le das al modelo como entrada, comúnmente llamado “prompt”

En cada paso, el modelo no elige una palabra al azar, sino que calcula la probabilidad de miles de posibles palabras y selecciona la más probable (o una cercana según su configuración).

En cuanto al funcionamiento interno, están basados en los siguientes pasos:

  1. Recopilación de datos relacionados con el problema
  2. Entrenamiento que involucra aprender patrones de los datos utilizando algoritmos y formando redes neuronales
  3. Validación y prueba del modelo; se realizan ajustes para aumentar la precisión
  4. Predicción y toma de decisiones basadas en datos nuevos no vistos

Flujo de funcionamiento de la IA

Velocidad, inteligencia y costo

Existen muchos modelos que varían en velocidad, inteligencia y costo de uso. Muchos de ellos son rápidos y baratos pero no son capaces de resolver problemas que requieren de mayor pensamiento. Otros son más lentos y más caros, pero pueden “pensar” y trabajar en problemas más complejos.

Pongamos el ejemplo de dos modelos muy conocidos en la actualidad: Claude 3 Opus vs Claude 3.5 Sonnet, ambos de Anthropic.

Claude 3 Opus es un modelo muy grande y potente; para generar una palabra tiene que hacer billones de cálculos matemáticos, lo que incrementa mucho su costo.

Claude 3.5 Sonnet está optimizado para ser un modelo con una buena relación de costo/rendimiento, lo que hace que consuma menor cantidad de tokens.

Algunos modelos están diseñados para activar diferentes “partes” según la tarea (MoE — Mixture of Experts), reduciendo el cómputo necesario por respuesta. Otros utilizan arquitecturas más grandes y densas, donde todos los parámetros participan en cada predicción, requiriendo mayor cantidad de memoria VRAM.

Claude 3 Opus vs Claude 3.5 Sonnet

Entender cómo funcionan los modelos de IA no solo cambia la forma en que los usamos, sino también cómo los diseñamos, evaluamos y optimizamos. La inteligencia artificial no “piensa” como nosotros: simula el pensamiento mediante el cálculo de probabilidades a una escala que el cerebro humano no puede imaginar.