Noticiamartes, 30 de junio de 20263 min de lectura

Cuando la IA médica aprobada no es la mejor opción

Un estudio en Nature Medicine halló que los modelos generales superan a la IA médica aprobada por la FDA. Aprobado y mejor dejaron de ser lo mismo.

IA médica aprobada: un sello regulatorio frente a un termómetro común

Hace poco un estudio puso a competir cinco herramientas de inteligencia artificial frente a preguntas que médicos reales hacen en consulta. Tres eran modelos de propósito general, sin sello clínico. Dos eran IA médica aprobada por el regulador, con autorización tipo FDA. El resultado incomoda: los tres modelos generales ganaron en todas las pruebas. Lo que el sello garantiza y lo que el paciente necesita dejaron de coincidir. Eso te obliga, como profesional, a separar dos ideas que veníamos tratando como una sola.

Qué midió el estudio sobre IA médica aprobada (y qué no)

El trabajo se publicó en Nature Medicine el 23 de junio de 2026. El análisis del estudio de Nature Medicine lo firma Moe Alsumidaie en The Clinical Trial Vanguard. Comparó GPT-5.2 de OpenAI, Gemini 3.1 Pro de Google y Claude Opus 4.6 de Anthropic contra dos herramientas con aprobación regulatoria: OpenEvidence y UpToDate Expert AI, de Wolters Kluwer. Las preguntas no salieron de un manual. Eran consultas reales del punto de atención, sin estructurar, como las que aparecen a media jornada con el paciente enfrente.

Aquí el matiz que no me voy a saltar. El estudio midió benchmarks. No midió desenlaces en pacientes. Que un modelo responda mejor en una prueba no demuestra que tu paciente termine mejor. Son planos distintos, y mezclarlos sería deshonesto.

La brecha de validación, en palabras simples

Las dos herramientas aprobadas pasaron las evaluaciones que el regulador definió. Cumplieron. El problema es lo que esas evaluaciones no incluyeron: una comparación contra las alternativas no reguladas. Nadie las puso al lado de un GPT-5.2 para ver quién respondía mejor. El proceso certificó que la herramienta era segura para lo que prometía, no que fuera la más capaz disponible.

A esa distancia el estudio la llama brecha de validación. Lo que aprobó el regulador y lo que midió este trabajo son cosas diferentes. Y esa brecha sigue abierta.

Por qué el sello todavía importa

Tentación fácil: si lo aprobado rinde menos, ignoro el sello y uso lo que puntúa mejor. No tan rápido.

El sello no certifica solo capacidad. Certifica trazabilidad. Cuando una decisión clínica sale mal, alguien tiene que poder reconstruir en qué se apoyó. Una herramienta aprobada deja un rastro auditable: versión, alcance, límites declarados. Un modelo general que cambia de versión cada pocas semanas, no. Esto es viejo conocido en cualquier industria que responde por sus decisiones. Lo conté antes en por qué los sectores regulados adoptan la IA distinto: primero preguntan quién firma, después qué tan listo es.

Y cuando la decisión reparte un recurso escaso, la pregunta de la responsabilidad pesa más que la del rendimiento. Lo desarrollé en cuando una IA reparte camas de UCI y la pregunta de quién responde. Capacidad y responsabilidad viajan por carriles separados.

Lo que un médico debería hacer con esto

Nada heroico. Saber que aprobado y mejor ya no son sinónimos automáticos.

Si usas una herramienta con sello, no asumas que es la más afilada del mercado solo porque pasó el trámite. Puede que no lo sea. Si te apoyas en un modelo general porque responde mejor, no asumas que está validado para uso clínico solo porque acertó en tu última consulta. No lo está. La herramienta aprobada te da con qué responder ante una junta médica. El modelo general, a veces, te da una mejor primera lectura. Tenerlo claro es parte del oficio ahora.

No hay moraleja limpia aquí. Hay una tensión que vas a administrar tú, caso por caso, sabiendo que el dato disponible mide pruebas y no pacientes.

El número que conviene no olvidar

Tres modelos sin aprobación clínica superaron a dos herramientas con aprobación regulatoria en la totalidad de los benchmarks médicos del estudio. No en la mayoría. En todos. Ese es el dato, y todavía no lo cierra ningún regulador.

iamedicinaregulacion

Cada martes desarmo una decisión real de operación, con el razonamiento completo. Léela si diriges tu propia práctica. Suscribirme a Exoesqueleto Cerebral.

Qué midió el estudio sobre IA médica aprobada (y qué no)

La brecha de validación, en palabras simples

A esa distancia el estudio la llama brecha de validación. Lo que aprobó el regulador y lo que midió este trabajo son cosas diferentes. Y esa brecha sigue abierta.

Por qué el sello todavía importa

Tentación fácil: si lo aprobado rinde menos, ignoro el sello y uso lo que puntúa mejor. No tan rápido.

Lo que un médico debería hacer con esto

Nada heroico. Saber que aprobado y mejor ya no son sinónimos automáticos.

No hay moraleja limpia aquí. Hay una tensión que vas a administrar tú, caso por caso, sabiendo que el dato disponible mide pruebas y no pacientes.