Natzir Turrado

Cómo calcular el Quantum PageRank en el ordenador cuántico de IBM

Natzir Turrado — Sun, 31 May 2026 17:46:59 +0000

He hecho un experimento un poco absurdo y muy divertido. He cogido el grafo de enlaces de este blog, traduje el PageRank a su versión cuántica y lo ejecuté en una de las máquinas cuánticas que IBM tiene en la nube, algo que nunca nadie ha hecho hasta el momento

¡Y funcionó! Hay un identificador de trabajo (d8e52hhvjngc73ant800, por si alguien quiere comprobarlo) que demuestra que el circuito corrió en un chip de IBM y no en una simulación.

Antes que pierdas el tiempo aquí te aviso ya... para SEO no sirve de nada. Pero si eres un nerd, seguro que querrás seguir leyendo.

A continuación explico de dónde sale la idea, qué hice exactamente y por qué Google no haría esto ni queriendo.

No hace falta saber física porque voy a explicarlo todo para que se entienda.

El PageRank simula un navegante que va dando tumbos aleatorios por Internet...

La definición original de PageRank (Brin y Page, 1998) es recursiva y un poco circular, es decir, que una página es importante si la enlazan páginas importantes, que a su vez lo son si las enlazan otras importantes, y así hasta el infinito. Lo cual tiene un problema gordo, ya que eso es imposible de calcular.

Para que eso fuera calculable, Brin y Page lo explicaron con un modelo que acabó siendo hasta más famoso que la propia fórmula: el del random surfer (el navegante aleatorio).

Imagina a alguien navegando sin rumbo que entra en una página, pincha un enlace al azar, llega a otra, pincha otro, y así durante horas. De vez en cuando se aburre y, en lugar de seguir un enlace, salta a una página cualquiera del sitio (ese es el famoso damping factor de 0,85, es decir, el 85% de las veces sigue un enlace, el 15% salta). El PageRank de una página es la fracción de tiempo que el navegante pasa ahí.

Lo que mola de esto es que los dos caminos dan exactamente el mismo resultado. La definición recursiva y el tiempo que pasa el navegante coinciden hasta el último decimal.

Quédate con lo del navegante aleatorio porque esto con la versión cuántica del PageRank va a cambiar. En matemáticas el navegante es una cadena de Markov y lo único que decide el siguiente paso es dónde estás ahora y no cómo llegaste. Un ordenador normal esto se resuelve en un momento, incluso para la web entera es trivial y eficiente. Yo lo implementé en 2011, después de una discusión en Twitter, y el código me cabía en media pantalla.

...y la versión cuántica cambia el dado por una onda

En 2012, dos físicos (Giuseppe Paparo y Miguel Ángel Martín-Delgado) publicaron en Scientific Reports un artículo titulado Google in a Quantum Network. Se preguntaron: ¿y si en vez de un navegante que tira un dado en cada paso, pones uno que se comporta como una onda?

El navegante clásico está siempre en una página concreta, pero el navegante cuántico está repartido por muchas páginas a la vez, en lo que se llama una superposición. Y los distintos caminos que podría tomar interfieren entre sí, como las olas en el agua, que en unos puntos se suman y en otros se cancelan. Esa interferencia hace que la "probabilidad" de acabar en cada página se reparta de una forma distinta a la clásica.

Y esto se vuelve SUPER pesado de calcular porque el estado del navegante cuántico es de qué página vengo y a cuál voy. Es decir, si tu sitio tiene N páginas, los pares posibles son N por N, o sea N². Para las 123 páginas de mi blog eso son unos 15.000 estados posibles.

El motor de todo este invento se llama walk de Szegedy. Vamos, que el algoritmo no es mío, lo único que hago yo es aplicarlo a mi blog. Lo que sí es nuevo, es haberlo ejecutado en un ordenador cuántico de verdad, porque Paparo y compañía lo simularon en ordenadores normales. Nadie, hasta donde he podido ver, había metido el quantum walk de una web real en un chip cuántico físico.

Antes de empezar, repliqué el ejemplo que ellos publican en el paper, un arbolito de 7 nodos en 3 niveles, con unos valores concretos en una tabla y el código tenía que devolver esos mismos números y los devolvió, con cuatro decimales de acuerdo. A partir de ahí supe que íbamos por el buen camino.

Sobre mis datos también reaparecen los hallazgos que ellos describen en su paper: el ranking se reordena, emergen "hubs secundarios" que el clásico no destacaba, la cola de páginas poco enlazadas se redistribuye. Hay una afirmación suya que no logré reproducir bien, la mayor estabilidad frente al damping, pero es que esa propiedad necesita promediar sobre muchos grafos distintos y yo tengo uno solo. Lo digo para no venderte algo que no vi.

Calculando el Quantum PageRank de mi blog en el ordenador cuántico de IBM

Cogí un trozo pequeño del blog (luego entenderás la razón), solo 4 páginas que se enlazan entre sí (la home, el índice de artículos y dos posts), y mandé el circuito al ibm_marrakesh, con un procesador de 156 qubits.

El resultado es curioso, el PageRank clásico de ese grupito corona el índice de artículos por encima de la home. La versión cuántica le da la vuelta y pone la home primero. Y he comprobado que no se trata de un error, porque el cálculo ideal simulado lo predice y el chip, con su ruido y todo, lo respeta. Así que la home gana.

La barra de la home en el chip sale más alta de lo que debería. Resulta que un qubit, si lo dejas quieto, pierde energía y cae a su estado de reposo, el que etiquetamos como |0⟩ (se lee "ket cero" y es un qubit a cero). Es como una peonza que, según se va frenando, tiende a pararse siempre en la misma posición. A eso se le llama relajación, y como estos circuitos son largos, a muchos qubits les da tiempo a dormirse hacia el 0 antes de que midamos. El resultado se sesga hacia la cadena de todo ceros, el |00⟩ ("ket cero cero" = dos qubits en cero).

¿Y por qué le toca justo a la home? Porque por cómo numeré las páginas, la home es la número 0, que en binario es justo |00⟩. La tendencia natural del chip a caer en |00⟩ se confunde entonces con que el navegante terminó en la home. Parte de esa barra alta es lícita, porque el cálculo ideal también pone la home primera, pero otra parte es este artefacto ya que el chip mezcla haberse relajado al |00⟩ con que haya ganado la home.

Para limpiarlo usé dos técnicas estándar. La primera, dynamical decoupling, mete pulsos rápidos en los ratos en que un qubit está esperando sin hacer nada, para que no se duerma (es como ir dando toquecitos a la peonza para que no se pare). La segunda, twirling, repite el experimento muchas veces cambiando al azar pequeños detalles de cómo se aplican las puertas, de modo que un error que siempre tira hacia el mismo lado se vuelve ruido aleatorio que se cancela al promediar. En vez de equivocarte igual siempre, te equivocas distinto cada vez y la media sale más limpia.

Con las dos, la diferencia entre lo que da el chip y el cálculo ideal se redujo a la mitad, y la barra de la home bajó hacia donde tenía que estar. Aun así, que quede claro... sigue siendo un experimento de juguete de 4 nodos.

¿Y por qué no puedo correr el blog entero?

Por el muro. Para ejecutar el walk de Szegedy en un chip cuántico hay que traducirlo a "puertas" que son las operaciones elementales del procesador. Las que fastidian son las de 2 qubits, porque cada una añade un poco de ruido. Y el número de puertas crece de forma brutal con el tamaño del grafo:

Con 4 páginas son unas 180 puertas de 2 qubits sobre el chip y aún se distingue algo. Pero con 8 páginas saltas a unas 3.700 puertas, y a esa profundidad la probabilidad de que el circuito sobreviva sin un error es de aproximadamente 0,99 elevado a 3.700, que es prácticamente cero. El resultado es pura basura uniforme. Podéis ver que el cálculo ideal de esas 8 páginas tiene una estructura clara, pero lo que escupe el chip es indistinguible de tirar un dado.

Para el blog completo, 123 páginas, harían falta del orden de 270 millones de puertas, o lo que es lo mismo, ciencia ficción. Y ojo porque aquí yo creía que es por un problema de qubits pero no. Para 123 páginas bastarían unos 14 qubits y los chips de hoy tienen cientos. El problema es la profundidad del circuito y el ruido que acumula el mismo. Así que ahora entiendo porqué los propios inventores de la fórmula nunca lo han acabado metiendo en hardware, ahora incluso que es posible, y se limitaron a simularlo en una CPU, donde todo esto es trivial.

Para curiosos, este es el circuito que ha habido que montar para 4 urls:

Desplázate en horizontal para recorrer el circuito completo.

¿Cambia el ranking? Sí, pero no para mejor

Así que he hecho lo mismo que realizaron los inventores, hacer una simulación de PR cuántico usando el blog entero. Así podremos ver si computo el PageRank cuántico de las 123 páginas me dice algo que el clásico no.

Por un lado, veo que los dos rankings se parecen bastante en conjunto. La correlación de Spearman entre ambos es de 0,85, lo cual es alto. Pero por otro lado, lo que veo que cambia es el "head" de mi blog, es decir las 10 primeras páginas del ranking clásico, solo 4 siguen en el top 10 cuántico, y la 1 cambia. Más de la mitad de las páginas se mueven 10 puestos o más.

¿Y qué hago con eso como SEO? Nada. Es otra medida de centralidad, distinta y matemáticamente legítima. Pero no hay ninguna razón para pensar que su orden sea el "bueno", el que importa para posicionar. Es simplemente diferente, no mejor.

¿Tendría sentido que Google hiciera esto?

No. Y vale la pena entender por qué y así entendemos para qué sirve de verdad un ordenador cuántico:

Primero: El PageRank ya se calcula rapidísimo en ordenadores normales. Es lo que en informática llamamos un problema "fácil", de coste polinómico, donde no hay nada que acelerar.
Segundo: la versión cuántica tampoco es más rápida. Suena raro después de todo el rollo del espacio de N², pero resulta que toda la acción ocurre en un rincón pequeño de ese espacio (de tamaño proporcional a N, no a N²), así que un ordenador normal solo necesita seguir ese rincón. No da ventaja de velocidad, es tan solo un ranking distinto.
Y tercero: ejecutarlo en un chip cuántico a escala web es imposible por el muro que acabo de contar.

Un ordenador cuántico es una herramienta para problemas muy concretos donde se ha demostrado que gana como factorizar números enormes (lo que rompería parte de la criptografía actual), simular el comportamiento de moléculas y materiales, ciertos tipos de búsqueda y optimización.

PageRank no es uno de esos. Es barato computacionalmente y meterlo en una máquina cuántica es traer un instrumento carísimo y frágil a una tarea que un portátil ya hacía en un momento.

Llevo años leyendo mucho sobre cuántica, y la lección que he sacado es que la mayoría de los problemas que tenemos actualmente no son del tipo que un cuántico resuelve mejor. A continuación os cuento la razón.

La historia de descuantizar

En 2018, una estudiante de grado de 17 años, Ewin Tang, hacía su tesis con Scott Aaronson (super fan de este señor) en la Universidad de Texas en Austin. Le pusieron demostrar que cierto algoritmo cuántico de moda, uno de sistemas de recomendación (el de Kerenidis y Prakash, el tipo de motor que hay detrás de "productos que también te pueden gustar"), no se podía igualar con un ordenador normal. Se pasó meses intentando probar esa imposibilidad, hasta que empezó a sospechar justo lo contrario. Acabó construyendo un algoritmo clásico que igualaba al cuántico y que era exponencialmente más rápido que cualquier intento clásico anterior. Así que el supuesto superpoder cuántico no estaba donde se pensaba.

A esa maniobra ahora se la llama ahora descuantizar. Consiste en coger un algoritmo cuántico que presume de ir exponencialmente más rápido y encontrar uno clásico que hace lo mismo. Desde el trabajo de Tang han caído unos cuantos, entre ellos versiones cuánticas de recomendación, de análisis de componentes principales, de resolución de sistemas lineales o de máquinas de vectores soporte. Vamos, que la "ventaja cuántica" salía de compararse contra un método clásico mediocre, no contra el mejor que había. En cuanto alguien se molestaba en buscar el mejor clásico, la ventaja se evaporaba.

El Quantum PageRank es lo mismo, un invento caro.

Para qué ha servido esto

Como experimento está muy bien. Es investigación de verdad, ejecutada por primera vez en hardware cuántico, y sobre el grafo de mi web. He visto cómo se traduce un algoritmo a "puertas", el problema del muro del ruido y por qué los qubits no son el cuello de botella.

Como herramienta SEO no vale nada, aviso por si algún GEO bro le da por venderte un "Prompt Tracker Cuántico", aunque bueno... devolviendo visibility scores de Schrödinger, algo cuánticos sí que lo son.

Consejo: Si quieres trastear con un ordenador cúantico, IMB te da 10 minutos gratis de cómputo al mes. Aprende a factorizar números enormes o simula una molécula. Para rankear páginas, sigue bastando el navegante que va dando tumbos de forma random.

Lo único útil que saqué fue por accidente

En la primera pasada, el cálculo cuántico me rescató del fondo del ranking a 2 páginas que el clásico tenía enterradas. Me emocioné un segundo pensando que había encontrado algo. Fui a mirar qué páginas eran y resultó que una era una redirección 301 y la otra un enlace interno roto, un 404, que se me habían colado como nodos del grafo. El "hallazgo cuántico" eran mis propios fallos de enlazado...

O sea que lo más accionable de todo el experimento fue que me obligó a limpiar dos enlaces rotos. Usar un ordenador cuántico para esto no tiene precio

Metodología y datos

El grafo sale de un rastreo con Screaming Frog (el informe All Inlinks). Los nodos son las URLs internas y las aristas son los enlaces internos. Filtré a enlaces de tipo Hyperlink, con atributo follow y respuesta 200, sin duplicados, y de ahí salen 1.091 aristas. Para el análisis del post me quedo solo con los enlaces que viven en el contenido (503 aristas), no en el menú, la cabecera o el pie, porque el sitewide reparte autoridad de una forma que no dice nada sobre la importancia editorial de cada página. Damping de 0,85 y teletransporte uniforme, tal y como lo plantea Paparo.

El código, por si quieres reproducirlo

Dejo las dos piezas de código listas para copiar. La primera es el motor del Quantum PageRank y solo necesita NumPy. Ya trae de ejemplo el árbol de Paparo, así que al ejecutarla deberías ver sus números de la Tabla 1. La segunda ejecuta el walk en un ordenador cuántico de IBM con Qiskit (necesitas una cuenta gratuita y haber guardado tus credenciales con QiskitRuntimeService.save_account(...)).

Quantum PageRank simulado (Python, solo NumPy)

La evolución del Query Augmentation: Del Query Expansion al Agentic Search

Natzir Turrado — Thu, 21 May 2026 13:09:43 +0000

Google ha anunciado en Search I/O lo que han definido como "a new era for AI Search". Vamos, que Google entra oficialmente en la era de los Search Agents que operan 24/7 en background, razonando entre fuentes y notificándote cuando algo cambia.

Cuando leí el anuncio pensé en la charla que di en septiembre de 2025 en un evento de SISTRIX (la siguiente imagen es una slide de la misma). Allí ya hablaba de la búsqueda agentic como una nueva forma de expandir queries, un paradigma distinto al Query Fan-Out (aunque se nutra de él), y Google por fin se ha atrevido a sacarlo a producción.

Lo ha empaquetado como Search Agents, en vez del Agentic Search con el que la industria lleva tiempo refiriéndose a esto, pero la dirección técnica era evidente para cualquiera que llevara siguiendo la tecnología de los últimos años.

El Query Fan-Out no era nuevo en 2023, los SEOs llevamos lidiando con esto desde los 2000 y el Agentic Search no es una sorpresa en 2026... vamos, es la culminación de 25 años de evolución del Query Augmentation.

Este post es la continuación natural de mi artículo sobre búsqueda híbrida. Si aún no lo has leído, te recomiendo empezar por ahí.

1. ¿Qué es el Query Augmentation y por qué existe?

Un buscador es un sistema con varias capas que trabajan en equipo: una parte busca por palabras exactas, otra interpreta significados, y luego hay varios módulos que deciden qué merece estar arriba. Todo eso lo expliqué en el post de búsqueda híbrida.

Pero antes de que el motor pueda buscar algo, tiene que entender lo que le has pedido. Y aquí está parte de la magia: tu query, tal y como la escribes, casi nunca se usa literalmente. Se reescribe, se expande, se traduce, se generaliza, se especifica. A eso es a lo que se llama Query Augmentation.

La razón es porque el usuario es ambiguo, perezoso e imperfecto. Escribe mal, usa sinónimos, omite contexto, mezcla idiomas. Y el motor necesita transformar esa caja de Pandora en algo que sus índices puedan responder con precisión.

El Query Augmentation es la capa que convierte lo que tú escribes en lo que el motor busca.

Esa capa ha pasado por varias generaciones, cada una corrigiendo las limitaciones de la anterior. Vamos a verlas.

2. La evolución, año a año

2000 - Query Expansion: el corrector ortográfico

Al principio era todo muy literal. Si escribías mal, no encontraba nada. Así que lo primero que metió Google fue corrección ortográfica, stemming/lematización, sinónimos básicos con WordNet y co-ocurrencias. El famoso "¿Querías decir…?".

Hay un ejemplo precioso que Google compartió hace más de una década: una tabla con todas las formas en que la gente escribía mal "Britney Spears". Más de 600 variaciones. Brittany spears, britny, briteny, britney, brytney, brritney… Es divertido verlo ahora, pero ese era el estado del arte, tablas literales con misspellings

Y aquí va una curiosidad que sigo usando años después: el footprint del doble tilde (~~) para desactivar el sistema de sinónimos de Google. ¡Y todavía funciona! En los 2000, añadir un caret (^) activaba el matching de sinónimos. Después Google lo hizo behavior por defecto. Pero si quieres desactivarlo, todavía puedes escribir ~~viajes y verás cómo cambia la SERP. Pruébalo.

Impacto: encontrabas resultados aunque escribieras mal o usaras otra palabra.
Limitación: no entendía nada de la intención. Solo igualaba tokens.

2013 - Hummingbird: el primer salto semántico

Hummingbird es cuando Google empieza a jugar en serio con la semántica. Aquí entra el Knowledge Graph y empieza a usarse contexto conversacional. Ya no solo busca palabras, entiende entidades e intenciones.

Si preguntabas "¿quién ganó ayer?", no te devolvía páginas con esas palabras, te devolvía directamente el resultado del partido del equipo que solías seguir, basado en tu contexto anterior.

Impacto: te entendía aunque no usaras las palabras exactas.
Limitación: seguía dependiendo de que el concepto estuviera en el Knowledge Graph.

2015 - RankBrain: la entrada del deep learning

RankBrain fue la entrada real de lo neuronal en el ranking. Usando embeddings consigue mapear consultas raras a equivalentes más frecuentes. Si alguien busca "médico del corazón", RankBrain entiende que lo que quiere es un cardiólogo.

Es el momento en que Google empieza a cubrir la long-tail de verdad. Y, técnicamente, es cuando Google se convierte en un sistema híbrido donde junta lo mejor de ambos mundos: la búsqueda léxica (BM25) con una capa densa de significado semántico por encima.

Impacto: cobertura real de queries nunca vistas.
Limitación: traduce queries raras a frecuentes, pero no entiende contexto fino.

2018 - Neural Matching: los super-sinónimos

Neural Matching, lo que Google llamó "super-sinónimos". Aquí el buscador ya puede conectar conceptos sin compartir ni una palabra.

Ejemplo: "cómo aliviar el estómago revuelto" lo alinea con documentos que hablan de "náuseas", aunque esa palabra no aparezca en tu query. Esto va más allá de la expansión léxica, es alineamiento de intención a nivel neuronal.

Impacto: encuentra contenido relevante sin solapamiento de vocabulario.
Limitación: no es contextual palabra a palabra. Sigue tratando la query como un blob de intención.

2019 - BERT: contexto palabra a palabra

Con BERT el salto es aún más potente porque el buscador ya entiende el contexto palabra a palabra. Entiende preposiciones, negaciones, el orden de las frases.

Antes Google confundía "viajes a Nueva York desde Madrid" con "viajes desde Nueva York a Madrid". Con BERT deja de equivocarse en esas cosas. La desambiguación sintáctico-semántica se hace dentro del propio modelo.

Impacto: matices, negaciones, preposiciones. Menos malentendidos.
Limitación: monolingüe en su mayor parte y solo texto.

2021 - MUM: multitarea, multilingüe, multimodal

MUM es un BERT con esteroides: multitarea, multilingüe y multimodal.

Puede usar lo que sabe en un idioma para responder en otro, y combinar texto con imágenes o vídeos. Si preguntas "consejos para subir el Fuji", puede sacar información de guías en japonés o de fotos, aunque tú lo hayas preguntado en español.

Google luego matizó que MUM solo lo usa para featured snippets, Google Lens, topics relacionados de YouTube y poco más. Pero conceptualmente abrió la puerta que el conocimiento ya no esté atado al idioma de la query ni a un documento de texto.

Impacto: cobertura más allá de idioma y formato.
Limitación: muy costoso, uso restringido a casos específicos.

2023 - Query Fan-Out: query augmentation en esteroides

Y en 2023 empieza el Query Fan-Out. Aquí el buscador ya no se conforma con tu query tal cual, sino que genera múltiples sub-queries en paralelo: equivalentes, especificaciones, generalizaciones, traducciones, clarificaciones.

Es como si lanzara un abanico de preguntas para asegurarse de cubrir todos los ángulos, y luego selecciona las mejores. Lo explicaré con más detalle en la siguiente sección porque la base de lo que Google acaba de anunciar.

2024 - Agentic Search: el siguiente nivel

Aquí el sistema genera queries, mira resultados, evalúa si le valen, reescribe, vuelve a buscar. Es un bucle iterativo, casi como si tuviera un pequeño investigador dentro que sabe cuándo profundizar más o cuándo cambiar de enfoque. Esto le permite resolver preguntas mucho más complejas, paso a paso.

Cuando di mi charla en septiembre de 2025, ya estaba claro que esto venía. Lo que no sabía era que Google le iba a poner de nombre oficial "Search Agents".

3. Query Fan-Out: el retrieval de los chatbots LLM

En la patente es US20230281193A1 de Google: "Generating query variants using a trained generative model" se describe cómo un sistema con un Variant Engine, un Controller Engine y un Generative Model toma tu query y produce un árbol de variantes.

Las variantes son al menos ocho:

Tipo de variante	Qué hace	Ejemplo sobre "qué es el cortisol"
Equivalencia	Misma intención, otra forma	"what is cortisol", "definición de cortisol"
Generalización	Sube de categoría	"qué son las hormonas del estrés", "cómo funciona el sistema endocrino"
Especificación	Baja a facetas concretas	"cortisol en análisis de sangre", "efectos del cortisol en el sueño"
Follow-up	Expansión exploratoria	"cómo bajar el cortisol", "relación cortisol y estrés"
Canonicalización	Normalización de ruido	"que es el cortisol" (sin tildes, normalizada)
Traducción	Corpus multi-idioma	"what is cortisol", "cortisol hormone definition"
Implicación	Reformulación con hechos	"cortisol es una hormona", "cortisol e inflamación"
Clarificación	Desambiguación	"cortisol vs cortisona", "cortisol en biología o psicología"

Cada una de esas variantes se lanza en paralelo. Cada una tiene su propio retrieval (léxico + vectorial, fusionado con RRF, como expliqué aquí). Cada una devuelve sus candidatos. Y luego un controlador dinámico (probablemente entrenado con Reinforcement Learning) decide qué variantes han aportado señal útil, cuáles descartar, y si necesita lanzar más.

Es importante entender que el fan-out no es determinista. Si haces la misma query dos veces, no obtienes exactamente las mismas variantes. Eso es lo que rompe la mayoría de las herramientas de "AI visibility tracking" que se venden por ahí, como ya conté en mi artículo sobre prompt trackers.

Y oye, esto es algo que no puedes replicar. La razón es que Google tiene piezas a las que nosotros no tenemos acceso:

Señales internas: scores, clics y answer quality de cada variante. Sin ese feedback el loop se rompe.
Controlador con RL: una política que decide cuántas variantes lanzar y cuándo parar, entrenada con recompensas invisibles para nosotros.
Multitarea: ocho tipos de variantes y un modelo que sabe cuándo aplicar cada una. Podemos copiar el patrón, no la decisión.
Histórico masivo: millones de queries y clics reales etiquetando implícitamente qué funciona. Ese dataset no existe fuera de Google.
Selección dinámica de modelo: cambia de modelo según intención, dispositivo o cohorte y nosotros no usaríamos el suyo.
Recompensas basadas en answer quality: el sistema para cuando la respuesta es suficientemente buena, no por número de variantes. No tenemos esa métrica.
Personalización: historial, ubicación, contexto reciente y, ahora, Gmail/Photos/Calendar vía Personal Intelligence.

Vamos, imposible de replicar desde fuera, por mucho Dunning-Kruger que lo intente:

Es como querer montar un F1 con piezas de Lego... puedes imitar la forma, pero nunca la velocidad. Pero tampoco importa. Y aquí está el matiz que se les escapa a los GEO Bros porque la respuesta SEO al fan-out no es simularlo o incorporarlo de facto, es darle crear páginas robustas que cubran léxica y semánticamente tanto la query original como sus expansiones. El proceso que los SEOs llevamos haciendo históricamente. Lo expliqué en detalle en el artículo sobre por qué trocear tu contenido es malo para tu SEO y para la IA.

La genealogía del Fan-Out

El Query Fan-Out no aparece de la nada en 2023. Como comenté en la charla, es la culminación de años de investigación en cómo generar consultas sintéticas:

doc2query / Document Expansion (2019-2020): generar queries sintéticas desde documentos para entrenar al sistema a recuperarlos.
Adolphs et al. (2022, ETH/Google): Latent Space Decoding. Decodificar directamente desde el espacio de embeddings. El puente entre doc2query y fan-out.
HyDE (2022-2023): Hypothetical Document Embeddings. Generar documentos hipotéticos desde una query y usar sus embeddings para buscar.
WO2024064249A1 (2024): formaliza el Synthetic Query Training, generar queries desde docs para entrenar retrievers offline.

Así que el Fan-Out no surge de la nada, es la culminación de años de investigación en cómo generar consultas sintéticas. Lo nuevo es que ahora no se queda en el training y lo hace en vivo, cada vez que preguntamos.

4. Search Agents: lo que Google acaba de anunciar

Vamos a lo que ha pasado esta semana. Liz Reid lo dijo así en el post de Search I/O 2026:

"We're entering the era of Search agents, where you can easily create, customize and manage multiple AI agents for your many tasks, right in Search."

Information agents que operan 24/7 en background. Le dejas un brief tipo "avísame cuando salga un piso en Majadahonda con 4 habitaciones por menos de X", y un agente escanea continuamente todo... blogs, news sites, social posts y los datos frescos de finance, shopping y deportes de Google para detectar cambios. Cuando encuentra algo, te manda una notificación con una síntesis y la posibilidad de tomar acción.
Esto es el bucle iterativo de la búsqueda agentic, pero ahora persistente en el tiempo. La query se convierte en una suscripción a un problema.
Agentic booking en categorías nuevas. Locales, servicios, experiencias. "Encuéntrame una sala de karaoke privada para seis personas un viernes por la noche que sirva comida tarde". Google trae precios y disponibilidad y te lanza directo a reservar. Y en categorías como reparaciones del hogar, beauty o pet care, Google puede llamar al negocio en tu nombre. Esto último ya lo probé el año pasado cuando tuve acceso al a beta.
Generative UI en la respuesta. Google trae a Search por fin la capacidad de Antigravity y de agentic coding de Gemini 3.5 Flash. Digo por fin porque lo anunciaron en noviembre. Ahora la respuesta puede ser una UI generada al vuelo, con visualizaciones, simulaciones, tablas, gráficos. Prompt Tracker gonna hate. Y para tareas continuas como planificar una boda, gestionar una mudanza, Search te construye un dashboard persistente, como una especie de mini-app que vives volviendo a usar.
Personal Intelligence en 200 países y 98 idiomas. Conectas Gmail, Photos y pronto Calendar, y AI Mode los usa como contexto y sin suscripción. Las IAs conectadas a tools van a personalizar la respuesta tanto que ningún prompt tracker tendrá sentido.

5. Qué significa esto para tu SEO

Bien, ya sabemos cómo ha evolucionado el Query Augmentation desde "did you mean…" hasta agentes 24/7. Ahora te preguntarás: ¿y yo qué hago con esto? LO DE SIEMPRE.

1. Posicionarte en Google

Este es un estudio que llevo haciendo desde noviembre del 24' y se cumple siempre. La correlación entre el número de citaciones y estar posicionado en el top-3 de Google es altísima. No solo hay correlación de Spearman, si no también de Pearson, o lo que es lo mismo, que hay correlación lineal y de magnitud.

2. Ser accesible

Estar en Google y ser fuente de grounding no basta si el bot no entra. Puedes estar en el top 1, formar parte del grounding interno del modelo, ser citado como fuente, y aun así desaparecer en la respuesta visible. Si el bot no puede entrar a evaluar tu contenido, todo lo anterior se cae.

He observado que una de la causas más frecuentes de ghost citation es por motivos técnicos. A veces no es un problema de marca o de tu contenido. Es un problema de que la IA no puede leerte cuando va a buscarte.

Dos formas habituales de romper este último eslabón es bloqueos del WAF y cuando tu contenido se renderiza con JavaScript y el bot solo ve el shell.

3. Trabajar la entidad

Los LLMs no potencian a las marcas por casualidad. Se entrenan con el corpus del conocimiento humano.

La razón es que los modelos de IA trabajan en lo que llaman monosemanticidad. Hay “neuronas” que se activan cuando el modelo detecta un concepto muy concreto, por ejemplo, “dirección de correo electrónico” o “nombres de ciudades.” La idea la explica un estudio reciente de Anthropic y se asemeja de nuevo al viejo concepto SEO semántico de “entidades” y “desambiguación”.

A su vez, los modelos almacenan “hechos” en sus capas internas. Típico ejemplo: Michael Jordan → Basketball. Esa asociación se graba en la red, específicamente en los multi-layer perceptrons (MLPs).

El SEO lleva toda la vida trabajando entidades... ¡y menciones! ¿Cómo se construye una entidad? Lo resumo aquí:

Mediante owned content: tu contenido tiene que ser claro, valioso, con autoría y datos que cubran el árbol de variantes posibles. Y creo que la autoridad temática se vuelve más importante y más decisiva por funcionamiento del RRF.
Mediante earned content: que terceros te citen en contextos de recomendación. Esto es lo que mueve el prior del modelo.
Mediante una capa técnica: Explicar claramente lo que haces, ser coherente con las señales y ayudar a nutrir el KG de Google.

Siempre digo que las marcas son atajos mentales que nos reducen el tiempo y la molestia de buscar. Los LLM han heredado ese sesgo.

4. Los Search Agents SOLO cambian el modelo de visita

Si un agente está monitorizando 24/7 para un usuario entonces ya no estás compitiendo por que el usuario haga clic ahora. Estás compitiendo por que el agente te elija como fuente de monitorización fiable y constante. Entiendo que esto premiará la frescura, fiabilidad y machine-readability de tu contenido a lo largo del tiempo, es lo que decidirá si cambiará de fuente o use la misma. Como decía antes, ahora las personas se "suscribirán" a una query.

La entrada La evolución del Query Augmentation: Del Query Expansion al Agentic Search se publicó primero en Natzir Turrado.

AI Performance: Cómo exportar el mapping completo de queries y páginas citadas de Bing Webmaster Tools (bookmarklet)

Natzir Turrado — Mon, 18 May 2026 19:39:17 +0000

Bing añadió en marzo el Grounding QueryPage Mapping dentro del AI Performance report de su Webmaster Tools, con la idea de poder ver qué queries activan citaciones a qué URLs concretas en las respuestas de Copilot, partners y APIs que sirven a productos de terceros). Para entenderlo bien estos son los 2 conceptos que tienes que conocer:

Citations: cuántas veces tu contenido es referenciado por AI systems.
Grounding queries: Son las queries que el AI utilizó internamente para hacer retrieval, no necesariamente lo que el usuario escribió. El AI reescribe, expande y normaliza la consulta antes de buscar.

El problema es que si quieres sacar las grounding queries de cada página, o al revés, tienes que ir de una en una y en los exports esta info no está mapeada. Y para sitios con cientos de queries y miles de páginas, eso es inservible.

En su día me construí un workaround haciendo el matching por similitud semántica, pero no es lo mismo.

He construido un bookmarklet que extrae todo el mapping y lo descarga como 3 CSVs listos para Excel o Sheets. Se ejecuta en tu navegador con tu sesión, sin enviar datos a ningún servidor externo. Si la cuenta se topa con el rate-limit de Bing, espera y reintenta sola, así que no te preocupes, hay que tener paciencia. Puedes dejar la pestaña abierta y sigue haciendo tus cosas en otra.

Instalación del bookmarklet

Arrastra este botón a tu barra de favoritos:

Bing AI Performance Exporter

Arrastra el botón a la barra de favoritos. Si haces click aquí no hace nada (los bookmarklets solo funcionan sobre la página objetivo).

Si tu barra de favoritos no se ve, actívala con Cmd+Shift+B (Mac) o Ctrl+Shift+B (Windows).

Cómo usarlo

Entra en Bing Webmaster Tools y abre el report de AI Performance de la propiedad que quieras analizar.
Elige el rango temporal: 7 días, 30 días, 3 meses o Custom. El bookmarklet detecta automáticamente cuál tienes activo.
Haz click en el bookmark de la barra de favoritos.
Verás un panel con spinner y progreso en vivo. Cuando termine, te ofrece 3 CSVs.
Si Bing te rate-limita en mitad del proceso, el bookmarklet espera 5 min y reintenta solo. No tienes que hacer nada.

Tiempos esperados:

Tamaño del sitio	Tiempo aproximado
5-20 queries / pages	~5 segundos
~100 queries / ~250 pages	~2 minutos
~500 queries / 1.000 pages	~8-10 minutos
~1.000 queries / 2.000 pages	~15-20 minutos
2.500+ queries (enterprise)	30-60 min, con autoespera por rate-limit

Qué hace si Bing te rate-limita

Cuando Bing detecta demasiadas peticiones, el bookmarklet:

Muestra "Bing throttled. Auto-resuming in 5m 0s. Keep this tab open."
Espera exactamente 5 minutos.
Hace un probe ligero al API.
Si el API responde OK, continúa desde donde se quedó.
Si sigue throttled, espera otros 5 minutos y vuelve a probar. Repite hasta 12 ciclos (1 hora máxima de espera).

Todo lo que llevas mapeado queda guardado en localStorage del navegador. Si por lo que sea cierras la pestaña o recargas, al volver a clicar el bookmark hace resume automático con lo que llevabas. Nunca pierdes la data

Lo único que tienes que hacer es no recargar la pestaña mientras está esperando. Si recargas y Bing está fuerte con el rate-limit, puede que veas una página con un mensaje JSON de "too many requests": eso es normal... recargas en 10 min y la web vuelve y puedes seguir con el proceso, pero mejor no hacerlo.

Qué obtienes

Tres CSVs con prefijo bing-aip___:

`mapping.csv`

El mapping completo en formato largo. Una fila por combinación query+URL con sus citations. Sirve tanto para pivot "queries por página" como "páginas por query" en Excel o Sheets sin tener que hacer joins.

`queries-summary.csv`

Una fila por query: total de citations y cuántas páginas tiene mapeadas.

`pages-summary.csv`

Una fila por página con citations totales, mapeadas, sin mapear y número de queries asociadas. Esta es la tabla más interesante porque expone el sample-bias de Bing en la columna unmapped_citations: páginas con citations totales pero sin queries identificadas en el mapping (la API no las expone).

El sampling de Bing

La propia UI de Bing avisa que no es toda la data, es un sampling de la misma, o lo que es lo mismo, qu el mapping querypage que Bing expone es parcial. Para cada URL puedes ver el total de citations que tiene asociadas (cuántas veces fue referenciada por AI systems en total), pero solo una parte de esas citations Bing puede atribuirlas a una grounding query concreta vía el sample. El resto queda como "citations sin query identificada". A esta porción con query asociada la llamo citations mapeadas.

He probado en 6 sitios con perfiles muy distintos:

Sitio	Tipo	Pages	Citations totales	Citations mapeadas	Coverage
A	Sitio profesional, mono-locale, micro	13	142	35	24.6%
B	Tienda online vertical, mono-locale, pequeña	263	15.224	10.974	72.1%
C	Plataforma transaccional, multi-locale, mediana	2.380	77.164	31.185	40.4%
D	Plataforma servicios B2C, mono-locale, mediana	1.219	213.841	83.492	39.0%
E	Tienda online generalista, mono-locale, grande	4.912	1.820.471	845.247	46.4%
F	Plataforma transaccional, multi-locale, grande	4.751	9.628.043	9.297.849	96.6%

Conclusiones del cruce de cobertura:

El coverage va del 24% al 97% según el sitio. No hay patrón evidente de "más/menos volumen = mejor coverage": el sitio E (1.8M citations) tiene 46% mientras el sitio F (9.6M) tiene 97%. El comportamiento es parece errático, pero luego comparto algunas hipótesis en hallazgos.
El % de páginas que tienen alguna query mapeada es aún más bajo: típicamente entre 10% y 25% en sitios medianos/grandes. La mayoría de URLs citadas no tienen ninguna query asociada en el sample.
Para sitios pequeños (menos de 200 citations totales) el dato es prácticamente inservible. Solo se mapean las queries top.

El CSV pages-summary.csv te da esa información explícita en la columna unmapped_citations. Si una URL tiene 28 citations pero 0 queries mapeadas, esa página tiene tráfico generativo "fantasma" que Bing no te enseña de dónde viene.

¿Las grounding queries corresponden a demanda real de búsqueda?

Una pregunta que siempre he querido responder es si ¿esas queries existen como búsqueda real, o el AI grounding está generando unas queries que un humano no busca?

Para responderlo crucé los datos de grounding con dos fuentes:

Bing Webmaster Tools API: clicks e impressions de búsqueda en Bing por query, mismo rango temporal. La API capa a 6.700 records por llamada agregada, así que para sitios con miles de queries hay que hacer lookup query-por-query con GetQueryPageStats(query), una llamada por cada grounding query.
Google Search Console: impressions por query del mismo período, exportado a CSV.

¿Qué % de queries de grounding puedo encontrar en mi Search Console o Webmaster Tools? ¿Y cuántas son únicas del grounding, invisibles en mis informes habituales?

Para cada query que aparece en el reporte de grounding, miro si esa misma query también recibe impressions en Google Search Console (búsqueda normal de Google) y en Bing Webmaster Tools (búsqueda normal de Bing):

Sitio	Tipo	Total Q grounding	∩ 3 buscadores	Solo Bing	Solo Google	Solo grounding
A	Sitio profesional, mono-locale, micro	3	0 (0.0%)	0 (0.0%)	2 (66.7%)	1 (33.3%)
B	Tienda online vertical, mono-locale, pequeña	68	43 (63.2%)	7 (10.3%)	13 (19.1%)	5 (7.4%)
C	Plataforma transaccional, multi-locale, mediana	569	79 (13.9%)	25 (4.4%)	277 (48.7%)	188 (33.0%)
D	Plataforma servicios B2C, mono-locale, mediana	1.098	325 (29.6%)	38 (3.5%)	462 (42.1%)	273 (24.9%)
E	Tienda online generalista, mono-locale, grande	2.546	322 (12.6%)	28 (1.1%)	1.588 (62.4%)	608 (23.9%)
F	Plataforma transaccional, multi-locale, grande	2.473	352 (14.2%)	44 (1.8%)	1.631 (66.0%)	446 (18.0%)

% de queries recuperables (con presencia en al menos un buscador): A 67%, B 93%, C 67%, D 75%, E 76%, F 82%. Mediana ~76%. Entre el 7% y el 33% de las queries que disparan grounding no se ven ni en Bing ni en Google.

Por peso de citations el cuadro cambia

La tabla anterior cuenta queries (cada una vale 1). Si ponderamos por citations (cuánto pesa cada query en el total de referencias de tu URL en respuestas AI), las queries "solo grounding" se reducen porque suelen ser cola larga con pocas citations cada una:

Sitio	Total citations	∩ 3 buscadores	Solo Bing	Solo Google	Solo grounding
A	35	0 (0.0%)	0 (0.0%)	28 (80.0%)	7 (20.0%)
B	11.052	10.380 (93.9%)	322 (2.9%)	285 (2.6%)	65 (0.6%)
C	31.185	16.740 (53.7%)	3.676 (11.8%)	6.552 (21.0%)	4.217 (13.5%)
D	83.804	59.180 (70.6%)	2.724 (3.3%)	15.443 (18.4%)	6.457 (7.7%)
E	851.659	644.043 (75.6%)	86.383 (10.1%)	95.624 (11.2%)	25.609 (3.0%)
F	9.304.615	8.521.096 (91.6%)	274.386 (2.9%)	474.232 (5.1%)	34.901 (0.4%)

Hallazgos observados

La cola larga de grounding es invisible para los analytics normales. Por número de queries, entre el 7% y el 33% de lo que dispara citations AI no aparece en Bing search ni en GSC. Si tu plan era "auditar las queries AI mirando solo Bing Webmaster Tools normal y Search Console", te estás perdiendo entre un séptimo y un tercio del fenómeno.
Pero esas queries invisibles pesan poco en citations. La misma cola larga aglutina muchas queries con pocas citations cada una. Por eso, ponderando por citations, "solo grounding" baja al 1%-26%. Dependiendo de qué quieras medir (descubrir queries nuevas vs entender qué impulsa tu volumen AI), una métrica u otra cuenta.
Google captura más intent de grounding que Bing search. En todos los sitios medianos/grandes, "solo Google" añade entre 34% y 63% de queries (por count) mientras "solo Bing" se queda en 0.9%-4.4%. Bing search tiene poca cuota en español, pero Bing AI/Copilot sirve un público global que sí ve sus citations, creo que este puede ser ele motivo principal de discrepancia.
Google captura más intent de grounding que Bing search. En todos los sitios medianos/grandes, "solo Google" añade entre 42% y 66% de queries (por count) mientras "solo Bing" se queda en 1.1%-4.4%. Bing search tiene poca cuota en España, pero el grounding de Microsoft alimenta a múltiples AI systems globales y captura intent que su buscador propio no.
Hay dos casos donde "solo Bing" pesa fuerte en citations: sitios E (10.1%) y C (11.8%). No me arriesgo a explicar por qué. Posibles factores: audiencias más afines a Microsoft (Edge users), mercados internacionales que el GSC del usuario no recoge bien, o queries que el AI reescribe internamente y resultan más cerca del índice de Bing que del de Google. En esos sitios sé que son productos con tirón fuera de España y que son buscados en español en mercados del otro lado del charco. Lo dejo como observación, no como conclusión.

El bucket "solo grounding" tiene queries raras de varias clases

Nota: las queries de los ejemplos son inventadas para no exponer datos de cliente, pero los patrones son fieles a lo que aparece en los logs reales.

Cuando filtras las queries que SOLO aparecen en grounding (no en Bing search ni en Google), las clases que veo:

Truncadas o fragmentadas. Bing expone grounding queries cortadas como si fueran completas: zapatillas running mujer talla pequeñ, zapatillas running mujer tal, zapatillas running muje. No se si es que usa las del user que ha dado enter sin completar o ha usado algón autocompeltado.
Brand-augmented por prior del modelo. El usuario probablemente preguntó "mejor robot aspirador para pelo de mascotas", pero la query que Bing reporta como source es roomba pelo mascotas opiniones, xiaomi robot aspirador mascotas, cecotec conga pelo perro. El modelo añade marcas conocidas del vertical (que él asume) y eso queda en el log como si fuera la query original. Aparecen citaciones a tu sitio aunque el user nunca tecleó la marca competidora.
Multi-idioma cuando el sitio sirve multi-mercado. En sitios globales aparecen queries en idiomas que el GSC del mercado local no recoge: how to descale a coffee machine en inglés, como limpar máquina de café en portugués, come decalcificare macchina caffè en italiano. Ya se sabe que el grounding lo puede hacer la IA en otro idioma para expandir el corpus.
Variaciones regionales muy específicas. Por ejemplo en servicios profesionales: abogado herencias internacionales la rioja / melilla / ceuta / teruel. Long-tail informacional pero haciendo una expansión con poco sentido.

Esto explicaría el motivo de que no existan en Google, son cosas que ningún usuario buscaría y exclusivo del funcionamiento del fan-out.

¿Y a nivel URL? ¿Hay URLs citadas por AI que Google o Bing orgánico no sirve?

Misma idea pero ponderando por URL citada. Para que el cruce sea correcto hay que crawlear cada URL grounding, seguir redirects 301 y canonicals, status final, y comparar el destino final contra GSC. La URL exacta no vale ya AI memoriza slugs viejos y cita variantes con canonical, noindex, 404...

Sitio	URLs grounding	Total citations	AI-only URLs (% sobre grounding)	AI-only citations (% sobre total)
A	13	142	0 (0.0%)	0 (0.0%)
B	262	15.224	0 (0.0%)	0 (0.0%)
C	2.378	77.164	167 (7.0%)	709 (0.9%)
D	1.219	213.841	15 (1.2%)	172 (0.08%)
E	4.836	1.820.471	12 (0.2%)	169 (0.009%)
F	4.744	9.628.043	0 (0.0%)	0 (0.0%)

Como vemos quedan algunas urls AI-only pero en mi caso el motivo es puramente técnico. No tengo acceso a la data completa de BigQuery y/o no tengo varias propiedades de Search Console para evitar el sampling. Tampoco tengo acceso de más de 3 meses a los logs.

Aun así, tras filtrar artefactos técnicos, sampling, equivalencias cross-language y presencia en Bing, el AI-only verdadero (URLs invisibles en Google y Bing simultáneamente) queda en 0.004%-0.9% de las citations. El gap entre AI y motores de búsqueda es residual y la mayor parte de lo que parecía "descubrimiento" eran legacy URLs, páginas borradas, duplicados con canonical, datos suprimidos por el muestreo y variantes de idioma de páginas que Google sí indexa en otra locale.

Privacidad

El script se ejecuta en tu navegador, sobre la página de BWT, con tus cookies de sesión.
No envía nada a ningún servidor externo.
No usa analytics.
Los datos parciales se guardan en localStorage del propio Bing, solo para hacer resume tras un rate-limit. Caduca a las 24h.
El código fuente es legible y minificado. Puedes auditarlo antes de instalarlo.

Cómo funciona por dentro

Bing usa internamente dos endpoints REST que ya están autenticados por tu sesión:

POST /webmasters/api/aiperformance/searchqueries/stats devuelve queries
POST /webmasters/api/aiperformance/pages/stats devuelve páginas

El bookmarklet:

Pide el CSRF token a /webmasters/auth/token.
Lista todas las queries y todas las pages (paginado).
Para cada query, llama a pages/stats con Query: X y guarda las páginas citadas con su número de citations.
Aplica cooldown preemptivo cada 150 queries (45 segundos) para no agotar la cuota de rate-limit.
Si llega un 429 o un body con "too many requests", pausa 5 minutos, hace probe del API, reintenta. Loop hasta resolver o llegar al límite de 1 hora.
El pages-summary se deriva del mapping anterior: unmapped_citations = total - mapped.
Genera 3 CSVs en memoria y los ofrece como descargas.

Cuando Bing devuelve 404 NoDataFound significa "esa página/query no tiene mapping en el sample", no es un error.

Nota técnica: es redundante sacar la data al revés page -> query, es la misma y de esta forma se tarda menos.

Solución de problemas

"Open this on the AI Performance page" error. Has ejecutado el bookmarklet desde otra página. El propio mensaje te da un link directo al report del sitio que tenías abierto.

Solo se descarga 1 CSV. Chrome a veces bloquea descargas múltiples. Permite el aviso que aparece en la barra de direcciones, o usa los botones individuales del panel.

"403 / 401" o errores en auth/token. Tu sesión de Bing ha expirado. Recarga la página y vuelve a ejecutar el bookmarklet.

Veo "Bing throttled. Auto-resuming in 5m 0s". Tranquilo, es normal. No recargues. Deja la pestaña abierta y vuelve en 5-10 min. El bookmarklet sigue solo desde donde estaba.

Próximos pasos

Cease and Desist de Microsoft

Si lo usas y te ayuda, cuéntamelo. Si te explota algo, también.

La entrada AI Performance: Cómo exportar el mapping completo de queries y páginas citadas de Bing Webmaster Tools (bookmarklet) se publicó primero en Natzir Turrado.

Estado de medibilidad del tráfico IA

Natzir Turrado — Sun, 17 May 2026 11:55:04 +0000

La medibilidad del tráfico generado por IA varía mucho según el tipo de tráfico, ya que no es lo mismo un crawler de training que un click humano desde una cita, ni un fetcher on-demand que un agente navegando. Esta tabla resume el estado actual a mayo de 2026, clasificando por servicio, nivel de medibilidad y huella que verás en logs o analítica.

Alto · Medio · Bajo · Nulo

1. Crawlers de training y search/RAG

Bots que indexan tu sitio, no ejecutan JS y solo son visibles en server logs. Una nota importante, AIO y AI Mode no hacen fetch en tiempo real tras una consulta, sino que tiran del índice de Google ya cacheado por Googlebot, así que no verás un hit en logs correlacionado con una búsqueda concreta ni puedes forzar un fetch en una conversación con AI Mode.

Servicio	Nivel	Huella
Google Search / AIO / AI Mode		UA `Googlebot` + JSON oficial + rDNS `*.googlebot.com`. El mismo crawler alimenta Search e índice para AIO/AI Mode
Google Gemini training + grounding		`Google-Extended` no es un UA, solo token de robots.txt. El crawling lo hace con UAs Googlebot existentes
OpenAI training + search		UAs `GPTBot`, `OAI-SearchBot` + JSON oficial de IPs
Anthropic training + search		UAs `ClaudeBot`, `Claude-SearchBot`. Sin JSON oficial de IPs
Perplexity (indexación declarada)		UA `PerplexityBot`. Cloudflare lo deslistó de Verified Bots (ago 2025)
Apple training		UA `Applebot`. Verificación estable
Amazon training		UA `Amazonbot`. Verificación estable
Meta training		UA `Meta-ExternalAgent`. Verificación estable
Common Crawl		UA `CCBot`. Verificación estable. Dataset abierto usado por múltiples modelos
ByteDance training		UA `Bytespider`, pero ignora robots.txt sistemáticamente y hay reportes de spoofing. Volúmenes agresivos (1.4M hits/día reportados). Requiere bloqueo a nivel server/CDN
Perplexity stealth crawler		UA Chrome 124 falsificado cuando se bloquea el oficial
xAI Grok crawler		UA falsificado sistemáticamente, "impossible to block" según Cloudflare

2. Fetchers on-demand (disparados por usuario o grounding)

Se disparan cuando un humano pide algo o cuando un LLM hace grounding/web search en vivo. Aquí sí verás hits en logs correlacionados con consultas concretas, a diferencia de AIO/AI Mode.

Servicio	Nivel	Huella
ChatGPT (browsing + agent fetch)		UAs `ChatGPT-User`, `ChatGPT Agent` + JSON oficial + Web Bot Auth (HTTP Message Signatures) desde ago 2025
Vertex AI Agents		UA `Google-CloudVertexBot`
Gemini grounding / URL Context tool		Sin UA específico documentado. El fetch lo hace la infra Google y se observa como UA escueto `Google`
Claude (fetch para grounding)		UA `Claude-User`. Sin JSON oficial
Perplexity (fetch para grounding)		UA `Perplexity-User`. Mismo paquete deslistado por Cloudflare
Amazon (fetch on-demand)		UA `Amzn-User`
Mistral (fetch on-demand)		UA `MistralAI-User`

3. Clicks humanos desde citas en chatbots

Cómo se ve un click humano que llega desde una cita en un chatbot, tanto en server logs como en tu herramienta de analytics.

Origen	Nivel	Huella
Perplexity web		`perplexity.ai / referral`, Referer consistente
ChatGPT web, citation links (todos los planes)		`utm_source=chatgpt.com` desde jun 2025
ChatGPT web, inline links (Plus / Pro / Team)		Referer preservado, aparece como `chatgpt.com / referral`
Copilot (copilot.microsoft.com)		`copilot.microsoft.com / referral`
Gemini web (gemini.google.com)		`gemini.google.com / referral`
Claude web		Path con fecha `claude.ai/referral/YYYY-MM-DD`, requiere regex para agrupar
Gemini app iOS		UA `GeminiiOS/x.x.x` con `GoogleWv/1.0 (WKWebView)` identificable en logs. Referer stripped, cae en Direct en GA4. Descubierto por mí en logs (oct 2025).
Gemini, UA `Google` genérico (resto de superficies)		Gemini usa UA escueto `Google` para gran parte de su tráfico, sin documentación oficial. Imposible distinguir origen (app, web, grounding, etc.)
Apps móviles ChatGPT, Claude, Perplexity		Comportamiento no documentado oficialmente por los proveedores. Reportado consistentemente por la industria, los clicks desde apps móviles strippean Referer y la mayoría no llevan UTM. Estimaciones de 20-40% del tráfico IA mal atribuido a Direct por este motivo
ChatGPT web, inline links (plan Free)		Referer stripped, cae en Direct
Gemini app Android		Sin UA propio documentado. Cae bajo `Google` genérico o Direct

4. Experiencias generativas integradas en SERP

AIO y AI Mode dentro de google.com, Copilot Search dentro de bing.com. Mezcladas con orgánico clásico en GA4 en ambos casos. Bing es bastante más transparente que Google en su panel para webmasters.

Origen	Nivel	Huella
AI Overviews (Google)		Clicks e impresiones incluidos en totales de Search Console, pero sin filtro para aislarlos (`google / organic` en GA4)
AI Mode (Google)		Clicks e impresiones agregados al "Web" search type de Search Console desde 17 jun 2025, sin filtro dedicado
Copilot Search + Bing AI summaries		Mezclado con `bing / organic` en GA4, pero el AI Performance report de Bing Webmaster Tools (feb 2026) sí muestra citations, grounding queries, páginas citadas y mapping querypágina. Solo visibilidad de citation, no clicks al sitio. Pero, en Microsoft Clarity tenemos además share of authority y AI referral traffic.

5. Navegadores agénticos

Browsers Chromium pilotados por LLM. Visibles en GA4 como humanos. UA Chrome estándar, ninguno tiene UA propio dedicado salvo Google-Agent. La única señal fiable cuando ejecutan tareas agénticas es Web Bot Auth, si la firman.

Browser / Agent	Nivel	Huella
Google-Agent (Gemini Agent + Chrome Auto-Browse)		UA propio con string `compatible; Google-Agent` + JSON oficial (`user-triggered-agents.json`) + Web Bot Auth (identidad `agent.bot.goog`) desde mar 2026. Heredó de Project Mariner (cerrado 4 may 2026). Único agente con UA propio
ChatGPT Atlas (modo agent)		Sin UA propio, pero firma con Web Bot Auth cuando opera en modo agent (registrado como signed agent `chatgpt-agent` en Cloudflare). Navegación humana normal indistinguible
Perplexity Comet		Sin UA propio. Algunas peticiones del asistente incluyen "Perplexity" en UA. Sin Web Bot Auth documentado
Claude for Chrome (extensión)		UA Chrome del usuario, indistinguible. Sin Web Bot Auth
Dia (The Browser Company)		UA Chromium estándar, indistinguible. Sin Web Bot Auth

Conclusiones

Citas con clicks en chatbots desde desktop

Es el tramo más limpio. Perplexity pasa Referer consistente, ChatGPT incluye utm_source=chatgpt.com en las citation links de todos los planes desde junio 2025, Copilot y Gemini web pasan Referer estándar, y Claude requiere agrupar paths por fecha con regex pero se hace. Adobe Analytics lanzó la dimensión "Conversational AI tools" en agosto de 2025, Amplitude también identifica LLMs en sus default channel rules, y GA4 sacó su canal nativo "AI Assistant" el 13 de mayo de 2026. En Plausible, Matomo o cualquier sistema con reglas de canal personalizadas puedes montártelo manualmente.

Citas con clicks en chatbots desde móvil

Android cae en Direct casi sin excepciones e iOS solo deja huella en logs vía GeminiiOS (UA descubierto por mi). Las apps de ChatGPT, Claude y Perplexity strippean Referer y no llevan UTM, con estimaciones de industria del 20-40% del tráfico IA misatribuido a Direct por este motivo, y los canales nativos de las herramientas de analytics no resuelven esto.

Cubren los grandes proveedores con referrer detectable (ChatGPT, Gemini, Claude, en algunos casos Perplexity y Copilot) pero no lo que llega sin referrer ni UTM, que es exactamente donde está el agujero del móvil. Si solo miras a estos canales, el tráfico de las apps móviles te queda fuera.

Citas sin clicks

El último problema, y el más difícil de resolver, son las citaciones sin click, esto es, la marca mencionada en respuestas IA sin que el usuario clique. Más allá del impacto en CTR orgánico, suficientemente documentado, el dato relevante es el click dentro del propio AIO. Pew Research midió un 1% en julio de 2025, lo que significa que aunque tu marca aparezca citada en el AIO, solo un usuario de cada cien clica la fuente y el resto se queda en Google o cierra la pestaña.

Search Console agrega clicks e impresiones de AIO y AI Mode al total sin filtro para aislarlos, y las impresiones entre mayo 2025 y abril 2026 estuvieron infladas por un bug que Google reconoció oficialmente.

Bing va por delante de Google en transparencia ya que el AI Performance report en Bing Webmaster Tools, lanzado en febrero 2026, muestra citations, grounding queries, páginas citadas y desde marzo el mapping querypágina. Lo único que no da son clicks al sitio, solo visibilidad de citation. Fuera de la SERP el problema se repite en los chatbots.

Los prompt trackers rotan unos pocos prompts predefinidos sobre LLMs no deterministas que cambian de respuesta hora a hora. Dan la punta, de la punta, del iceberg. Los de escala masiva como Sistrix o Ahrefs, dan un poquito más. El volumen de menciones que recibe una marca en las conversaciones de millones de usuarios no se puede observar, y no parece que vaya a cambiar a corto plazo porque las APIs de los LLMs no exponen esos datos.

Agentes navegando

Los agentic browsers tipo Atlas, Comet, Claude for Chrome o Dia se ven en GA4 como humanos normales porque, técnicamente, lo son, con UA Chrome estándar, cookies y navegación humana. Aquí demostré que no eran identificados como bots y ejecutaban Google Analytics.

Ninguno tiene un UA dedicado propio, lo cual es un problema para el tráfico agéntico. La excepción es Google, que con Google-Agent, el UA lanzado el 20 de marzo de 2026 para Project Mariner y heredado por Gemini Agent y Chrome Auto-Browse tras el cierre de Mariner el 4 de mayo de 2026, es el único agente navegacional mainstream que se identifica explícitamente en logs. Tiene su propio fichero de IPs (user-triggered-agents.json) y está experimentando con Web Bot Auth, el estándar IETF de firma criptográfica. ChatGPT Atlas también firma con Web Bot Auth cuando entra en modo agent pero sin UA propio, mientras que Comet, Claude for Chrome y Dia son indistinguibles.

Web Bot Auth es hoy la única señal fiable para distinguir un agente legítimo de un spoofer, dado que el UA es trivial de falsificar y la firma criptográfica requiere acceso a la clave privada del agente.

Qué fuente sirve para qué

La medición de visibilidad en LLMs sale de combinar varias fuentes parciales ya que cada fuente cubre una parte distinta del problema:

Server logs (cruzados con datos de CDN o WAF): identificación de crawlers, fetchers y agentes con UA propio. Te dice quién entra a leer y con qué frecuencia (bots o users).
Herramientas de analytics (Adobe Analytics, GA4, Amplitude, Plausible, Matomo, Piwik PRO o la que uses): clicks humanos desde citas en chatbot web, con sus canales nativos o personalizados. Con esto mides sesiones, conversiones y revenue generado por tráfico IA. Asume que aquí no está todo, un porcentaje considerable es Direct.
Search Console: agrega AIO y AI Mode al total pero no los separa. Puedes inferir algún prompt mediante RegEx, no es fiable.
Bing Webmaster Tools (AI Performance report): única fuente que muestra citations dentro de Copilot y Bing AI summaries, con grounding queries y páginas citadas. Te da visibilidad de citation, no de los clicks. Aquí te enseño a descargarte toda la data sin ir página a página.
Microsoft Clarity (Citations dashboard): grounding queries, cited pages y share of authority dentro de Copilot y experiencias AI de partners de Microsoft, más AI referral traffic medido desde el propio script de Clarity. Como lo que hay en BWT en la parte de citations pero añade la sesión y el share of authority como KPI
Prompt trackers: aproximación ínfima de las citations en LLMs. Para mi son el negocio de la certidumbre prefabricada.

La entrada Estado de medibilidad del tráfico IA se publicó primero en Natzir Turrado.

El negocio de la certidumbre prefabricada

Natzir Turrado — Tue, 12 May 2026 16:09:36 +0000

Para entender por qué existe el mercado de los prompt trackers hay que mirar tres capas distintas que creo que se mezclan en el debate. Primero, la psicología del comprador. Segundo, los incentivos de las organizaciones donde ese comprador trabaja. Y tercero, el modelo formativo que produce profesionales del marketing y del SEO con un lenguaje heredado de un mundo que ya no funciona como funcionaba. Las tres se refuerzan entre sí.

Por eso un mercado donde la señal técnica es débil, como ya documenté con detalle aquí, factura cientos de millones al año con márgenes brutos del 85 al 95% según los datos que recogí en aquel análisis a partir de los pricings públicos de las tools y estimaciones de costes operativos.

El cerebro humano y la incertidumbre

La aversión a la ambigüedad lleva estudiándose en economía y psicología desde la paradoja que formuló Daniel Ellsberg en 1961. Su experimento, basado en apuestas sobre urnas con distinto grado de información sobre su contenido, mostraba que la gente prefiere apostar por opciones cuya probabilidad conoce frente a opciones cuya probabilidad es desconocida, aunque matemáticamente sean equivalentes. Una cosa es la aversión al riesgo (saber que hay un 30% de probabilidades de algo) y otra distinta es la aversión a la ambigüedad (no saber siquiera cuáles son esas probabilidades). El cerebro trata ambas situaciones de manera distinta y prefiere sistemáticamente la primera, según recoge la revisión de Marciano Siniscalchi sobre ambigüedad y aversión a la ambigüedad.

Eso sí, con matices. Heath y Tversky propusieron en 1991 la hipótesis de competencia, que muestra que cuando una persona se siente experta en un dominio, el patrón se invierte y empieza a buscar ambigüedad en lugar de evitarla. Esto importa porque el comprador de martech no se ve como un sujeto neutral metido en una urna abstracta, se ve como experto en lo suyo. La aversión a la ambigüedad actúa en él de forma menos directa de lo que sugeriría Ellsberg. Aun así, en el momento de comprar una tool cuya metodología no entiende del todo, vuelve a estar fuera de su zona de competencia, y el sesgo reaparece.

Un estudio publicado en PMC en 2020 sobre intervenciones para reducir la aversión a la ambigüedad encontró que después de enseñarle a la gente la paradoja y mostrarle por qué su elección era subóptima, la aversión bajaba pero no desaparecía (y además producía un efecto colateral de reducir la aversión al riesgo en otros contextos no relacionados).

Junto a esto opera la ilusión de control que describió Ellen Langer en los años 70, que es esa tendencia a creer que controlamos cosas que en realidad están dominadas por el azar. Una revisión publicada en Analytical Chemistry sobre sesgos en el juicio experto añade que cuando los expertos creen que pueden superar sus sesgos por fuerza de voluntad, el intento puede acabar haciéndolos más fuertes. Lo único que sí parece reducir la ilusión de control es tener perfiles distintos en el equipo que decide, según un estudio experimental de Meissner y Wulf publicado en European Management Journal en 2017.

El efecto farola y la falacia de McNamara

Seguro que conoces esta historia del efecto farola. Un policía encuentra a un borracho buscando algo bajo una farola por la noche. Le pregunta qué busca. Sus llaves. ¿Las perdió ahí? No, las perdí allí, en aquel parque oscuro. ¿Y por qué busca aquí entonces? Porque aquí hay luz.

Columbia Business School publicó un análisis del profesor Oded Netzer sobre por qué, a pesar de inversiones crecientes en marketing analytics, la contribución medida de esa analítica al rendimiento corporativo seguía siendo baja. La explicación que ofrecen los autores es que las empresas miden lo que es fácil de medir y lo que de verdad cuenta suele quedar fuera del foco.

Esto ha evolucionado en nuestro sector como la falacia de McNamara, formalizada por el sociólogo Daniel Yankelovich. Tiene cuatro pasos según el resumen de Sketchplanations.

Medir lo que es fácil de medir.
Descartar lo que no se puede medir.
Asumir que lo que no se puede medir no es importante.
Concluir que lo que no se puede medir no existe.

McNamara aplicó esa lógica en Vietnam usando el body count como métrica principal. Big Think tiene un artículo divulgativo sobre cómo este patrón aparece hoy en decisiones cotidianas.

Goodhart y los KPIs que dejan de medir

A esto creo que hay que sumarle un tercer mecanismo, la ley de Goodhart, formulada por el economista británico Charles Goodhart en 1975 y popularizada por la antropóloga Marilyn Strathern. Dice que cuando una medida se convierte en objetivo, deja de ser una buena medida. La entrada de Wikipedia sobre la ley recoge la cita exacta de Goodhart, "any observed statistical regularity will tend to collapse once pressure is placed upon it for control purposes".

Existe una anécdota que se cita en muchos libros como ejemplo, la del programa colonial británico en Delhi que ofreció una recompensa por cobras muertas y acabó incentivando que la gente criara cobras para cobrarla. Posiblemente es una anécdota es inventada, nunca lo sabremos.

En marketing pasa lo mismo. Si el equipo se evalúa por número de leads, se generan leads que no convierten. Si el SEO se evalúa por keywords en top 10, se persiguen keywords sin volumen ni intención comercial. Si el email marketing se evalúa por open rate, las líneas de asunto se vuelven clickbait.

KPI Tree tiene una guía sobre Goodhart y el diseño de métricas donde argumenta que el problema se agrava cuando las métricas se aíslan. Una métrica conectada a sus parents y childs en un árbol crea una red de relaciones donde manipular un nodo produce distorsiones visibles en los nodos vecinos. Una métrica aislada no tiene esa protección. La industria de prompt tracking lo sabe, por eso casi todas las tools venden un score único en una gráfica que sube y baja en vez de un sistema con guardrails.

El argumento más fuerte a favor de los prompt trackers

Para ser justos, toca hacer el ejercicio inverso, porque el caso a favor de medir visibilidad en LLMs no es trivial y descartarlo no sería honesto por mi parte. El argumento más sólido tiene tres componentes.

El primero es la diferencia entre valor direccional y valor absoluto. Aunque un visibility score de 42 no signifique nada en términos absolutos, una caída del 40% mes a mes puede señalar un cambio real en cómo el modelo está representando la marca, sobre todo si la metodología de la herramienta se mantiene constante. Hay un montón de sistemas con mucho azar que se miden todo el rato (meteorología, mercados financieros, encuestas). Que los LLMs no sean deterministas no significa que no se puedan medir. Significa que hay que hacer muchas más repeticiones de las que la mayoría de tools hacen y no confundir señal con ruido en muestras pequeñas. Pero esto a tu prompt tracker favorito no lo sabe o si lo sabe no lo hace bien porque perdería sus márgenes. Felipe Concha, fundador de Bison, ingeniero civil y PhD en IA me dijo lo siguiente a través de LinkedIn (he pedido permiso para hacerlo público), después de leerse mi artículos sobre el prompt tracking:
El segundo es el uso como sistema de alarma. Hay clientes y consultores que compran trackers sabiendo sus limitaciones, y los usan como tripwire para detectar cambios bruscos. Una tool que detecta que tu marca ha desaparecido del 80% de los prompts donde antes aparecía tiene valor diagnóstico aunque el score absoluto sea ruidoso. Pero hay que hacerlo bien porque si no es muy fácil de manipular.
El tercero es la mental availability. Si lo que cuenta para el crecimiento de marca es estar presente en la mente del consumidor en el momento de compra, y los LLMs están sustituyendo cada vez más a la búsqueda, entonces estar presente en las respuestas de los LLMs sí afecta a esa disponibilidad mental.

Pero ¿dónde se rompe? Yo lo veo en otros tres puntos.

El valor direccional solo se sostiene si la metodología se mantiene constante, y las tools cambian modelos, prompts y APIs constantemente. Eso rompe la base sobre la que estás comparando. Yo he trakeado los mismos prompts en 3 tools distintas y los trends no eran consistentes.
El uso como sistema de alarma solo funciona si el comprador sabe ignorar los scores absolutos y mirar solo cambios bruscos. Pero la mayoría del mercado no compra así, porque estas tools se venden prometiendo justo lo contrario, medición precisa de tu visibilidad y el que puedas hacer algo accionable con esa información.
¿Las herramientas actuales miden mental availability o miden algo mucho más estrecho, como presencia en N prompts sintéticos sin contexto de usuario real? Que la mental availability cuenta nadie lo discute. La crítica es a cómo se está midiendo y a cómo se vende lo medido.

El SaaS martech está diseñado para vender certidumbre

MarTech publicó en febrero de 2026 un análisis de por qué las empresas malgastan 2 millones de dólares en herramientas mal compradas. Las causas que identificaron son: compras impulsadas por FOMO, decisiones siladas, y demos diseñadas para que la urgencia supere a la claridad operacional. Una guía sobre la psicología de venta de SaaS describe cómo se usan promociones limitadas, accesos beta y mensajes de "los líderes ya están ahí" para activar el FOMO en compradores corporativos.

Quiero pensar que estos mercados no se sostienen porque el comprador sea irracional. Se sostienen porque el comprador saca algo real de la compra (defensa ante el board, narrativa para el cliente, menos ansiedad) aunque la señal técnica sea débil. Funciona así porque el mercado opera dentro de sus límites. La crítica es que esa utilidad subjetiva tiene un gasto escondido, que es el de la mala asignación de presupuesto.

A esto se suma un incentivo que oigo mucho internamente. En muchas empresas el bonus anual depende de haber lanzado iniciativas de IA, incluida la contratación de tools, para mejorar eficiencia y procesos. El comprador también está presionado desde arriba, y una tool de prompt tracking marca esa casilla rápido.

El funnel como historia que nos contamos

El funnel lineal awareness-consideration-decision tampoco existe en la realidad. McKinsey publicó hace más de una década su consumer decision journey mostrando que el viaje real funciona como un bucle. Los consumidores entran, salen, vuelven, comparan, abandonan y reanudan.

Un análisis reciente de AI Digital recoge las posiciones de BCG y Edelman, que describen el comportamiento de compra como demasiado dinámico para un modelo lineal y la compra como el inicio de una relación, no su final. Salesforce reporta que el 73% de los compradores B2B esperan que el vendedor entienda sus necesidades antes de la primera conversación.

El funnel sobrevive en las organizaciones porque cumple una función política. Es un lenguaje compartido entre departamentos. Es una forma de repartir presupuesto y es una manera de dividir KPIs entre equipos. Cuando desmontas el funnel, desmontas la estructura organizativa que se monta encima, y eso cuesta más que mantener la historia.

La paradoja de la abundancia de datos

Más datos no implica mejores decisiones, y está documentado en la literatura: parálisis por análisis.

Logarithmic Perspectives publicó en febrero de 2026 un análisis donde argumenta que la era de la abundancia de medición ha producido decisiones más lentas y más debate. Una investigación citada por Moosend sobre analysis paralysis muestra que el 78% de las personas se sienten abrumadas por la cantidad de fuentes de datos.

El estudio que llevo citando 14 años en mis clases de CRO es de la mermelada de Iyengar y Lepper, citado en un análisis de CMSWire sobre saturación de datos, que mostró que cuando se ofrecían 24 sabores de mermelada solo el 3% compraba, pero cuando se ofrecían 6 sabores el 30% compraba.

La formación como reproductor del problema

El problema empieza antes del marketing. La educación general sigue funcionando con un modelo bastante taylorista, que nos programa para entornos predecibles donde hay una respuesta correcta. Es otro melón que no voy a abrir aquí. Pero la formación reglada en marketing y comunicación viene del mismo sitio y sigue enseñando ese mismo modelo de mundo predecible. Y a esto se suma que en marketing falta conocimiento técnico de base, lo que deja al profesional sin herramientas para auditar la metodología de las tools que compra.

Mark Ritson lleva años hablando de "tactification" como problema de la disciplina. En una entrevista con Marketing Week junto a Byron Sharp describe la obsesión con la ejecución sin entender lo estratégico. En su aparición en The CMO Show dijo: "you can actually have too much measurement and not enough insight".

Sharp ataca directamente a las métricas pequeñas que no tienen impacto demostrable. En su intervención de 2025 al recoger el Sir Charles McGrath Award dijo que los marketers están obsesionados con medir cosas pequeñas que no tienen casi ningún impacto.

Además, Sharp y Ritson critican el performance marketing en favor de reach y mental availability, y el prompt tracking no es exactamente lo que tienen en el punto de mira, pero estas tools podrían aprender mucho de esto.

El sector SEO viene de 20 años donde el rank tracker era la métrica reina para muchos. Search Engine Journal publicó en noviembre de 2025 un análisis sobre repositioning del SEO donde argumenta que las definiciones tradicionales ya no son suficientes. La inercia aquí es enorme y la razón es que rehacer el reporting es rehacer la formación, los contratos y la identidad profesional. No basta con cambiar un dashboard.

Cómo encajan los prompt trackers en este contexto

Si juntas las piezas, el modelo de negocio del prompt tracker se entiende bastante bien. Una herramienta puede venderse incluso cuando su validez técnica es débil, siempre que cumpla tres condiciones. Que el número sea lo suficientemente estable para que parezca señal. Que la metodología sea lo suficientemente técnica para que el comprador no pueda cuestionarla. Y que la narrativa de venta active el FOMO suficiente para que decir que no parezca arriesgado profesionalmente.

Hay aproximaciones más sofisticadas, que son las que yo hago con mis propios pipelines. El problema es que o falta el conocimiento técnico para construirlas, o las tools que podrían aplicarlas no lo hacen porque les rompería el margen. El resultado es que la mayoría del dinero se mueve en la zona donde la promesa de medición está más alejada de la realidad técnica.

¿Qué cambiaría esta dinámica?

¿Qué pasará con prompt trackers cuando los datos de primera parte se generalicen? Cuando Google extienda Search Console a AI Overviews y AI Mode, el visibility score modelado va a tener que dar otra cosa, ORM, sentimiento de marca, panel de brand marketing. Algo más cercano a un dashboard de gestión de reputación que a un indicador de visibilidad irreal.

Cuando llegó Google Search Console en 2015, las herramientas de tercera parte no desaparecieron, pasaron a tener que justificarse contra el dato real y aportar valor más allá del mismo.

Pero si bien es cierto que estas tools daban datos que correlacionaban con los ingresos. Si estas tools se compran tal cual es, en parte, porque NO hay perfiles técnicos en el proceso de decisión.

Para mejorar la decisión individual de una compra influye la diversidad cognitiva en la sala donde se decide. El estudio de Meissner y Wulf en European Management Journal en 2017 muestra que tener perfiles distintos en el equipo de decisión sí reduce la ilusión de control. Si en la mesa hay alguien que entiende estadística, alguien que entiende el negocio, y alguien que entiende cómo funcionan los LLMs por dentro, la conversación cambia.

El CFO se cita a menudo como el mecanismo de corrección. Posiblemente no va a fulminar el prompt tracking, pero con los presupuestos más apretados desde 2023, va a empezar a pedirle lo mismo que le pide al resto de tools del stack.

Lo que queda

La tool en sí no es el problema. Lo que ha hecho la IA es subir la incertidumbre, y la industria que vive de ofrecer reducción de incertidumbre se ha frotado las manos. Las tools de prompt tracking son la respuesta perfecta a un problema que ya existía antes. El ecosistema está en una fase temprana donde la promesa de medición va por delante de la metodología real, y el dinero fluye hacia donde la promesa es más pomposa. Y ver el muro de LinkedIn plagado de publicaciones pagadas a influencers que cuentan mentiras no ayuda. Si pagas a un influencer, lo callas. Es por ello que yo no tengo contratos con ninguna herramienta. Hasta 8 prompt tackers me han ofrecido dinero por hablar bien de ellos, los he rechazado a todos.

No sólo eso, herramientas como Profound parece ser que pagan hasta 250€ por una review positiva en G2:

Mientras tanto, el trabajo del consultor honesto consiste en no fingir certezas que no tiene, en distinguir entre lo que se puede medir y lo que se está midiendo, y en preguntarse, antes de comprar o recomendar una tool, qué decisión concreta de negocio va a cambiar con ese dato. Si la respuesta es "ninguna", la tool es humo. Si la respuesta es algo concreto, conviene comprobar si el dato que entrega tiene la calidad necesaria para sostener esa decisión. Es analítica básica aplicada a una industria que se está construyendo más rápido de lo que se está entendiendo.

La entrada El negocio de la certidumbre prefabricada se publicó primero en Natzir Turrado.

Sistrix Led Ticker - Montaje de Raspberry Pi + LED Matrix Panel [Tutorial]

Natzir Turrado — Mon, 30 Mar 2026 11:18:49 +0000

Llevo desde 2014 trabajando con SISTRIX como consultor SEO. Es la herramienta que abro cada mañana para ver cómo van los proyectos de mis clientes. Y un día, buscando un regalo para un amigo nerd en Etsy, vi paneles LED con los stock de bolsa y de cripto, y pensé: ¿y si tuviera un panel LED en mi escritorio que me mostrara la visibilidad de mis clientes rotando automáticamente?

Era técnicamente posible, pero también sabía que me iba a meter en un marrón, hace años ya hice proyectos con la Raspberry, con ESP32 e incluso me he hecho mods para el Flipper, pero eran un dolor de cabeza. Así que la idea se quedó en el cajón durante años, cogiendo polvo junto con esos juguetitos.

Hasta que empecé a trabajar con Claude Code en noviembre.

En este tutorial, os cuento el proceso de desarrollo y montaje del panel LED Waveshare con la Raspberry Pi. El proyecto lo he hecho open source y el código lo tenéis aquí.

Qué hace el panel

Un panel LED RGB de 64x32 píxeles controlado por una Raspberry Pi 4, que se conecta a la API de SISTRIX y va rotando dominios mostrando: label, valor de visibilidad, cambio porcentual, país, modo (weekly/daily) y una sparkline con la evolución. Además de una brand card personalizable con logo en pixel art y mensaje con scroll animado.

Todo se gestiona desde un panel web accesible en tu red local. El panel incluye un simulador LED que replica exactamente lo que se ve en la pantalla física, así que puedes probarlo todo sin hardware.

Algunas cosas que me gustan:

Editor visual de layout: arrastra y redimensiona cada elemento directamente sobre el simulador
Caché inteligente: minimiza créditos API consultando solo cuando hay datos nuevos (daily tras medianoche, weekly tras el lunes)
Sincronización web <-> LED: slide actual y estado on/off sincronizados en tiempo real
Botón físico para encender/apagar sin sacar el móvil
6 idiomas, responsive, accesible (WCAG 2.1 AA)
Colores: hex, rainbow y degradados de dos colores — todo configurable

Todo el código va en dos archivos Python: display.py (driver LED, ~1.000 líneas) y web_panel.py (panel web con simulador, ~3.700 líneas). Sin frameworks, sin npm, es vanilla JS puro. El frontend va inline dentro del Flask. Si el proyecto fuera más grande ya me lo replantearía por mantenimiento.

El hardware: Raspberry Pi + LED Matrix Panel

Llevan enlaces son de afiliado de Amazon, si compras a través de ellos me llevo una pequeña comisión, que me lo he currado

Imprescindible

Raspberry Pi 4 4GB Starter Kit - Importante: la Pi 5 no es compatible con el Adafruit Bonnet. Tiene que ser Pi 4 o anterior (quizás habría que tocar --led-slowdown-gpio por temas de rendimiento).
Panel LED Waveshare 64x32 P3 - 192x96mm, pitch 3mm (P3 = 3mm entre cada LED).
Adafruit RGB Matrix Bonnet - HAT que conecta la Pi al panel LED vía GPIO. Se enchufa directamente, sin soldar.

Opcional (pero recomendado)

Botón pulsador Gebildet 12mm - Acero inoxidable con LED azul. Encender/apagar sin tocar el móvil.
Kit de soldador 60W- Para soldar los cables del botón a los pines GPIO.
Broca escalonada Flintronic - Para agujeros limpios en la carcasa sin partir el plástico.
Carcasa impresa en 3D - Pedí a un amigo que me imprimiera una a medida (192x96mm, profundidad 13-15mm). Si no tienes impresora, busca en Etsy "64x32 P3 LED panel case".
Juego de tornillos M3 (560 piezas) - Viene de todo: varios largos, tuercas y arandelas. Así que da igual la profundidad de tu caja, seguro que hay alguno que encaja.
Fuente de alimentación 5V 3A - Con conector barrel jack 5.5x2.1mm. Es opcional si usas brillo bajo (<50%), pero recomendada. Sin ella, el panel se alimenta por los GPIO de la Pi, que aguantan hasta ~1.2A. A brillo alto o pantallas muy claras puede causar reinicios. En esta configuración he probado que no es necesario.

Montaje paso a paso

1. Prepara la carcasa: usa la broca escalonada para los agujeros. Yo hice uno de 12mm para el botón y otro más pequeño para el cable flat y la alimentación. La escalonada para mí es clave porque una broca normal parte el plástico, esta va ajustando el diámetro poco a poco. También se podría hacer con un hierro caliente o un soldador, pero no es lo mismo.

2. Encaja el Bonnet en la Pi: presiona hasta que encaje en los pines GPIO.

3. Cablea el botón (opcional): un terminal a GPIO 19 (pin 35), el otro a cualquier GND. No importa la polaridad. Yo lo puse en el pin 39 después de 2 fallos como se puede observar (resulta que la matrix tiene ocupados casi todos los pins).

4. Conecta el cable flat: del panel al conector HUB75 del Bonnet. Solo hay una orientación (tiene muesca).

5. Conecta la alimentación del panel (opcional): fuente 5V al barrel jack del Bonnet. Yo no tenía adaptador barrel jack de la potencia que necesita el panel, así que me monté uno con un cargador USB de un Meizu antiguo de 5V 3A, un cable barrel jack 5.5x2.1mm que corté de otra fuente de 12V que no usaba, y un cable USB <-> micro USB que también corté y soldé. Funciona perfecto y me ahorré el dinero y esperar al envío. Si no te va hacer el MacGyver, compra la fuente directamente. UPDATE: He visto que funciona sin peligro y sin necesidad de esta fuente extra, así que mejor, un cable menos.

6. Enciende la Pi: USB-C. Si todo está bien, el panel se enciende en segundos.

7. Fija el panel a la caja: una vez todo funciona desconecta los cables y pásalos por los agujeros. Atornilla con tornillos M3 por las esquinas.

Cómo instalarlo

El proyecto lo he hecho open source y está en GitHub. Si quieres montarlo:

Instala Raspberry Pi OS Lite 64-bit en tu Pi 4
Clona el repositorio y ejecuta bash setup.sh
Instala el driver LED desde hzeller/rpi-rgb-led-matrix
Abre http://raspberrypi.local:5001 desde cualquier dispositivo en tu red
Configura tu API key de SISTRIX, añade dominios, y ya está

Sin hardware, puedes probar solo el simulador:

pip install flask pillow requests
python3 web_panel.py

Abre http://localhost:5001 y listo.

Problemas que me encontré

El drama del botón y los GPIO

Conecté el botón al GPIO 26. Sin el panel LED funcionaba perfecto. Pero en cuanto arranqué el driver del panel... dejó de funcionar. El Bonnet usa casi todos los GPIO, y el 26 es una línea del multiplexor. Probé el 25 y mismo problema.

Al final, el GPIO 19 (pin 35) estaba libre. Pero no acabó ahí... el botón apagaba y encendía inmediatamente, o solo funcionaba una vez. El problema era la detección por nivel y la solución fue detección por flanco de subida (transición LOW->HIGH al soltar), que genera exactamente un evento por pulsación.

El blanco que salía naranja

En el simulador web los textos se veían blancos puros. En el LED, anaranjados. Los LEDs rojos y verdes de estos paneles tienen más brillo que los azules. La solución que apliqué fue la corrección de color selectiva solo para blancos y grises (reduce R un 10%, G un 8%). Mientras que los colores saturados no se tocan.

El brillo y los PWM

Con brillo a 60, muchos píxeles del mismo número se veían más brillantes y un shimmer visible en dígitos grandes. El punto ideal que he encontrado es brillo 42, PWM bits 8 (pwm_lsb_nanoseconds 300). Degradados suaves, sin shimmer, y suficiente brillo de día sin deslumbrar de noche. Quizás con un panel más profesional habría que cambiar estos ajustes.

El SSH que se rompió solo

Un día el SSH se colgaba al conectar y el .bashrc imprimía texto en sesiones no interactivas, rompiendo SCP/SFTP. Tuve que conectar monitor y teclado a la Pi para ver que ocurría. Así que lo mejor es envolver los echos de tu .bashrc en if [[ $- == *i* ]].

La sincronización

Esto parece trivial pero fue lo más difícil de resolver. Hay dos procesos independientes: el display.py que controla el panel LED (corre como root para acceder a GPIO) y el web_panel.py que sirve el simulador en el browser. Cada uno tiene su propio loop de rotación, su propio estado, su propia idea de qué slide está mostrando. Los problemas fueron apareciendo uno a uno:

Cambios que tardaban 60 minutos: quitabas un dominio en la web y el LED no se enteraba hasta el siguiente refresco API. Ahora detecta cambios en la lista de dominios en cada ciclo y recarga desde caché al instante.
Fetch bloqueante: cuando el display hacía una llamada API a SISTRIX, el panel se congelaba durante varios segundos en el último frame (normalmente la brand card). Lo movimos a un thread en background.
Rotación desincronizada: el panel web tenía su propio timer de rotación independiente del LED. Ahora el web es "esclavo" del LED cuando el servicio está activo y sigue su slide en tiempo real (3 secs de delay) via un fichero de estado compartido.
Edición interrumpida: estabas editando la brand card en el web y de repente el slide cambiaba porque el LED seguía rotando. Ahora el modo edición pausa toda la sincronización.
Encendido desincronizado: le dabas a ON y cada uno empezaba por un slide diferente. Ahora ambos arrancan desde el slide 0.
Botón muerto en brand card: el botón físico GPIO no respondía mientras se mostraba la brand card, porque el loop de scroll no lo estaba comprobando.

Cada uno de estos bugs parecía simple, pero requería entender el flujo completo entre dos procesos, un fichero de config compartido, un state file, timers de JavaScript, un loop de Python, y un botón físico. La IA resolvía cada bug individualmente, pero no veía el sistema y era como jugar al Whac-A-Mole. Yo tenía que detectar los problemas probando en el hardware real y explicarle qué estaba pasando.

Los bugs de seguridad

Esto me preocupó especialmente porque el código generado por la IA tenía MUCHOS agujeros:

API key expuesta: el endpoint /api/config devolvía la clave de SISTRIX al frontend en texto plano.
XSS: los nombres de dominio se insertaban sin escapar. Un