
Hace unos días tuve una animada charla con unos colegas sobre Analitica Web y se quedaron muy sorprendidos sobre algunos de mis comentarios (alguno ya presente en la web) así que me he animado a compartir en mi blog algunas de las averiguaciones que he hecho sobre cómo funciona Google Analytics.
El tema es bastante denso y sólo interesante para usarios de GA con curiosidad sobre como funciona de verdad (suelen ser pocos de los usuarios totales). A base de curiosidad he averiguado bastantes cosas sorprendentes así que para no enrrollarme en un post suuuperlargo voy a dividirlo en varios (y así mantengo la curiosidad :-)
Siempre me ha sorprendido y sublevado como muchas personas tienden a tomar decisiones sobre informes extraidos de consultoras o de herramientas como GA, business inteligents o incluso del propio sistema de contabilidad de la empresa sin plantearse ni por un momento si los datos son correctos o no y dando siempre por hecho que seguro que lo son porque la gente hace las cosas bien (lo cuál no suele ser cierto) y además aplicando credibilidad de forma directamente proporcional al prestigio del proveedor de los datos (y claro, aquí Google se lleva la palma).
Desde hace algún tiempo tengo mucho interés en saber cómo funciona "realmente" Google Analytics así que decidí buscar información al respecto y la verdad es que hay poquísima. Es realmente sorprendente. Miles y miles de páginas y articulos sobre todos los posibles informes, segmentaciones, gráficos y montones de "pijadas" que trae el programa, redactados por el propio personal de Google, y practicamente NADA sobre cómo funciona EN REALIDAD Analytics, es decir, sobre como realmente GA asigna las visitas y conversiones a cada canal que, al final, es la información según la cuál se toman las decisiones en una empresa on-line.
Empecé con la clásica información sobre las famosas cookies de analytics de las que sí hay algo de información y me topé con la archifamosa (y si no lo es, debería serlo) cookie _utmz. Esta es, como dicen en mi pueblo, "
la madre del cordero". La cookie que se crea cuando accedes a una web que tiene GA instalado para registar tu canal de entrada.
Esta es la definición de Google:
This cookie stores the type of referral used by the visitor to reach your site, whether via a direct method, a referring link, a website search, or a campaign such as an ad or an email link. It is used to calculate search engine traffic, ad campaigns and page navigation within your own site. The cookie is updated with each page view to your site.
... y se especifica que la duración de la cookie es de 6 meses y que se vuelve a setear a 6 meses cada vez que se resetea, es decir, que si vistas un site cada menos de 6 meses la cookie nunca llegará a caducar.
Un ejemplo de como funciona es ver como se queda seteada tras llegar a 11870.com (tienen la configuración estandar) tras buscar "fontaneros" en Google (basta con buscar la _utmz dentro de las cookies de 11870 en el mozilla con el cookie editor de la sección de herramientas).

Dónde puede verse (pulsar en la imagen si es pequeño) que la visita se asigna correctamente al canal "organic" con keyword "fontaneros". Hasta aquí todo correcto.
Si una vez que ya tenemos la cookie en nuestro PC, cada vez que accedamos a 11870.com mediante un canal "reconocido" por GA (SEO, SEM, links en otras webs, links en nuestros mails si están tageados, etc...) GA sobrescribe la cookie con los nuevos valores indicando correctamente el último canal "reconocido" y keyword relacionada de acceso.
Si se utiliza el seguimiento de conversiones de analytics (habitual en las páginas de comercio electrónico), se pone un tag en la página de confirmación de pedido que lo que hace es leer la _utmz para leer el último origen del usuario y asigna a este canal la conversión.
Hasta aquí todo correcto.
Sin embargo, lo que casi nadie sabe (porque no se escribe sobre ello) es cómo afecta este sistema al tráfico directo. Se entiende por tráfico directo aquel que proviene de los usuarios que escriben tu dirección directamente en la barra del navegador o que tienen un tu web en favoritos o vinculos o que pulsan en un link no taggeado en un mail y que por tanto, acceden a tu web de forma directa, sin pasar antes por ninguna otra web.
Pues bien, GA no sobreescribe el valor de _utmz con el tráfico directo, es decir, que cuando se accede directamente a un site, si el usuario accedió en los últimos 6 meses al mismo site y no ha borrado las cookies (y tiene por tanto la _utmz para ese dominio) GA no sobreescribe el valor. Esto quiere decir que esta segunda visita se contabiliza en el mismo canal que la última por un canal "reconocido" y si en esa visita se realiza una conversión, esta conversión se asigna al primer canal y no a una visita directa.
Este funcionamiento, tras mucho buscar, no lo he encontrado explicado en ningún sitio así que aunque la teoría así lo indica, antes de darlo por cierto me dediqué a experimentar y cualquiera con mínimos conocimientos y ganas lo puede hacer. Basta con:
1.- crear un blog nuevo
2.- instalar GA en este blog
3.- poner un link al nuevo blog en otro blog
4.- Visitar el nuevo blog desde el segundo pulsando en el link (se generará la _utmz indicando que la visita viene desde el segundo blog).
5.- Quitas el link en el segundo blog para que nadie visite el primero y altere las mediciones.
5.- Ahora te puedes pasar 6 meses haciendo visitas directas al nuevo blog. Si quieres 100 cada día y podrás comprobar en GA como TODAS las visitas se contabilizan como visitas desde el segundo blog (aunque no sea así) y si en alguna página del blog pones el tag de conversiones, verás como si accedes a dicha página se contabiliza una conversión (lógico) y como esta conversión se asigna a las visitas desde el segundo blog (no podría ser de otra manera pues no habrá contabilizada ninguna visita directa).
Bueno, ya me he enrrollado mucho. La próxima entrega de "Lo que casi nadie sabe de Google Analytics" tratará el tema... ¿y porque Google con 10,000 ingenieros hace que GA funcione de esta manera?
Otros temas de la saga serán:
- ¿se puede modificar el comportamieno de la _utmz para que no funcione así?
- ¿afecta este funcionamiento a todos los canales no directos por igual o favorece en algo a Google?
- ¿qué pasa si en lugar de escribir tu dominio en la barra de navegación del navegador el usuario lo escribe en la caja de búsqueda de Google?