Eliminar tráfico spam de afiliados en Google Analytics

Por 28 diciembre 2014 SEO 11 Comentarios
filtrar trafico spam

¿Tráfico extraño en Analytics? Sigue leyendo…

Desde hace un tiempo puede que hayas notado picos aleatorios de tráfico en tus gráficas de Google Analytics. Bueno, en la mayoría de culturas eso serían buenas noticias pero lamentablemente hay que desconfiar un poco de todo, más cuanto más fácil y aparentemente aleatorio sea el hecho registrado.

En el caso que explico hablaremos específicamente del tráfico spam de afiliados, con el ejemplo concreto de semalt.com pero aplicable a otros muchos que seguramente irán aumentando con el tiempo, por citar unos pocos tenemos:

  • lumb.co/co.lumb
  • darodar.com
  • econom.co

¿Cómo detectar este tráfico spam? spam afiliados google analytics

Inicia sesión en Google Analytics y elige la cuenta y propiedad que quieras inspeccionar.
Después busca «Todo el Tráfico» en la sección de «Adquisición» (ver ilustración a la derecha). Según cada caso puedes encontrar las fuentes de tráfico spam enseguida o bien entremezcladas entre las principales fuentes de tráfico. En el caso que utilizo como ejemplo hay muy poco tráfico y las fuentes de spam saltan a la vista inmediatamente:

tráfico spam de afiliados en google analytics

El tráfico spam de afiliados en Google Analytics tiene una característica típica de visitas de robots, mira los valores recuadrados de tasa de rebote, páginas/sesión y tiempo medio.

El comportamiento de estos spammers puede contaminar gravemente tu analítica web.

Existe una forma sencilla de remediar este tráfico y el perjuicio que trae a la fiabilidad de tus datos, esta radica en filtrar estas visitas mediante un añadido en el fichero htacess de la web que quieras proteger.

Si estás familiarizado con el htaccess puedes saltarte la siguiente sección y pasar a la información que debes insertar en el fichero.

Fichero htaccess

El fichero htaccess contiene reglas que el servidor web seguirá, suele utilizarse para redirigir URLs o para sobreescribirlas en forma amigable para SEO, usabilidad, etc. Podrás acceder a él mediante cualquier cliente de FTP (Filezilla y otros) y las credenciales adecuadas o bien habitualmente podrás acceder a él mediante un gestor de ficheros remoto que con toda probabilidad encontrarás en el panel de control de tu proveedor de hosting.

Si este fichero no existiera puedes crearlo en tu propio ordenador con el bloc de notas u otra herramienta de texto plano como Ultraedit o Notepad++ y tras editarlo con la información de la sección siguiente («Filtrar spam con Htaccess») puedes subirlo a la raíz del sitio web y cambiar su nombre y permisos, el nombre debe ser literalmente .htaccess y los permisos deben ser restrictivos, por lo menos 644. El punto delante del nombre del fichero hará que este fichero sea «invisible» una vez subido al servidor web, a menos que configures tu cliente FTP para mostrar dichos ficheros ocultos.

Configurar Filezilla: mostrar htaccess y otros ficheros ocultos

Configurar Filezilla: mostrar htaccess y otros ficheros ocultos

Para asignar permisos restrictivos (por seguridad) al fichero htaccess debes hacer lo siguiente: botón derecho sobre el htaccess remoto y…

asignar permisos ftp htaccess 644 en Filezilla  permisos ftp htaccess restrictivos en Filezilla

Filtrar spam con Htaccess

Ahora estos son los datos que debes añadir a tu htaccess para filtrar el tráfico que provocan estos robots spammers. Se recomienda esta acción debido a que estos spammers ignoran las reglas de robots.txt y su política de bajas (opt-out) es de todo menos fiable.

Puedes reaprovechar la primera línea para añadir Referers que pretendas quitar de en medio:

SetEnvIfNoCase Referer semalt.com spambot=yes
Order allow,deny
Allow from all
Deny from env=spambot

Filtrar tráfico spam directamente desde Google Analytics

Existe una alternativa más sencilla aún pero que necesita de la colaboración de los gestores de los spambots, cosa con la que no se puede contar. Google utiliza los servicios de inventario y listado de bots de la empresa IAB para mover el mecanismo que se esconde tras la casilla de filtrado automático de spiders o bots conocidos. Si no conocías la existencia de este mecanismo de autofiltrado puedes encontrarlo de esta forma:

  • Inicia sesión en Google Analytics
  • Vé a la sección de Administrador (si tienes el nivel de acceso adecuado)
  • Escoge la Cuenta y Propiedad sobre la que vas a añadir este autofiltrado
  • Escoge la Vista sobre las que aplicar el filtrado automático de spiders conocidos
  • Abre la [Configuración] de dicha Vista y busca el campo adecuado hacia el final de las opciones de configuración
Google Analytics  configurar autofiltrado spiders

Configurar tus Propiedades en Google Analytics para autofiltrar robots spiders.

google analytics configurar autofiltrado spiders

Activar autofiltrado de robots conocidos en Google Analytics.

Actualización del artículoActualización sobre los 2 métodos de filtrado

Tras unos días de observación  en la analítica he podido constatar un hecho a priori sorpresivo, parece ser que ambas soluciones tienen sus puntos fuertes pero atención:

Aplicar ambas soluciones a la vez parece invalidarlas y permite el paso de tráfico fantasma a Google Analytics

Aquí muestro los datos empíricos recogidos en 2 vistas gemelas de una de mis webs laboratorio, podréis comparar y ver que a mismo rango de fechas y viendo específicamente el tráfico de Referencia, la versión «sólo htaccess» cumple con su misión de filtrar a los spiders semalt, webbuttons, darodar, iloveitaly y otros:

Test filtrado trafico fantasma semalt - Recogiendo tráfico spam

Test filtrado trafico fantasma semalt – Recogiendo tráfico spam

Test filtrado trafico fantasma semalt

Test filtrado trafico fantasma semalt – No se observa tráfico spam

 

 

11 Comentarios

  • Jarfer dice:

    Hola Ricard, he estado sufriendo en mi blog este tipo de tráfico spam con falsas referencias desde darorar.com, ilovevitaly.com, econom.co, priceg.com y similares desde principios de diciembre y, al menos en mi caso, he podido comprobar que realmente no llega ese tráfico spam al servidor web de mi blog (ni rastro en access.log), ya que lo que hace este tipo de ataque es inyectar tráfico falso directamente en Google Analytics utilizando el código GA del sitio al que ataca. Es por esto que todo lo que hagas en el servidor web (.htaccess, robots.txt, etc.) no sirve absolutamente para nada en este caso. Incluso si se detiene el servidor web de forma que sea imposible recibir tráfico alguno, en Google Analytics seguiría apareciendo ese tráfico spam.

    Parece ser que este tipo de spam está afectando desde principios de diciembre a multitud de sitios en todo el mundo, por lo que tiene pinta de que es un ataque spam automatizado a lo bestia en toda regla. Los códigos de GA seguramente los generen aleatoriamente.

    Te dejo un enlace a mi blog en el que cuento cómo lo he tratado yo: http://www.jarfer.com/como-eliminar-el-referrer-spam/

    Saludos,

    Jarfer

    • Hola y gracias por tu comentario,
      Palabra que en cuanto pueda me leo tu post con atención! PERO a bote pronto discrepo amablemente de lo que afirmas en tu comentario.
      He visto que aplicando el filtro htaccess Y además la opción de ignorar los spiders conocidos no se arregla nada, de alguna forma de anulan ambas «protecciones».

      Lo que me funciona (y tengo datos empíricos de GA con ambos casos) es el filtro htaccess.

      No sé si has copiado una vista de control para tener ambas versiones recogiendo datos en paralelo, mi versión htaccess + filtro GA recoge todo ese tráfico fantasma de semalt, darodar, iloveitaly, makemoneywebbuttons y otros bots de ese tipo mientras que su vista gemela SIN el check para eliminar tráfico de robots y spiders conocidos está filtrando perfectamente todo lo especificado.
      Si averiguas algo más sobre el tema serás bienvenido :)
      Un saludo

      • Jarfer dice:

        Hola Ricard, se podría decir que hay dos tipos de referrer spam: el que accede al sitio atacado, y que por lo tanto se puede evitar mediante configuración en .htaccess, y el que no accede al sitio atacado sino que lo suplanta inyectando visitas falsas en Analytics.

        semalt.com es un claro ejemplo del primer caso, sin embargo el spam de los sitios de Vitaly Popov (darodar.com, ilovevitaly.com, priceg.com, blackhatworth.com, etc.) no se puede evitar mediante configuración en .htaccess porque se trata de visitas fantasma que nunca llegan a acceder al sitio atacado.

        En el siguiente enlace en inglés https://veithen.github.io/2015/01/21/referrer-spam.html se explica claramente esto, e incluso hay un formulario que te permite inyectar en Google Analytics visitas falsas haciendo uso de un pequeño código JavaScript que invoca a Google Analytics (http://www.google-analytics.com/collect) mediante una petición HTTP GET con los parámetros adecuados.

        Además, he escrito un segundo post en mi blog que es una actualización del primero que escribí sobre este tema, y en el que se explica el origen de este spam, el impacto real y cómo evitarlo.

        Saludos,

        Jarfer

        • Bienvenido de nuevo Jarfer,
          He leído el link que mencionas y reconozco que no he tenido tiempo aún de ver lo tuyo, aunque conozco tu punto de vista.
          Tendré que encontrar un rato aunque sea en vacaciones, porque el caso es que desde que hice los cambios (en mi web) que menciono en el post, he dejado de tener spam en mis líneas temporales. De hecho tenía pensado hacerlo en algunos clientes de control para ampliar la muestra pero no he podido por pura carga de trabajo. Dejaré esto en pausa hasta que pueda leer tus dos artículos.
          Un saludo y gracias por tu comentario, hay tantos frentes abiertos!

          • Hola a todos, sabes, yo tengo la prueba infalible al comentario de @Jarfer, y es que tengo sitios desactivados (sin hosting), de los cuales no he borrado la propiedad de google analytics, y estos sitios, al día de hoy siguen marcando tráfico (100 o 200 sesiones por mes), y si los revisas, son sólo fuentes de «spam», claro si los sitios no existen (ni los dominios).

            Saludos!

  • […] servidor, sería lo mejor. En servidores Apache, se puede hacer modificando el fichero .htaccess. Este post puede serte de […]

  • Natalia dice:

    Hola Ricard
    estoy intentando solucionar este tema en mi web de WordPress y tenía un par de dudas. Tengo instalado el plugin SEO de Yoast donde, si no me equivoco, puedo editar el archivo htcaccess sin tener que usar el FTP. ¿Es correcto? Se trataría de añadir el texto que indicas al final y ya?
    Otra duda que tengo es respecto a la secuencia que indicas:

    SetEnvIfNoCase Referer semalt.com spambot=yes
    Order allow,deny
    Allow from all
    Deny from env=spambot

    Si quiero añadir más sitios repito la primera línea con el nombre correspondiente o repito la estructura completa una y otra vez.
    Muchas gracias por tu ayuda.
    Un saludo

    • Hola Natalia,
      Como indicas hay varias formas de editar el htaccess, puedes usar la que te resulte más cómoda (solamente insisto en la seguridad).
      Deberías repetir solamente la primera línea cambiando el valor del spider que quieras filtrar, las líneas restantes solamente necesitan aparecer una sola vez, siempre por debajo de las marcas de a quién hay que parar (los SetEnvIfNoCase).
      No sé si habrás visto la actualización que puse al final del artículo: si activas el filtro de Analytics que menciono Y además editas el Htaccess, todo esta solución falla según mis pruebas.
      En cambio a mismas condiciones la solución Htaccess sola funciona al 100% hasta ahora.
      Un saludo y suerte!

  • Natalia dice:

    Muchísimas gracias Ricard!
    Un saludo

  • Juan dice:

    Hola Ricard,

    Editar el htaccess es la mejor opción para mí, no lo elimina del todo el problema pero reduce bastante el spam. Para agiliar su modificación, hice un script que muestra el contenido del archivo htaccess y permite incluir fácilmente para su bloqueo los bad referers o dominios generadores de visitas spam (está disponible también como módulo para Prestashop).

    El enlace es: http://bloquearenlaces.blogspot.com.es/

    Saludos.

  • Ignasi dice:

    Buenas Richard,

    Primero de todo, agradecerte este práctico y buen tutorial para los novatos (como yo) en el mundo del SEO. Voy a intentar implementar el segundo ejemplo directamente sobre Google Analytics por tiempo y por conocimiento. Veré el progreso y sinó probaré con el primero, ya que es desesperante ver como tu tráfico incrementa y cuando miras el resumen de visitas sea la gran mayoría spam.

    De nuevo, gracias! y si funciona, me volveré a pasar para comentarte qué tal.

    Un saludo,
    Ignasi

¿Cuál es tu opinión?

Tu cuenta de correo no se hará pública.

¡Pon tu web a trabajar ya! Contacta hoy sin compromiso