Saltar al contenido

¿Cómo usar screaming frog para optimizar un web?

15 septiembre, 2018
seo-screaming-frog

Screaming Frog. La rana gritadora, vaya nombre para una herramienta SEO. Si al menos la utilidad pegase un grito cuando acabase la tarea… pero ni eso.

Supongo que habrá alguna historia detrás del nombre. En fin…

Vamos a meternos de lleno con una de las herramientas más potentes y que más me gusta del todo el panorama SEO.

¿Aún no la conoces? Me pido explicártelo y enseñarte a trastear con ella.

No voy a decir que utilice la herramienta todos los días. Pero su versatilidad me permite utilizarla para varios procesos.

Personalmente, la utilizo para mucho más allá que corregir el SEO técnico.

La utilizo hasta para saber si mi perro va a ser aceptado en un restaurante. En serio. ¿No sabes cómo? lee el artículo y verás.

Pero por el momento, voy a enseñaros como configuro la herramienta y corrijo los mayores fallos la primera vez que meto la mano en una web. En otras palabras. Os explico cómo me centro en el SEO técnico la primera vez que utilizo este spider.

¿Qué es Screaming Frog Seo Spider?

Screaming Frog Seo Spider es una herramienta de SEO enfocada a corregir fallos técnicos o mejorar el SEO onpage. Es una herramienta de pago con una licencia anual.

Sin embargo, Screming Frog dispone de una versión gratuita con ciertas limitaciones. Por ejemplo, solo nos permitiría escanear 500 URLs como máximo y tendremos algunas funciones avanzadas inaccesibles.

Por otro lado, para un blog pequeño o una página personal o de una empresa pequeña, la versión gratuita podría ser suficiente.

¿Qué es lo primero que hago con Screaming Frog?

Lo primero que hago es centrarme en la estructura de una web. Qué todo este correcto. Me centro en página desde un punto de visto macroscópico.

Para ello, interesa que el escaneo de Screaming Frog sea lo más rápido posible. Por eso de la eficiencia y rapidez.

Si tenéis un blog de unas pocas decenas de páginas no es relevante. Pero en una web con miles y miles de páginas, es necesario utilizar Screaming Frog por partes.

Objetivo del primer paso
Detectar links rotos, URL duplicadas o bucles infinitos dé páginas.

Fijaos en esta gráfica. La página tenía fallos muy graves en su estructura lo que generaba que Google indexase 4 veces más páginas de las que la web tenía.

Screaming Frog me ayudó a detectar y corregir los fallos. ¿Os imagináis las penalizaciones que tenía por duplicidad de contenido?

¿Os enseño cómo?

Primer paso: Configurar la herramienta SEO

 

Como blog cobaya voy a usar Velocidad cuchara, una página de recetas para la thermomix que me gusta bastante.

Me quedé bastante sorprendido ya que la página está hecha un completo desastre. Google está indexando más de 15.000 páginas de una web que tiene menos de 3000. ¡Es decir 5 veces más!

En fin… el que esté libre de pecado que tire la primera piedra ¿no?

Empecemos.

Configuración del Spider

Abrimos el panel de configuración: Configuration –> SpiderActivamos las opciones como en la imagen. Lo explico.

De momento, en este primer paso, no me quiero centrar en imágenes. Si bien Screaming Frog nos mostraría que fotografías son muy pesadas o cuales faltan.

Lo mismo para Java y SWF (de tener). También pasamos de comprobar los links externos.

Sin embargo, seleccionamos “Crawl Canonicals”. De este modo podremos comprobar si hay alguna página que está mal canonicalizada.

Vale. Esta bien. Puedes seleccionar todo. Adelante. Recuerda que lo que yo busco es la eficiencia, solo lo que necesito. Tampoco está de más recordar que la aplicación va a consumirnos más y más recursos. Cómo tengas una página grande ya puedes tener RAM de sobra.

En la pestaña de avanzado elegimos las siguientes opciones.

Yo prefiero respetar el tag noindex. Pero si quieres comprobar si se ha colado algún tag activarlo. Yo es que prefiero usar el sitemap para decir a los buscadores donde no ir, entonces se que no voy a encontrar esa etiqueta.

Opciones personalizadas

¡Está función me encanta! Para mi es lo que hace a Screaming Frog que se diferencie de otras herramientas SEO del mercado.

Otra opción podría ser la extracción de las etiquetas hreflang para comprobar la correcta implantación.

Definimos 2 cosas para que nos extraiga: Configuration –> Custom –> Extraction

  • El idioma de la página: lang=”(..|..-..)”
  • La referencia de Google Analytics: [“‘](UA-.*?)[“‘]

Además, podemos utilizar la función buscar a nuestro antojo: Configuration –> Custom –> Search

Lo que la ranita hará es buscar la coincidencia en el código HTML. Aquí ya cada uno lo podrá adaptar a su página web.

Ejemplo
En este pasó yo lo utilicé en una web para buscar todos los productos que habían sido descatalogados y aún siguen mostrándose. Definí que me buscase la palabra “Descatalogado” para obtener la lista.
Empezamos nuestro escaneo y nos vamos a tomar un café

¿Cómo interpretar los resultados de Screaming Frog y aplicar correcciones?

Duplicidad HTTP/HTTPS

 

Si utilizáis URL relativas y no absolutas en vuestra web, es posible que esto suceda. Si bien vuestra página está completamente en HTTPS, HTTP o mezcla es mejor comprobarlo.

Buscar el momento en que se ha cambiado de un protocolo a otro es difícil. Si se sospecha que podría estar pasando esto en vuestra web es mejor no dejar el spider funcionando solo y pararlo en cuando se vea ese cambio.

Después lo mejor es bajarse todos los links internos: Bulk Export –> All inlinks y tratarlo en Excel.

Supongamos que queremos comprobar que página en HTTPS apuntan a otras páginas HTTPS, ya que sospechamos que ahí es el fallo.

En el archivo csv descargado, filtraremos la columna “Source” por “https” y lo mismo para la columna “destination” para detectar el fallo.

Esa página que he encontrado, su protocolo es https. Sin embargo, en ciertos momento, se cambia a http y la web se duplica.

La razón de parar Screaming Frog tan pronto como se detecte este fallo es que habrá menos URLs que comprobar.

Google trata las páginas HTTP y HTTPS por separado. De darse este fallo, habría 2 copias exactas de vuestra web peleando entre ellas en Google.

Códigos de respuesta del servidor.

Buscamos principalmente errores del tipo 4xx.

Concretamente los errores 404 son producidos por links rotos o páginas que ya no existen. Seleccionamos las páginas con ese error.

En la parte de abajo de la ventana, hacemos clic la pestaña Inlinks para ver que páginas están enlazando a esa página inexistente.

Tendremos que tomar la decisión de cómo solucionarlo; eliminar el link, crear la página, redireccionamiento, …

URL duplicadas

Muchas veces se pueden generar URL duplicadas que, bien siendo la misma página, generan 2 direcciones en los buscadores.

Por ejemplo, como Google diferencia mayúsculas y minúsculas, es importante que no exista este tipo de duplicidades.

Por suerte Velocidad cuchara no tiene ninguno.

Este fallo se puede solucionar muy fácil incluyendo el tag canonical.

Múltiples meta títulos o descripciones

Lo que suele venir porque un archivo HTML tiene 2 cabeceras <head>

 

Muy fácil de solucionar. Se elimina uno. ¿Verdad?

En el caso de velocidad cuchara no hay que indagar mucho para ver que una mala configuración entre WordPress y Yoast SEO está causando duplicidades.

Múltiples H1

Cada página debe contener un único encabezado H1. Por definición es el título principal el texto. No puede haber 2 titulos principales H1.

Parece que algunas de las chicas no lo tienen claro. O quizá sea debido a un cambio en el tema de WordPress.

Canonicalised

Vamos a comprobar que no se está canonicalizando algo que no debiésemos. Descargamos el archivo CVS todas las URL que se han detectado con una dirección diferente a la especificada en el código.

Generalmente, esta alerta salta cuando se detecta una disparidad entre mayúsculas/minúsculas o bien cuando en las direcciones de WordPress se le elimina la barra “/” al final.

Vamos a crear 3 columnas más en ese archivo CSV.=lower(Columna Address) (Columna C)

=lower(Columna Canonica) (Columna D)

=IF(Columna C = Columna D,1,0)

Ahora solo nos faltará filtrar los valores “1” de esa nueva columna para comprobar esas URLs. De esta forma, filtramos aquellas que están canonicalizadas por disparidades entre mayúsculas y minúsculas.

Sin embargo, con velocidad cuchara no hace falta ir tan lejos. Tan solo nos hace falta echar un vistazo a la tabla Excel para comprobar el tinglado que tienen montado…

 

Un número alto de las URLs del blog tienen 2 etiquetas canonical, ¡qué encima son diferentes! Esto está provocando que un gran número de ellas no se listen en Google.

¡Qué desastre! Otra vez, esto lo está generando la mala configuración de Yoast SEO.

Custom

Aquí se listará todos los valores que se han extraído de las búsquedas personalizadas.

Tan solo comprobar que todas las páginas tengan el valor correcto para Analytics y el idioma bien configurado.

Vemos que velocidad cuchara utiliza 2 propiedades diferentes de Analytics. Pero parece que todo estuviese correcto.

Hasta aquí el primer vistazo a una web para corregir esos fallos del SEO técnico.

A los webmasters de velocidad cuchara les diría que contratasen a alguna persona para que echase un ojo a la web. Están perdiendo mucha fuerza en Google, sobre todo por esas páginas con doble canonical.

Pero lo más grave son las 15.000 páginas que está listando Google. En mi opinión, el rendimiento de los buscadores está influyendo en el tráfico que puedan tener en la web.

Me acuerdo un caso de un blog que tenía unas pocas cientos de páginas pero en Google estaban listadas más de ¡30.000!. En ese caso no había ninguna página duplicada. Lo que pasaba es que Google estaba listando todos los resultados del buscador interno de la web.

En cierto momentos, los webmasters habían incluído un link a la primera página de los resultados del buscador interno. Claro, Google había seguido dando a siguiente y siguiente y siguiente.

El problema es que las páginas que muestran resultados, no suelen tener mucho texto. Google estaba listando miles de páginas con muy poco texto.

La solución fué bloquear el acceso de los spiders a los resultados de las búsquedas.

Nosotros, como profesionales del marketing digital, debemos saber determinar y solucionar este tipo de problemas de una forma rápida y directa.

Si aún no dispones del programa, lo podéis bajar gratuitamente de la página web oficial. Si bien la versión gratuita tiene limitaciones, para un blog medio puede ser suficiente.

Objetivo del segundo paso
Detectar advertencias en las imagenes y comprobar posibles fallos en los títulos y las meta descripciones.

Configuración de Screaming Frog.

Cómo habremos corregido el contenido duplicado en una primera parte. Seleccionamos para esta, todo tipo de archivos.

En este escaneo con Screaming Frog, vamos a centrarnos en los fallos que nos pueden estar dando las imágenes y los errores más perjudiciales para el SEO.

Como hemos comprobado que las páginas con la etiqueta canonical o noindex son correctas, no es necesario perder tiempo escaneándolas otra vez.

Tampoco queremos que se listen en los resultados, así que seleccionamos dichas opciones en la configuración.

Perfecto.

Mientras la rana está saltando libre por toda nuestra web, nos tomamos otro café.

Solución de problemas

Está vez, he tomado a thermorecetas como cobaya. Otra web de recetas para thermomix a la que sigo. El año pasado sacaron un libro que también compre.

  • Respuestas del servidor

Si hemos hecho las cosas bien en el anterior escaneo y todo está corregido, esta vez solo se nos listaran las imágenes que están produciendo un error 404.

Al igual que en el caso anterior habrá que ir una por una y determinar cuál es la causa de ese error.

  • Títulos y descripción SEO

Primera aproximación al SEO onpage.

Page Titles

No me voy a meter ahora en como optimizar un título para SEO. Puede que haga un post o puede que no más adelante. Hay cientos de artículos en otros blogs sobre esto.

Me quiero centrar en aquellos títulos que sobrepasan el número máximo de píxeles según los estudios y los que son muy cortos.

Se está perdiendo fuerza con ello. El título es el elemento de la página que más ayuda a posicionar. Merece la pena pensarlo un poco.

Si hay un gran número de alertas (porque no habéis hecho el trabajo bien estos años…) os quedará por determinar si merece la pena optimizar o no.

Yo basaría la decisión en la potencialidad del post y si está funcionando o no en Google.

Desde luego, echaría un vistazo a los más largos y cortos. Screaming Frog dispone de una pestaña abajo que nos ayudará a ver cómo quedaría nuestro post en Google.

Titulo demasiado corto

Titulo demasiado largo

Otra cosa importante. El título de la página no tendría que ser igual al título H1.

Google nos avisa que ambos deben ser similares y/o consistentes. Pero similar o consistente no es sinónimo de idéntico.

Parece que las chicas de thermorecetas no tienen esto muy claro ya que el 57% de las páginas tienen el mismo título en ambos.

Meta descripción

Es bien sabido que la metadescripción no ayuda a posicionar más alto. Sin embargo, si influye en convencer a un visitante a hacer clic en tu web o no.

Si la descripción es muy larga o muy corta, Google la mostrará cortada o mostrará lo que le dé la gana.

Al igual que antes, si tenemos un gran número de alertas, será mejor priorizar.

En este punto me preocuparía más si se detecta alguna página con descripción duplicada. Aunque esto es algo que ya hemos solucionado en el primer post.

Pero al igual que en el caso anterior, si nos pasamos o nos quedamos cortos no sacaremos el máximo jugo de las oportunidades que tenemos.

Demasiado corto (todo)

 

Descripción que se ha ido de las manos

 

Título H1

Es comprensible que toda página necesita un título. Tú lo sabes, Google lo sabe y los visitantes lo saben.

Intenta que todas las páginas tengan un título H1. 

 

  • Imágenes

Las imágenes son importantes. Por un lado, un tamaño excesivo va a influir en la experiencia de usuario.

Por otro lado, una buena descripción nos va a permitir aparecer en las búsquedas de imágenes.

Fotos demasiado grandes

Esto no tiene que ser un problema. Puede que sea una foto grande. Lo ideal sería que el tamaño de la foto sea el óptimo.

Por un lado, no se usan tantos recursos en el servidor redimensionando la imagen. Pero por el otro, el visitante tiene una página que carga más rápido.

En cualquier caso, una imagen que ocupa casi 900kb, es excesiva se mira como se mire. Sobre todo, una que no es tan grande como la del árticulo del pollo oriental:

 

Etiqueta ALT

No todas las fotos tienen que tener esta etiqueta. Sería ridículo.

Pero las fotos en los post debiesen de tenerlas. Fijaos que en el caso anterior tampoco está definida una etiqueta alt. Tampoco la height, pero esto no viene al caso ahora.

La página de thermorecetas parece no usar una etiqueta alt una norma general. Fijaos que casi la mitad de las fotos no dispone de la descripción.

Están perdiendo muchas oportunidades en la búsqueda de imágenes.

Configuración de la herramienta

Recordar que, en este punto, los grandes problemas debiesen estar corregidos. De este modo obtendremos un escaneo más rápido de nuestra web o blog.

Por lo que podremos evitarnos recorrer todo lo que no sea HTML o las páginas que no respeten la etiqueta canonical.

La configuración de la pestaña avanzada va a coincidir con la del post anterior.

Por otro lado, vamos a definir Custom –> Search la cadena itemtype=”http://schema.org para encontrar las páginas web que tengan definida los microdatos.

También se podría ser más específico, si sabemos que estamos marcando recetas o reviews, correspondería buscar la cadena específica.

TRUCO
Un truco que utilizo yo para que se listen todas las URL en la búsqueda es buscar “head”. De este modo, no tendremos que estar comparando 2 tablas diferentes para saber qué páginas no tienen schema.

Esta función siguiente es para los usuarios de pago. Vamos a enlazar el API de Google Analytics y la Search Console. Nos va a permitir determinar qué páginas no están atrayendo tráfico por algún motivo.

Ya depende de cada uno, y lo que quiera buscar. Yo cuando hago esto, en el API de Analytics, selecciono solo el tráfico orgánico. Realmente si estamos haciendo una auditoría SEO es lo que nos interesa.

Respecto a las métricas y fechas a seleccionar, depende de cada uno. Creo que, para este punto, las sesiones y el rebote puede ser suficiente.

Correcciones

Para este paso he elegido la web cocinathermomix, otra de las que sigo. Esta además tiene una app que te avisa cuando hay recetas nuevas.

De este modo el autor saca el doble de dinero: publicidad en la página y en la app.

Enlaces externos

Google nos puede penalizar por enlazar a recursos inexistentes. Incluso si son externos. Pensad que nuestra web la experiencia del usuario debe ser óptima. Google penaliza cuando esta no lo es.

Pero todo eso es muy fácil de comprobar.

Si se selecciona el menú “external” se nos listarán todos los enlaces. No hace falta más que ordenarlos según respuesta para ver si hay algún 404.

Número de links por página

Aunque hoy en día ya no es una práctica habitual, antes era común en las granjas de links disponer de miles de links por página.

Es raro que en un blog o en páginas web pequeñas o medianas se creen este tipo de páginas.

Sin embargo, no está de más comprobarlo.

Seleccionamos todos los elementos, y ordenamos la columna outlinks. Si observamos un número anormalmente grande, valdría la pena echar un ojo.

Pásate por la guía de links externos que hice para saber cuál es la mejor aproximación.

Redirecciones

Aunque no tiene una gran influencia en el posicionamiento, se ha comprobado que se pierde algo de fuerza en las redirecciones.En este caso, filtraríamos los enlaces para comprobar solo aquellos que se redireccionan en nuestra página.

Cocinathermomix tiene 4 redirecciones.

Seleccionando la pestaña inlinks de la parte de abajo, descubriremos de donde vienen esos links.

No priorizaría la posible corrección de estos links, pero está bien saberlo.

Marcado Schema

Si no estás utilizando microdata en vuestra página web, ya estáis tardando en adaptarla…

La página de cocinathermomix lo tiene implementado en todas las páginas. Si hemos aplicado el truco que os he comentado antes, bastaría con descargar el archivo Excel y filtrar aquellas URL con marcado schema.

Nos quedarían solo aquellas que no lo tuviesen.

Páginas lentas

Este punto es interesante. Una web puede ser lenta por varios motivos, pero si vemos que una página es más lenta que la mayoría habría que investigarla.

Screaming frog nos da bastantes opciones para encontrarlas. En la parte derecha nos da información muy visual sobre esto.

Si nos vamos a la pestaña de códigos de respuesta, podremos ordenar las URL por el tiempo de respuesta. Si vemos que una página ha tardado un tiempo considerable en responder, merece la pena estudiarlo.

Profundidad de la página

Screaming Frog también nos muestra visualmente la profundidad de nuestras páginas.

Idealmente, las páginas importantes no deberían estar muy profundas. Yo tiendo a pensar que es mejor interconectar páginas entre sí lo que hace que las páginas que administro no muestren mucha profundidad.

Solo merecería molestarnos en corregir esto si descubrimos alguna página importante difícilmente accesible.

Search console

Aunque no vayamos a tomar ninguna medida en este punto, esta información podría ser muy importante para definir la estrategia de marketing y el plan de actuación.

Si descargamos el archivo Excel podremos manipularlo a nuestro antojo.

La gran diferencia de este archivo con el que puedes descargarte de la Search console directamente, es que, en este, están incluidas las páginas que no reciben ninguna impresión desde Google.

A partir de ahí podemos diferenciar las siguientes páginas:

  • Páginas con cero impresiones
  • Páginas con impresiones y cero clics
  • Páginas con CTR bajo
  • Páginas con CTR alto (Oportunidad)
  • Páginas con impresiones altas (Oportunidad)

Google Analytics

De igual manera que el anterior apartado, esta información nos resultará muy útil para tomar decisiones.

Como he comentado, la mayor ventaja de esta opción es que podremos identificar páginas que no reciben nada de tráfico y determinar la causa.

Las páginas que destacaría en este caso:

  • Páginas con pocas visitas
  • Páginas con rebote alto
  • Páginas con muchas visitas (oportunidad)

Salida

Como habéis podido comprobar estas semanas, me gusta mucho Screaming Frog. Es una de las herramientas más potentes que hay en el mercado.

Estoy seguro que volveré a hablar de ella. Os mostraré como la utilizó para definir oportunidades de links internos o como sacar el máximo partido de links externos a nuestra página.

La utilizo incluso para buscar oportunidades de generar links externos o como herramienta principal para espiar a competidores.

Llámanos