Saltar al contenido

¿Cómo funciona el filtro SafeSearch de Google Image Search?

24 noviembre, 2018
SafeSearch de Google

Este artículo trata sobre el «safeSearch-Filter» de Google Image Search. Es la segunda parte de una pequeña serie sobre el filtro SafeSearch (véase «Búsqueda de imágenes en Google: hacia el filtro safeSearch y hacia fuera»). La búsqueda de imágenes de Google tiene – al igual que la búsqueda de vídeos, por cierto – una opción de filtro. Esto le permite visualizar los resultados en tres categorías. La primera opción es «sin filtrar». En Google esto se llama «SafeSearch Off». En esta vista, se muestran todos los resultados encontrados, sin importar lo sucios que puedan ser.

Visión nítida – ¿Dónde está la frontera?

Por defecto, la búsqueda de imágenes está configurada en «Moderado». La mayoría de los usuarios de Google no conocerán ni utilizarán la configuración del filtro en absoluto. Por lo tanto, el»filtrado moderado» también puede denominarse»búsqueda normal de imágenes». A diferencia de la búsqueda de imágenes sin safeSearch, el filtro detecta una serie de imágenes: todas aquellas que de alguna manera son «ofensivas» o que Google considera «ofensivas». Si cambia la opción SafeSearch a «Strict», se filtrarán aún más imágenes. Entonces sólo deben quedar aquellas fotos que no muestren ningún contenido cuestionable. Google recomienda la variante «Estricto», por ejemplo, cuando los niños navegan en la búsqueda de imágenes.

La mayoría de la gente busca con «moderada búsqueda segura».

Como he dicho, se puede suponer que la mayoría de los usuarios de Google Image Search buscan en la configuración predeterminada «Moderado». Si tienes un sitio web con muchas imágenes y algunas de ellas están bien situadas en la búsqueda de imágenes, puedes conseguir muchos visitantes a través de Google Image Search.

Como se describió ayer, uno de mis dominios se ha deslizado en el filtro. Las imágenes, que anteriormente se encontraban (casi) todas en la búsqueda de imágenes moderada, sólo se mostraban en la búsqueda de imágenes durante este tiempo si se cambiaba el filtro SafeSearch a «Desactivado». Lo busqué: durante este tiempo casi no recibí ninguna visita a través de la búsqueda de imágenes. La proporción de los que buscaron con «SafeSearch-Aus» fue prácticamente nula. Eso también es lógico. Si apagas el filtro, probablemente no estés buscando a Papá Noel o a Jack Sparrow.

Por lo tanto, si ejecuta un sitio web «normal» con imágenes «normales», es absolutamente necesario que aparezca en la lista de la búsqueda moderada de imágenes. Todo lo demás es una pérdida de tiempo.

Después de lo que he investigado en los últimos días, no es tan raro que las imágenes entren en el filtro. Sólo que muchos probablemente ni siquiera lo notan. En mi caso, alrededor del 70% de los visitantes vienen a través de la búsqueda de imágenes de Google – ahí es donde se destaca. Pero muchos otros pueden no haberse dado cuenta del potencial que están perdiendo.

¿Cómo se puede saber si el filtro está colgado?

Consulta del sitio de búsqueda de imágenes de Google (por supuesto, my-domain.com debe ser ajustado)

Primero tiene que mirar en la «búsqueda moderada de imágenes» para ver cuántas imágenes se muestran. Y luego apague el filtro: ¿Cuántas imágenes se muestran ahora?

Si ambos números son idénticos, no hay problema. Sin embargo, si difieren y se muestran menos imágenes en la búsqueda de imágenes moderadas, esto es una indicación clara de que algunas de las imágenes serán filtradas. Si estás viendo esto, publícalo en los comentarios.

Pero, ¿cómo es posible que imágenes individuales o incluso un dominio completo entren en el filtro?

¿Cómo funciona el filtro Image Search SafeSearch?

Ahora se está volviendo especulativo. Porque Google no da ninguna pista. ¿Qué métodos, funciones y criterios utiliza Google para filtrar las imágenes? Lo intentaré sistemáticamente: ¿qué funciones puede extraer Google?

  • Análisis del material gráfico
  • Análisis de nombres de archivos
  • Análisis del texto asignado a la imagen o de la página en la que aparece la imagen.
  • Análisis de enlaces (entrantes y salientes)
  • Mensajes de usuario sobre contenido ofensivo

1. Filtro SafeSearch: análisis de imágenes «reales

Métodos de análisis óptico de imágenes (Mona Lisa)

El primer punto «Análisis del material fotográfico» es sin duda el más sencillo. Por supuesto, ahora hay muchos algoritmos que pueden analizar imágenes. Se han generalizado. Un ejemplo es el reconocimiento automático de caras, que hoy en día funciona en prácticamente todas las cámaras digitales. Google mismo ofrece con «Imágenes Similares» una función que obviamente se origina en la evaluación de la información de la imagen. Sin embargo: por muy bueno que pueda ser en parte, es y sigue siendo muy defectuoso. Una bicicleta de lado es muy fácil de identificar. Pero una bicicleta desde delante es mucho más complicada.

La aplicación principal del verdadero «análisis de imagen» se encuentra sin duda en los «patrones de imagen estereotipados» en el ámbito de la pornografía o de las armas (violencia). Aquí, las características de la imagen previamente definidas se pueden determinar con relativa facilidad.

Sin embargo, el análisis de la imagen permanece borroso. Por ejemplo, NerdInSkirt pudo probar hace algún tiempo que las fotos desnudas en blanco y negro no se filtran si el nombre de archivo y el texto que las rodea son completamente inofensivos (ver «Google Image Search: Bad Neighbourhood»).

2.Filtro SafeSearch: análisis del nombre del archivo de imagen

Al igual que en la optimización de imágenes, la información textual es la fuente de información más importante en el análisis de imágenes de Google. Todos los textos disponibles, posiblemente con diferentes ponderaciones, sin duda juegan un papel en esto. Central es probablemente el nombre del archivo: una imagen con el título «explicite-hardcore-p***.jpg» (ya no lo escribo por mala experiencia ;-)) probablemente tiene relativamente buenas posibilidades de ser filtrada inmediatamente.

3. Filtro SafeSearch: análisis de los textos

Google también sabe, por supuesto, que la mayoría de las imágenes no tienen nombres de archivo descriptivos. Por el contrario, con demasiada frecuencia sólo se utilizan números crípticos y columnas de letras (de la cámara digital o de un mal CMS).

Por lo tanto, además del nombre del archivo, el texto que lo rodea y el título del sitio web juegan un papel importante. Google es ahora bastante bueno en la comprobación semántica de estos textos. Al menos cuando se trata de descubrir ciertos contenidos. Un texto ofensivo será relativamente fácil de identificar debido a los términos y frases utilizados.

Y exactamente aquí yace el peligro para los sitios web normales. Esto se debe a que el algoritmo de filtro puede malinterpretar un texto en el que aparecen ciertos términos. Más sobre esto más adelante….

4. Filtro SafeSearch: análisis de los enlaces

La cosa con los enlaces es relativamente simple: si una página obtiene enlaces de páginas»críticas» (Bad Neighborhood), las imágenes flotan en el más alto peligro. Y si las imágenes están enlazadas a estos sitios, aún más. Es, como he dicho, especulativo y no probado, pero creo que se pueden obtener imágenes desde un punto de vista crítico. Mostrando imágenes inofensivas en un contexto ofensivo como hotlinks.

El segundo punto son sin duda los enlaces salientes: si una página enlaza con (desde el punto de vista de Google) sitios web claramente ofensivos, entonces esto es sin duda problemático para las imágenes de la página.

5. Filtro SafeSearch por mensajes de usuario

No sé mucho sobre eso. ¿Qué sucede si los usuarios reportan una imagen como ofensiva? Por supuesto, uno puede pensar al principio que la imagen se bloquearía inmediatamente en la «búsqueda moderada de imágenes». Pero como tantas veces, sería demasiado fácil. Porque entonces alguien podría despejar fácilmente toda la competencia hasta que su propia imagen esté en la posición 1. No, los mensajes de usuario son probablemente sólo una indicación. Es posible que una imagen se deseche automáticamente después de un cierto número de mensajes de usuario. ¿O es la imagen verificada manualmente por un empleado de Google? El filtro también puede tener varias «etapas», y cuantos más mensajes reciba, más críticamente comprobará las señales restantes.

Si echa un vistazo a la página de registro oficial de Google, puede suponer que las imágenes se comprueban manualmente.

¿Qué dice Google en sí mismo?

El siguiente es el pasaje del sitio web de Google sobre la «Configuración de la búsqueda» (párrafo «Filtro SafeSearch«):

Ya veo. No al 100 por ciento, pero todos los inapropiados fuera. En otras palabras: el filtro es un poco demasiado «agudo» en caso de duda. Esto probablemente causará que todas las imágenes objetables salgan volando. Desafortunadamente hay algunos pequeños daños colaterales: De vez en cuando algunas «imágenes no invasivas» salen volando.

¿Qué imagen «castigos» hay?

Hasta ahora he observado dos variantes. Por lo que el segundo sólo podía ser un efecto retardado del primero. Lo que es seguro es que un dominio completo, es decir, todas las imágenes asignadas a este dominio, pueden entrar en el filtro de búsqueda de imágenes. Acabo de ver esto (ver el informe de ayer).

La segunda posibilidad es que sólo las imágenes individuales o los grupos de imágenes pueden deslizarse en un filtro. Imágenes individuales significa que todas las demás imágenes de un dominio no se ven afectadas. Los grupos de imágenes se pueden encontrar dentro de una carpeta de acuerdo con mis observaciones (obviamente antiguas). Esto significa que sólo se pueden clasificar las imágenes que se encuentran en una determinada carpeta y todas las demás se pueden encontrar en la «búsqueda moderada de imágenes». Como he dicho, se trata de observaciones relativamente antiguas. Tal vez la búsqueda de imágenes era tan lenta en ese momento que la magnitud de la catástrofe no pudo desarrollarse en absoluto porque rápidamente adapté los textos de nuevo. Si alguien descubre algo aquí o puede informar sobre sus propias observaciones, me encantaría.

Las imágenes filtradas permanecen en la búsqueda de imágenes de todos modos

En este punto una breve e interesante observación: como se ha descrito, mi dominio estaba completamente prohibido para la búsqueda de imágenes moderadas. Sin embargo – y esto es asombroso – sólo el dominio o las páginas. En la gran mayoría de los casos, las imágenes permanecieron visibles en la búsqueda moderada de imágenes. ¿Qué es lo que te pasa? Porque hay muchas copias o hotlinks de muchas de mis fotos. Aunque Google ejecuta copias de imágenes bajo un ID, las imágenes (aparentemente) críticas no se eliminan. Google simplemente cambia el destino del enlace en la búsqueda de imágenes. Ingo «Putzlowitsch» ha experimentado y descrito esto antes: «Todo para el gato».

Tal vez sea un bicho. Pero sospecho más bien que algo puede deducirse de ello: Google no critica las imágenes en absoluto, sino el contexto. Si se tratara de la propia imagen (por ejemplo, porque fue interpretada como ofensiva por el «análisis de imagen real»), ciertamente se adjuntaría a la identificación de la imagen como información. Entonces todas las copias también tendrían que desaparecer de la búsqueda de imágenes moderadas. En mi caso, no fue así.

Problema principal: texto mal entendido

La causa de la desaparición de imágenes inofensivas se encuentra sin duda en el texto circundante. Google no critica las imágenes, sino el texto de la página correspondiente. Para mí resulta que mis fotos no fueron reportadas como «ofensivas», sino que cometí errores con el texto.

Ahora, sin embargo, no es sólo una cara o una imagen la que ha desaparecido, sino todas. Por lo tanto, asumo además que no se trataba de un pasaje concreto del texto, sino de la «totalidad de los textos» sobre este dominio. Probablemente he usado formulaciones resbaladizas en demasiados lugares. Esto condujo a la superación de un obstáculo «crítico», que a su vez situó a todo el dominio en un contexto ofensivo. Y como precaución, Google ha eliminado todas las imágenes del índice. Como dije: todo se metió especulativamente en la niebla, pero desde mi punto de vista plausible….

¿Por qué se castigan las fotos, no la página?

La gran pregunta sigue siendo: si Google encuentra texto cuestionable desde su punto de vista, entonces ¿por qué las imágenes salen volando de la búsqueda de imágenes y no de la página de la búsqueda web orgánica? Una cosa está clara: ninguna de las partes ha perdido ni siquiera una posición en la búsqueda orgánica. …?

Este artículo es la segunda parte de una serie de tres partes.

El siguiente artículo tratará la cuestión de cómo salir de nuevo del filtro SafeSearch de Google Image Search. Y que las medidas que hay que implementar pueden incluso beneficiar al sitio. Al menos así se ve en mis estadísticas analíticas actuales:

NEGOCIO VIVOProfesionales del Seo en Málaga

Llámanos