Muchas veces necesitamos evitar que el robot de google; Googlebot, no indexe o no cargue a su índice páginas que queremos mantener sin la visitas de usuarios no autorizados.
Por ejemplo hay sectores de nuestros sitios que pueden contener información a la que solo se accede pagando o hay información comercial que queremos mostrar solo a visitantes autorizados.
Inclusive si queremos "duplicar" por algún motivo cierta información de nuestro sitio ,pero queremos evitar que google se entere, solo bastará con poner una etiqueta que hará que el robot de google no "lea" ningún contenido duplicado.
ELIMINAR PÁGINAS DEL CACHE DE GOOGLE
Google toma automáticamente una "instantánea" de cada página que rastrea y la archiva en caché. Esta versión "en caché" permite que los usuarios finales recuperen una página web si la página original no se encuentra disponible en algún momento debido, por ejemplo, a un error temporal del servidor web que aloja la página. La página en caché se conserva exactamente igual que la última vez que Google la rastreó y mostramos un mensaje en la parte superior de la página que indica que se trata de una versión en caché. Los usuarios pueden acceder a la versión en caché seleccionando el vínculo "En caché" de la página de resultados.
Para evitar que todos los motores de búsqueda muestren un vínculo "en caché" para su sitio, coloque este vínculo en la sección de su página:
Para permitir que otros motores de búsqueda muestren un vínculo "en caché", excepto Google, por favor, use el código que le indicamos a continuación:
Nota: Este código sólo elimina el vínculo "en caché" de la página. Google continuará indexándola y mostrando el fragmento de texto correspondiente.
ELIMINAR UNA IMÁGEN DE LAS BÚSQUEDAS DE GOOGLE
Para eliminar una imagen del índice de imágenes de Google, añada un archivo robots.txt en la raíz del servidor. Si no puede insertarlo en la raíz del servidor, hágalo en el nivel del directorio.
Ejemplo: si desea que Google excluya la imagen perros.jpg que aparece en su sito en www.susitio.es/imágenes/perros.jpg, cree una página en www.susitio.es/robots.txt y añada el siguiente texto:
User-agent: Googlebot-Image
Disallow: /imágenes/perros.jpg
Para eliminar todas las imágenes que aparecen en su sitio de nuestro índice, inserte el siguiente archivo robots.txt en la raíz de su servidor:
User-agent: Googlebot-Image
Disallow: /
Éste es el protocolo estándar al que obedecen la mayoría de los rastreadores web para excluir un servidor web o directorio de un índice. Encontrará más información sobre robots.txt en la página: http://www.robotstxt.org/wc/norobots.html.
Además, Google aporta mayor flexibilidad en el estándar del archivo robots.txt a través del uso de asteriscos. Entre los patrones de desautorización se puede incluir "*" para que coincidan con cualquier secuencia de caracteres. Además, dichos patrones pueden terminar en "$" para indicar el final de un nombre. Para eliminar todos los archivos de un tipo de archivo específico, por ejemplo, para incluir imágenes .jpg pero no .gif, utilice la siguiente entrada de robots.txt:
User-agent: Googlebot-Image
Disallow: /*.gif$
ELMINAR FRAGMENTOS DE UNA PÁGINA
Un fragmento es un extracto de texto que aparece debajo del título de una página en nuestra página de resultados para describir el contenido de la página.
Para evitar que Google muestre fragmentos de su página, inserte el siguiente código en la sección de su página:
Nota: Si elimina fragmentos de texto también eliminará las páginas en caché.
ELIMINAR PARTE DE UN CONTENIDO DE LOS ÍNDICES DE GOOGLE
Opción 1: Robots.txtPara eliminar directorios o páginas individuales que aparecen en su sitio web del índice de Google, coloque un archivo robots.txt en la raíz de su servidor. Para obtener información acerca de cómo crear un archivo robots.txt, consulte
Robot Exclusion Standard (Estándar de exclusión para robots). Cuando cree su archivo robots.txt por favor, tenga en cuenta la siguiente información. Cuando determine qué páginas deben rastrearse en un host concreto, Googlebot obedecerá al primer registro User-agent que empiece por "Googleboot" del archivo robots.txt. Si no existe tal entrada, obedecerá a la primera entrada User-agent del tipo "*". Además, Google aporta mayor flexibilidad en el estándar del archivo robots.txt a través del uso de asteriscos. Entre los patrones de desautorización se puede incluir "*" para que coincidan con cualquier secuencia de caracteres. Además, dichos patrones pueden terminar en "$" para indicar el final de un nombre.
Para eliminar todas las páginas que se encuentran dentro de un directorio, por ejemplo lemures, tendrá que utilizar la siguiente entrada de robots.txt:
User-agent: Googlebot
Disallow: /lemurs
Para eliminar todos los archivos de un tipo de archivo específico, por ejemplo .gif, tendrá que utilizar la siguiente entrada de robots.txt:
User-agent: Googlebot
Disallow: /*.gif$
Para eliminar páginas generadas de manera dinámica, deberá utilizar esta entrada de robots.txt:
User-agent: Googlebot
Disallow: /*?
Opción 2: Metacódigos
Otro estándar más conveniente para el uso de una página cada vez implica la adición de un código a una página HTML para indicar a los robots de que no deben indexar la página. Este estándar está descrito en
http://www.robotstxt.org/wc/exclusion.html#meta.
Para evitar que todos los robots indexen una página de su sitio, deberá insertar el metacódigo que le indicamos a continuación en la sección de su página:
Para permitir que otros robots indexen la página de su sitio y evitar únicamente que los robots de Google indexen la página, deberá usar este código:
Para permitir que los robots indexen la página de su sitio web que no rastreen los vínculos salientes, deberá usar este código:
ELIMINAR TODO UN SITIO ENTERO DE LOS ÍNDICES DE GOOGLESi desea excluir todo su sitio web del índice de Google, inserte un archivo robots.txt en la raíz de su servidor. Éste es el protocolo estándar al que obedecen la mayoría de los rastreadores web para excluir un servidor web o directorio de un índice. Encontrará más información sobre robots.txt en la página:
http://www.robotstxt.org/wc/norobots.html. Por favor, tenga en cuenta que Googlebot no interpreta una respuesta 401/403 ("No autorizado"/"Prohibido") a una recuperación de robots.txt como una solicitud para no rastrear las páginas del sitio.
Para eliminar su sitio de los motores de búsqueda y evitar que todos los robots lo rastreen en el futuro, coloque el siguiente archivo robots.txt en la raíz de su servidor:
User-agent: *
Disallow: /
Para eliminar su sitio de Google.es y evitar únicamente que Googlebot lo rastree en el futuro, coloque el siguiente archivo robots.txt en la raíz de su servidor:
User-agent: Googlebot
Disallow: /
Cada puerto debe tener su propio archivo robots.txt. Concretamente, si ofrece contenido a través de http y https, necesitará un archivo robots.txt para cada uno de estos protocolos. Por ejemplo, para permitir que Googlebot indexe todas las páginas http pero no las https, tendrá que utilizar los archivos robots.txt que se indican más abajo.
Para su protocolo http (http://suservidor.es/robots.txt):
User-agent: *
Allow: /
Para el protocolo https (https://suservidor.es/robots.txt):
User-agent: *
Disallow: /