bloque google robots para las URLS que contengan una palabra determinada

mi cliente tiene una capacidad de carga de las páginas que ellos no quieren indexadas por google – que todos estamos llamados

http://example.com/page-xxx

por lo que son /página-123 o /página-2 o /página-25 etc

Hay una manera de detener a google la indexación de cualquier página que comienza con /page-xxx utilizando robots.txt

algo ike este trabajo?

Disallow: /page-*

Gracias

así que he descubierto que el anterior no funciona, alguna sugerencia de alguien?

OriginalEl autor JorgeLuisBorges | 2011-07-28

3 respuestas

  1. 14

    En primer lugar, una línea que dice Disallow: /post-* no va a hacer nada para evitar el rastreo de las páginas de la forma “/página-xxx”. ¿Te refieres a poner “página” en su Disallow línea, en lugar de “post”?

    No permitir dice, en esencia, “no permitir la url que comience con este texto”. Así que tu ejemplo de la línea disallow cualquier url que comience con “post”. (Es decir, el archivo está en el directorio raíz y su nombre empieza con “post-“.) El asterisco en este caso es superfluo, como es implícita.

    Tu pregunta no es clara en cuanto a la ubicación de las páginas. Si todos están en el directorio raíz, entonces con un simple Disallow: /page- de trabajo. Si están dispersas a través de los directorios en muchos lugares diferentes, entonces las cosas son un poco más difícil.

    Como @user728345 señalado, la forma más fácil (desde un robots.txt punto de vista) para manejar este es reunir a todas las páginas que no quieres que se metió en un directorio, y no permitir el acceso a eso. Pero entiendo que si usted no puede mover todas esas páginas.

    Para Googlebot específicamente, y otros bots que soporte el mismo comodín semántica (hay un número sorprendente de ellos, incluyendo la mía), los siguientes trabajos:

    Disallow: /*page-

    Que coincidirá con nada de lo que contiene la página ” -” en cualquier lugar. Sin embargo, eso también le cuadra algo como “/test/thispage-123.html”. Si quieres evitar eso, entonces yo creo (no estoy seguro de que, como yo no lo he probado) que esto va a funcionar:

    Disallow: */page-

    Hi – sí la página/post eso era sólo un error tipográfico. Esto está en el pasado distante y no puede comprobar la solución, pero acabo de recibir una notificación de que la gente sigue mirando esto, así que he pensado que me gustaría corregir la errata. Si alguien puede confirmar la solución de Jim puedo marcar como correcta.

    OriginalEl autor Jim Mischel

  2. 1

    Parece que el * trabajo de Google wild card, por lo que su respuesta va a mantener que Google rastree, sin embargo los comodines no son compatibles con otras arañas. Usted puede buscar en google para robot.txt los comodines para obtener más información. Me gustaría ver http://seogadget.co.uk/wildcards-in-robots-txt/ para obtener más información.

    Luego me sacó esto desde Google documentación:

    Coincidencia de patrón

    Googlebot (pero no todos los motores de búsqueda) respeta algunas de coincidencia de patrón.

    Para que coincida con una secuencia de caracteres, utilice un asterisco (*). Por ejemplo, para bloquear el acceso a todos >subdirectorios que comienzan con privados:

    User-agent: Googlebot
    Disallow: /privada*/

    Bloquear el acceso a todas las direcciones Url que incluyan un signo de interrogación (?) (más específicamente, cualquier URL que comience con su nombre de dominio, seguido de cualquier cadena, seguido por un signo de interrogación, seguido de cualquier cadena):

    User-agent: Googlebot
    Disallow: /*?

    Para especificar la concordancia con el final de una URL, usar $. Por ejemplo, para bloquear cualquier Url que termine con .xls:

    User-agent: Googlebot
    Disallow: /*.xls$

    Puede utilizar este patrón de coincidencia en combinación con la directiva Allow. Por ejemplo, si una ? indica un IDENTIFICADOR de sesión, es posible que desee excluir todas las Url que contengan ellos para asegurarse de que Googlebot no rastreo de páginas duplicadas. Pero la Url que termine con una ? puede ser la versión de la página que quieres incluir. Para esta situación, usted puede configurar su robots.txt archivo de la siguiente manera:

    User-agent: *
    Permitir: /?$
    Disallow: /
    ?

    Disallow: /*? la directiva va a bloquear cualquier URL que incluye una ? (más en concreto, se va a bloquear cualquier URL que comience con su nombre de dominio, seguido de cualquier cadena, seguido por un signo de interrogación, seguido por cualquier cadena de texto).

    Permitir: /*?$ la directiva permitirá a cualquier dirección URL que termina en una ? (más específicamente, permitirá a cualquier URL que comience con su nombre de dominio, seguido por una cadena, seguido por una ?, sin caracteres después de la ?).

    Guardar su robots.txt archivo de descarga de el archivo o copiar el contenido a un archivo de texto y guardar como robots.txt. Guarde el archivo en el directorio de más alto nivel de su sitio. El robots.txt archivo debe estar en la raíz del dominio y debe ser llamado “robots.txt”. Un robots.txt archivo que se encuentra en un subdirectorio no es válido, ya que los robots de verificación sólo para este archivo en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/mysite/robots.txt no lo es.

    Nota: De lo que he leído este es un Google solo enfoque. Oficialmente no hay ningún Comodín permitido en robots.txt para no permitir.

    He comprobado que no funciona. marcada con este – y no era;t permite añadir en googles robots.txt el generador de
    Lo que no funciona, usted tiene la opción de bloqueo de un directorio (si todos ellos son de allí) o tratando de añadir meta-content/enlace contenido de forma dinámica utilizando PHP, Javascript u otro de su elección.
    Yo sugeriría PHP o algo similar como Google, probablemente no va a cargar el Javascript.
    Nota Googlebot sintaxis no pase la validación de la prueba. Usted debe probar en contra de Google propias herramientas, yo creo que usted debe agregar manualmente. Usted puede leer más aquí google.com/support/webmasters/bin/answer.py?answer=156449 simplemente haga clic en el manual de la parte.
    parece un poco extraño que google webmaster tools no validar el método! En la endi he ido por un método que añade el robot de la enseñanza en la meta de cada página a través de la cms.

    OriginalEl autor Travis Pessetto

  3. 0

    Usted puede poner todas las páginas que usted no desea conseguir visitado en una carpeta y, a continuación, utilizar rechazar a decirle a los robots que no visite las páginas de esa carpeta.

    Disallow: /privado/

    No sé mucho acerca de robots.txt así que no estoy seguro de cómo utilizar caracteres comodín como los que
    Aquí dice “usted no puede utilizar caracteres comodín o patrones de expresiones regulares en cualquiera de agente de Usuario o Denegar las líneas.”
    http://www.robotstxt.org/faq/robotstxt.html

    por desgracia, eso implicaría el traslado manual de alrededor de 1000 archivos!

    OriginalEl autor obesechicken13

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *