epelpad

El post que buscas se encuentra eliminado, pero este también te puede interesar

Robots.txt

Robots.txt


Los archivos robots.txt restringen el acceso a un sitio por parte de los robots de motores de búsqueda que rastrean la Web. Estos robots están automatizados y, antes de acceder a las páginas de un sitio, verifican si existe un archivo robots.txt que les impida el acceso a determinadas páginas. Aunque todos los robots acreditados respetan las directivas del archivo robots.txt, algunos pueden interpretarlas de forma diferente. Sin embargo, el archivo robots.txt no es obligatorio y algunos emisores de spam y otros malhechores pueden ignorarlo. Por este motivo, es recomendable proteger la información confidencial con contraseñas.

Para consultar las URL que Google no ha podido rastrear, accede a la página URL bloqueadas de la sección de estado de las Herramientas para webmasters de Google.

El archivo robots.txt solo es necesario si tu sitio incluye contenido que no quieres que los motores de búsqueda indexen. Si vas a permitir la indexación de tu sitio por completo, el archivo robots.txt no es necesario (ni siquiera uno vacío).

Si bien Google no rastreará ni indexará el contenido de las páginas bloqueadas por robots.txt, sí que indexará las URL que encuentre en otras páginas de la Web. Como consecuencia, la URL de la página y otros datos disponibles públicamente, como el texto de anclaje en enlaces que dirigen al sitio o el título de Open Directory Project (www.dmoz.org), podrían aparecer en los resultados de búsqueda de Google.

Para usar un archivo robots.txt, necesitarás tener acceso al directorio raíz de tu dominio (si no estás seguro, consúltalo con tu proveedor de alojamiento web). Si no tienes acceso al directorio raíz de un dominio, puedes restringir el acceso al mismo utilizando la metaetiqueta robots.

Para impedir que aparezca cualquier contenido de una página en el índice de páginas web de Google, incluso si está vinculado a otros sitios, se puede utilizar una metaetiqueta noindex o una etiqueta x-robots-tag. Siempre que Googlebot rastree la página, verá la metaetiqueta noindex y no incluirá esa página en el índice de páginas web. La cabecera HTTPX-Robots-Tag resulta especialmente útil para limitar la indexación de archivos que no sean HTML, como archivos gráficos y otro tipo de documentos.



server

Crear un archivo robots.txt


El archivo robots.txt más simple utiliza dos reglas:

    User-Agent: el robot al que se aplica la siguiente regla
    Disallow: la URL que quieres bloquear

Estas líneas se consideran una única entrada en el archivo. Puedes incluir todas las entradas que quieras, así como varias líneas Disallow y varios user-agents en una misma entrada.

Cada sección del archivo robots.txt es independiente y no se genera a partir de secciones anteriores. Por ejemplo:

User-agent: *
Disallow: /carpeta1/

User-Agent: Googlebot
Disallow: /carpeta2/


En este ejemplo, las únicas URL que no puede rastrear Googlebot son las de /carpeta2/.

User-agents y robots

Un user-agent es un robot específico del motor de búsqueda. La base de datos de robots web incluye numerosos robots comunes. Puedes configurar una entrada para que se aplique a un robot específico (mediante su nombre) o para que se aplique a todos los robots (mediante un asterisco). El aspecto de una entrada que se aplica a todos los robots es el siguiente:

User-agent: *

Google utiliza varios robots diferentes (user-agents). El robot que utilizamos para nuestra búsqueda web es Googlebot. El resto de nuestros robots, como Googlebot-Mobile y Googlebot-Image, siguen las reglas configuradas para Googlebot, aunque también pueden definirse reglas específicas para ellos.
Bloquear user-agents

La línea Disallow indica las páginas que quieres bloquear. Puedes insertar una URL específica o un patrón. La entrada debe comenzar con una barra inclinada (/).

    Para bloquear todo el sitio, utiliza una barra inclinada.

    Disallow: /[/color]

    Para bloquear un directorio y todo lo que contiene, inserta una barra inclinada después del nombre del mismo.

    Disallow: /directorio-sintítulo/

    Para bloquear una página, insértala después de la línea Disallow.

    Disallow: /archivo_privado.html

    Para eliminar una imagen de Google Imágenes, añade lo siguiente:

    User-agent: Googlebot-Image
    Disallow: /imágenes/perros.jpg 


    Para eliminar todas las imágenes de un sitio de Google Imágenes, añade lo siguiente:

    User-agent: Googlebot-Image
    Disallow: / 


    Para bloquear archivos de un determinado tipo (por ejemplo, .gif), añade lo siguiente:

    User-agent: Googlebot
    Disallow: /*.gif$


    Para evitar que se rastreen las páginas de tu sitio, sin impedir que se muestren anuncios de AdSense en esas páginas, inhabilita el acceso de todos los robots que no sean de Mediapartners-Google. Esta opción impide que las páginas aparezcan en los resultados de búsqueda, pero permite que el robot Googlebot-Mediapartners las analice para determinar los anuncios que se publicarán. El robot Googlebot-Mediapartners no comparte páginas con el resto de user-agents de Google. Por ejemplo:

    User-agent: *
    Disallow: /

    User-agent: Mediapartners-Google
    Allow: /


Ten en cuenta que en las directivas se distingue entre mayúsculas y minúsculas. Por ejemplo, Disallow: /archivo_privado.asp bloquearía http://www.example.com/archivo_sintitulo.asp, pero permitiría http://www.example.com/archivo_sintitulo.asp. Googlebot ignora los espacios en blanco (en líneas vacías concretas) y las directivas desconocidas del archivo robots.txt.
Googlebot permite enviar archivos de sitemaps mediante el archivo robots.txt.

Concordancia mediante patrones

Googlebot respeta algunas concordancias mediante patrones, aunque no todos los motores de búsqueda lo hacen.

    Puedes utilizar un asterisco (*) para que la concordancia se establezca con una secuencia de caracteres. Por ejemplo, para bloquear el acceso a todos los subdirectorios que empiecen por privado:

   User-agent: Googlebot
    Disallow: /privado*/


    Para bloquear el acceso a todas las URL que incluyan un signo de interrogación (?) (más concretamente, cualquier URL que empiece por el nombre de tu dominio, seguido de una cadena, un signo de interrogación y una cadena), añade lo siguiente:

    User-agent: Googlebot
    Disallow: /*?


    Para especificar la concordancia con el final de la URL, utiliza $. Por ejemplo, para bloquear una URL que termine en .xls:

    User-agent: Googlebot 
    Disallow: /*.xls$


    Puedes utilizar esta concordancia mediante patrones en combinación con la directiva Allow. Por ejemplo, si el signo ? indica el ID de una sesión, puedes excluir todas las URL que lo contengan para asegurarte de que Googlebot no rastree páginas duplicadas. Sin embargo, las URL que finalizan con dicho símbolo podrían ser la versión de la página que quieres incluir. En ese caso, configura tu archivo robots.txt del siguiente modo:

    User-agent: *
    Allow: /*?$
    Disallow: /*?


    La directiva Disallow: / *? bloqueará cualquier URL que incluya el símbolo ?. Concretamente, bloqueará todas las URL que comiencen por el nombre de tu dominio, seguido de cualquier cadena, un signo de interrogación y cualquier cadena.

    La directiva Allow: /*?$ permitirá cualquier URL que finalice con el símbolo ?. Concretamente, admitirá cualquier URL que comience por el nombre de tu dominio, seguido de cualquier cadena y el símbolo ?, sin caracteres después de este último.

Guarda tu archivo robots.txt descargándolo o copiando el contenido en un archivo de texto y guardándolo como robots.txt. Guarda el archivo en el directorio de nivel superior de tu sitio. El archivo robots.txt debe ubicarse en la raíz del dominio y denominarse robots.txt. Si se ubica en subdirectorios, no será válido, ya que los robots solo lo buscan en la raíz del dominio. Por ejemplo, http://www.example.com/robots.txt es una ubicación válida, pero http://www.example.com/misitio/robots.txt no lo es.

Algúnos ejemplos más


Si necesitamos impedir que los robots accedan a determinadas secciones del sitio, escribiremos los siguientes comandos:

    User-agent: *
    Disallow: /cgi-bin/
    Disallow: /misc/sitestats/


Si lo que queremos que los robots rastreen sólo una parte de nuestra Web:

    User-agent:slurp.so/
    Disallow: /cgi-bin/
    Disallow: /secure/
    Disallow: /products/
    Disallow:/misc/sitestats/


También tenemos la opción de permitir el acceso a sólo un robot de nuestra preferencia, evitando el ingreso de los otros:

    User-agent: Googlebot/1.0
    Disallow:
    User-agent: *
    Disallow: /


Si lo que queremos es que ningún robot rastree nuestra página:

    User-agent: *
    Disallow: /



Linux
robot.txt
(Sitios para crear archivos Robots.txt)

DevTools Robots Generator



Robots.txt

Probar un archivo robots.txt


La herramienta de prueba de robots.txt te mostrará si el archivo robots.txt está impidiendo de forma accidental que Googlebot rastree un archivo o un directorio de tu sitio o si está permitiendo que Googlebot rastree archivos que no deben aparecer en la Web. Al introducir el texto de un archivo robots.txt propuesto, la herramienta lo lee de la misma forma que Googlebot y muestra los efectos del archivo y los posibles errores que se hayan detectado.


Para probar el archivo robots.txt de un sitio, sigue estos pasos:

    En la página principal de las Herramientas para webmasters de Google, haz clic en el sitio que quieras.
    En la opción de estado, haz clic en URL bloqueadas.
    Si aún no se ha seleccionado, haz clic en la pestaña Probar robots.txt.
    Copia el contenido del archivo robots.txt y pégalo en el primer cuadro.
    En el cuadro URL, indica el sitio en el que quieras probar el archivo.
    En la lista User-agents, selecciona los user-agents que quieras.

No se guardará ninguno de los cambios que realices en esta herramienta. Para guardar un cambio, tendrás que copiar el contenido y pegarlo en el archivo robots.txt.


Esta herramienta proporciona resultados únicamente para los user-agents de Google, como Googlebot. Es posible que otros robots no interpreten el archivo robots.txt del mismo modo. Por ejemplo, Googlebot responde a una definición ampliada del protocolo de robots.txt estándar. Entiende las directivas Allow:, así como algunas concordancias mediante patrones. De esta forma, aunque la herramienta muestre líneas que incluyen estas extensiones como comprendidas, no olvides que esto afecta únicamente a Googlebot, no necesariamente a todos los robots que rastreen tu sitio web.


server

IMPORTANTE
No todos los motores de búsqueda reconocen el archivo robot.txt. A pesar de que la mayoría lo hace, algunos no.
robots.txt es sólo una petición. Hay algunos robots que de manera inescrupulosa pasan por alto al archivo, y rastrearán nuestro sitio de todas maneras.

Linux






robot.txt
nechuzRobots.txtserverLinux
robot.txt

nechuz

11 comentarios - Robots.txt

Gminelli
porque esta el post en linux ?
ErTorito
Hace siglos que no veia un post que me fuera util de verdad.. +10 y reco.

pd. ponlo en hazlo tu mismo..es la categoria adecuada
ROMEROPAULO86 -2
muy bueno pero en actualidad existen los bloqueadores como adblock plus y no script, y otra maneras mas facil es modificar el archivo hots y chau publicidad
ROMEROPAULO86
Robots.txt

ya entendi es para que el que tenga su pagina web obtenga alguno beneficios pero puede saturar la pagina
ROMEROPAULO86 +1
por lo menos pone la fuente y cambia la categoria que no tiene nada que ver con linux de onda !!

http://support.google.com/webmasters/bin/answer.py?hl=es&answer=156449
sotitrox
jkajkajkajkajkjkajk esa ondaaaa, pero igual wena infoo
ROMEROPAULO86
@sotitrox

me da un poco de bronca los que copian - pegan y no ponen la fuente como si ella lo hubiera hecho
ROMEROPAULO86
@sotitrox

fijate el titulo de la fuente: (Cómo bloquear o eliminar páginas con un archivo robots.txt) ella no lo pone tenes que leerte todo el post para saber para que sirve
rramcr
Interesante! le dejo +5 es lo que me quedaba...
AbrigoMaxi
haber si entendí x ejemplo si yo tengo una web le agrego un archivo robot.txt y con eso no me lo detecta los navegadores como posible pagina fak ? yo hice unas paginas fak y me las detecta con agregando esto a mi pagina pasarían inadvertidas ?