Comunidad oficial de diseñadores web, web developers y Webmasters. Aqui podemos tratar temas actuales sobre diseño y tecnología. Podemos compartir y actualizarnos. Photoshop, Flash, PHP, ASP, Java, HTML, CSS, MySQL, CMS, etc. Unite YA y lee los Sticky
Ver más- 13,065 Miembros
- 9,531 Temas
- 3,449 Seguidores
tips SEO y seguridad web (Robots.txt)

antes de todo quiero mencionar lo bueno de saber restringir las carpetas y/o url que puedan hacer mas difícil nuestro posicionamiento en la web, ya sea por por duplicación de contenido o como brindar información personal (ID & passwords)
Declaración de los filtros que usaremos en nuestras restricciones, tales como impedir que indexen "listen" carpetas especificas, url especificas, parámetros de urls y ademas enlazarlo con nuestro sitemap.xml
User-agent » aquí declararemos los crawler's que usaremos.
* » todo, también significa "cualquier carácter"
/ » señala y separa las carpetas
$ » fin de linea, para nuestro caso
la utilizaremos para restringir formatos y/o url duplicadas
Disallow » restringir el acceso de los buscadores,
aunque actualmente tiene doble función
Allow » Permitir el acceso de los buscadores,
aunque actualmente ya no es usado.
Es bueno nombrarlo
# » entrada de comentario
Sitemap » ruta hacia nuestro sitemap.xml
ejemplo 01) supongamos que usamos un CMS cualquiera cuya arquitectura nos imprima una url dinámica de la siguiente manera
http://mi-dominio.com/index.php?action=1
http://mi-dominio.com/index.php?action=1.0
http://mi-dominio.com/index.php?action=1.0.htm
http://mi-dominio.com/index.php?action=1.html
que todas ellas representan la misma pagina en nuestro sitio web y ademas,
donde action = serán las acciones a usar es decir, pagina, producto, usuario, etc y ademas 1 sera la ID de dicha acción.
entonces crearíamos nuestro archivo robots de la siguiente manera (dentro de la carpeta raíz de nuestro dominio) ejemplo : public_html/robots.txt
User-agent: *
Disallow: /index.php?action=*.0*$
Disallow: /index.php?action=*.html$
Sitemap: http://mi-dominio.com/sitemap.xml
de esta manera estaríamos dando el único valor de indexacion a http://mi-dominio.com/index.php?action=1
evitando la duplicación de contenido y ademas vinculando nuestro sitemap, donde se indicara que url sera indexada y con que frecuencia ( mas info véase en google "sitemap.xml"


ejemplo02) supongamos que usamos un CMS que te permita procesar comentarios y ademas tenga un sistema de url amigables pero sin embargo, al procesar un comentario con ajax, siempre nos crea una nueva url al comentar, algo así:
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-1
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-2
*
*
*
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-1567
entonces crearíamos nuestro archivo robots de la siguiente manera (dentro de la carpeta raíz de nuestro dominio) ejemplo : public_html/robots.txt
User-agent: *
Disallow: /*/*comentario*$
Sitemap: http://mi-dominio.com/sitemap.xml
quiero aclarar, que en la mayoría de los casos las url dinámicas en ajax se procesan con un # antes, pero en el archivo robots # representa entrada de comentario es por ese caso que prefiero usar * "todo" para capturas ese carácter.
ejemplo03) bloquear carpetas especificas
User-agent: *
Disallow: /carpeta-bloqueada/
Disallow: /carpeta-bloquead/sub-carpeta-bloqueada/
Disallow: /carpeta-bloquead/sub-carpeta-bloqueada/SUB-sub-carpeta-bloqueada/
tienes que tener en cuenta que al bloquear una carpeta bloquearas por default todas sus sub carpetas,
ejemplo04) bloquear extensiones especificas en carpetas especificas
User-agent: *
Disallow: /*.ico$
Disallow: /todos-mis-zip/*.zip$
Disallow: /todos-mis-rar/*.rar$
Disallow: /todos-mis-pdf/*.pdf$
Disallow: /todos-mis-swf/*.swf$
Disallow: /todos-mis-dcr/*.dcr$
Disallow: /todos-mis-javascript/*.js$
Disallow: /todos-mis-css/*.css$
ejemplo5) trabajar con crawlers específicos mas info de crawlers, para nuestro ejemplo solo usaremos los mas conocidos: google, yahoo, msn
# Crawler de GOOGLE
User-agent: googlebot
################
# filtros para bots
################
# Crawler de MSN
User-agent: msnbot
################
# filtros para bots
################
# Crawler de YAHOO
User-agent: Slurp
################
# filtros para bots
################
por lo demás, solo es cosa de lógica, sean creativos a la hora de restringir el acceso de los bots a vuestros sitios, antes de culminar esta parte les presento una herramienta que personalmente utilizo para saber si estoy haciendo un buen filtro http://www.xml-sitemaps.com/
donde escribo mi url y el sistema trabaja igual que un crawler,
-- si yo bloquee bien el acceso a las url mediante mi archivo robots el resultado que me bote el generador de sitemaps, serán las urls que si están legibles para la indexacion...
muy bien como verán en el titulo dije que el tema también trata sobre seguridad cierto??
pero tal vez te preguntes y esto que tiene que ver con seguridad , pues bueno la verdad tiene que ver y mucho...
entrare a un tema que tal vez pueda ser mal usado... pero creo que seria peor no brindar esta información
Dorks de Google, tal vez tu ya la conozcas.. nosotros sabemos que google search, evoluciona ahora
Google admite algunos operadores avanzados, que son palabras de consulta que tienen un significado especial para Google. Normalmente, estos operadores modifican la búsqueda de alguna manera, o incluso a mejorar un tipo de busqueda totalmente diferente. Por ejemplo, "link:" es un operador especial, y la consulta [link: www.google.com] no hace una búsqueda normal, sino que encuentra todas las páginas web que tienen enlaces a www.google.com.
Varios de los frases más comunes son el uso operadores en lugar de palabras, o no requieren de dos puntos. Entre estos operadores O "," (el operador or), - (el operador menos), y + (el operador más). Más información sobre estos tipos de operadores se encuentra disponible en los fundamentos de la página de búsqueda. Muchos de estos operadores especiales son accesibles desde la página de búsqueda avanzada, pero algunos no lo son.
En el tema de la evolución siempre subsiste el mas fuerte, para nuestro caso el que investiga mas y se acondiciona a los cambios mas rápidamente, las herramientas que nos ofrece google para búsqueda son muy ricas en resultados (en algunos casos demasiado diría yo U.U )..
-- nos dan respuestas muy viables, personalmente me gusta usar google Dorks para encontrar temas muy muy específicos.
ahora viene la contra parte, muchas veces la gran mayoría de nosotros nos dedicamos muy poco a investigar y actualizamos, sobre estas tendencias.
para redondear la utilidad de estos operadores pueden ser usado de una manera productiva o todo lo contrario "para hacer mucho daño"
con un simple ejemplo: vamos a buscar y listar carpetas fuentes cgi-bin, de todas las url que google indexo
es decir a los webmaster que no se tomaron la molestia de adaptarce a este cambio
solo basta con escribir una simple frase en la caja de texto de google search
"index of cgi-bin"
como verán, esto es perjudicial en las manos de un programador experto, ya que al tener acceso a las carpetas fuentes, es solo cuestión de unos cuantos intentos para poder romper barreras..
Joel, dime como podría impedir este tipo de acceso?
--- is easy bro.

, puedes optar por aplicar lo antes citado con el archivo robots de la siguiente manera
User-agent: googlebot
Disallow: /cgi-bin/
y ademas podrías rematarla usando apache dentro de tu htaccess de la siguiente manera en tu cartepa cgi-bin ejemplo : public_html/cgi-bin/.htaccess
IndexIgnore *.*
en la primera parte de los tips de .htaccess usando el mod Rewrite que presente anteriormente, dije algo peculiar que tal vez no se me entendio muy bien.. ya que por alli algunos me preguntaron por interno JOE, pero yo lei por alli que tanto como el IndexIgnore como el Options All -Indexes, cumplen la misma función :S
pues la verdad esque no cumplen la misma funcion, tienen sus diferencias,
mientras que Options All -Indexes hace que no se liste tu directorio al no tener index
IndexIgnore *.* hace, que no se liste y aparte que no sea indexado ningún archivo de ese directorio..
ojo pestaña y ceja, como diría mi abuela..!! que en paz descanse , no cometas errores tan básicos, recuerda lo que te comente de mi mentor.
para culminar tengo una lista de las frases google dorks,un aprox de 320.. en la cual seguirá creciendo con el tiempo. algunas son muy peligrosas otras no,
de las cuales queria consultar a la comunidad si es posible o no publicarlas como material de aprendizaje..??
también espero que los moderadores y admin de la comunidad decidan lo mas viable para este tema.
» personalmente yo encontré dentro de todas las frases una que si listaba uno de mis dominios. jejej
aun que aun se lista, ya no tiene acceso. es por eso el motivo de este tip... muy básico claro esta!!!
pero sin embargo es muy agradable saber todo sobre el archivo robots y su gran utilidad.
posdata: en la segunda parte de SEO hablare sobre el atributo nofollow y las maneras de utilizarlas correctamente
- 39Calificación
- 20Seguidores
- 1.695Visitas
- 0Favoritos
Global
Argentina
Chile
Colombia
España
México
Perú
Uruguay
Venezuela
22 respuestas
exelente !!!
que buena info, mañana la leo bien, ...
Estas inspirado Jhonel, Buen informe +1
Merecido Sticky. Un abrazo!
excelente +1
Muy bueno Jhonel! Sólo un comentario respecto al ejemplo 1 y al SEO en si: cuando el contenido que se estaría duplicando por las distintas URLs de un CMS son los posts de un blog por ejemplo, en vez de usar el robots.txt conviene en este caso usar otros métodos como el link tag Canonical (ejemplo: <link rel="canonical" href="http://mi-dominio.com/index.php?action=1" />
. La diferencia al usar el tag Canonical, es que si alguien te había enlazado a tu sitio/post usando alguna de las otras URLs, el "valor" que te dan esos links se van a consolidar en la URL que definiste en Canonical, ayudando al posicionamiento del post. En cambio, bloqueando URLs desde el robots.txt, estaríamos perdiendo el valor que dan los links a las otras URLs, porque así no se conoslidaría en una sola URL. Acá hay buena info sobre el tema: http://www.seomoz.org/blog/duplicate-content-block-redirect-or-canonical. Si quieren, en algún momento puedo traducir lo más importante y armar un tema acá en la comunidad. Abrazo!
el atributo canonical es antiguo lo conozco y siempre lo trabajo,
sin embargo, es bueno también trabajar por el archivo robots, para eliminar todo rastro de las urls duplicadas
la diferencia entre rel canonical y el bloqueo en el archivo robots, es simple
mientras que uno da preferencia a una Url como favorita, la otra solo hace que sea indexada una la que desees.
"es bueno combinarlas" ya que robots.txt te da la posibilidad de adjuntar una url directa a un sitemap.
algo que es un punto a tu favor, ya que se unifican..
una vez dentro de tu sitemap, tu mismo tu puedes la frecuencia de indexacion por URL, y te soy sincero personalmente e posicionado paginas usando este método
por lo demás todo aporte es bienvenido, solo quise explicar que tanta potencia tiene el archivo robost.txt
y no meter mano con php, ni otro lenguaje por que si fuese así con ruby la ago linda para mejorar mi indexacion.
gracias por comentar, un abrazo
jaja hola David, gracias por comentar.. la verdad si estaba inspirado
gracias es un honor saber que mi poca experiencia en este tema sea de gran utilidad a la comunidad
un fuerte abrazo par ti también David
gracias hermanos de la comu, se que es difícil encontrar una documentación detallada respecto al tema del SEO
por lo general lo que la gente publica en Internet, son cosas ya pasaditas de moda o en peor de los casos
"mal traducidas de la fuente original", pero aquí les rebelo casi un año de experiencias que tuve respecto con el archivo robots y su gran utilidad.. espero que le seas de provecho. un fuerte abrazo a todos
Preciosa info
+1
claro el tema dorks es algo medio nocivo... dorks como
filetype:php inurl:(comprar|buy|product|producto)".php?"*"id="*no deberían publicarse en sitios de discusión al alcanze de todos...
ups...
excelente info, muchas gracias
+1
No entendi nada, algun dia lo hare, pero se ve interesante tus aportes, je +1
traduciendo.............. 10%.........20%......40%....80%..
traducción : en otras palabras, fuera del alcance de niños Lamers
no comparto del todo la parte de seguridad, el problema esta en la configuracion del webserver y no en que google lo indexe o no... en un ataque muchas veces en el robots.txt te encontras cosas que haciendo bruteforce hubiesenn llevado un buen rato.
por poner un ejemplo http://www.tmz.com/robots.txt, un programa de chimentos importantisimo tiene las urls de dev en el robots.txt, mejor configurar bien el webserver para bloquear el acceso que dejarlo a la vista de todos y pedirle a google que no lo muestre
.htaccess & mod_SetEnvIf
y si quieres le metes mas bots..
...tienes toda la razón en la parte de las seguridad todo depende de la configuración del servidor web
sin embargo, es bueno trabajarla con robots.txt con apache de la mano. (de manera general)
solo que en este caso quise mostrar la capacidad de robots.txt
....claro que hablo de una manera simple sin usar el shell(para no complicarles la vida), ya que no todos tienen server dedicados y solo algunos tenemos VPS.
Genial tu info
excelente información +1
Muy buena info
muy buena informacion... justo lo que necesitaba para mi examne saber un poco mas +1