Comunidad oficial de diseñadores web, web developers y Webmasters. Aqui podemos tratar temas actuales sobre diseño y tecnología. Podemos compartir y actualizarnos. Photoshop, Flash, PHP, ASP, Java, HTML, CSS, MySQL, CMS, etc. Unite YA y lee los Sticky

Ver más
  • 13,065 Miembros
  • 9,531 Temas
  • 3,449 Seguidores
  • 3

tips SEO y seguridad web (Robots.txt)


antes de todo quiero mencionar lo bueno de saber restringir las carpetas y/o url que puedan hacer mas difícil nuestro posicionamiento en la web, ya sea por por duplicación de contenido o como brindar información personal (ID & passwords)Declaración de los filtros que usaremos en nuestras restricciones, tales como impedir que indexen "listen" carpetas especificas, url especificas, parámetros de urls y ademas enlazarlo con nuestro sitemap.xml

User-agent   »   aquí declararemos los crawler's que usaremos.

*            »   todo, también significa "cualquier carácter"

/            »   señala y separa las carpetas

$            »   fin de linea, para nuestro caso 
                 la utilizaremos para restringir formatos y/o url duplicadas

Disallow     »   restringir el acceso de los buscadores, 
                 aunque actualmente tiene doble función 

Allow        »   Permitir el acceso de los buscadores, 
                 aunque actualmente ya no es usado.
                 Es bueno nombrarlo

#            »   entrada de comentario

Sitemap      »   ruta hacia nuestro sitemap.xml
ejemplo 01) supongamos que usamos un CMS cualquiera cuya arquitectura nos imprima una url dinámica de la siguiente manera

http://mi-dominio.com/index.php?action=1
http://mi-dominio.com/index.php?action=1.0
http://mi-dominio.com/index.php?action=1.0.htm
http://mi-dominio.com/index.php?action=1.html


que todas ellas representan la misma pagina en nuestro sitio web y ademas,
donde action = serán las acciones a usar es decir, pagina, producto, usuario, etc y ademas 1 sera la ID de dicha acción.

entonces crearíamos nuestro archivo robots de la siguiente manera (dentro de la carpeta raíz de nuestro dominio) ejemplo : public_html/robots.txt

User-agent: *
Disallow: /index.php?action=*.0*$
Disallow: /index.php?action=*.html$
Sitemap: http://mi-dominio.com/sitemap.xml


de esta manera estaríamos dando el único valor de indexacion a http://mi-dominio.com/index.php?action=1
evitando la duplicación de contenido y ademas vinculando nuestro sitemap, donde se indicara que url sera indexada y con que frecuencia ( mas info véase en google "sitemap.xml"ejemplo02) supongamos que usamos un CMS que te permita procesar comentarios y ademas tenga un sistema de url amigables pero sin embargo, al procesar un comentario con ajax, siempre nos crea una nueva url al comentar, algo así:

http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-1
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-2
*
*
*
http://mi-dominio.com/desarrollo-web/crear-una-pagina-web.html#comentario-1567


entonces crearíamos nuestro archivo robots de la siguiente manera (dentro de la carpeta raíz de nuestro dominio) ejemplo : public_html/robots.txt

User-agent: *
Disallow: /*/*comentario*$
Sitemap: http://mi-dominio.com/sitemap.xml


quiero aclarar, que en la mayoría de los casos las url dinámicas en ajax se procesan con un # antes, pero en el archivo robots # representa entrada de comentario es por ese caso que prefiero usar * "todo" para capturas ese carácter. ejemplo03) bloquear carpetas especificas

User-agent: *
Disallow: /carpeta-bloqueada/
Disallow: /carpeta-bloquead/sub-carpeta-bloqueada/
Disallow: /carpeta-bloquead/sub-carpeta-bloqueada/SUB-sub-carpeta-bloqueada/


tienes que tener en cuenta que al bloquear una carpeta bloquearas por default todas sus sub carpetas,
ejemplo04) bloquear extensiones especificas en carpetas especificas

User-agent: *
Disallow: /*.ico$
Disallow: /todos-mis-zip/*.zip$
Disallow: /todos-mis-rar/*.rar$
Disallow: /todos-mis-pdf/*.pdf$
Disallow: /todos-mis-swf/*.swf$
Disallow: /todos-mis-dcr/*.dcr$
Disallow: /todos-mis-javascript/*.js$
Disallow: /todos-mis-css/*.css$

ejemplo5) trabajar con crawlers específicos mas info de crawlers, para nuestro ejemplo solo usaremos los mas conocidos: google, yahoo, msn

# Crawler de GOOGLE
User-agent: googlebot
################
# filtros para bots
################


# Crawler de MSN
User-agent: msnbot 
################
# filtros para bots
################


# Crawler de YAHOO
User-agent: Slurp
################
# filtros para bots
################



por lo demás, solo es cosa de lógica, sean creativos a la hora de restringir el acceso de los bots a vuestros sitios, antes de culminar esta parte les presento una herramienta que personalmente utilizo para saber si estoy haciendo un buen filtro http://www.xml-sitemaps.com/

donde escribo mi url y el sistema trabaja igual que un crawler,
-- si yo bloquee bien el acceso a las url mediante mi archivo robots el resultado que me bote el generador de sitemaps, serán las urls que si están legibles para la indexacion...muy bien como verán en el titulo dije que el tema también trata sobre seguridad cierto??
pero tal vez te preguntes y esto que tiene que ver con seguridad , pues bueno la verdad tiene que ver y mucho...

entrare a un tema que tal vez pueda ser mal usado... pero creo que seria peor no brindar esta información
Dorks de Google, tal vez tu ya la conozcas.. nosotros sabemos que google search, evoluciona ahora
Google admite algunos operadores avanzados, que son palabras de consulta que tienen un significado especial para Google. Normalmente, estos operadores modifican la búsqueda de alguna manera, o incluso a mejorar un tipo de busqueda totalmente diferente. Por ejemplo, "link:" es un operador especial, y la consulta [link: www.google.com] no hace una búsqueda normal, sino que encuentra todas las páginas web que tienen enlaces a www.google.com.

Varios de los frases más comunes son el uso operadores en lugar de palabras, o no requieren de dos puntos. Entre estos operadores O "," (el operador or), - (el operador menos), y + (el operador más). Más información sobre estos tipos de operadores se encuentra disponible en los fundamentos de la página de búsqueda. Muchos de estos operadores especiales son accesibles desde la página de búsqueda avanzada, pero algunos no lo son.

En el tema de la evolución siempre subsiste el mas fuerte, para nuestro caso el que investiga mas y se acondiciona a los cambios mas rápidamente, las herramientas que nos ofrece google para búsqueda son muy ricas en resultados (en algunos casos demasiado diría yo U.U )..
-- nos dan respuestas muy viables, personalmente me gusta usar google Dorks para encontrar temas muy muy específicos.
ahora viene la contra parte, muchas veces la gran mayoría de nosotros nos dedicamos muy poco a investigar y actualizamos, sobre estas tendencias.
para redondear la utilidad de estos operadores pueden ser usado de una manera productiva o todo lo contrario "para hacer mucho daño"

con un simple ejemplo: vamos a buscar y listar carpetas fuentes cgi-bin, de todas las url que google indexo
es decir a los webmaster que no se tomaron la molestia de adaptarce a este cambio

solo basta con escribir una simple frase en la caja de texto de google search

"index of cgi-bin"


como verán, esto es perjudicial en las manos de un programador experto, ya que al tener acceso a las carpetas fuentes, es solo cuestión de unos cuantos intentos para poder romper barreras..

Joel, dime como podría impedir este tipo de acceso?
--- is easy bro. , puedes optar por aplicar lo antes citado con el archivo robots de la siguiente manera

User-agent: googlebot
Disallow: /cgi-bin/


y ademas podrías rematarla usando apache dentro de tu htaccess de la siguiente manera en tu cartepa cgi-bin ejemplo : public_html/cgi-bin/.htaccess

IndexIgnore *.*



en la primera parte de los tips de .htaccess usando el mod Rewrite que presente anteriormente, dije algo peculiar que tal vez no se me entendio muy bien.. ya que por alli algunos me preguntaron por interno JOE, pero yo lei por alli que tanto como el IndexIgnore como el Options All -Indexes, cumplen la misma función :S

pues la verdad esque no cumplen la misma funcion, tienen sus diferencias,
mientras que Options All -Indexes hace que no se liste tu directorio al no tener index
IndexIgnore *.* hace, que no se liste y aparte que no sea indexado ningún archivo de ese directorio..
ojo pestaña y ceja, como diría mi abuela..!! que en paz descanse , no cometas errores tan básicos, recuerda lo que te comente de mi mentor.

para culminar tengo una lista de las frases google dorks,un aprox de 320.. en la cual seguirá creciendo con el tiempo. algunas son muy peligrosas otras no,
de las cuales queria consultar a la comunidad si es posible o no publicarlas como material de aprendizaje..??

también espero que los moderadores y admin de la comunidad decidan lo mas viable para este tema.

» personalmente yo encontré dentro de todas las frases una que si listaba uno de mis dominios. jejej
aun que aun se lista, ya no tiene acceso. es por eso el motivo de este tip... muy básico claro esta!!!
pero sin embargo es muy agradable saber todo sobre el archivo robots y su gran utilidad.

un fuerte abrazo, les daría besos pero. allí nomas... JOE


posdata: en la segunda parte de SEO hablare sobre el atributo nofollow y las maneras de utilizarlas correctamente
  • 3
  • 39Calificación
  • 20Seguidores
  • 1.695Visitas
  • 0Favoritos

22 respuestas

@fullvice dijo Hace más de 1 año:

exelente !!!

@kire25 dijo Hace más de 1 año:

que buena info, mañana la leo bien, ...

@trescirculos dijo Hace más de 1 año:

Estas inspirado Jhonel, Buen informe +1

@trescirculos dijo Hace más de 1 año:

Merecido Sticky. Un abrazo!

@SERIALIZADO dijo Hace más de 1 año:

excelente +1

@tyncho86 dijo Hace más de 1 año:

Muy bueno Jhonel! Sólo un comentario respecto al ejemplo 1 y al SEO en si: cuando el contenido que se estaría duplicando por las distintas URLs de un CMS son los posts de un blog por ejemplo, en vez de usar el robots.txt conviene en este caso usar otros métodos como el link tag Canonical (ejemplo: <link rel="canonical" href="http://mi-dominio.com/index.php?action=1" />. La diferencia al usar el tag Canonical, es que si alguien te había enlazado a tu sitio/post usando alguna de las otras URLs, el "valor" que te dan esos links se van a consolidar en la URL que definiste en Canonical, ayudando al posicionamiento del post. En cambio, bloqueando URLs desde el robots.txt, estaríamos perdiendo el valor que dan los links a las otras URLs, porque así no se conoslidaría en una sola URL. Acá hay buena info sobre el tema: http://www.seomoz.org/blog/duplicate-content-block-redirect-or-canonical. Si quieren, en algún momento puedo traducir lo más importante y armar un tema acá en la comunidad. Abrazo!

@elvago9 dijo Hace más de 1 año:

excelente +1

@pichoncitotv dijo Hace más de 1 año:

Preciosa info +1
claro el tema dorks es algo medio nocivo... dorks como
filetype:php inurl:(comprar|buy|product|producto)".php?"*"id="*
no deberían publicarse en sitios de discusión al alcanze de todos...

ups...

@OscarWeb dijo Hace más de 1 año:

excelente info, muchas gracias +1

@RodriZ dijo Hace más de 1 año:

OscarWeb dijo:

excelente info, muchas gracias +1

@TheCrazyDog dijo Hace más de 1 año:

No entendi nada, algun dia lo hare, pero se ve interesante tus aportes, je +1

@marco- dijo Hace más de 1 año:

no comparto del todo la parte de seguridad, el problema esta en la configuracion del webserver y no en que google lo indexe o no... en un ataque muchas veces en el robots.txt te encontras cosas que haciendo bruteforce hubiesenn llevado un buen rato.
por poner un ejemplo http://www.tmz.com/robots.txt, un programa de chimentos importantisimo tiene las urls de dev en el robots.txt, mejor configurar bien el webserver para bloquear el acceso que dejarlo a la vista de todos y pedirle a google que no lo muestre

@Elmaese_22 dijo Hace más de 1 año:

Genial tu info

@DV42 dijo Hace más de 1 año:

excelente información +1

@erasmoh dijo Hace más de 1 año:

Muy buena info

@darkangel091987 dijo Hace más de 1 año:

muy buena informacion... justo lo que necesitaba para mi examne saber un poco mas +1

Tienes que ser miembro para responder en este tema