Publicidad de un sitio web

Por Jimmy jiménez

Hasta este momento hemos visto múltiples formas de crear y administrar un sitio, sin embargo, el crear un sitio navegable, interesante y estéticamente agradable, no lo es todo. El objetivo de un sitio Web es que sea visitado por los cibernautas, si esta acción no se lleva a cabo, nuestro sitio será como un barco en el desierto, no tiene sentido, no sirve para nada. Por eso a continuación veremos como facilitar que nuestro sitio sea “visible” para los cibernautas o mejor dicho aun hablemos de publicidad del sitio.

Para que lleguen a nuestro sitio nos vemos obligados a entender y conocer el funcionamiento de lo que los cibernautas usan cuando buscan información los motores de búsqueda, como por ejemplo Google.  Estas herramientas se sirven de robots, programas con algoritmos más o menos complejos, que les permiten leer una página WEB, recuperar y guardar su contenido, o partes relevantes del mismo, en una base de datos y seguir los enlaces que tenga a otras páginas WEB. Estos programas navegan incansablemente saltando de enlace a enlace. Su labor es utilísima, ya que permite que estos buscadores tengan resultados que ofrecernos. Pero también puede ser perjudicial. Los propietarios de una página pueden desear que parte de su contenido no sea indexado (por ejemplo, porque se trata de contenido temporal) o puede suceder que los robots (spiders) sometan al servidor a un esfuerzo excesivo, al pedir demasiadas páginas muy seguidas. O puede suceder lo contrario, que deseemos asegurarnos que determinadas páginas sean indexadas. Para ello se debe crear un archivo con el nombre de robots.txt y ponerlo en la raíz del sitio, con este archivo  podemos dar diversas instrucciones para los robots de los buscadores.

Cuando un robot visita una página, por ejemplo www.cursoscnc.com, lo primero que busca es el archivo www.cursoscnc.com/robots.txt. Si puede localizarlo, lo analiza para ver si está permitido acceder a su contenido, y de ser así, analiza las directivas existentes respecto de la indexación del contenido del sitio WEB.

El archivo robots.txt puede personalizarse para que se aplique solo a los robots de determinados buscadores, o para excluir solo determinados directorios o páginas. En cuanto a la colocación del archivo robots.txt, solo puede haber uno en cada sitio WEB, precisamente en el directorio raíz. Un robot no buscará nunca el archivo robots.txt en un subdirectorio, por lo que es inútil colocarlo allí. Al preparar tu archivo robots.txt se debe tener en cuenta que las URL son sensibles a mayúsculas y minúsculas

El archivo se compondrá de diversas directivas agrupadas en relación con el robot al que se aplican. Dentro de cada uno de estos grupos de directivas, no puede haber líneas en blanco.

Cada sección o grupo de directivas empezará con el campo User-agent, que sirve para identificar al robot al que dichas directivas se refieren. Siempre tiene que existir este campo.

Cuando crea un archivo Robots.txt debe tomar en cuenta los siguientes lineamientos:

Disallow: /contactos  # afecta a /contactos.html y a  /contactos/index.html
Disallow: /contactos/ # afecta a /contactos/index.html  pero no a  /contactos.html.