Como melhorar a indexação do seu site/blog [Robots.txt e Sitemap]

Caríssimos seguidores, este artigo pretende dar a entender a importância da utilização correcta dos ficheiros Robots.txt e Sitemap. Estes são fundamentais para ter o seu site ou blog correctamente indexado nas bases de dados dos mecanismos de pesquisa, como e.g. Google. Eles também podem fornecer algum controlo sobre quais conteúdos podem ou não ser indexados pelos mecanismos de pesquisa.

Robots, Spiders e Crawlers

Os mais comuns mecanismos de pesquisa, como por exemplo o google, usam este tipo de softwares para manter actualizada a informação da base de dados referente aos mais diversos conteúdos. Este tipo de software, tem a função de varrer constantemente a internet, com o objectivo de encontrar novas páginas num web-site (páginas adicionadas recentemente) ou actualizações em páginas. Afinal de contas, uma página web poderá estar constantemente a sofrer alterações.

Caso possua um blog, e este esteja indexado na base de dados do google, ele será visitado de tempos a tempos por um destes agentes. Uma forma e ajuda preciosa que podemos prestar aos agentes, é a configuração dos ficheiros: Robots.txt e Sitemap.

Nota: Contribuindo com este mecanismo de indexação, um varrimento atempado e com maior qualidade é feito em torno da sua página web ou blog. Como consequência, um maior número de visitas é esperado, visto que o conteúdo é disseminado com melhor qualidade.

Para que serve o ficheiro Robots.txt ?

O ficheiro robots.txt serve para orientar estes agentes sobre o que podem e não podem fazer na indexação do conteúdo de uma página. A minha página pessoal tem o seguinte domínio:

:> http://infptavares.blogspot.pt

Sei à partida que tenho uma área administrativa, e não quero que ela apareça nas pesquisas destes agentes.

:> http://infptavares.blogspot.pt/admin

Utilizando o Robots.txt, posso informar o agente que não quero que esta página administrativa apareça nas pesquisas. Lembrar sempre que, antes de o agente efectuar o varrimento à página ele verifica a existência deste ficheiro.

Conteúdo de um Robots.txt

É um pequeno ficheiro em formato de texto que se poderá criar com qualquer editor de texto puro. Para orientar os robots, existem alguns comandos e regras.

O ficheiro robots.txt deve ficar na directoria raiz da sua página pessoal ou blog pessoal.

O Conteúdo de um ficheiro robots.txt contém na sua maioria as seguintes tags:

User-agent: *
Disallow: /admin
Disallow: /pessoal

Neste caso, estamos informando aos robots que eles podem indexar todos os ficheiros do meu web–site, excepto os que estão nos directórios: “admin” e “pessoa“.

User-agent

No exemplo, o asterisco (*) indica “todos os robots“, ou seja, a restrição é para todos. Esta é a configuração mais utilizada e a mais recomendada.

Disallow
Serve para indicar aos robots quais páginas ou directórios não devem ser indexados, ou seja, não irão aparecer nos resultados das pesquisas.

Nesta tag, podemos instanciar directórios e ainda páginas em específico.

User-agent: *
Disallow: /admin
Disallow: /pessoal/contactos.php
Disallow: /pessoal/admin.php
Disallow: /pessoal/home.html

Exemplo de uso do robots.txt num blog.

Um exemplo prático de uso de um ficheiro robots.txt é o seguinte:

User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://infptavares.blogspot.pt/feeds/posts/default?orderby=UPDATED

1. User-agent: Mediapartners-Google

Olhando para as tags digitadas acima, podemos observar que este robot é direccionado para os agentes do google.

2.User-agent: *
Esta tag, informa que qualquer crawler (agente) pode varrer a nossa página.

3.Disallow: /search
Esta tag, informa que qualquer pesquisa do tipo: http://dominio/searh, será automáticamente removida.

4.Allow: /

Aqui Allow, refere-se à homepage. Significa que crawlers podem varrer e indexar a página do nosso blog ou web–page.

5.Sitemap: http://infptavares.blogspot.pt/feeds/posts/default?orderby=UPDATED
Este código refere-se ao mapa do site de nosso blog. Ao adicionar o link mapa do site estamos simplesmente optimizar a taxa de varrimento.

Adicionar um Sitemap no Robots.txt

Um sitemap não é nada mais que um ficheiro com as páginas que o agente pode varrer. Como devem perceber, permite uma leitura mais clara do ficheiro robots.txt.

Um exemplo de um robots.txt com um sitemap relacionado é o seguinte.

User-agent: *
Disallow: /admin
Disallow: /pessoal
Sitemap: http://infptavares.blogspot.pt/sitemap.txt

O respectivo sitemap possuí a seguinte informação.

http://infptavares.blogspot.pt/index.htm
http://infptavares.blogspot.pt/artigos.htm
http://infptavares.blogspot.pt/artigos-1.htm
http://infptavares.blogspot.pt/artigos-2.htm
http://infptavares.blogspot.pt/artigos-3.htm
http://infptavares.blogspot.pt/artigos-4.htm

Como podemos verificar, é nada mais que as páginas que o agente varre a cada visita. Desta forma, ele é informado de qual o conteúdo que deve e não deve varrer.

Nota: Sempre que uma nova página é criada, é necessário adicioná-la no ficheiro sitemap, caso seja do interesse a página aparecer numa próxima pesquisa do google.

Adicionar o Robots.txt ao Blogger

Agora a parte principal deste tutorial é como adicionar robots.txt personalizados no blogger. Portanto, a seguir estão os passos para adicioná-lo.

1. Navegar para o blog: infptavares.blogspot.pt

2. Navegar para a directória: Definições >> Preferências de Pesquisa >> Motores de Indexação e Índice >>Robots.txt personalizados >> Editar >> Sim

3. Agora, colocar ou digitar aqui as definições.

4. Clicar no botão “Guardar Alterações“.