Robots, Spiders e Crawlers
Para que serve o ficheiro Robots.txt ?
O ficheiro robots.txt serve para orientar estes agentes sobre o que podem e não podem fazer na indexação do conteúdo de uma página. A minha página pessoal tem o seguinte domínio:
:> http://infptavares.blogspot.pt
Sei à partida que tenho uma área administrativa, e não quero que ela apareça nas pesquisas destes agentes.
:> http://infptavares.blogspot.pt/admin
Conteúdo de um Robots.txt
User-agent: *
Disallow: /admin
Disallow: /pessoal
User-agent
Disallow
Serve para indicar aos robots quais páginas ou directórios não devem ser indexados, ou seja, não irão aparecer nos resultados das pesquisas.
Nesta tag, podemos instanciar directórios e ainda páginas em específico.
User-agent: *
Disallow: /admin
Disallow: /pessoal/contactos.php
Disallow: /pessoal/admin.php
Disallow: /pessoal/home.html
Exemplo de uso do robots.txt num blog.
Um exemplo prático de uso de um ficheiro robots.txt é o seguinte:
User-agent: Mediapartners-Google
Disallow:
User-agent: *
Disallow: /search
Allow: /
Sitemap: http://infptavares.blogspot.pt/feeds/posts/default?orderby=UPDATED
1. User-agent: Mediapartners-Google
2.User-agent: *
Esta tag, informa que qualquer crawler (agente) pode varrer a nossa página.
3.Disallow: /search
Esta tag, informa que qualquer pesquisa do tipo: http://dominio/searh, será automáticamente removida.
4.Allow: /
5.Sitemap: http://infptavares.blogspot.pt/feeds/posts/default?orderby=UPDATED
Este código refere-se ao mapa do site de nosso blog. Ao adicionar o link mapa do site estamos simplesmente optimizar a taxa de varrimento.
Adicionar um Sitemap no Robots.txt
User-agent: *
Disallow: /admin
Disallow: /pessoal
Sitemap: http://infptavares.blogspot.pt/sitemap.txt
O respectivo sitemap possuí a seguinte informação.
http://infptavares.blogspot.pt/index.htm
http://infptavares.blogspot.pt/artigos.htm
http://infptavares.blogspot.pt/artigos-1.htm
http://infptavares.blogspot.pt/artigos-2.htm
http://infptavares.blogspot.pt/artigos-3.htm
http://infptavares.blogspot.pt/artigos-4.htm
Adicionar o Robots.txt ao Blogger
1. Navegar para o blog: infptavares.blogspot.pt
2. Navegar para a directória: Definições >> Preferências de Pesquisa >> Motores de Indexação e Índice >>Robots.txt personalizados >> Editar >> Sim
3. Agora, colocar ou digitar aqui as definições.
4. Clicar no botão “Guardar Alterações“.
5. Por fim, é possível verificar a existência deste ficheiro seguindo o link:
http://infptavares.blogspot.pt/robots.txt
O porquê de tutoriais em português?
Na sua maior parte, a internet está cansada de partilhar tutoriais em inglês.
Pedro Tavares is a professional in the field of information security working as an Ethical Hacker/Pentester, Malware Researcher and also a Security Evangelist. He is also a founding member at CSIRT.UBI and Editor-in-Chief of the security computer blog seguranca-informatica.pt.
In recent years he has invested in the field of information security, exploring and analyzing a wide range of topics, such as pentesting (Kali Linux), malware, exploitation, hacking, IoT and security in Active Directory networks. He is also Freelance Writer (Infosec. Resources Institute and Cyber Defense Magazine) and developer of the 0xSI_f33d – a feed that compiles phishing and malware campaigns targeting Portuguese citizens.
Read more here.