Como bloquear a indexação de uma página do seu site ou parte dela nos resultados do Google com noindex HTML, cabeçalho HTTP, Googleon e Googleoff.

Caso seu site tenha alguma página que não deve aparecer nos resultados de pesquisa do Google, é possível impedir a indexação incluindo a metatag noindex diretamente no código HTML ou por cabeçalho HTTP.

É algo simples de ser feito, mas é preciso muito cuidado para aplicar apenas nas páginas desejadas. Se você não tem conhecimento de programação, procure um especialista para fazer as alterações.

Você também pode bloquear partes específicas de uma página. Por exemplo, o Google pode apresentar como snippet de uma página um texto extraído de alguma parte do código HTML que você não deseja. Nesse caso, você poderá impedir a indexação da parte em questão com as tags Googleon e Googleoff, forçando o Google a montar o snippet com outro texto.

Bloquear indexação com noindex

Você pode bloquear a indexação de uma página com noindex de duas formas: colocando uma metatag HTML dentro do HEAD, diretamente no código da página; ou enviando um cabeçalho de resposta HTTP (vou mostrar com PHP e .htaccess).

Antes de prosseguir, é importante saber que rastreamento e indexação são coisas diferentes. O robô do Google pode rastrear sua página para descobrir backlinks nela para outras páginas; e pode indexar o conteúdo dela e mostrar nos resultados de pesquisa.

Se você quiser bloquear o rastreamento, o mais indicado é através do robots.txt. Já o bloqueio da indexação e exibição no Google é feito conforme explicado neste post.

Tag <meta> noindex

Para evitar que a maioria dos mecanismos de pesquisa indexem uma página do seu website, insira no cabeçalho do código HTML dela (dentro da tag HEAD) a seguinte metatag:

<meta name="robots" content="noindex">

Para impedir que somente os rastreadores do Google indexem uma página, use googlebot:

<meta name="googlebot" content="noindex">

Importante lembrar que a página deve ser rastreável, pois só assim o robô conseguirá ler a metaga noindex. É possível verificar como a página está sendo rastreada inspecionando a URL pelo Google Search Console.

A página não pode estar bloqueada no arquivo robots.txt.

Lembre-se também de colocar o código apenas na página desejada.

Cabeçalho de resposta HTTP

Se seu site é feito com PHP e quer impedir que o Google indexe o conteúdo de uma página usando cabeçalho HTTP, coloque o seguinte código no começo do arquivo responsável pelo header:

header("X-Robots-Tag: noindex", true);

Também é possível enviar o cabeçalho pelo arquivo .htaccess do servidor Web Apache. O bloqueio anterior pode ser feito com o código:

Header set X-Robots-Tag "noindex"

Um outro exemplo com .htaccess é bloquear a indexação para arquivos do tipo PDF:

<Files ~ "\.pdf$">
	Header set X-Robots-Tag "noindex"
</Files>

Para testar o cabeçalho enviado, utilize o navegador Chrome e faça o seguinte: acesse a página e entre nas ferramentas de desenvolvedor (CTRL + Shift + I). Depois clique na aba Rede, atualize a página e clique na URL principal para ver o cabeçalho.

Sempre coloque regras no código para aplicar apenas na página desejada.

Bloquear indexação com Googleon e Googleoff

Se você quiser impedir a indexação de algumas partes da página, utilize as tags Googleon e Googleoff diretamente no código HTML. A tag Googleoff diz para o robô do Google parar a indexação, já a tag Googleon diz para retomar a indexação. Veja um exemplo de como fazer:

<p>Este parágrafo e tudo antes serão indexados!</p>
<!--googleoff: index-->
<p>Este parágrafo não será indexado no Google.</p>
<!--googleon: index-->
<p>Este parágrafo e tudo depois serão indexados!</p>

É importante lembrar que o efeito dessas alterações que apresentei neste post e outras relacionadas com SEO, devem ser monitoradas através de ferramentas como Google Search Console.