Duplication de contenu. Utilisez-vous les bonnes pratiques ?

Dans sa dernière vidéo, John Mueller reviens sur les erreurs fréquentes et les best practices lors des problèmes de Duplicate Content.

Cette vidéo rappelle certaines bonnes pratiques dans la gestion du contenu dupliqué mais l’expérience me prouve qu’une bonne configuration du robots.txt, du balisage canonical, linguistique et noindex, permet de faire un vrai choix sur ce que l’on souhaite ou non voir s’afficher sur les pages de résultats de Google.

Les balises rel=canonical

Son utilisation permet de dire aux moteurs que votre page existe sous plusieurs URL (à cause d’utilisation de filtres ou autres générations dynamiques de pages par exemple).

Pour rappel :

doivent être placé sur la page elle-même,
ne doivent pas toutes pointer vers la page d’accueil,
doivent être utilisée pour des pages dont le contenu est similaire.

John Mueller revient sur un soi-disant mythe dans le SEO, le fait que la duplication de contenu pénalise votre site.

Il indique qu’il ne faut pas s’en soucier, que Google est très bon pour reconnaitre et ignorer le contenu dupliquer (j’émets tout de même de grosses réserves) mais que cela est logique de nettoyer son site pour aider les robots et qu’il faut éviter l’utilisation massive de contenus externes.

Vous pourrez voir dans cette vidéo une explication sur comment Google fonctionne pour crawler votre site et trier les contenus dupliqués et comment il va proposer l’une ou l’autre des pages selon la requêtes et la géo-localité.

Le blocage des URL dans le robots.txt n’est bien sûr pas recommandé, il est préférable d’avoir des URL proprement structurées, utiliser des redirections 301, du balisage rel=canonical ainsi que la bonne utilisation des Paramètres d’URL disponible dans le Google Webmaster Tools.

Les erreurs de robots.txt

Ne pas bloquer le crawl des CSS ou JavaScript : le fait de voir comment les pages s’affichent est utile pour Google surtout déterminer sur la page des adaptative (Responsive) aux formats mobile & tablettes.
Ne pas bloquer les erreurs 404 : car si le googlebot ne peut y accéder et la traiter en tant que 404 et risque de chercher à crawler ces pages plus souvent qu’il n’est utile.
Ne pas bloquer les versions linguistiques : l’utilisation des rel= »alternate » hreflang= »x » est recommandée dans ce cas.

En cas de doute, laisser libre les pages au crawl, sans blocage du robots.txt, sauf en cas d’outils pouvant utiliser beaucoup de ressources (outils de recherche entre autre). Ne pas oublier que le fait de bloquer des pages ou groupes de pages par le robots.txt n’empêche pas l’indexation. Préférez l’utilisation du noindex.

John Muller fait part d’autres informations que je vous invite à regarder dans cette vidéo.

Pour résumer :

John Mueller indique qu’il est préférable de laisser Google gérer la duplication que d’effectuer des mauvaises configurations, que d’avoir beaucoup de 404 n’est pas si grave tant que ce ne sont pas des pages importantes.

Point de vue :

Très franchement, dire que les 404 ne sont pas un problème, je tique… Très bien, Google les crawlent, les indiquent dans le GWT.

Un site dont les 404 sont corrigées a étrangement plus de chance de gagner en positionnement qu’avant correctifs. Et quid de l’expérience utilisateur ? Le laisser les internautes atterrir sur les pages d’erreurs lors de sa navigation… personnellement, je pense qu’il n’y a rien de pire.

Vous avez des problèmes de contenu dupliqué, REFERENCEMENT.COM vous accompagne.

Article de Brice Castaing, Directeur Stratégie Digitale