Rémi Aubert

Aller au contenu | Aller au menu | Aller à la recherche

vendredi 19 décembre 2008

Comment tracker les robots d'indexation sur votre site grâce à Google Analytics ?

Lorsque je faisais du SEO chez un comparateur de prix, nous avions voulu connaitre la fréquence de crawl des moteurs de recherche sur le site web ainsi que les catégories les plus crawlées afin de faire concorder cela avec les catégories les mieux indéxées etc....

A l'époque nous avions installé un outil de comptage de crawls qui avait l'inconvénient d'être un peu trop gourmand en ressources (Il faut dire que la quantité de stats à ingurgiter devient vite importante).
Il y a 6 mois de cela nous nous sommes penché sur la question avec mon collègue de travail Alan Boydell et nous sommes arrivés à insérer ces statistiques de crawl dans Google Analytics. Une telle méthode permet de voir en un coup d'oeil, dans Google Analytics, la fréquence de passage des moteurs de recherche, quelles pages ont été crawlées, combien de fois les moteurs sont revenus (cf capture en haut à gauche) etc... et de faire porter la charge serveur par Google au lieu de le faire sur ses propres machines.

Alan va vous expliquer sur son blog comment paramétrer au mieux son compte, je vais pour ma part vous expliquer le fonctionnement du script et la manière de l'installer sur votre site.

La problématique que nous avons eu a été double : 
- Comment insérer des statistiques dans Google Analytics alors que le tag Google est en javascript (ce dernier n'étant pas exécuté par les robots d'indexation)?
- Comment faire la séparation de trafic entre visiteurs et robots?

Sur la problématique de la segmentation du trafic il a fallut ruser par rapport au fonctionnement des moteurs de recherche. Le système ne peut être fiable à 100% mais il permet de catcher la majorité des crawls. Afin de détecter s'il s'agit d'un moteur de recherche 3 étapes sont effectués :
- Check de referer, si le client qui se connecte a un referer, il ne peut s'agir d'un bot dans la mesure où ceux-ci n'ont pas de referer. => Pas d'insertion
- Check de l'OS par rapport au User Agent, si le client qui se connecte déclare être sous un OS connut (Win XP, Vista, Linux etc..) il ne peut s'agir d'un bot (check par rapport aux patterns BBclone). => Pas d'insertion
- Check du moteur de recherche, si les deux conditions du dessus sont respectées, on check de quel moteur il s'agit par rapport aux patterns BBclone. => Insertion

Sur la problématique du javascript nous sommes d'abord parti dans des solutions peu flexibles avant de tomber sur le billet de blog d'un certain Peter Van der Graff que nous avons adapté à la problématique des moteurs de recherche et enrichi de nos connaissances en SEO et Web Analytics. Peter cherchait à logguer les requêtes faites sur son flux RSS ou sur ses documents PDF. Bref, nous reconstruisons l'URL d'insertion dans dans GA puis nous envoyons en Curl (il faut donc que la librairie Curl soit installée sur votre serveur) aux serveurs de Google.

Installation :
- Téléchargez et dezippez les fichiers suivants : analytics.zip
- Placez les sur votre serveur.
- Adaptez le fichier config.php pour vos besoins.
- Faites un include_once du fichier analytics.php. (<?php include_once( dirname(__FILE__).'/analytics/analytics.php'); ?>vous aurez 
- Dans environ 24h vous aurez les premiers résultats dans Google Analytics

Si vous avez des questions sur le plan technique et sur l'implémentation n'hésitez pas à laisser un commentaire sur mon blog ou sur celui d'Alan

mardi 16 décembre 2008

Pinguer ses referrers, une valeur sûre pour augmenter le nombre de ses backlinks indéxés.

Ping-o-MaticComme vous le savez, Internet c'est un peu comme dans la vie réelle, plus vous êtes recommandé plus l'on vous fait confiance. La recommandation sur Internet passe par les liens qui pointent d'un site vers un autre (backlinks). Ainsi, plus les moteurs de recherche constatent que votre site est mentionné sur d'autres sites plus il vous accordera un capital sympathie important et mieux vous serez positionné.

Simplement voilà, comment faire en sorte que les moteurs de recherche soient au courant de l'existence de tous les liens qui pointent vers votre site? La question s'est posée lorsque je travaillais pour un comparateur de prix. J'avais alors proposé la solution qui consiste à pinguer toutes les pages qui nous ont amené un visiteur par l'intermédiaire d'un lien.

Comment faire cela? C'est simple, lorsqu'un visiteur arrive sur votre site vous pouvez demander à son navigateur depuis quelle page web il vient. Fort de cette information vous n'avez plus qu'à réinjecter cette page dans la liste des pages que les moteurs de recherche se doivent de crawler. Vous pouvez construire ces requêtes grâce aux URLs fournies par les moteurs de recherche.

Cette méthode m'amène à la création du script suivant que je vous invite à installer sur votre site. Vous en comprendrez le fonctionnement en lisant les commentaires que j'y ai laissé.

ping.txt

Si vous avez des questions n'hésitez pas.

jeudi 4 décembre 2008

Unix, connaitre les applications lancées et les trier

Afin de connaitre les applications qui tournent sur votre serveur Linux ou Mac OS X il vous faut taper dans le terminal(shell) la commande :

ps aux

Si vous voulez connaitre que les applications PHP qui sont lancées vous pouvez taper :

ps aux | grep php


Idem si vous voulez connaitre les applications lancées par l'utilisateur Root

ps aux | grep root


mercredi 3 décembre 2008

Effectuer un Chercher / Remplacer en MySQL

Aujourd'hui je me suis demandé comment effectuer un chercher/remplacer dans une base de donnée MySQL. Voilà donc la belle commande à taper :

UPDATE NomTable SET NomChamp = replace( NomChamp,"Chercher","RemplacerPar");

mardi 21 octobre 2008

La fin de l'enchère minimum sur Google

Ces derniers temps j'ai été gêné pour réviser mes enchères à la baisse lorsque certains mots clés me coûtaient trop chers ou me semblaient mal optimisés.
La raison de cette difficulté réside dans la nouvelle politique de Google de ne plus imposer des enchères minimum par mot clé. En effet lorsqu'un mot clé n'est pas affiché, Google nous suggère une enchère pour "apparaître sur la première page". En revanche, lorsque le mot clé est actif, Google ne nous précise plus quelle est l'enchère planchée pour ce mot clé. Il en résulte le fait qu'il devient quasi impossible d'optimiser à la baisse dans la mesure où nous ne connaissons plus le seuil de desactivation d'un mot clé. Il faudrait, pour optimiser, enchérir à la baisse puis vérifier régulièrement dans l'interface si notre nouvelle enchère n'est pas inférieur au seuil minimum. Ce qui pouvait se voir en un clin d'oeil à l'époque est désormais un chemin de croix pour les gestionnaires de comptes.
En résumé, la disparition de l'affichage du seuil minimum dans la colonne "Quality Score" de l'interface ne nous permet plus de faire un travail qualitatif et une optimisation à la baisse, en outre c'est un système qui est inflationniste en terme d'enchères.

- page 1 de 62