Utiliser Google Sheets et la fonction IMPORTXML pour automatiser son activité

Que l’on apprécie ou non les produits de Google, il reste intéressant de regarder comment ils peuvent très facilement vous faire gagner de très nombreuses heures par semaine.

Pourquoi utiliser Google Sheets

J’utilise personnellement un ensemble de de tableaux Google Sheets pour réaliser les tâches répétitives de mes différentes activités:

  • Référencement, suivi de mots clefs, audit de site
  • Récupération des ventes réalisées à travers diverses plate-formes et agrégation/réconciliation.
  • Veille concurrentielle
  • Calendrier de contenu/publication
  • Suivi de l’évolution de mes différentes audiences.

Je manipule au quotidien un volume croissant de données et en automatiser le traitement est le seul moyen de perfectionner son système tout en y passant un temps réduit.

Même s’il ne faut pas se voiler la face, vos données servant de monnaie, Google Sheets est une application gratuite, ce qui peut avoir son importance pour les faibles budgets, surtout quand on commence son activité.

Google Sheets dispose également d’un certain nombre d’Add-ins facilitant l’import de données depuis un grand nombre de sources hétérogène (Google Analytics, …)

Nous allons voir aujourd’hui la fonction IMPORTXML et sa puissance quand on la combine à elle-même et à d’autres fonctions.

IMPORTXML

Le format XML est un format de données structuré et cette fonction permet d’importer facilement un tel fichier. Jusque-là pas de quoi s’enthousiasmer outre mesure.

Les choses changent quand on apprend que ce format est très présent sur Internet et va nous permettre de facilement récupérer:

  • Des flux RSS
  • Des Sitemaps
  • Et une majorité de pages web qui sont au format XHTML (et non analysables par IMPORTXML)

Récupérons les pages de notre site

Je souhaite maintenir dans une feuille de calcul la liste de toutes les pages présentes sur mon site. (Cela peut permettre ensuite de croiser les données avec Google Analytics, ou de faire facilement un audit sur les titres, descriptions et autres éléments pouvant affecter le référencement.

=IMPORTXML("https://www.automatisons.com/sitemap.xml","//*[local-name() ='url']/*[local-name() ='loc']")

  • Le premier paramètre est l’adresse de mon sitemap (vous pouvez cliquer dessus pour regarder à quoi il ressemble)
  • Le second, qui s’appelle la Requête XPATH peut effrayer à première vue. Elle indique quelles données du fichier je souhaite récupérer. Si vous voulez faire la même chose, vous pouvez juste copier-coller ce paramètre dans notre exemple. Nous verrons plus tard, comment faire pour la déterminer plus facilement.

En validant la saisie avec Enter, on obtient le résultat suivant:

Utiliser ImportXml pour récupérer l'ensemble des URL contenues dans le sitemap

Au fur et à mesure que votre site évolue, vous avez juste à rappeler la fonction pour que la liste je mette quasiment magiquement à jour.

Vérifions les titres et descriptions des pages

On peut utiliser le résultat d’IMPORTXML pour alimenter une autre fonction IMPORTXML. Nous allons donc pour chaque ligne utiliser la fonction suivante: =IMPORTXML(A1, "//title/text()") Cette fonction va télécharger chaque page et récupérer le contenu de la balise déterminant le titre de la page. On a alors:

Récupération des balises titles associées à chaque page

Continuons sur notre lancée pour vérifier que chaque page dispose bien d’une description: On saisi donc en colonne C la formule suivante:

=IMPORTXML(A1, "//meta[@name='description']/@content")

Récupération de la meta-description associée à chaque page

On voit ici qu’un certain nombre de pages renvoient "#N/A". C’est une valeur particulière signifiant "non disponible" ou "non applicable". Dans notre cas cela veut dire qu’il n’y a pas de tag Description d’associée à la page. Même si ce tag a une importance moindre que par le passé, c’est quelque-chose que je vais corriger.

En 3 formules on a ainsi construit un mini outil d’audit de son site. Il y aurait beaucoup de choses à ajouter pour le rendre totalement complet mais le principe est là. Et garder à l’esprit que sa mise à jour se fait juste en quelques clics.

Comment à partir d’une page trouver plus facilement

On a vu précédemment que la fonction IMPORTXML nécessitait en second paramètre une requête XPATH. Celle-ci peut être complexe à trouver seul mais heureusement, il y a une alternative.

En effet, les navigateurs modernes tels que Chrome et Firefox permette de le déterminer à votre place.

Reprenons l’exemple pour trouver le titre: //title/text().

Suivons les étapes suivantes:

  1. Chargez la page dans le navigateur
  2. Effectuez un clic droit et sélectionnez l’option Inspecter ou Inspecter l'élément
  3. Un panneau s’ouvre alors dévoilant la structure de la page.
  4. Recherchez le nœud qui vous intéresse
  5. Effectuer un clic droit dessus et prenez l’option Copier > XPath
  6. Vous tenez le paramètre tant convoité.
Récupération du chemin XPath à l'aide de Chrome

Laisser un commentaire