Skip to content

🖥️ Books Online – Développement d’un scraper Python pour pipeline ETL ​

Books Online

Contexte ​

Dans le cadre de ma formation chez OpenClassrooms, j’ai intégré l’équipe fictive de la société Books Online, une librairie en ligne spécialisée dans les livres d’occasion. En tant qu’analyste marketing, ma mission était de concevoir une version bêta d’un système automatisé de surveillance des prix chez un concurrent : le site Books to Scrape.

Objectif ​

Développer une application Python capable d’extraire, de transformer et de charger des données (pipeline ETL) issues du site Books to Scrape :

  • Extraction des informations de chaque produit (titre, prix, stock, description…)
  • Traitement des donnĂ©es et gestion des catĂ©gories
  • GĂ©nĂ©ration de fichiers CSV et tĂ©lĂ©chargement des images
  • Livraison d’un repository GitHub structurĂ© avec README.md et requirements.txt

Défis techniques ​

  • Mise en place d’un environnement Python isolĂ© avec virtualenv
  • Conception d’un scraper modulaire : produits → catĂ©gories → site complet
  • Gestion de la pagination automatique
  • TĂ©lĂ©chargement et organisation des images produit
  • Respect des bonnes pratiques Git : commits clairs et versionnage continu
  • RĂ©daction d’un mail technique expliquant le fonctionnement d’un pipeline ETL

Compétences développées ​

  • Programmation en Python 3 (structuration, fonctions, modules)
  • Manipulation de bibliothèques standard comme requests, BeautifulSoup, csv et os
  • Automatisation de la collecte de donnĂ©es (web scraping)
  • Construction d’un pipeline ETL simple
  • Travail en conditions rĂ©alistes avec un brief d’équipe, des exigences mĂ©tier, et une livraison professionnelle

Liens utiles ​

Logo de Gitlab