🖥️ Books Online – Développement d’un scraper Python pour pipeline ETL ​
Contexte ​
Dans le cadre de ma formation chez OpenClassrooms, j’ai intégré l’équipe fictive de la société Books Online, une librairie en ligne spécialisée dans les livres d’occasion. En tant qu’analyste marketing, ma mission était de concevoir une version bêta d’un système automatisé de surveillance des prix chez un concurrent : le site Books to Scrape.
Objectif ​
Développer une application Python capable d’extraire, de transformer et de charger des données (pipeline ETL) issues du site Books to Scrape :
- Extraction des informations de chaque produit (titre, prix, stock, description…)
- Traitement des données et gestion des catégories
- Génération de fichiers CSV et téléchargement des images
- Livraison d’un repository GitHub structuré avec
README.md
etrequirements.txt
Défis techniques ​
- Mise en place d’un environnement Python isolé avec virtualenv
- Conception d’un scraper modulaire : produits → catégories → site complet
- Gestion de la pagination automatique
- Téléchargement et organisation des images produit
- Respect des bonnes pratiques Git : commits clairs et versionnage continu
- Rédaction d’un mail technique expliquant le fonctionnement d’un pipeline ETL
Compétences développées ​
- Programmation en Python 3 (structuration, fonctions, modules)
- Manipulation de bibliothèques standard comme
requests
,BeautifulSoup
,csv
etos
- Automatisation de la collecte de données (web scraping)
- Construction d’un pipeline ETL simple
- Travail en conditions réalistes avec un brief d’équipe, des exigences métier, et une livraison professionnelle