🖥️ Books Online – Développement d’un scraper Python pour pipeline ETL

Books Online

Contexte

Dans le cadre de ma formation chez OpenClassrooms, j’ai intégré l’équipe fictive de la société Books Online, une librairie en ligne spécialisée dans les livres d’occasion. En tant qu’analyste marketing, ma mission était de concevoir une version bêta d’un système automatisé de surveillance des prix chez un concurrent : le site Books to Scrape.

Objectif

Développer une application Python capable d’extraire, de transformer et de charger des données (pipeline ETL) issues du site Books to Scrape :

Extraction des informations de chaque produit (titre, prix, stock, description…)
Traitement des données et gestion des catégories
Génération de fichiers CSV et téléchargement des images
Livraison d’un repository GitHub structuré avec README.md et requirements.txt

Défis techniques

Mise en place d’un environnement Python isolé avec virtualenv
Conception d’un scraper modulaire : produits → catégories → site complet
Gestion de la pagination automatique
Téléchargement et organisation des images produit
Respect des bonnes pratiques Git : commits clairs et versionnage continu
Rédaction d’un mail technique expliquant le fonctionnement d’un pipeline ETL

Compétences développées

Programmation en Python 3 (structuration, fonctions, modules)
Manipulation de bibliothèques standard comme requests, BeautifulSoup, csv et os
Automatisation de la collecte de données (web scraping)
Construction d’un pipeline ETL simple
Travail en conditions réalistes avec un brief d’équipe, des exigences métier, et une livraison professionnelle

🖥️ Books Online – Développement d’un scraper Python pour pipeline ETL ​

Contexte ​

Objectif ​

Défis techniques ​

Compétences développées ​

Liens utiles ​

🖥️ Books Online – Développement d’un scraper Python pour pipeline ETL

Contexte

Objectif

Défis techniques

Compétences développées

Liens utiles