Syndiquer le contenu
Mis à jour : il y a 59 min 38 sec

Weboob atteint la maturité

14 novembre, 2014 - 06:46

Weboob (Web Outside Of Browsers) est une bibliothèque et un ensemble d'applications interagissant avec des sites Web. Plus de quatre ans après le premier commit, nous avons le plaisir d'annoncer la sortie de la première version stable de Weboob !

En plus de présenter les nouveautés, cette dépêche profite de cette version pour faire un rapide retour sur l'historique et l'évolution du projet.

Sommaire Le nouveau browser

Comme nous l'expliquions dans la dépêche précédente, cette annonce de première version majeure est l'aboutissement de notre projet de refactorisation de code. Afin de rendre plus aisé le support de sites web par Weboob, le projet fournit de nombreux outils, dont une bibliothèque qui simule le fonctionnement d'un navigateur. Depuis quelques versions, cette bibliothèque a été réécrite sous le nom de "Browser2" puis tout simplement "le nouveau browser" (navigateur). Celui-ci est prêt à l'utilisation, et suffisamment abouti pour que son API reste stable durant la durée de vie de la branche 1.x. Nous nous autorisons des ajouts, mais l'existant ne sera pas modifié.

Ce nouveau Browser et les outils associés sont l'une des forces du projet : le scraping (extraction de contenu) est souvent une tâche répétitive, mais Weboob fait tout pour atténuer ce problème. Nous pensons que le projet a maintenant atteint un niveau de maturité lui permettant d'honorer cette promesse. Avec tous les outils du browser (ListElement, filtres, pagination, formulaires, etc.), un module peut ne prendre que quelques lignes de code.

Retour sur l'origine du projet

En 2008, un petit script Python utilisant mechanize et html5lib a vu le jour, écrit par un utilisateur d'un site de rencontres français bien connu, et dont l'objet était de remplacer l'interface web sur fond rose par son MUA pour échanger avec ses contacts. Très vite, il renouvela l'expérience avec un autre script pour récupérer automatiquement son solde et ses relevés depuis le site de sa banque.

Lorsque, début 2010, il lança le projet dlfp2mail, il se rendit compte de la possibilité d'appliquer la méthode à bon nombre d'autres sites web, et chercha à factoriser le code au sein d'un même et unique projet. Weboob était né.

Ainsi que ceux qui jasent sur le nom l'ignorent, il était initialement prévu de l'appeler woob. Ce n'est que lorsqu'on constata qu'il existait déjà un autre logiciel portait déjà ce nom qu'il fut décidé de le renommer weboob.

Les concepts fondateurs furent rapidement posés :

  • séparation entre les modules interagissant avec les sites et les applications ;
  • système de capacités que chaque module peut implémenter ;
  • bibliothèque utilisable par des applications tierces.

Le projet s'est depuis enrichi d'un navigateur puissant (remplaçant mechanize par requests) pour le parcours et l'analyse lexicale des pages, d'un système de dépôts pour les modules, de classes helper pour résoudre les claviers virtuels, etc.

37 capacités

Les capacités sont des interfaces permettant aux applications d'interagir avec les sites Web, de façon unifiée. Par exemple, la capacité bancaire offre la possibilité de lister les comptes, obtenir l'historique des transactions, faire des virements, etc. De leur côté, les modules implémentent une ou plusieurs de ces capacités (parfois partiellement uniquement, notamment si le site n'a pas la fonctionnalité). Les applications ont donc des interfaces unifiées et stables pour interagir avec tous les sites d'une catégorie, et non pas avec un seul site bien particulier.

C'est une grande différence avec les nombreux scripts d'extraction de contenu individuels pouvant se trouver sur Internet : on accède à tous les sites permettant de télécharger des vidéos d'une manière unique, à tous les sites bancaires en une seule requête, etc. La diversité des fonctionnalités des sites Web se retrouve en partie chez Weboob : nous proposons actuellement 37 capacités différentes, à comparer avec les 172 sites dont Weboob permet l'accès.

Utilisations tierces

Le projet Weboob fournit des applications basiques pour interagir avec les sites. Ces applications permettent d'effectuer des requêtes complexes (avec notamment un système de filtres sur les résultats), et permettent déjà de nombreuses interactions. Notre objectif n'est cependant pas de remplacer les applications existantes : nous n'allons pas créer un nouveau gestionnaire financier personnel dans Weboob. De très bons logiciels libres existent déjà pour celà. De même pour les lecteurs vidéos.

Nous mettons donc l'accent sur l'export des données en formats utilisables par tous, ainsi que sur l'utilisation de Weboob en tant que bibliothèque dans les projets. Cette méthode a particulièrement bien fonctionné pour les applications bancaires, mais aussi pour des usages plus inattendus. On peut citer à la fois des entreprises (Cozycloud, Budget Insight, Winancial) que des projets communautaires : Skrooge, Kmymoney (nous essayons de faire intégrer un patch upstream), GTranslate, Gnome Shell, un plugin pour XMBC/Kodi

Nouveautés depuis la 0.j

Pour revenir sur les actualités de la 1.0, le temps de développement de cette version a été assez court. Notre objectif (réussi) étant une migration de la version 1.0 dans Debian testing avant le gel. Il n'y a donc eu que six (intensives) semaines entre la 0.j et la version 1.0.

On peut cependant noter que la capacité permettant de consulter des annonces immobilières (CapHousing) a été améliorée. Les annonces immobilières du site Leboncoin ont notamment été ajoutées.

Du côté des applications, une nouvelle option de filtre (LIMIT) est disponible en ligne de commande. Elle permet de limiter la profondeur des recherches des requêtes utilisant le moteur de condition.

Concernant les modules, on peut noter un second module pour une banque américaine (Citibank). Du côté plus francophone, des modules pour suivre l'agenda du libre, pour suivre les marées et une nouvelle application de rencontres.

Enfin, sous le capot, nous avons profondément changé les API et les noms internes des objets. Nous voulions le faire pour présenter une interface cohérente pour la version 1.0. Dans ce cadre, l'utilisation de l'ancien Browser est désormais signalée comme obsolète. Un nouveau niveau de debug fait son apparition pour le nouveau Browser, permettant un suivi fin des appels sur les filtres.

Communauté

Depuis quatre ans, ce sont pas moins de 88 contributeurs qui ont participé à Weboob :

Adrien Kunysz, Ahmed Boussadia, Alexandre Bonhomme, Alexandre Flament, Alexandre Franke, Alexandre Lissy, Antoine, Arno Renevier, Benjamin Carton, Benjamin Drieu, BohwaZ, Camille Baldock, Camille Dehecq, Cedric Defortis, Christophe Benz, Christophe Gouiran, Christophe Lampin, Clément Schreiner, Clément Calmels, Damien Cassou, David Jeanneteau, Erwan Jahier, Etienne Carriere, Fabien Grumelard, Florent Fourcot, François D., François Revol, Gabriel Serme, Gabriel Kerneis, Gilles Quenot, Grmbl Frechneu, Hervé Werner, Jean-Benoist Leger, Jean-Christophe Dubacq, Jean-Philippe Dutrève, Jerem, Jeremy Monnet, Jérôme Poisson, Jocelyn Jaubert, Johann Broudin, John Morrow, Julia Leven, Julien Hebert, Julien Veyssier, Juliette Stehlé, Kevin Pouget, Laurent Bachelier, Laurent Dufréchou, Laurent George, Loic Bontonou, Luc Didry, Lucas Nussbaum, Lucien Loiseau, Mathieu Jourdan, Mathieu Lordon, Matthieu Rakotojaona, Michael Scherer, Nicolas Duhamel, Noé Rubinstein, Oleg Plakhotniuk, Olivier, Olivier Schwander, Philippe Fremy, Pierre Mazière, Raphaël Rigo, Richard Genoud, Roger Philibert, Romain Bignon, Romain Garbage, Ryan Nowakowski, Samuel Loury, Sébastien Monel, Simon Murail, Stefano Zacchiroli, Tanguy Ortolo, Tens San, Thomas Lecavelier, Vicnet, Vincent A, Vincent Paredes, Vincent Texier, Willy Villard, Xavier Guerrin, Yann Rouillard, ianux, leto, theocrite

Nous remercions également pour cette version les étudiants de l'Université de Lille 1, qui ont ajouté des tests dans le cadre d'un projet d'étude.

Weboob est un projet qui grossit et qui vit grâce à ses contributeurs. Si vous souhaitez l’améliorer, que vous connaissiez le Python ou pas, n’hésitez pas à contribuer.

Télécharger ce contenu au format Epub

Lire les commentaires