OpenLux : faire parler des registres publics, une enquête d’un genre nouveau

Lundi 8 février 2021

OpenLux : faire parler des registres publics, une enquête d’un genre nouveau

Par Maxime Ferrer

Publié aujourd’hui à 06h00, mis à jour à 09h54

Enquête L’enquête OpenLux ne s’appuie pas sur une fuite de documents mais sur l’exploitation de données publiques. Un travail de longue haleine qui a permis de constituer une gigantesque base de données. Voici comment Les Décodeurs du « Monde » ont travaillé.

Ceci n’est pas un leak. Contrairement aux « Panama Papers » ou aux « LuxLeaks », « OpenLux » ne doit pas son origine à une fuite de documents privés, transmis à la presse. Cette enquête d’un genre nouveau s’appuie uniquement sur la collecte de données publiques progressivement mises en ligne par le Luxembourg. Des pièces éparpillées d’un puzzle que les journalistes du service des Décodeurs au Monde ont reconstitué, en construisant une gigantesque base de données à partir de deux registres publics, gratuits, mais pas faciles d’accès : le registre du commerce et des sociétés (RCS), qui regroupe tous les actes administratifs des sociétés luxembourgeoises, et le registre des bénéficiaires effectifs (RBE), qui répertorie les propriétaires ultimes de ces sociétés.

Le Luxembourg a initié ces dernières années une indéniable démarche de transparence financière, mais celle-ci a ses limites : les informations contenues dans ses registres ne sont pas offertes librement au grand public dans une démarche d’open data (données ouvertes), comme dans d’autres pays. Pour y accéder, il faut se connecter sur le site du Luxembourg Business Register (LBR), et taper le nom d’une société que l’on connaît au préalable. Impossible, en revanche, de soumettre le nom d’une personne pour connaître les sociétés qu’elle possède, ni de faire une recherche sur le contenu des documents, comme sur un moteur de recherche. Scraping de données

Pour avoir une vision globale, il faudrait reconstituer tous les identifiants possibles des sociétés (plus de 270 000 entrées), faire une recherche pour chacun d’eux dans le RBE et le RCS, pour collecter au fur et à mesure les noms des bénéficiaires, les documents ainsi que les informations sur l’entreprise (date de création, statut, secteur d’activité, etc.). Capture d’écran de l’interface de recherche du registre des bénéficiaires effectifs (RBE) du Luxembourg. Capture d’écran de l’interface de recherche du registre des bénéficiaires effectifs (RBE) du Luxembourg. lbr.lu

Nous avons économisé quelques années de travail en recourant à un script informatique qui a simulé le comportement de milliers d’internautes qui auraient navigué anonymement pendant un an sur l’intégralité des pages du LBR. Notre programme a extrait méticuleusement l’ensemble des informations découvertes par ces bots (« robots ») pour les rassembler en une seule base de données en perpétuelle évolution, qui est devenue OpenLux . Cette technique, qui consiste à lancer des programmes informatiques pour cibler, récupérer et stocker automatiquement les données contenues sur des pages Internet, s’appelle le « scraping de données ».

De fin 2016 à 2020, nous avons aspiré sur le RCS plus de 3,3 millions de documents, soit 1,3 téraoctet de données, dont les plus anciens remontent aux années 1950. Ils représentent les archives de la vie de plus de 260 000 sociétés luxembourgeoises (dont près de la moitié n’existent plus) au fil des créations, fusions, radiations, modifications des administrateurs ou des gérants, dépôts de comptes, etc. La première pierre d’OpenLux était posée. Lire la suite.

Revenir en haut