Un volume de données inédit a été produit pendant les deux campagnes du LHC, et ses améliorations promettent encore des défis pour l’informatique

À la fin de l’année 2018, le Grand collisionneur de hadrons (LHC) est arrivé au terme de sa seconde exploitation, qui a duré plusieurs années et a vu la machine produire des collisions proton-proton à 13 TeV – le plus haut niveau d’énergie jamais atteint dans un accélérateur de particules. Pendant cette campagne, entre 2015 et 2018, les performances de la machine ont dépassé toutes les attentes, et les expériences LHC ont donc produit des volumes de données sans précédent.

Cette performance a signifié une utilisation exceptionnelle des ressources informatiques. De nombreux records ont d’ailleurs été battus en termes d’acquisition, de vitesse et de volume de données. Le système perfectionné de stockage du CERN, CASTOR, qui comporte une partie dorsale utilisant des bandes pour l’archivage permanent des données, a atteint un volume de 330 pétaoctets (PO) de données enregistrées sur bande (ce qui équivaut à 330 millions de gigaoctets), soit l’équivalent d’un enregistrement vidéo en HD de 2 000 ans. Pour le mois de novembre 2018 seulement, un volume record de 15,8 PO enregistrés sur bandes a été atteint, résultat remarquable quand on sait que ce volume est supérieur à celui enregistré pendant toute la première année de la première exploitation du LHC.

Le système de stockage distribué utilisé pour les expériences LHC a dépassé 200 PO de stockage brut, avec environ 600 millions de fichiers. Ce système (EOS), qui est open source, utilise des disques, et il a été développé au CERN pour les besoins en informatique hors du commun du LHC. En plus de cela, 830 PO de données et 1,1 milliards de fichiers ont été transférés par le système FTS (File Transfer Service) dans le monde entier. Afin de relever ces défis informatiques et de mieux soutenir les expériences du CERN pendant la deuxième exploitation, l’ensemble de l’infrastructure informatique, et notamment les systèmes de stockage, ont fait l’objet d’importants travaux d’amélioration et de consolidation ces dernières années.

Volumes mensuels de données (en téraoctets) enregistrées sur bandes au CERN. Ce graphique montre le volume de données enregistrées sur bandes générées par les expériences LHC, d’autres expériences, diverses sauvegardes et les utilisateurs. En 2018, un total de plus de 115 pétaoctets de données (dont 88 pétaoctets provenant du LHC) ont été enregistrées sur bandes, avec un record de 15,8 pétaoctets en novembre. (Image : Esma Mobs/CERN)

De nouvelles activités de recherche et développement en informatique ont déjà commencé en prévision de la troisième exploitation (prévue de 2021 à 2023). « Notre nouveau logiciel, appelé CTA (CERN Tape Archive), est le nouveau système de stockage sur bande pour la copie permanente des données de physique. Il remplacera CASTOR, son prédécesseur. L’objectif principal de CTA est d’utiliser plus efficacement les dérouleurs de bandes, afin de gérer les explosions de données encore plus grandes attendues pendant les troisième et quatrième exploitations du LHC », explique German Cancio, qui dirige la section Bandes, archives et sauvegardes du département IT du CERN. CTA sera déployé pendant le LS2 pour remplacer CASTOR. Il est prévu que, par rapport à la dernière année de la deuxième exploitation, le volume de données archivées soit environ deux fois plus important pendant la troisième exploitation, et cinq fois plus important, voire davantage, pendant la quatrième exploitation (prévue de 2026 à 2029).

L’informatique consacrée au LHC continuera d’évoluer. La plupart des données recueillies dans le centre de données du CERN sont très précieuses, et elles doivent donc être conservées et stockées pour les futures générations de physiciens. Le département IT du CERN profitera donc des travaux de maintenance et d’amélioration réalisés actuellement sur le complexe d’accélérateur, dans le cadre du LS2, pour procéder aux travaux de consolidation nécessaires sur l’infrastructure informatique. Les infrastructures de stockage et les logiciels seront améliorés afin d’être en mesure de relever les défis en termes d’échelle et de performance qui ne devraient pas manquer de se présenter lorsque le LHC redémarrera pour la troisième exploitation, en 2021.