GPFS - GPFS
| Développeur(s) | IBM |
|---|---|
| Nom complet | Échelle de spectre IBM |
| Introduit | 1998 avec AIX |
| Limites | |
| Max. taille du volume | 8 Yo |
| Max. taille du fichier | 8 EB |
| Max. nombre de fichiers | 2 64 par système de fichiers |
| Caractéristiques | |
| Autorisations du système de fichiers | POSIX |
| Cryptage transparent | Oui |
| Autre | |
| Systèmes d'exploitation pris en charge | AIX , Linux , Windows Server |
GPFS ( General Parallel File System , nom de marque IBM Spectrum Scale ) est un logiciel de système de fichiers en cluster hautes performances développé par IBM . Il peut être déployé dans des modes parallèles distribués à disque partagé ou sans partage , ou une combinaison de ceux-ci. Il est utilisé par bon nombre des plus grandes sociétés commerciales du monde, ainsi que par certains des superordinateurs figurant sur la liste des 500 meilleurs . Par exemple, c'est le système de fichiers du Summit at Oak Ridge National Laboratory qui était le supercalculateur n°1 le plus rapide au monde dans la liste des 500 meilleurs supercalculateurs de novembre 2019. Summit est un système de 200 pétaflops composé de plus de 9 000 microprocesseurs IBM POWER et de 27 000 GPU NVIDIA Volta . Le système de fichiers de stockage appelé Alpine dispose de 250 Po de stockage utilisant Spectrum Scale sur le matériel de stockage IBM ESS, capable d'environ 2,5 To/s d'E/S séquentielles et de 2,2 To/s d'E/S aléatoires.
Comme les systèmes de fichiers de cluster typiques, GPFS fournit un accès simultané aux fichiers à grande vitesse aux applications s'exécutant sur plusieurs nœuds de clusters. Il peut être utilisé avec AIX clusters, Linux clusters, sur Microsoft Windows Server ou un cluster hétérogène de noeuds AIX, Linux et Windows sur x86 , ALIMENTATION ou IBM Z architectures de processeurs. En plus de fournir des capacités de stockage de système de fichiers, il fournit des outils de gestion et d'administration du cluster GPFS et permet un accès partagé aux systèmes de fichiers à partir de clusters distants.
Histoire
GPFS a commencé comme le système de fichiers Tiger Shark , un projet de recherche au centre de recherche d' IBM d' Almaden dès 1993. Tiger Shark a été initialement conçu pour prendre en charge les applications multimédias à haut débit. Cette conception s'est avérée bien adaptée au calcul scientifique.
Un autre ancêtre est le système de fichiers Vesta d'IBM , développé dans le cadre d'un projet de recherche au Thomas J. Watson Research Center d' IBM entre 1992 et 1995. Vesta a introduit le concept de partitionnement de fichiers pour répondre aux besoins des applications parallèles qui s'exécutent sur des multi - ordinateurs hautes performances avec I/ O sous-systèmes. Avec le partitionnement, un fichier n'est pas une séquence d'octets, mais plutôt plusieurs séquences disjointes auxquelles on peut accéder en parallèle. Le partitionnement est tel qu'il supprime le nombre et le type de nœuds d'E/S hébergeant le système de fichiers, et il permet une variété de vues logiquement partitionnées des fichiers, quelle que soit la distribution physique des données au sein des nœuds d'E/S. Les séquences disjointes sont agencées pour correspondre aux processus individuels d'une application parallèle, permettant une évolutivité améliorée.
Vesta a été commercialisé sous le nom de système de fichiers PIOFS vers 1994, et a été remplacé par GPFS vers 1998. La principale différence entre les systèmes de fichiers plus anciens et plus récents était que GPFS a remplacé l'interface spécialisée offerte par Vesta/PIOFS par l' API Unix standard : toutes les fonctionnalités Les E/S parallèles hautes performances étaient cachées aux utilisateurs et mises en œuvre sous le capot.
GPFS est disponible sur IBM AIX depuis 1998, sur Linux depuis 2001 et sur Windows Server depuis 2008.
Aujourd'hui, il est utilisé par bon nombre des 500 meilleurs superordinateurs répertoriés sur la liste des 500 meilleurs superordinateurs. Depuis sa création, il a été déployé avec succès pour de nombreuses applications commerciales, notamment les médias numériques, l'analyse de grille et les services de fichiers évolutifs.
En 2010, IBM a présenté en avant-première une version de GPFS qui incluait une capacité connue sous le nom de GPFS-SNC, où SNC signifie Shared Nothing Cluster. Cela a été officiellement publié avec GPFS 3.5 en décembre 2012 et est maintenant connu sous le nom de FPO (File Placement Optimizer). Cela lui permet d'utiliser des disques connectés localement sur un cluster de serveurs connectés au réseau plutôt que de nécessiter des serveurs dédiés avec des disques partagés (par exemple en utilisant un SAN). FPO convient aux charges de travail avec une localité de données élevée, telles que les clusters de bases de données sans partage tels que SAP HANA et DB2 DPF, et peut être utilisé comme système de fichiers compatible HDFS .
Architecture
C'est un système de fichiers en cluster . Il divise un fichier en blocs d'une taille configurée, inférieure à 1 mégaoctet chacun, qui sont répartis sur plusieurs nœuds de cluster.
Le système stocke les données sur des volumes de stockage de blocs standard, mais comprend une couche RAID interne qui peut virtualiser ces volumes pour la redondance et l'accès parallèle, un peu comme un système de stockage de blocs RAID. Il a également la capacité de se répliquer sur des volumes au niveau de fichier supérieur.
Les caractéristiques de l'architecture comprennent
- Métadonnées distribuées, y compris l'arborescence des répertoires. Il n'y a pas un seul "contrôleur de répertoire" ou "serveur d'index" en charge du système de fichiers.
- Indexation efficace des entrées de répertoire pour les très gros répertoires.
- Verrouillage distribué. Cela permet une sémantique complète du système de fichiers POSIX , y compris le verrouillage pour un accès exclusif aux fichiers.
- Connaissant les partitions. Une défaillance du réseau peut partitionner le système de fichiers en deux ou plusieurs groupes de nœuds qui ne peuvent voir que les nœuds de leur groupe. Cela peut être détecté via un protocole de pulsation, et lorsqu'une partition se produit, le système de fichiers reste actif pour la plus grande partition formée. Cela offre une dégradation gracieuse du système de fichiers — certaines machines continueront de fonctionner.
- La maintenance du système de fichiers peut être effectuée en ligne. La plupart des tâches de maintenance du système de fichiers (ajout de nouveaux disques, rééquilibrage des données sur les disques) peuvent être effectuées pendant que le système de fichiers est actif. Cela garantit que le système de fichiers est disponible plus souvent, ce qui maintient le cluster de superordinateurs lui-même disponible plus longtemps.
Les autres fonctionnalités incluent la haute disponibilité, la possibilité d'être utilisé dans un cluster hétérogène, la reprise après sinistre, la sécurité, DMAPI , HSM et ILM .
Par rapport au système de fichiers distribué Hadoop (HDFS)
Le système de fichiers HDFS d' Hadoop est conçu pour stocker des quantités de données similaires ou supérieures sur du matériel standard, c'est-à-dire des centres de données sans disques RAID et sans réseau de stockage (SAN).
- HDFS divise également les fichiers en blocs et les stocke sur différents nœuds du système de fichiers.
- GPFS a une sémantique complète du système de fichiers Posix.
- GPFS distribue ses index de répertoire et d'autres métadonnées à travers le système de fichiers. Hadoop, en revanche, conserve cela sur les nœuds de nom principal et secondaire, de gros serveurs qui doivent stocker toutes les informations d'index dans la RAM.
- GPFS divise les fichiers en petits blocs. Hadoop HDFS aime les blocs de 64 Mo ou plus, car cela réduit les besoins de stockage du Namenode. De petits blocs ou de nombreux petits fichiers remplissent rapidement les index d'un système de fichiers, alors limitez la taille du système de fichiers.
Gestion du cycle de vie des informations
Les pools de stockage permettent le regroupement de disques au sein d'un système de fichiers. Un administrateur peut créer des niveaux de stockage en regroupant les disques en fonction des performances, de la localité ou des caractéristiques de fiabilité. Par exemple, un pool peut être constitué de disques Fibre Channel hautes performances et d'un autre stockage SATA plus économique.
Un ensemble de fichiers est une sous-arborescence de l'espace de noms du système de fichiers et fournit un moyen de partitionner l'espace de noms en unités plus petites et plus faciles à gérer. Les ensembles de fichiers fournissent une limite administrative qui peut être utilisée pour définir des quotas et être spécifiés dans une stratégie pour contrôler le placement initial des données ou la migration des données. Les données d'un même ensemble de fichiers peuvent résider dans un ou plusieurs pools de stockage. L'emplacement des données de fichier et leur mode de migration sont basés sur un ensemble de règles dans une politique définie par l'utilisateur.
Il existe deux types de stratégies définies par l'utilisateur : le placement de fichiers et la gestion de fichiers. Les politiques de placement des fichiers dirigent les données des fichiers au fur et à mesure de leur création vers le pool de stockage approprié. Les règles de placement des fichiers sont sélectionnées par des attributs tels que le nom de fichier, le nom d'utilisateur ou l'ensemble de fichiers. Les politiques de gestion de fichiers permettent de déplacer ou de répliquer les données du fichier ou de supprimer des fichiers. Les politiques de gestion de fichiers peuvent être utilisées pour déplacer des données d'un pool à un autre sans modifier l'emplacement du fichier dans la structure de répertoires. Les politiques de gestion de fichiers sont déterminées par des attributs de fichier tels que l'heure du dernier accès, le nom de chemin ou la taille du fichier.
Le moteur de traitement des règles est évolutif et peut être exécuté sur plusieurs nœuds à la fois. Cela permet d'appliquer les politiques de gestion à un seul système de fichiers avec des milliards de fichiers et de les terminer en quelques heures.
Voir également
- Alluxio
- Système de fichiers de cluster ASM (ACFS)
- BeeGFS
- GFS2
- Gloussement
- Système de fichiers Google
- Liste des systèmes de fichiers
- Lustre (système de fichiers)
- MapR FS
- OrignalFS
- OCFS2
- Panasas PanFS
- QFS
- Services de fichiers évolutifs IBM - Réseau NAS
- Système de fichiers de disque partagé
- Serveur de cluster Veritas
- ZFS