Les ensembles de données à gérer correspondent à la définition du big data car elle répondent aux caractéristiques principales du big data, appelées les trois "V" : Volume, Vélocité,et Variété. En d'autre termes, des données plus variées, arrivant dans des volumes croissants et à une vitesse de changements plus élevée.
Ainsi les données correspondent à des observations effectuées par :
- Des satellites
- Des observatoires in situ : avions et drones, navires et véhicules sous-marins, stations fixes, bouées, flotteurs, ...
- Un grand nombre de scientifiques, en particulier pour les observatoires in-situ
Générant différents types de données : séries temporelles à point fixe, profils verticaux, données en cours de route, images, sorties de modèles,...
avec des métadonnées communes : localisation sur la terre (latitude, longitude, altitude/profondeur), temps, ce qui implique l'utilisation de métadonnées géospatiales (par exemple la famille de normes ISO 19115).
et pour des quantités de données observées ou produites
- Extrêmement volumineuses (plusieurs centaines de pétaoctets) pour les données satellite et les sorties de modèles
- Extrêmement variées et nombreuses, même si moins volumineuses, pour les plus d'un millier de millions d'observations in situ