Closed
Milestone
UD02 - Data harvester
Livrable : un outil exécutable (Java, Shell, ...) en ligne de commande permettant de lancer et de suivre le process d'indexation.
Indexeur de données (ETL) prenant un ou plusieurs fichiers JSON et les indexant dans un ou plusieurs index Elasticsearch.
Nous avons de quoi réaliser l’intégration des données en réutilisant une partie de nos outils internes, sur nos forces propres, sans changer nos briques technologiques. Nous proposons donc de revoir cette UD ainsi :
- création de template et mapping Elasticsearch permettant d’interroger les index pour les besoins des UD suivantes (complétion, agrégations, requêtes, etc.)
- à partir d’un JSON simple que l’on vous fournirait, agrégeant les données de tests d’un ou plusieurs piliers, reprenant un tableau de paires clé-valeurs (ou clé-tableau pour les champs multivalués), vous vous chargez d’intégrer les données dans l’index préalablement défini. Au besoin, nous pourrions adapter le schéma de ce fichier JSON pour vous simplifier la tâche.
Exemple de JSON généré :
$ jq '.[:2]' rare_pilier_plant.json
[
{
"pillarName": "Plant",
"databaseSource": "Florilège",
"portalURL": "http://florilege.arcad-project.org/fr/collections",
"identifier": "doi:10.15454/1.4921785297227607E12",
"name": "Syrah",
"description": "Syrah is a Vitis vinifera subsp vinifera cv. Syrah accession (number: 150Mtp0, doi:10.15454/1.4921785297227607E12) maintained by the GRAPEVINE (managed by INRA) and held by INRA. It is a maintained/maintenu accession of biological status traditional cultivar/cultivar traditionnel. This accession has phenotyping data: Doligez_et_al_2013 - Study of the genetic determinism of berry weight and seed traits in a grapevine progeny.",
"dataURL": "https://urgi.versailles.inra.fr/gnpis-core/#accessionCard/id=ZG9pOjEwLjE1NDU0LzEuNDkyMTc4NTI5NzIyNzYwN0UxMg==",
"domain": "Plantae",
"taxon": "Vitis vinifera",
"family": "Vitaceae",
"genus": "Vitis",
"species": "Vitis vinifera",
"materialType": null,
"biotopeType": null,
"countryOfOrigin": null,
"originLatitude": null,
"originLongitude": null,
"countryOfCollect": null,
"collectLatitude": null,
"collectLongitude": null
},
{
"pillarName": "Plant",
"databaseSource": "Florilège",
"portalURL": "http://florilege.arcad-project.org/fr/collections",
"identifier": "doi:10.15454/1.492178535151698E12",
"name": "Grecanico dorato",
"description": "Grecanico dorato is a Vitis vinifera subsp vinifera cv. Garganega accession (number: 1310Mtp1, doi:10.15454/1.492178535151698E12) maintained by the GRAPEVINE (managed by INRA) and held by INRA. It is a maintained/maintenu accession of biological status traditional cultivar/cultivar traditionnel",
"dataURL": "https://urgi.versailles.inra.fr/gnpis-core/#accessionCard/id=ZG9pOjEwLjE1NDU0LzEuNDkyMTc4NTM1MTUxNjk4RTEy",
"domain": "Plantae",
"taxon": "Vitis vinifera",
"family": "Vitaceae",
"genus": "Vitis",
"species": "Vitis vinifera",
"materialType": null,
"biotopeType": null,
"countryOfOrigin": null,
"originLatitude": null,
"originLongitude": null,
"countryOfCollect": "Italy",
"collectLatitude": 37.5,
"collectLongitude": 15.099722
}
]
Loading
Loading
Loading
Loading