Traitement des données CIRM-CFBP

added Priority: High Status: In Progress labels

created merge request !12 (merged) to address this issue

mentioned in merge request !12 (merged)

marked this issue as related to #28 (closed)

J'ai fini mon passage sur les prédictions CFPB. Résumé : Sur 131 prédictions, 13 Non (erreurs CFBP, homonyme, langue, modalité=not), 118 O dont 18 trop généraux mais proches (ajouter une classe à OntoBiotope) dont 2 malformations (olive knot, leaf lesion) 12 prédictions incompletes. Détail dans les fichiers jointsComment_prédictions_CFBP_mars_2021.docx cirm-cfbp-results-eval.xls

Analyse des prédictions cirm-cfbp 19/10

La qualité est globalement très bonne (80%). La majorité des erreurs de prédiction de classe est causée par deux phénomènes : (1) les noms scientifiques latins, deux solutions :

traiter le premier mot comme la tête et non pas le deuxième (ex. Aesculus indica à annoter par Aesculus).
exact match sinon rien (ex. Aesculus indica ne pas annoter car absent). La première solution est préférable.

(2) les noms géographiques à ne pas traiter ex. Tsukuba City à ne pas annoter par City.

Il manque beaucoup de prédictions de plantes. Il faudra dans le futur réfléchir à une manière d'annoter correctement les noms scientifiques à l'aide de la taxinomie du NCBI quand ils sont absents d'OntoBiotope (ou de toute autre ressource).

closed

Traitement des données CIRM-CFBP

Designs

Child items ...

Activity

Admin message

Traitement des données CIRM-CFBP

Activity