J'ai fini mon passage sur les prédictions CFPB.
Résumé :
Sur 131 prédictions, 13 Non (erreurs CFBP, homonyme, langue, modalité=not), 118 O
dont
18 trop généraux mais proches (ajouter une classe à OntoBiotope) dont 2 malformations (olive knot, leaf lesion)
12 prédictions incompletes.
Détail dans les fichiers jointsComment_prédictions_CFBP_mars_2021.docxcirm-cfbp-results-eval.xls
La qualité est globalement très bonne (80%). La majorité des erreurs de prédiction de classe est causée par deux phénomènes :
(1) les noms scientifiques latins, deux solutions :
traiter le premier mot comme la tête et non pas le deuxième (ex. Aesculus indica à annoter par Aesculus).
exact match sinon rien (ex. Aesculus indica ne pas annoter car absent).
La première solution est préférable.
(2) les noms géographiques à ne pas traiter
ex. Tsukuba City à ne pas annoter par City.
Il manque beaucoup de prédictions de plantes. Il faudra dans le futur réfléchir à une manière d'annoter correctement les noms scientifiques à l'aide de la taxinomie du NCBI quand ils sont absents d'OntoBiotope (ou de toute autre ressource).