Catégorie : Actualités Page 1 of 2

Compte-rendu de l’atelier : Compétences et profils nécessaires, quelles formations ?

Restitution par Joanna Janik (Chargée de projets formations IST à la DIST-CNRS et copilote du Collège Compétences et formations du Comité pour la Science Ouverte)

La fouille de textes et de données ne constitue pas seulement un défi technologique ou juridique mais également un défi humain pour amener les différents acteurs qui y participent à acquérir l’ensemble des compétences nécessaires à cette activité. L’objectif de cet atelier était donc de dresser un constat sur les compétences actuelles, de réfléchir aux manques possibles ainsi qu’aux moyens d’y répondre, en s’appuyant en particulier sur le levier de la formation.

N’étant pas trop nombreux autour de la table, nous avons considéré qu’un bon moyen d’entrer dans le sujet était un tour de table avec les participants, en les invitant à se situer dans le schéma très global des différents acteurs impliqués dans la fouille de textes détaillé dans nos livrables de l’étude Visa TM. Ceci nous a amenés très rapidement à un premier constat : les participants de l’atelier étaient très majoritairement des professionnels de l’IST et se plaçaient spontanément dans un rôle d’accompagnant des utilisateurs de la fouille de textes.  Nous nous sommes interrogés parallèlement sur l’absence dans cet atelier des chercheurs en TAL/TDM qui sont sans-doute, aujourd’hui encore, plus interpellés par les aspects techniques de la fouille de textes que par les besoins en transmission de compétences et de savoirs. Or ce transfert est indispensable à une adoption plus large des techniques de fouille de textes.

Forts de ce constat nous sommes donc partis de l’expérience des participants avec les outils qu’ils manient déjà ( dont des outils de visualisation) et avons recentré l’atelier autour des freins exprimés par ces accompagnants potentiels de la fouille de textes à destination des chercheurs, pour envisager ensuite, et avec eux, comment les aider à surmonter les blocages.

Les freins/besoins les plus évoqués se centraient sur :

  1. La compréhension du fonctionnement des outils de fouille de textes afin d’être en mesure d’expliquer (et non pas analyser, ce qui unanimement a été considéré comme du ressort du chercheur) les résultats issus d’un traitement. L’idée ici étant de corriger des processus de traitement si besoin ou de comprendre des résultats avec du « bruit » ou du « silence ». Cette compréhension des outils portant non pas exclusivement sur les aspects techniques mais plutôt sur leurs modalités de fonctionnement. Une documentation des outils, la mise en place de forums d’utilisateurs ou même le recours à des personnes référentes ont été évoqués comme une réponse possible à ce besoin.
  2. L’accès à des corpus de documents et des ressources sémantiques adaptés aux travaux de fouille de textes envisagés. Ces besoins soulignent la nécessité de l’intervention du chercheur dans le champ de ses compétences disciplinaires. Une notion importante a été évoquée durant les discussions à savoir où poser le curseur de ce qui peut être considéré comme un résultat de qualité (en particulier dans la constitution d’un corpus adapté). Peut-être devrait-on admettre que le 100% n’est pas la cible absolue à atteindre (d’autant que les corpus sont éminemment variables dans le temps et différents suivant les utilisateurs) et que des résultats peuvent être néanmoins exploitables à des niveaux de qualité moindre, peut-être de l’ordre du 90%. Nous avons supposé que cette recherche d’une forme de « perfectionnisme » pouvait avoir des ressorts culturels qu’il pourrait être utile de remettre en cause.
  3. Une difficulté majeure : l’expression des besoins réels par le chercheur, qui conditionne les résultats et qui est sans-doute une compétence à développer. En effet, si le besoin n’est pas clairement délimité les résultats peuvent être l’objet de frustrations par rapport aux attentes.   
  4. En tout dernier, il ne faut pas oublier que du point de vue de la disponibilité des compétences existantes dans les diverses branches de l’intelligence artificielle dont la fouille de textes est bénéficiaire, la pression de compétition en termes de salaires entre le public et le privé est très importante et plutôt en défaveur aujourd’hui des structures publiques, peinant à retenir les talents dont elles auraient sans-doute besoin dans ce domaine.

En termes de formation, les points majeurs suivants ont été soulignés :

  1. L’absolue nécessité pour les accompagnants de travailler et apprendre avec le chercheur lui-même, en particulier en raison des besoins en compétences disciplinaires.
  2. L’accès à des cas d’usage détaillés de processus de fouille de textes, élaborés sur des demandes réelles de chercheurs et qui pourraient constituer une base de travail pour d’autres questions à traiter. Une mobilisation à la fois de l’accompagnant et du chercheur dans le cadre d’une formation dédiée est envisagée, soulignant ainsi la forte interdépendance de ces deux types d’acteurs dans une activité de fouille de textes. Cette formation par un tiers peut même être envisagée ponctuellement en présentiel au décours du déroulé d’un projet afin de répondre le plus précisément aux attentes.
  3. La consultation des formations existantes et répertoriée dans le livrable « Description de l’e-infrastructure » a amené à la constatation que la fouille de textes ne peut faire l’objet de formations courtes (1 à 2 jours), en-dehors d’une optique de sensibilisation simple, pour viser une prise en main réelle des processus.

Nous pouvons conclure à l’issue de cet atelier :

  • Que les professionnels de l’IST ont incontestablement un rôle à jouer dans l’appropriation par les communautés de recherche des techniques de fouille de textes
  • Qu’ils ne pourront le faire que « main dans la main » avec les chercheurs des différentes disciplines
  • Qu’une réflexion approfondie et un plan d’action des modalités de montée en compétences s’impose : présentiel, « compagnonnage », etc.
  • Qu’une première avancée serait un travail autour de la description des modalités de fonctionnement des outils 
  • Qu’il serait utile d’intéresser plus amplement les chercheurs en TAL/TDM aux problématiques de compétences et les inciter au transfert de savoirs

Compte rendu de l’atelier : Futurs utilisateurs / futures utilisations

Restitution par Sylvain Massip (Opscidia)

1.  Quelles tâches pour un robot en 2050 ?

Nous avons commencé par nous projeter en 2050 pour imaginer quelles pourraient être les utilisations idéales de la fouille de textes. Les participants ont émis beaucoup d’idées qui rentraient globalement dans quatre catégories :

  • Des interfaces homme-Machine évoluées, qui permettent de poser à la machine une question complexe de façon simple.
  • Des applications qui permettent de détecter les signaux faibles, et pas uniquement les grandes tendances.
  • Des applications capables d’analyser des informations incomplète, lacunaires, contradictoires, inexactes.
  • Des applications qui permettent de construire automatiquement des applications de fouille de textes : assemblage de blocs de traitement, sélection de corpus etc.

2.  De la fouille de textes, mais aussi d’autres briques technologiques

Nous avons donc vu que ces applications ne nécessitent pas uniquement l’avancée des technologies de la fouille de textes, mais également l’intégration d’autres technologies :

  • L’accès aux corpus demeure un problème aussi bien technique que légal
  • Le traitement automatique des sons et des vidéos : la récupération des données dans des médias autres que le texte, ainsi que l’analyse des signaux non-verbaux permettraient de rendre l’analyse plus complète. 
  • L’automatisation des raisonnements formels, l’analyse intégrative de données.

3.  Quelles caractéristiques pour une bonne application de fouille de textes ?

Nous avons choisi de sélectionner une proposition spécifique et de nous demander sur quels critères une application de fouille de textes réalisant cette fonction serait évaluée : « Mon robot sait retrouver une information que je cherche sous la forme de réponse à une question en langage naturel, même dans le cas où l’analyse porte sur un grand nombre de documents ».

Dans l’ordre, les critères les plus importants nous ont semblé être :

1. Une réponse pertinente : avant tout, ne pas répondre à côté de la question.

2. Une réponse la plus correcte possible

2 bis. Une réponse la plus complète possible

3. Avec des niveaux de confiance sur la complétude et l’exactitude de la réponse.

D’autres critères nous ont semblé importants, mais moins prioritaires. Ce sont plutôt des “nice to have” :

4. Une interface Homme-Machine simple et intuitive, pour poser la question, comme pour étudier les réponses.

5. L’explicabilité des algorithmes : comment la machine a-t-elle obtenu son résultat ? 

4.  Quelle est la situation actuelle ?

Sur ce sujet, les points de vue étaient assez divergents entre les concepteurs d’application de fouille de textes et les utilisateurs d’applications de fouille de textes dans la salle. 

Les utilisateurs ont souligné que nous sommes encore très loin du résultat décrit précédemment. 

Les chercheurs en Traitement Automatique des Langues et en fouille de textes, à l’inverse, ont souligné que beaucoup de briques technologiques existent déjà mais nécessitent néanmoins d’être assemblées et un usage expert.

Les principaux verrous identifiés sont donc :

–      L’accès (technique et légal) aux corpus

–       L’interopérabilité entre les briques logicielles

–      Divers problème d’ingénierie logicielle dans le montage des applications dont les interfaces homme-machine

–      Le besoin de faire connaître les outils qui existent déjà et de former à leur usage.

Compte rendu de l’atelier : Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services

Objectif

Réfléchir et suggérer des idées, identifier les freins et les modes opératoires pour activer la valorisation et faciliter le transfert des produits de la recherche en fouille de textes grâce à une e-infrastructure dédiée.

Modalité « World café »

La salle comporte trois tables, chacune est dédiée à un sous-thème. Les participants sont divisés en trois groupes, et chaque groupe visite successivement les trois tables. Chaque table a un animateur/secrétaire volontaire pour effectuer la transition et la synthèse des réflexions des groupes.

Thèmes

  1. « Institutions » : Opportunités et obstacles pour la mise en place d’une e-infrastructure pour la fouille de textes.
  1. « Collaborations » : Une e-infrastructure pour le transfert et la valorisation des produits de la recherche en fouille de textes.
  1. « Technique » : E-infrastructure, réflexions technologiques.

Restitution du thème « Institutions » par Laurent Schmitt de l’INIST

Questions : Opportunités et obstacles pour la mise en place d’une e-infrastructure pour la fouille de textes

  • Obstacles et opportunités institutionnelles pour contribuer à l’e-infrastructures (évaluation, financement, mutualisation, formation).
  • Pérennisation et soutien long terme.
  • Valoriser au mieux les avantages de l’écosystème ESR (Enseignement Supérieur de la Recherche) français tout en atténuant ses inconvénients.
  • Comment faire accepter que les e-infrastructures sont comme les autres infrastructures de recherche et doivent être soutenues sur du long terme avec des investissements réguliers ?
  • Qui pour piloter l’e-infrastructure de fouille de textes en France ?

Il s’agissait dans cette réflexion de se placer du point de vue de l’institution. Nous avons choisi de nous imaginer « chargé de mission TDM (Text and Data Mining) au MESRI (Ministère de l’Enseignement Supérieur, de la Recherche et de l’Innovation). Lors de la première session (premier tiers des participants), la nécessité de disposer d’une structure permettant d’accompagner la communauté, de former et de signaler les outils disponibles est très vite apparue. Cette structure pourrait être, un TGIR (Très Grande Infrastructure de Recherche), un réseau inter-organisme, un Equipex, une structure interne à l’INIST ou à la BNF ou enfin un centre TDM à l’instar des centres pour l’Intelligence Artificielle. Le réseau présente une structure non doté de moyens propres, une structure interne à un organisme présente l’inconvénient de ne dépendre que d’une seule tutelle, un Equipex nous ferait retomber dans une situation non pérenne (budget uniquement pour la durée du projet). L’idée qui a donc naturellement émergée est donc celle d’un TGIR (Très Grande Infrastructure de Recherche) TDM. Celui-ci serait directement sous la tutelle du MESRI, au service de tout l’Enseignement Supérieur de la Recherche est aurait comme mission principale d’accompagner les chercheurs vers le TDM en offrant une base de donnée d’outils disponibles, pour quel besoin (extraction terminologique, reconnaissance d’entité nommées, classification, ..), avec quelle qualité (résultats aux campagne d’évaluation) et quelle robustesse (nombre de document traitées, langue, disciplines, …). Le TGIR pourrait aussi subventionner les équipes qui souhaitent justement participer à des campagne d’évaluation, voire même en réaliser si elles n’existent pas déjà. 

La deuxième session (deuxième tiers de l’assemblée) ont repris les réflexions déjà menées en se posant de nouveau la question de la structure :

Une structure au niveau européen :

  • Ajoute de la complexité en terme de langues et du nombre d’outils
  • Ne garantie pas la pérennité de l’action au delà du projet européen
  • Une intégration dans CLARIN (European Research Infrastructure for Language Resources and Technology) a été évoqué mais sans suite…

Une autre structure de type de celles évoquées ci-dessus : Pas de pérennité ou de moyens ou visibilité nationale (Cf; plus haut)

Le troisième groupe à passer sur ce thème n’a pas amené beaucoup plus d’information nouvelle. “Tout a été dit” (verbatim). Ils semblaient néanmoins tous en phase avec ce qui avait été exprimé précédemment. 

Restitution du thème « Collaborations » par Clément Jonquet (LIRMM)

Questions : Une e-infrastructure pour le transfert et la valorisation des produits de la recherche en fouille de textes

  1. Comment faire connaître les services de l’e-infrastructure auprès des différents utilisateurs ?
  2. Comment encourager les acteurs de la fouille de textes à contribuer à l’e-infrastructure avec des composants et applications qui manquent ?
  3. Comment utiliser l’e-infrastructure pour créer de nouvelles collaborations ?
  4. Comment faire en sorte que l’e-infrastructure soit un moyen (une opportunité) pour passer d’un POC (proof of concept) à un niveau de TRL (Technology Readiness Level) plus avancé pour une des ressources/logiciels développés par les chercheurs en fouille de textes ?
  5. Rapprochement avec des communautés utilisatrices (SdV/médic, SHS/juridiques)
  6. Comment l’e-infrastructure peut aussi être un tremplin (via un changement d’échelle) vers de la valorisation (industrielle) de résultats de recherche en fouille de textes ?

Dans ce groupe, les participants ont proposé et discuté différents aspects liés à l’adoption d’une e-infrastructure de TDM. Sur chacunes des questions les participants se sont exprimés. En synthèse quelques éléments de réponses : 

  1. Tous les moyens semblent bons pour faire connaitre les services d’une e-infrastructure : médias, enseignements, support/documentation, ateliers. Le tout à moduler en fonction des utilisateurs auprès desquels il faut la faire connaître. Le fait de passer un seuil d’adoption critique, en impliquant les bonnes personnes dès le début semble important. 
  2. Beaucoup de pro-activité semble nécessaire pour encourager les gens à adopter. Il faut des ambassadeurs. Il faut pouvoir démontrer qu’on gagne du temps sur du moyen/long terme. Ne pas se louper sur la qualité au départ, sinon on perdra les gens pour longtemps.
  3. Faire des benchmarks/tâches d’évaluation autour de l’e-infrastructure, de façon à ce que les chercheurs y trouvent un contexte pour se comparer aux autres résultats et évaluer leurs approches et obtenir du feedback sur leur outils. Pourquoi ne pas prévoir des appels à projets “pour utiliser l’e-infra”. Il faut arriver à créer un “forum”, faire en sorte que c’est la que les gens discutent. 
  4. L’e-infra pourrait permettre de passer un outil de “POC à prod” (de Proof of Concept à Production) plus rapidement et facilement. La clé semble de pouvoir reproduire des résultats scientifiques dans un autre contexte avec d’autres données (science reproductible). 
  5. Il faut faire se polliniser les domaines: utiliser ceux qui sont en avance et qui marchent bien pour montrer aux autres ce qu’on peut faire et les embarquer. Il faut aussi montrer la généricité des outils; en cela l’e-infrastructure peut être utile. 
  6. Là encore, la possibilité d’associer l’e-infrastructure à des mécanismes de financement est ressortie. Les mécanismes de labellisation peuvent être aussi utilisés. Il faut aussi permettre de répondre à des questions “grand public” pour pouvoir anticiper des valorisations possibles au-delà de l’e-infrastructure. 

Restitution du thème « Technique » par Tri Duc Tran (Editions Lefebvre Sarrut)

Questions : E-infrastructure, réflexions technologiques

  • Quelles technologies pourraient faciliter le transfert ? Langages, bibliothèques, formats couramment utilisés ?
  • L’adoption, la maintenance, le support long terme. 
  • Rapprochement avec des communautés de soutien (stats, dév log, HPC).
  • Quelles technologies pourraient faciliter le transfert ? Langages, bibliothèques, formats couramment utilisés ?

Les aspects technologiques de la plateforme :

  • Prendre en compte les données en entrant en proposant des outils permettant de crawler/moissonner des corpus, de les transformer, de les partager, de les nettoyer
  • Fournir des librairies, des outils à l’état de l’art en Machine Learning 
  • Donner la possibilité d’utiliser les modèles existants : prendre en compte les standards des formats en entrant (données pour l’apprentissage) des outils de Machine Learning et des formats en sortie (les modèles)
  • Tenir compte de l’importance de la documentation pour la réutilisation et la maintenance des algorithmes

Le volet expérience utilisateur est primordial pour un transfert optimal et doit être pris en compte afin d’identifier l’utilisateur (expertise, domaine, besoin) afin de fournir des parcours adaptés pour une prise en main simple et rapide. Il faut faire l’abstraction de la technologie et se focaliser sur le résultat (le besoin).

  • L’adoption, la maintenance, le support long terme. 

Pour supporter et faciliter cette problématique, il faudrait incorporer les axes suivants : 

  • Communication : événements, animations, on-line communication, vulgarisation
  • Formation : webinar, tutoriaux (articles, vidéos), fournir un bac à sable/démonstrateur
  • Espace de collaboration et d’archivage des données, modèles, résultats

Il faudrait intégrer ces points lors de la gestion de projet TDM.

  • Rapprochement avec des communautés de soutien (stats, dévlog, HPC).

L’ouverture vers les autres communautés passe par : 

  • l’organisation des challenges, hackathon : fournir des moyens permettant de tester/déployer rapidement des modèles avec des jeux de données adaptées afin de les améliorer
  • La mise en place des lieux d’échanges on-line (wiki, blog, forum …)
  • La possibilité de déployer rapidement vers des infrastructures personnelles 
  • La mise en place des outils permettant de visualiser rapidement les données, les résultats des modèles.

Compte-rendu de l’atelier : quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service à base de TDM ?

L’atelier “Acteurs” a rassemblé 9 personnes, mêlant professionnels IST (Information Scientifique et Technique), cadres de la recherche, chercheurs/ingénieurs (en Traitement Automatique des Langues et non Traitement Automatique des Langues) et enseignants-chercheurs. 

L’objectif était de cartographier les acteurs à mobiliser dans le cadre de la mise en place d’un service ou d’un projet intégrant des activités de fouille de textes. Il fallait également envisager les types et modes d’interactions entre ces acteurs.

Nous avons travaillé en sous-groupes sur 2 cas d’étude très différents apportés par des participants à l’atelier :

  1. Cas d’étude 1 :l’intégration de technologies de fouille de textes dans un projet H2020 visant à produire des indicateurs liés à la sécurité alimentaire. Les données sources sont issues de sources variées (plusieurs pays du Sud), posant des questions à la fois techniques et juridiques.
  2. Cas d’étude 2 : l’automatisation de l’indexation dans une archive ouverte institutionnelle induite par une réduction de moyens humains pour l’assurer et d’une augmentation du volume de publications liée notamment à la nécessité de rendre les publications librement accessibles. La ressource d’indexation est le thésaurus Agrovoc, administré par la FAO (Food and Agriculture Organisation) et édité collectivement par une communauté d’utilisateurs de nombreux pays.

Dans le 1er cas d’étude, les acteurs identifiés sont:

  • dans la phase “développement”, un nouvel acteur de nature “Facilitateur” permet la coordination entre l’équipe projet (conception et développement du service intégrant la fouille de textes), les utilisateurs cibles, la plateforme de fouille de textes et un consultant juridique. Ce facilitateur peut être une équipe dédiée (type IST ?) chez un des partenaires, un prestataire externe, rattaché à la plateforme, à un centre de compétences etc. Il est capable de fournir ce service à la demande sur des projets de recherche ou d’e-infrastructure.
  • dans la phase “production”, la plateforme de fouille de textes est en lien fort avec l’opérateur final du service (pérennisation) qui est lui-même en interaction avec les utilisateurs finaux (service rendu, évolution des besoins).

Dans le 2nd cas d’étude, les acteurs en place avant l’automatisation sont conservés lors et après la mise en œuvre du service de fouille de textes pour indexer les documents. L’IST, très centrale à l’origine, réduit sa part (résultat de l’automatisation) en conservant cependant sa relation aux utilisateurs finaux (scientifiques et décideurs) pour valider les résultats de l’indexation. Elle continue également son implication dans l’équipe éditoriale de thésaurus d’indexation (Agrovoc) pour son évolution, notamment d’adaptation à une utilisation par la machine. La relation technique entre le thésaurus et la plateforme de fouille de textes peut être assurée par le portail de ressources sémantiques (ici Agroportal). La conception du service de fouille de textes implique plutôt la plateforme et l’IST. Lors du déploiement du service, une équipe Développement de la DSI (Direction des Systèmes d’Information) doit être mobilisée pour travailler conjointement avec la plateforme de fouille de textes pour opérer la connexion du service de fouille de textes avec l’archive ouverte. La DSI et l’IST continuent la maintenance administrative et fonctionnelle de l’archive ouverte.

En conclusion, il apparaît difficile de dresser une carte générique des acteurs à mettre en oeuvre mais il est important de réaliser cet exercice au préalable de chaque projet de mise en œuvre d’activités de fouille de textes, que ce soit dans le cadre d’un service existant ou d’un projet à créer. Les interactions sont multiples et varient en fonction des phases, notamment développement et production. Lors de cet atelier, il a aussi été noté qu’il est parfois difficile de distinguer le niveau “Acteurs” du niveau “Compétences”.

Les ateliers de Visa TM Day

Les ateliers prospectifs autour de “quelle infrastructure de service de fouille de textes pour demain” ont permis de faire émerger une analyse partagée sur ce sujet à travers 4 thématiques :

  • Quels acteurs autour de la plateforme pour mettre en œuvre et exploiter un service de fouille de textes intégré dans l’activité du chercheur ? Quels rôles, quelles interactions et quelle coordination aux différents temps du projet ? Animation Sophie Aubin (DIST INRA). Je consulte le compte-rendu.
  • Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services. Animation Robert Bossy (MaIAGE INRA) et Clément Jonquet (LIRMM Université de Montpellier). Je consulte le compte-rendu.
  • Compétences et profils nécessaires, quelles formations : différentes compétences pour différentes implications : utilisation des services de la plateforme, contribution à son fonctionnement. Formation et recrutement, apports d’un centre de compétences. Animation Claire François (INIST CNRS). Je consulte le compte-rendu.
  • Futurs utilisateurs / Futures utilisations. Animation Claire Nédellec (MaIAGE INRA). Je consulte le compte-rendu.

Diffusion des supports de Visa TM Day

Les présentations et restitutions de la journée Visa TM Day sont mis à votre disposition en téléchargement ci-dessous.

Des applications scientifiques d’extraction de l’information 

  • « Fouille de texte sur les réseaux sociaux pour la pharmacovigilance »  par Cyril Grouin, LIMSI (CNRS), France

Présentation de Cyril Grouin

licence CC-BY-NC-SA 4.0

  • « Quels microbes pour fabriquer un nouveau jus de lupin fermenté : le text mining à la rescousse ! » par Sophie Schbath, MaIAGE (INRA), France

licence CC-BY 4.0

Infrastructures pour la fouille de texte

  • « DKPro Core and INCEpTION – Modular, interoperable, reusable TDM tools for the community » par Richard Eckart de Castilho, UKP Lab, Technische Universität Darmstadt, Allemagne

licence CC-BY-SA 4.0

  • « TDM as in infrastructure in the EOSC commons » par Natalia Manola, University of Athens & ARC, Grèce

licence CC-BY

Le projet Visa TM

  • « Visa TM : une proposition par et pour la recherche« , par Claire Nédellec, MaIAGE (INRA), Claire François, INIST (CNRS) et Clément Jonquet, LIRMM, (Université de Montpellier)

licence CC-BY-SA 4.0

Ateliers prospectifs “quelle infrastructure de service de fouille de texte pour demain”

Rapports publics du projet Visa TM

Nous vous invitons à découvrir les résultats du projet et mettons à votre disposition en consultation et en téléchargement  les documents ci-dessous . Les principaux résultats de Visa TM portent sur : 

  • l’étude de la création d’une e-infrastructure de fouille de textes française en exposant ses besoins, ses acteurs, son organisation, ses missions, ses compétences et ses outils ;
  •  L’étude de l’intégration logicielle et organisationnelle de services pour la recherche : Istex, TermScience, AgroPortal, Alvis/OpenMinTeD ;
  • La communication sur la fouille de textes vers ses communautés cibles. 

Les rapports  relèvent de trois thèmes inter-dépendants :

  • Etude
  • Conception
  • Applications.

Le volet Etude analyse les besoins, identifie les acteurs, propose un modèle d’organisation avec ses activités, ses missions et les métiers associés, puis propose un focus sur le text mining, ses outils et la structuration de la recherche.

Le volet Etude se nourrit du bilan technique du volet Conception, basé sur la compréhension de l’architecture logicielle de la plateforme OpenMinTeD.

Le volet Application enrichit ces analyses par deux exemples concrets de développement d’application de text mining, la conception de corpus en IST et l’extraction d’information pour la recherche.

Bonne lecture !

Mutualisation des efforts dans la mise en oeuvre de portails de ressources sémantiques

Les principes de FAIR ont établi l’importance d’utiliser des vocabulaires ou des ontologies standard pour décrire les données FAIR et faciliter l’interopérabilité et la réutilisation. Cependant, au cours des dernières années, nous avons assisté à une explosion du nombre de ressources sémantiques de sorte qu’il devient obligatoire d’offrir des portails ouverts pour les héberger et offrir des services les exploitant aux communautés scientifiques concernées. 

L’université de Stanford, l’université de Montpellier, LifeWatch ERIC ont initié début 2019 l’OntoPortal Alliance pour mutualiser leurs efforts dans le développement et la maintenance de portails d’ontologies thématique (biologie/médecine, agronomie/agriculture, ecologie/biodiversité). L’objectif étant de d’améliorer le logiciel sous-jacent commun tout en permettant à plusieurs installations parallèles d’être interopérables. 

Partager la même technologie, nous a permis dans le cadre de Visa TM de généraliser le connecteur AgroPortal-OpenMinTed pour tout autre portail reposant sur la même technologie. 

Fin 2019, le Peking Union Medical College nous a rejoint dans cette initiative.

Visa TM day vendredi 15 novembre : découvrez le programme

Rendez-vous le 15 novembre 2019 à Paris pour discuter des perspectives concrètes d’une solution de services en fouille de textes. Les inscriptions sont ouvertes jusqu’au 2 novembre. Cette rencontre promet un programme riche et diversifié.

Sylvie Rousset, Directrice de la DIST CNRS ouvrira la journée.

La matinée sera ponctuée de 3 temps forts :

Deux exemples d’applications scientifiques d’extraction d’information

˃ « Fouille de texte sur les réseaux sociaux pour la pharmacovigilance » 

par Cyril Grouin, LIMSI, CNRS, Université Paris-Saclay, France.

˃ « Quels microbes pour fabriquer un nouveau jus de lupin fermenté : le text mining à la rescousse ! « 

par Sophie Schbath, MaIAGE, INRA, Université Paris-Saclay, France

Deux exposés sur des infrastructures de fouille de texte

˃ « DKPro Core and INCEpTION – Modular, interoperable, reusable TDM tools for the community »

par Richard Eckart de Castilho, UKP Lab, Technische Universität Darmstadt, Allemagne

˃ « TDM as in infrastructure in the EOSC commons« 

par Natalia Manola, University of Athens & ARC, Grèce.

Un exposé sur Visa TM : une proposition par et pour la recherche

par les partenaires du projet : Claire Nédellec, MaIAGE (INRA), Claire François, INIST (CNRS) et Clément Jonquet LIRMM, (Université de Montpellier).

Je découvre les orateurs !

Les ateliers proposés au cours de l’après-midi auront pour objectif de stimuler la réflexion autour des principes de Visa TM  et d’élaborer une analyse partagée sur : « quelle infrastructure de service de fouille de texte pour demain ? »

Chaque participant choisit son atelier parmi les 4 thématiques :

˃ Quels acteurs pour mettre en œuvre et exploiter un service à base de TDM ?

˃ Transférer et valoriser les développements issus de la recherche en TDM vers une plateforme de services.

˃ Compétences et profils nécessaires, quelle formation pour y arriver ?

˃ Futurs utilisateurs

Au cours de la restitution des ateliers, des pistes d’actions seront abordées pour la mise en œuvre d’une solution de fouilles de texte pour la recherche en France.

Odile Contat, cheffe du département IST et réseau documentaire du MESRI clôturera la journée.

INFORMATIONS PRATIQUES 

Date : vendredi 15 novembre de 9.15 à 17.00

Lieu : Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation à Paris – 1 rue Descartes 75005 PARIS

L’inscription est gratuite mais obligatoire (Les inscriptions sont ouvertes jusqu’au 2 novembre) : Inscrivez-vous !

Une confirmation d’inscription vous sera envoyée en fonction du nombre de places restant disponibles.

Informations et programme sur https://journees.inra.fr/visa-tm-day/

En savoir plus sur le projet Visa TM

Visa TM Day

Le projet Visa TM et le Comité pour la Science Ouverte sont heureux de vous convier à Visa TM Day : Vers une infrastructure de services avancés en text-mining le vendredi 15 novembre de 9h à 17h au Ministère de l’Enseignement supérieur, de la Recherche et de L’innovation.

En raison du nombre de place limité, cette invitation nécessite une inscription. Nous vous invitons à remplir rapidement le formulaire d’inscription en cliquant sur le lien.

Le développement de services de fouille de texte pour la recherche a été identifié depuis longtemps comme essentiel pour soutenir l’accès à l’information scientifique. Dans un contexte de Science Ouverte, la convergence des évolutions juridiques, scientifiques, techniques ouvre de nouvelles perspectives d’organisation autour d’infrastructures de service collectives.

Le projet Visa TM du Comité pour la Science Ouverte est financé par le MESRI. Il a pour objectif l’étude d’une e-infrastructure de recherche pour la création d’une offre de service en fouille de textes pour la recherche, basée sur l’analyse sémantique et s’appuyant sur le potentiel de combinaison et d’adaptation offert par la plateforme européenne OpenMinTeD

Visa TM clôture le projet par l’organisation d’une journée publique destinée à dresser un état des lieux et discuter des perspectives concrètes ouvertes par les résultats du projet.

Les étapes de la journée : de longue date, des applications de fouille de texte incroyablement efficaces (pharmacovigilance et nouvelles alimentations) sont basées sur la combinaison d’une multitude de petits et gros logiciels mis en commun dans des plateformes par leurs concepteurs (la plateforme DKPro). Exploiter cette richesse n’est pas à la portée de tous : il faut pouvoir accéder facilement aux documents, choisir et combiner les outils, … et les utiliser. La plateforme européenne OpenMinTeD offre logiciels et calcul, connection aux contenus, bibliothèques et ontologies, mais une e-infrastructure de service est bien plus, c’est aussi une organisation humaine, un réseau d’acteurs qui accompagne fournisseurs et utilisateurs. La matinée se terminant sur la présentation de la réflexion conduite par Visa TM, l’après-midi s’ouvrira sur quatre ateliers en petits groupes destinés à interroger ces conclusions et à en élaborer une analyse partagée : quelles attentes, quelles missions pour une e-infrastructure de service, avec quels acteurs, quelles compétences, quelle articulation aux données et logiciels ouverts. La restitutions des ateliers ouvrira des pistes d’actions pour l’élaboration d’une solution de service en fouille de texte avec et pour la recherche française et articulée au niveau européen.

La date limite d’inscription est fixée au 15 septembre 2019.

Page 1 of 2

Mentions légales

Politique de confidentialité

Inist-CNRS
2, rue Jean Zay CS10310
54519 Vandoeuvre-Lès-Nancy Cedex
tél : +33(0)3 83 50 46 00