https://evenements.uqam.ca

http://www.uqam.ca/|logo_uqam_couleur-blanc.svg|UQAM, Université du Québec à Montréal|38



UQÀM|uqam|http://www.uqam.ca/

Calendrier des événements


Recherche


evenements@uqam.ca


Présentation de projet de recherche: «Apprentissage machine du langage naturel par association de cooccurrence de stimuli perceptuels»

Vous êtes tous cordialement invités à assister à la présentation du DIC9411 – Projet de thèse!

DOCTORAT EN INFORMATIQUE COGNITIVE

PRÉSENTATION DE PROJET DE THÈSE

JEUDI 28 septembre 2017

13h30

Local PK-4610

TITRE : Apprentissage machine du langage naturel par association de cooccurrence de stimuli perceptuels

Présenté par

Jean-François Quintal, étudiant au doctorat en informatique cognitive

Directeur : Roger Nkambou, département d’informatique

Codirecteur : Etienne Harnad, département de psychologie

Apprentissage machine du langage naturel par association de cooccurrence de stimuli perceptuels

Résumé :

Les systèmes de traitements du langage naturel sont des systèmes permettant l’interaction entre l’humain et la machine en utilisant le langage naturel.  Ces systèmes utilisent plusieurs sous-systèmes pour arriver à décortiquer une phrase et la rendre « intelligible » pour le système. Ces sous-systèmes consistent en général d’un parseur et d’un désambiguïseur souvent utilisé un après l’autre ou plus récemment (et rarement) simultanément. Ces systèmes sont en général incapables d’effectuer une représentation sémantique complète d’un texte ou même d’inférer de façon pratique et consistante de nouvelles connaissances [1].  Un des problèmes majeurs à cet échec d’analyse est la polysémie des mots. En général, les désambiguïseurs utilisent des inventaires de sens tel que WordNet [2], BabelNet [3], ou encore des dictionnaires lisibles par la machine comme les dictionnaires produits par Oxford ou Longman. Le principal problème avec ces inventaires de sens est la nature discrète de chacun des sens d’un mot, ce qui signifie que l’utilisation d’un sens exclu l’utilisation des autres sens et peut forcer le mot d’être sur-défini ou sous-défini.  Aussi, ces inventaires de sens sont en général incomplets, ce qui signifie que certains sens qu’un mot a ne sont pas représentés dans ces inventaires.  Finalement, la plupart de ces inventaires de sens contiennent des définitions écrites en langue naturelle dont aucun mot n’est désambiguïsé ce qui les rends inutilisable pour effectuer de l’inférence.

Comme rapporter par Lieberman [4], plusieurs travaux en psycholinguistique ont démontré que l’analyse des phrases faites par les humains combine l’utilisation de la sémantique, de la syntactique et des probabilités d’utilisation, le tout regroupé dans les informations lexicales de la personne.  Aussi, il rapporte que les informations connues sur un mot sont contenues dans les structures neurologiques se rapportant aux expériences reçues avec ce mot. Ainsi, les informations se rapportant à des outils se retrouvent à la fois dans le cortex visuel (couleur et forme), cortex auditif (bruits produits par l’outil, ainsi que le nom de l’outil), et dans le cortex moteur (l’utilisation de l’outil). Chacun de ces endroits représente les parties du cerveau dont les expériences vécues avec l’outil ont été sollicitées.

Ceci démontre l’immensité voire l’impossibilité de la tâche à tenter de formaliser la sémantique, la syntactique et la probabilité d’utilisation selon le contexte des différents mots surtout si on considère que le nombre de mots qu’une langue comporte est impossible à calculer [5] considérant que la définition même de « mot » est ambigüe. Si l’on considère le mot « creuset » en français qui se traduit par « melting pot » en anglais, est-ce que ce dernier représente un seul mot ou deux mots différents.  Ceci démontre une faille majeure à l’approche traditionnelle qui utilise des inventaires de sens, soit que cette méthode nécessite d’avoir un inventaire de sens exhaustif pour être réalisable.

Le but visé de ce travail sera de développer un système qui permettra l’apprentissage de concepts par association de stimuli perceptuels cooccurrents similairement au processus utilisé chez l’humain. Pour cela :

  1. De nouveaux algorithmes seront développés pour permettre d’effectuer cette association de stimuli.
  2. Des algorithmes seront aussi développés pour permettre l’association de séquences à des concepts (ex. : concepts d’actions, concepts d’ordonnancement, etc.)

Références

  1. Liz Liddy and al., 2007, Natural Language Processing, In The National Institute of Standards and Technology En ligne < http://www.itl.nist.gov/iaui/894.02/minds.html> consulté le 26 novembre 2014
  2. Christiane Fellbaum (1998, ed.) WordNet: An Electronic Lexical Database. Cambridge, MA: MIT Press.
  3. R. Navigli and S. Ponzetto. . Artificial Intelligence, 193, Elsevier, 2012, pp. 217-250.
  4. Philip Lieberman, 2002, On the Nature and Evolution of the Neural Bases of Human Language, Yearbook of physical anthropology 45:36 – 62
  5. Académie française, s.d., «Questions de langue», In Académie Française. En ligne. http://academie-francaise.fr/la-langue-francaise/questions-de-langue#56_strong-em-nombre-de-mots-de-la-langue-franaise-em-strong. Consulté le 26 novembre 2014.
Présentation de projet de recherche: «Apprentissage machine du langage naturel par association de cooccurrence de stimuli perceptuels»

Date / heure

Débute à 

Lieu

PK-4610
201, avenue du Président-Kennedy
Montréal (QC) Canada  H2X 2J6

Prix

Gratuit

Contact

Mylène Dagenais
Site Web

Sauvegarder

  • Google Agenda
  • Yahoo
  • iCal
  • Imprimer
  ·   Modifier
Retour en haut de page