• alternance
  • Rennes

Alternance : Ingénieur en traitement du langage naturel H/F

A propos de b<>com

Fournisseur de technologies pour les entreprises qui souhaitent accélérer leur compétitivité grâce au numérique, b<>com est au service des industries culturelles et créatives, des infrastructures numériques, de la défense, de l’industrie 4.0 et de la santé. Ses laboratoires mixent les talents de disciplines et cultures multiples dans les domaines de l’intelligence artificielle, de la vidéo et l’audio immersif, de la protection de contenus, des réseaux 5G, de l’internet des objets et des technologies cognitives… Issus des mondes industriel et universitaire, ses chercheurs et ingénieurs évoluent sur son campus de Rennes et ses sites de Paris, Brest et Lannion. Grâce à son équipe d’ingénierie avancée et ses moyens scientifiques propres, b<>com propose à ses clients des ingrédients et des solutions qui font la différence.

Descriptif du poste

Traitement du Langage Naturel (TLN): tutoriel sur les techniques de plongement lexical

Les représentations vectorielles distribuées ou plongements sont devenues une norme de facto pour la représentation de texte dans les tâches TLN basées sur l'apprentissage profond (deep learning) [1].
Au cours de la dernière décennie, une multitude de modèles de plongement ont été proposés comme word2vec [2], paragraph2vec [3], glove [4] and fasttext [5], pour en citer quelques-uns.
La mission principale de ce poste est de préparer un tutoriel sur les méthodes de plongement. En plus d'explorer la théorie sous-jacente aux différentes méthodes de plongement et la formulation mathématique des problèmes d'optimisation considérés, l'objectif est de reformuler ces méthodes existantes, dans la mesure du possible, dans un cadre mathématique généralisé (de telle sorte qu'une méthode de plongement donnée puisse être considérée comme un cas particulier d'un problème d'optimisation généralisé).

Références :
[1] K. S. Kalyan and S. Sangeetha, “SECNLP: A survey of embeddings in clinical natural language processing” Journal of Biomedical Informatics, 2020.
[2] T. Mikolov, K. Chen, G. Corrado, J. Dean, Efficient estimation of word representations in vector space, Proceedings of the International Conference on Learning Representations (ICLR 2013), 2013.
[3] Q. Le, T. Mikolov, Distributed representations of sentences and documents, International Conference on Machine Learning, 2014.
[4] J. Pennington, R. Socher, C. Manning, Glove: Global vectors for word representation, Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014.
[5] P. Bojanowski, E. Grave, A. Joulin, T. Mikolov, Enriching word vectors with subword information, Trans. Assoc. Comput. Linguist. 5, 2017.

Profil recherché

Etudiant(e) en master 2 ou école d'ingénieur avec une spécialité Mathématiques Appliquées ou Intelligence Artificielle, le/la candidat(e) dispose de :

  • Connaissance en langage python
  • Capacité à travailler de façon organisée et autonome
  • Capacité de synthèse et d'analyse
  • Bon niveau d’anglais oral/écrit

Modalités

    Type de contrat : Alternance 12 mois
    Date de démarrage : Septembre 2022
    Localisation : Rennes