Stage - Production de Modèles de Langage Experts.

<Soyez là où les autres ne sont pas encore…>

#innovation #singularité #collectif #croisement #expertise
Pratiquer l’innovation, choisir un tremplin professionnel, inventer des technologies qui ont du sens, contribuer à des projets de recherche qui n’existent nulle part ailleurs, travailler avec plus d’autonomie, plus de responsabilités, bénéficier d’une diversité sous toutes ses formes, intégrer une communauté de personnalités bienveillantes, curieuses, expertes et enthousiastes : b<>com est, selon les mots de ses collaborateurs, une entreprise où il fait bon innover. Alors n’attendez plus, soyez là où les autres ne sont pas encore !

Quel sera votre environnement ?

Au sein de b<>com, l'équipe Algorithmie regroupe des compétences axées autour du traitement du signal et de l'intelligence artificielle, permettant d'adresser des domaines variés tels que les radiocommunications, l'analyse de signaux physiologiques ou le traitement du langage.
Vous évoluerez donc au sein de cette équipe d’une dizaine de personnes mélangeant ingénieurs de recherche et doctorants.
Le stage s’inscrira dans le cadre d’un projet de recherche inter-équipes visant à favoriser la transformation durable des organisations en améliorant leurs capacités d’anticipation, de redirection et d’intelligence collective, par l’intégration de méthodologies relatives au design, aux sciences humaines et sociales, à la prospective et au traitement (recueil & synthèse) de données massives textuelles peu structurées.

Quel sera votre rôle ?

La production efficace de modèles de langages dits experts dans un domaine particulier reste un enjeu scientifique majeur, d’autant plus si on considère l’utilisation de petits modèles respectant la souveraineté des données et la frugalité de leur déploiement. En particulier, l’ajout de vocabulaire métier, que ce soit au niveau du processus dit de tokenisation ou du modèle de langage lui-même, pose la question de l’initialisation de leur champ sémantique au sein du modèle. Le stage aura pour but d’approfondir ces thématiques.

Un accent particulier sera apporté sur la sélection de technologies permettant souveraineté des données et frugalité énergétique, en particulier dans notre contexte sur l’utilisation de modèles de langage open source, et suffisamment légers pour être exécutés localement.

Le plan de travail sera le suivant :
1)    Adaptation des modèles de langage sans ajout de vocabulaire :
Prise en main des techniques classiques utilisées pour l’adaptation (« fine tuning ») des modèles de langage (LoRA, QLoRA...)
2)    Adaptation des modèles de langage avec ajout de vocabulaire :
Faire un état de l’art des techniques permettant l’enrichissement du vocabulaire d’un modèle de langage avec des terminologies spécifiques, et notamment des techniques permettant l’initialisation du champ sémantique de ce nouveau vocabulaire au sein du modèle.
3)    Évaluation dans un agent conversationnel :
Proposer des méthodes pour construire des jeux de données permettant l’évaluation des performances de ces modèles au sein d’agents conversationnels censés être experts dans un domaine donné.

Quel profil ?

Dernière année d’école d’ingénieur ou de Master en Informatique
> Les indispensables
Développement logiciel (Python), Apprentissage Machine
> Les plus
Traitement automatique du langage

Quelles modalités ?

Tickets/carte restaurant, salle de sport et cours coachés

Les prochaines étapes ?

2 entretiens :
# 1 entretien en visio manager
# 1 test technique

Pour en savoir plus : https://b-com.com/nous-rejoindre#nos-offres-demploi