Arielle Marouani

316

IA de recommandation

Arielle Marouani

L'épisode à recommander !

La data science, c'est pas du hasard
Suivre IFTTD =>

La D.E.V. de la semaine est Arielle Marouani, Data Scientist @ Deezer. Dans cet épisode, elle nous plonge dans l'univers des algorithmes de recommandation musicaux. Utilisant les interactions des utilisateurs, ces algorithmes sont constamment affinés pour s'adapter aux goûts musicaux en constante évolution. L'un des outils clés employés est la décomposition en valeurs singulières (SVD) qui permet de représenter les chansons dans un espace réduit, facilitant les recommandations basées sur les préférences. Elle souligne l'importance de la diversité musicale, et comment les comportements des utilisateurs influencent les recommandations. Arielle met également en évidence les défis posés par la musique générée par l'IA et l'évolution future des systèmes de recommandations.

Chapitrages

00:00:57 : L'intelligence artificielle au quotidien

00:01:31 : Présentation d'Arielle

00:05:05 : Le parcours de Data Scientist

00:09:38 : L'algorithme de recommandation de Deezer

00:18:07 : Les interactions et le clustering

00:20:41 : La temporalité dans les recommandations

00:21:45 : La diversité musicale et les clusters

00:32:20 : L'impact des skips et des likes

00:35:48 : Les défis de la découverte musicale

00:43:20 : L'évolution des algorithmes de recommandation

00:53:28 : Les signaux implicites et leur interprétation

00:56:27 : L'avenir des recommandations et de la collaboration humaine

01:00:40 : Recommandations culturelles d'Arielle

01:02:49 : Conclusion et remerciements

Cet épisode n'a pas encore été compilé !
Un épisode est généralement refactoré 3 ans après sa diffusion !

Un peu de patience ...
Pas d'extraits disponible :(
Bruno:
Depuis des mois, on ne parle que de les LLM, les modèles qui répondent, hallucinent et transforment notre quotidien. Mais l'intelligence artificielle, ce n'est pas que du blabla. Il y a une IA qu'on côtoie depuis bien plus longtemps, sans même s'en rendre compte, et qui influence chaque jour nos lectures, nos playlists et nos achats. Ce sont les IA de recommandation. Mais alors, comment une machine sait-elle quelle musique ? Je vais écouter ensuite. Est-ce qu'on peut vraiment cartographier nos goûts musicaux en 128 dimensions ? Et surtout, peut-on encore sortir de notre bulle ? Et surtout, le voulons-nous vraiment ? Pour répondre à ces questions calculées, je ne reçois pas Shazam, mais elle s'y connaît en éclair de génie. Ariel, bonjour.

Arielle:
Bonjour.

Bruno:
Alors Ariel, est-ce que tu pourrais te présenter pour les quelques personnes qui ne te connaîtraient peut-être pas ?

Arielle:
Oui, du coup, Ariel. Je suis Data Scientist chez Easeur depuis 5 ans et demi. Et je travaille dans l'équipe de recommandations et qui fait des algorithmes d'IA. Enfin, nous, on appelle plutôt ça du machine learning. On n'aime pas trop le mot IA, ça fait un peu... Ça fait un peu, comment on dit ? Name drop, quoi. Mais bref, donc voilà, je travaille à la réconciliation depuis cinq ans et demi. Et je suis... Voilà.

Bruno:
J'avais reçu, il y a longtemps, sur un des tout premiers épisodes que j'ai fait sur l'IA, donc il y a cinq ans, un invité qui disait, en gros, tout ce qui est de l'IA, c'est tout ce qui concerne de la recherche qui ne marche pas vraiment ou ne sait pas encore trop ce que c'est. Et dès que ça devient quelque chose d'un petit peu routinier on lui donne un nom et du coup ça sort du du giron entre guillemets de l'IA donc effectivement la recommandation c'est un truc qui se fait depuis maintenant très longtemps, et on parle plus forcément d'IA tellement c'est devenu commun quoi.

Arielle:
Ouais parce qu'il y a pas mal de boîtes connues qui ont mis en, pas en libre service mais qui ont partagé en fait leurs algos et du coup on peut maintenant on peut décrypter l'algorithme d'Instagram il me semble que celui d'Instagram il est public, et puis moi je vois pas assez sur les réseaux, il y a plein de petites astuces tu veux être recommandé sur Instagram il faut interagir avec ça, ça, ça tant de fois, il faut que ton truc soit partagé et du coup on commence vraiment à comprendre comment les algos de recommandations ils marchent, et ouais ça montre que c'est pas une boîte noire et à.

Bruno:
Quel point est-ce que c'est encore facile de reverse engineered un algo de recommandation je vois tous les commentaires qui passent tous les posts qui passent sur LinkedIn de, si tu veux que ton poste ait de la viralité, pareil, il faut faire ceci, cela. A priori, celui de LinkedIn n'est pas public. À quel point est-ce qu'on peut se fier à ce que des gens disent ? Est-ce qu'on peut reverse-engineer ce genre de choses, ou au final, c'est juste un peu du gut-feeling ?

Arielle:
C'est-à-dire, si je travaillais chez LinkedIn et que je voyais ce genre de postes ?

Bruno:
Non, non, alors que tu travailles chez LinkedIn ou pas, mais quand je vois un poste sur LinkedIn qui me dit, si tu veux que ton poste, tu vois, qui te donne des conseils pour que ton poste gagne en visibilité, en viralité, en ce que tu veux, à quel point est-ce qu'on peut se fier ? Parce que est-ce que ces algorithmes aujourd'hui sont reverse-engineered ? Enfin, sont reverse-engineerable ?

Arielle:
En fait, je me dis que si on te donne un tip, non, moi, je préfère parler d'Instagram. Je ne suis pas trop sur la ligne. Mais par exemple, sur Instagram, j'ai remarqué que maintenant, en fait, on a compris que l'algorithme mettait beaucoup en valeur les réels. Et du coup, maintenant, les gens vont mettre des photos, mais sous forme de réels. Comme ça, il va être plus souvent recommandé. Et je pense que si on se rend compte que les utilisateurs, ils aiment moins ce contenu, l'algorithme va apprendre que... Du coup, l'utilisateur va moins interagir avec ses photos au sages réels et donc l'algorithme va s'adapter et donc, en fait, ça ne marchera plus de mettre des photos en réel.

Bruno:
Alors ce qui est intéressant, parce que ce que tu dis en fait, c'est que c'est pas tant qu'il y a des choix qui sont faits de mise en avant, mais c'est que l'algorithme qui en fait s'auto-adapte à ce avec quoi les gens...

Arielle:
Soit ils s'auto-adaptent, soit de toute façon Instagram, soit les data scientists d'Instagram, ils verront bien dans leur dashboard qu'il y a une catégorie de réel qui marche moins que les autres. Et là, ils vont corriger les paramètres qu'ils avaient mis pour dire, ah si c'est une photo, je ne recommande plus. Ça dépend de ce qu'ils ont fait eux mais ouais ouais ils regardent beaucoup leur.

Bruno:
Dashboard j'imagine bon on a très vite deep dive sur un truc j'avais une première question avant, data scientist c'est un peu un métier qui est hyper à la mode en ce moment, est-ce que toi c'est un métier que t'as choisi il y a très longtemps est-ce que t'y es arrivé un peu par hasard ou est-ce que pour toi c'était c'est un métier à la mode je vais y aller parce que je vais me faire plein d'argent.

Arielle:
C'était pas du tout à la mode à l'époque à l'époque on dirait que j'ai 40 ans, non non je suis arrivée complètement par hasard je suis arrivée là parce que j'adorais les maths, donc je suis allée en prépa juste par kiff je savais pas du tout ce que je voulais faire derrière je pensais à passer la grec après et être prof de maths parce que voilà comme tu disais, moi je connaissais pas les métiers les métiers de data scientist ou alors consultant enfin c'est un truc quand t'es petit enfin petit quand t'es étudiant tu connais les profs, les caissiers chez Franprix les facteurs, enfin les métiers que tu rencontres, que tu croises quoi mais ouais tous les consultants les machins, tu sais pas que ça existe donc non, je me suis jamais dit ah je vais faire ça, mais j'aimais les maths donc bref, je suis allée en prépa, et puis après, du coup j'avais le choix entre soit en effet passer à la grecque soit aller en école d'ingé, je me suis dit bon je vais aller en école d'ingé parce que au pire j'irai à la fac après alors que l'inverse je sais pas si c'est possible, et du coup sauf que j'avais pas envie de parler de mon niveau de maths donc soyez dans une école très très maths donc très très info. J'ai appris à coder à ce moment-là. C'était très, très dur. Et j'ai tout fait pour m'échapper du code. Donc, je suis allée en spécialité maths en deuxième année. Donc, maths appliquée où on avait des cours de statistiques, de finances, d'optimisation, de data science. Je ne sais pas si la matière s'appelait comme ça à l'époque, mais bref, de ça. Et c'est au cours d'un projet... Je répète.

Bruno:
Oui, vas-y.

Arielle:
C'est au cours d'un projet où, en gros, on devait deviner, on devait prédire, et non pas deviner, parce que la data science, c'est pas du hasard, on devait prédire les notes d'étudiants en fonction de, leurs notes d'avant, de la CSP de leurs parents, de leurs activités extrascolaires, plein, plein de catégories comme ça. On devait prédire leurs notes, et j'ai grave aimé ce projet, parce que c'était un peu de la sociologie, super intéressant, et en fait c'est à ce moment là que j'ai compris que je pourrais faire que cette discipline en gros elle était déclinable dans tous les domaines que ce soit la banque, la santé, la musique dans mon cas l'énergie, les médias le sport enfin voilà, et du coup comme j'étais traumatisée à l'idée de me bloquer dans un métier et de pas l'aimer, je me suis dit là au moins si j'aime pas le domaine là au moins je pourrais changer de domaine, et donc je me suis dit bon bah let's go comme j'ai toujours été indécise let's go et du coup je me suis spécialisée à ce moment là en data science pour la dernière année d'école, et voilà et je suis jamais allée à la fac j'ai passé la grec peut-être que je ferai ça tard on verra mais voilà comment j'ai atterri donc.

Bruno:
T'as réussi à découvrir un métier où tu peux faire des maths autant que t'en as envie.

Arielle:
Ouais bon c'est un peu moins de maths mais bon ça c'est sûr que j'ai perdu mon niveau mais attends alors là la grec il va falloir que je me remette à niveau, mais ouais ouais franchement je suis très simulée intellectuellement et le code ça va, je m'y suis faite.

Bruno:
Et donc t'es plus arrivé chez Deezer toi qui voulais justement bosser dans la musique c'était.

Arielle:
Complètement le goal alors je voulais rester à Paris et être dans la musique donc il n'y avait pas 40 000 choix mais j'ai quand même contacté plein plein de gens dans une maison de disques à Paris et en fait c'est en parlant avec une fille, la SACEM c'est, l'entité qui va à, Les droits d'auteur, les rémunérations, etc. Et une fille de la SESM m'a dit, écoute, nous ne recrute pas, mais on taffe avec telle boîte de conseils, telle SESM, va toquer à leur porte. Et du coup, je suis allée me renseigner, j'ai intégré cette boîte en espérant qu'ils me mettent à la SESM. Ils ne m'ont pas mise à la SESM, mais c'était le jeu. Et du coup, je suis restée 9-10 mois là-bas. Après, j'étais prise chez Deezer. Après avoir forcé forcé, forcé vraiment j'allais à toute leur porte ouverte j'allais avec mes 10 CV j'ai balancé à tout le monde et puis je les avais harcelés sur LinkedIn, enfin voilà et du coup j'ai atterrivé chez Deezer fin 2019, et c'est bon.

Bruno:
Goal j'ai réussi quoi donc du coup l'idée de cet épisode c'est de pouvoir un peu creuser comment est-ce que fonctionnent les IA de recommandation donc forcément on va profiter de ton expérience chez Deezer pour faire un did-day un peu sur le côté très spécifique des playlists musicales. Je suis tellement un peu ignare sur le sujet que je ne sais même pas par où commencer à prendre le sujet. Je vais te poser une question très simple. Comment ça marche ces mécaniques de recommandation aujourd'hui ?

Arielle:
En fait, on va se servir des interactions des utilisateurs avec l'application. Donc, sur quoi tu as cliqué ? Je crois qu'on a même la donnée de est-ce que tu as monté le son ? Tous les logs, ça s'appelle des logs. Et puis, évidemment, est-ce que t'as cliqué sur play, t'as mis pause, est-ce que t'as fait next est-ce que t'as liké, disliké, est-ce que t'as ajouté en playlist est-ce que t'as mis l'artiste en favori l'album en favori toutes les interactions, on n'écoute pas ce que l'utilisateur dit à son micro, j'étais persuadée qu'on le faisait avant de rejoindre 10h mais on le fait pas, en tout cas moi j'ai trouvé ça nulle part dans mes tables que je manipule en quasiment 6 ans donc on n'écoute pas, mais par contre ouais.

Bruno:
C'est vrai que ça pourrait être intéressant, c'est-à-dire que tu pourrais au moins voir si la personne chante la chanson.

Arielle:
Franchement des fois je vais parler d'une chanson avec des potes et on me la recommande après mais j'étais persuadée qu'on m'écoutait mais non décevant tant mieux mais, donc voilà on utilise les logs et on va s'en servir on va faire des opérations dessus je sais pas quel point je rentre dans les détails mais à la fin on va avoir un espace, multidimensionnel donc 128 en l'occurrence tu l'as dit tout à l'heure et en fait dans cet espace chaque point c'est une chanson et du coup les points qui sont à côté c'est les chansons qu'on considère comme étant similaires que même les utilisateurs en fait ont considéré comme étant similaires parce qu'en fait c'est eux qui les ont mis ensemble dans les mêmes playlists qui les ont écoutés dans les mêmes sessions etc, Donc les.

Bruno:
128 dimensions ça correspond à chaque paramètre que tu as évoqué.

Arielle:
? Non 128 bon alors en fait on va faire une, une opération une opération statistique qui s'appelle la SVD, Singular Value Decomposition, qui permet de... Je reprends du début.

Bruno:
Vas-y.

Arielle:
En gros, on va avoir une espèce de matrice. Donc, on a des millions de tracks, je crois, 90 millions de tracks dans notre catalogue. On va avoir une matrice track-track, en gros. Et cette chanson-là et cette chanson-là, si elles sont mises dans 15 playlists ensemble, elles vont avoir le poids 15. Ce n'est pas vraiment comme ça, mais voilà.

Bruno:
On voit l'idée.

Arielle:
Et en gros, plus tu as un poids gros, plus les chansons elles sont écoutées ensemble donc bref donc là t'as un problème à donc j'ai dit combien 90 millions de dimensions, et encore pire donc déjà il y a beaucoup de dimensions mais en plus je pense que si on fait la somme de toutes les chansons qu'on connait toi et moi on est peut-être à 20 000 30 000 donc ouais donc dans cette matrice à énormément de zéro, trop difficilement manipulable donc en fait on va faire ce qu'on appelle une réduction de dimension on va faire une, factorisation matricielle. Et donc là, en l'occurrence, nous, on utilise le modèle SVD, donc Singular Value Decompetition. Et en fait, on va réduire l'espace. Donc 128 dimensions, ça te parie, c'est beaucoup, mais c'est très petit, en fait.

Bruno:
Ok, d'accord. C'est une réduction de cette correspondance de chanson à chanson qui t'arrive, en fait, à une matrice de 128 dimensions.

Arielle:
Ouais, ça aurait pu être plus. On a fait un compromis entre le nombre de dimensions et les informations qu'elle renvoie à ses dimensions, c'est des trucs qu'on peut faire mathématiquement parlant quoi. Et donc, ouais, on a décidé de prendre 128. Alors, petite histoire. J'ai demandé à mes collègues pourquoi. Mais même moi, je ne savais pas pourquoi une puissance de 2. C'est marrant, en fait. C'est parce que, alors si j'ai bien compris, en termes de stockage qu'on prenne 128 ou 129 ou 130, ça représente la même chose. C'est par puissance de 2 que ça va prendre plus d'espace. Et du coup c'est pour ça qu'on fonctionne en puissance de 2 c'est pour ça c'est parce que ça prend le même espace quand tu dépasses la puissance de 2 jusqu'à la prochaine puissance mais du coup est-ce que.

Bruno:
Prendre 256 ça ajouterait de la précision.

Arielle:
Ou c'est juste.

Bruno:
Que le gain en précision ne vaut pas le.

Arielle:
Ça rajouterait mais ça vaudrait pas la place que ça prendrait donc l'investissement que ça représente financièrement et en maintenance.

Bruno:
Et en campagne.

Arielle:
Oui, et en temps de calcul.

Bruno:
Mais donc, là, cet espace à 128 dimensions dans lequel tu vas placer toutes les chansons les unes par rapport aux autres, c'est ça ? Oui. À quel moment est-ce que cette composante de j'ai interagi avec une chanson, je l'ai skippé, j'ai augmenté le volume, j'ai baissé le volume, ça rentre en ligne de compte ?

Arielle:
Pour l'instant, oui, t'as raison. Pour l'instant, c'est juste les ajouts en playlist et elles sont écoutées dans la même session on va dire donc c'est les poids et c'est après, alors après ça va se c'est dans la fonctionnalité que l'utilisateur va choisir que là on va faire des filtres sur par exemple je vais te parler du flow, le flow c'est une espèce de si tu arrives sur Deezer franchement t'as aucune idée de ce que tu veux écouter tu vas juste cliquer sur play et c'est un peu une radio idéale on va commencer par, une chanson que tu connais bien que t'as écoutée il y a pas longtemps puis on va te mettre une chanson que t'as écouté il y a longtemps, t'as pas écouté depuis longtemps, c'est une petite Madeleine de Proust. Puis on va te mettre une découverte que t'as jamais écouté. En tout cas, dans nos logs, on l'a jamais vu. Donc ça c'est le flow et là typiquement si on voit que tu skippes beaucoup, en fait le problème c'est que je t'ai pas tout raconté sur comment est-ce qu'on fait mais je vais y revenir mais on va te lancer le flow, on va commencer par un genre en particulier qu'on sait que t'aimes bien, si on voit que tu skippes beaucoup, on va passer à un autre genre parce que t'es pas d'humeur et c'est là que, les ajouts en favori, les skips et tout ils rentrent en compte, c'est plus dans la, rendre le truc dynamique que ça va rentrer en compte.

Bruno:
Ce que tu décrivais aussi au début, tu dis on te met d'abord une chanson que tu as écoutée il n'y a pas très longtemps, puis une plus ancienne, pour faire une madame de procès, je trouve la philosophie intéressante, mais ça semble être quelque chose de très manuel. C'est-à-dire qu'en fait...

Arielle:
Oui, c'est pour ça que je te dis que ce n'est pas une boîte noire. On a ce qu'on appelle des règles métiers qui nous sont données par des product managers qui ne sortent pas de leur chapeau et c'est basé sur des études quantitatives, même qualitatives. On a un métier que je ne connaissais pas avant, User Researcher. C'est des gens qui vont interviewer des utilisateurs. Donc ça, c'est des enquêtes qualitatives. Et puis évidemment, on a des qualitatifs faits par les data analysts qui vont nous faire des d'ajours et tout. Les product managers, ils se basent sur des études et ils disent... Et en fait, ils vont nous donner... Il y a pas mal de règles métiers. C'est pareil, on ne va pas te recommander une chanson qu'on t'a déjà recommandée hier. Ou alors si je t'ai recommandé une chanson de tel artiste, je vais pas te recommander le même artiste juste après c'est tout bête, parce qu'évidemment que le point qui est à côté de la chanson d'être artiste c'est une chanson du même artiste, évidemment qu'elles sont très similaires donc il y a beaucoup de chances qu'on tombe sur le même artiste mais non, il y a des règles métiers, Et ouais, ce que je ne t'avais pas dit tout à l'heure, c'est qu'une fois que j'ai représenté mes tracks, il faut que je représente l'utilisateur aussi. Et en fait, l'utilisateur, lui, ça ne va pas être juste un point. L'utilisateur, on va prendre toutes ses écoutes du mois. Donc, ça représente plein de points dans l'espace, du coup. Et en fait, on va clusteriser ces points. Donc ça, c'est encore un autre type de, machine learning. Enfin, c'est une autre catégorie. Il y a prédire, il y a clusteriser. Donc là on va clusteriser les points et du coup l'utilisateur lui va avoir plusieurs points qu'il représente, ça sera les centroïdes de chacun des clusters, et c'est pour ça que tout à l'heure je t'ai dit on va commencer par te lancer sur un genre, et après si tu skippes on te met sur un autre genre, en fait c'était pas un genre, c'était un cluster donc on te lance sur un cluster et si on voit que tu skippes beaucoup on te met sur un autre cluster, si on voit que tu likes beaucoup machin, et voilà.

Bruno:
Comment c'est ça de toutes les interactions ce qui est intéressant c'est-à-dire aussi cet espace que vous avez des chansons, si j'essaie de me le représenter dans un espace en trois dimensions avec plein de points partout représentant chaque chanson j'imagine que vous devez voir qu'il y a des genres qui sont très proches les uns des autres et d'autres qui sont très éloignés, mais est-ce que vous arrivez du coup à identifier des sous-genres qui n'ont pas forcément de nom qui ne sont pas identifiés mais.

Arielle:
En fait sur Deezer on a on a des ça s'appelle des cards on a une fonctionnalité, où il y a en fait ça n'a pas de nom c'est juste ok sache que dans cette carte dans cette tracklist t'as tel, tel, tel artiste et en fait c'est l'utilisateur de capter ah en fait c'est du rap niche des années 2020 machin mais nous on ne met pas de nom pour l'instant, c'est peut-être un truc qu'on va faire plus tard, Mais non, justement, il n'y a pas de nom et c'est ça qui est trop intéressant. Parce que voilà, en effet, on peut faire par genre. Mais par exemple, à la période de Noël, il y a un cluster qui apparaît chez beaucoup d'utilisateurs où il y a plein de trucs mélangés. Maria Carré, je ne connais pas trop les chansons de Noël. Mais tu vas avoir, je ne sais pas, peut-être un peu de musique classique. Et dans le même cluster, Maria Carré. mais en fait ça fait sens à ce moment là puisque c'est ton cluster de Noël en fait tout simplement, et donc c'est pas que des genres sous-genres, il y a aussi les trendings sur TikTok, ils sont souvent mis dans les mêmes playlists en soi et même s'ils n'ont aucun rapport les uns avec les autres c'est un cluster, qui n'a pas de nom mais qu'on pourrait appeler trending sur TikTok.

Bruno:
Alors ce qui est intéressant que tu vois que c'est deux exemples que tu prends de la partie Noël et les playlists TikTok, c'est que en tout cas décrit comme ça, moi j'imagine des choses qui t'ajoutent du bruit en fait dans tout ça ?

Arielle:
Ah, il y a des utilisateurs qui adorent écouter...

Bruno:
Parce que du coup, la plus de Noël, tu as une notion de temporalité. C'est-à-dire qu'effectivement, j'ai bien envie que tu me recommandes Maria Carré quand on est en décembre.

Arielle:
Ah oui, OK.

Bruno:
Tu me la proposes en plein mois de juillet. Ça va plus de moins me saouler.

Arielle:
Oui. Alors, c'est ça qui est intéressant, c'est qu'on fait du clustering par utilisateur. En fait, on ne prend pas toutes les tracks et on les clusterise. C'est qu'on prend tes écoutes du dernier mois.

Bruno:
OK.

Arielle:
Et si tu as écouté des chansons de Noël, bah t'auras un cluster Noël. Et pour l'instant, c'est comme ça qu'on fait. Et en fait, c'est marrant parce que je suis en train de travailler là, moi, sur d'abord on clusterer toutes les tracks et après, on va affecter le user. Et ça, ça va amener plein de... Plein de nouveaux challenges, parce que, ouais, du coup, comment on fera pour le cluster de Noël, par exemple ?

Bruno:
Parce que, attends, si tu prends juste mes dernières écoutes sur le mois écoulé, ça veut dire que si, sur toute l'année, à aucun moment, je n'écoute Maria Carré, Christmas, je sais pas quoi, c'est-à-dire que si moi, je fais pas la démarche de le lancer une fois, même au moment de Noël, elle va pas popper dans mon...

Arielle:
Non, mais, enfin, alors, ouais, y a pas que la recommandations sur dix heures. Il y a ce qu'on appelle des éditos. C'est des experts dans leur genre. Donc, tu as les éditos rap, éditos jazz. On a même une édito moods. Je pense que c'est plutôt elle qui va nous faire les playlists de Noël. Et bref, sur ta page d'accueil, tu auras quand même « Venez écouter la playlist de Noël de Alice ». Mais par contre, dans tes recommandations, tu n'auras pas... Non, normalement, si tu n'as pas écouté de track de Noël, tu n'auras pas de track de Noël.

Bruno:
D'accord. Donc, si je ne fais pas la démarche de le faire volontairement, ça ne paupera pas. Donc ça, c'était pour la notion de temporalité, tu prenais l'exemple des playlists TikTok où t'as plein de sons différents qui sont utilisés pour faire un ensemble de trends qui peuvent être du coup effectivement mis ensemble dans des playlists. Ça, d'une certaine façon, ça peut entre guillemets polluer votre algorithme parce que du coup t'as des genres qui n'ont rien à faire ensemble, qui commencent à gagner de la proximité alors que pour un fan de K-pop par exemple, parce que c'est utilisé sur une trend, il sera pas intéressé par du R&B qu'il est utilisé sur une autre trend.

Arielle:
Oui, c'est clair. Moi, par exemple, en ce moment, j'ai peut-être 29 clusters, mais ils sont ordonnés en fonction de... Dans les 29 clusters, j'ai la liste des tracks qui composent ce cluster. Et si on voit que dans tel cluster... Admettons, j'ai mon cluster pop et mon cluster Noël. Dans les deux, il y a Maria Carré. Et en fait dans mon cluster pop j'ai écouté Maria Carré et plein d'autres chansons de pop alors que dans mon cluster Noël j'ai écouté juste On verra que dans le cluster Noël j'ai écouté une chanson sur toutes les autres tracks qui le composent et que du coup en vrai on va pas trop me le recommander donc on va ordonner, les clusters en fonction de du nombre de tracks que t'as écouté dans, de la récence de tes écoutes sur ce cluster, sur même ton nombre de chansons favoris qui sont dans ce cluster.

Bruno:
Et donc toutes les règles métiers vont te permettre de définir en fait la taille du saut que tu fais d'un point à un autre quand tu passes à la chanson d'après, c'est ça un peu le… ?

Arielle:
Non, alors on va te prendre des clusters… Alors on a choisi de ne pas le faire… Par exemple on pourrait prendre tes trois… enfin, on pourrait prendre tes clusters les plus écoutés et te les envoyer dans le flow et puis les autres tant pis mais comme on veut que ça tourne et tout on prend des clusters au hasard mais on pondère quand même sur certains critères je crois qu'on a pris en effet, les écoutés les plus récemment donc eux ils auront plus de poids donc ils seront plus souvent piochés mais sinon on veut prendre du hasard et non sinon, bah c'est des clusters ils sont pris donc on va on prend le premier cluster, je crois qu'on le laisse 6 tracks à part si tu skippes beaucoup dans ce cas on passe vite à l'autre et en fait celui d'après c'est le hasard qu'il choisit, le hasard repondéré quoi, mais s'il y a un saut il y a un saut mais en fait au début on voulait on voulait tout faire pour éviter les sauts je crois qu'on a fait en sorte d'éviter les sauts et finalement, au final on se rend compte que ça nous rendait trop prévisibles pour l'utilisateur donc finalement on est un peu on est un peu revenu sur, les sauts c'est marrant aussi quoi et d'ailleurs ça peut ça peut faire des contenus marrant sur Twitter. Ah, regardez mon algo. Il passe du coq à l'âne, c'est marrant. Voilà, ça fait marrer les utilisateurs. Et nous, ça nous fait de la pub.

Bruno:
C'est cool. Il y avait aussi cette histoire qui tourne parfois de l'aléatoirité. Je crois qu'à l'époque, c'était sur Apple Music qui ne jugeait pas suffisamment aléatoire par les gens et qui est du coup devenue une vraie science de comment tu donnes l'impression aux gens que c'est aléatoire alors que ça n'allait pas vraiment parce qu'en fait, les gens trouvaient que quand tu mets en aléatoire, alors c'était à l'époque où t'avais que les gens écoutaient un CD donc t'avais 20 tracks donc forcément il y a un truc aléatoire sur.

Arielle:
20 tracks peut-être.

Bruno:
T'as l'impression d'avoir souvent le même truc.

Arielle:
Bah c'est enfin je suis allée voir dans le code alors là on parle plus des algos puisque l'algo c'est pas aléatoire mais des fois j'ai dans mes favoris je clique sur aléatoire et je remarque que c'est beaucoup mes chansons ajoutées récemment qui passent mais je suis allée voir dans le code c'est aléatoire, je confirme c'est aléatoire mais moi la première c'est trop bizarre mais non sur du.

Bruno:
Coup sur ces notions de recommandation c'est quoi le enfin, Donc, cette map qui est faite des chansons, elle est basée, tu l'as dit, sur des proximités de playlists, mais j'imagine aussi des notions de labels, de catégories.

Arielle:
Très bonne question. C'est ce que je n'ai pas dit. On enrichit quand même avec ce que nous donne le distributeur. Le distributeur, c'est l'entité qui va mettre à disposition les tracks, que ce soit en digital, sur les plateformes, mais aussi à la FNAC, les disquaires et tout. L'entité, elle va nous donner le nom de l'artiste, la date de sortie les featuring. La langue dans laquelle sont les paroles enfin ça dépend des distributeurs mais, ils vont nous donner plein d'infos ils peuvent nous donner même le genre donc là pour le coup ça sera ils mettra un mot sur la chanson ce que nous on fait pas, mais ça peut servir ça peut grave servir, et puis voilà on a aussi le signal audio par exemple tout ça c'est ce qu'on appelle des metadata et ouais ça nous aide à enrichir nos algos et à faire les filtres qu'il faut en fonction de la fonctionnalité Là, je t'ai parlé du flow, mais on a par exemple une fonctionnalité les dernières sorties. Là, l'information de la date, qu'on ne peut pas prédire nous, mais qui nous a été donnée, elle va servir à ce qu'on fasse le filtre. Je ne veux que les dernières sorties. Et là, l'utilisateur a sa tracklist avec les dernières sorties, dans ses goûts, évidemment. Quoi d'autre ? On a le flow by moods aussi, où là, on va se servir du signal audio. En fait c'est trop intéressant cette fonctionnalité parce qu'on se sert de plein de on va se servir du travail des éditos alors en gros, les éditos ils ont pris plein plein plein plein de tracks et ils les ont labellisés avec un mood on a 6 moods différents, sport you and me, donc love en gros, chill, focus sad je crois enfin triste et un sixième, et motivé.

Bruno:
De danse ?

Arielle:
Elle est partie, la fête. On a Simoud, les éditos, ils prennent plein de tracks, ils les labellisent, c'était leur taf. Et après... Et après, nous, on va prendre les autres tracks qui ne sont pas labellisés et on va comparer les signaux audio avec les signaux qui sont déjà labellisés. Et après, c'est un réseau de neurones qui compare. Et en fait, on se sert du travail humain, en gros, des éditos. On se sert des metadata, donc le signal audio et de nos super modèles de machine learning.

Bruno:
Et donc, une fois que tu as réussi à faire cette cartographie qui est basée en fait sur beaucoup de paramètres, que moi en tant qu'utilisateur j'ai aucune maîtrise d'influence dessus parce que j'imagine que quand tu te bases sur des playlists qui sont faites tu te bases pas sur les playlists de mes deux voisins tu te bases sur les playlists qui sont faites worldwide sur ces éléments là plus t'as.

Arielle:
De data et plus c'est personnel.

Bruno:
Mais du coup si moi je crée une playlist avec du Beastie Boys et du j'ai trouvé un truc qui est complètement l'opposé genre de la K-pop tu vois je prends du rap US Si vous êtes.

Arielle:
Très nombreux à faire ça, ça part en vrille. La playlist TikTok, justement, c'est ça.

Bruno:
Mais donc, si moi, je me fais ma playlist de ces deux genres que j'aime bien, en fait, ma question, c'est à quel point est-ce que moi, je peux... Alors, pas influencer, mais parce que je me doute que, enfin, c'est pas l'individu qui va influencer quoi que ce soit, mais... Je sais comment j'ai posé ma question. Donc, moi, je le dis transparente, j'écoute très peu de musique et donc je n'utilise pas Deezer. Mettons, demain, je me mets sur Deezer, en combien de temps d'écoute vous arrivez à capter tout ce que j'aime ?

Arielle:
Tout de suite. Parce qu'en fait, on va te demander de faire un onboarding.

Bruno:
Alors imagine, je skip mon onboarding.

Arielle:
Je crois que tu ne peux pas. Mais sinon... Ah ouais, si j'ai skip le morning ? Non, mais je pense qu'au bout d'une dizaine d'écoutes, on est bon, hein ? Ah, mais même, en fait, tu peux même juste liker des chansons et rien écouter. On a mis à jour le modèle, c'est moi qui l'ai fait aussi. Tu peux juste liker des trucs, ne rien écouter, et le lendemain, par contre, t'auras tes recos, il me semble.

Bruno:
Ok. Et donc, pour toi, si je mets 10 likes bien choisis, tu capes, quel que soit le côté éclectique ou niche ? Ouais, bah t'auras juste plein de clusters.

Arielle:
Ouais ouais t'auras juste point de cluster et ouais et je vous encourage chers utilisateurs à liker à interagir en fait à liker à disliker parce que l'algo enfin plus vous interagissez et plus l'algo il apprend et plus c'est pertinent.

Bruno:
Oui parce que j'imagine que quand tu likes vu qu'il y a une action manuelle à faire elle a plus de poids que juste faire un skip.

Arielle:
Exactement en fait ouais le like c'est vraiment très explicite comme info le skip ça peut être juste je suis pas d'humeur ou alors je l'adore donc je l'écoutais en boucle donc ça y est skip, un dislike par contre ça serait super explicite du.

Bruno:
Coup c'était ma question est-ce que le dislike a plus de poids que le like non, parce que pourtant le on dit souvent qu'il y a plus de gens mécontents qui s'expriment que de gens contents qui s'expriment.

Arielle:
Ouais t'as raison bah franchement je sais pas en fait il a ... En fait, si tu dis like, on va juste plus jamais te recommander la chanson.

Bruno:
Plus jamais, jamais.

Arielle:
Après, tu pourras aller modifier ton profil. En fait, un dislike, c'est juste ne me recommander plus cette chanson. Donc, ça a un gros poids sur toi, mais ça ne va pas influer sur l'espace.

Bruno:
Du coup, il y a peut-être aussi pour moi une... Peut-être que je me trompe dans la perception, mais, pour moi, si je mets un dislike, c'est j'aime pas cette chanson là donc je veux pas que tu me la recommandes, si je fais un skip comme tu l'as dit effectivement ça peut être il y a plein de raisons mais pour moi c'est à dire que si je fais un dislike c'est j'aime pas cette chanson si je fais un skip c'est j'aime pas ta recommandation, dans quelle mesure enfin tu vois du coup.

Arielle:
Si t'aimes pas la chanson on te la recommandera plus jamais à part si tu vas dans tes dislikes et que tu la dé-dislikes et si tu fais un skip on va peut-être la retenter demain.

Bruno:
Mais du coup ma question c'est est-ce que parce que j'entends que le dislike fait que la track va sortir de mes recommandations mais si je fais un skip.

Arielle:
Si t'es dans le show par exemple on va te te changer de cluster si on voit que tu skippes beaucoup.

Bruno:
Est-ce qu'il y a un ajustement parce que pour moi si tu vois s'il y a un skip c'est j'aime pas ce que tu m'as recommandé donc il faut que tu revoies ton algorithme, tu vois ce que je veux dire c'est-à-dire qu'il faut que tu changes ta manière, de me proposer la prochaine je peux pas dire ma question est claire.

Arielle:
Ouais ouais c'est clair non nous.

Bruno:
On le prend pas comme ça.

Arielle:
Nous on pense que si l'utilisateur il aime pas l'algo dans toute sa, tout l'algo quoi juste il écoute pas mais en vrai c'est intéressant en tout cas à ma connaissance on s'est pas posé la question peut-être que les product managers ils se sont posés la question mais c'est jamais un truc dont on nous a parlé en réunion avec.

Bruno:
Le produit Je suis... Mais il y a aussi un point qui... Tu me dis, avec dix chansons, tu commences à cibler la personne de manière suffisamment pertinente. Est-ce que, mettons, je suis chez moi et je mets de la musique parce que j'ai envie de kiffer, et là, il y a ma fille qui débarque, que j'aime plus que tout au monde, bien sûr, mais qui prend mon téléphone pour mettre sa musique à elle.

Arielle:
C'est une très bonne question.

Bruno:
À quelle vitesse ça va, du coup, bousiller mon algorithme ?

Arielle:
Non, alors c'est cool parce que, normalement, on sait quand c'est un contenu Kids bon alors si elle te met du Gims, enfin je sais pas quel âge elle a mais si elle te met des trucs Baby Shark t'inquiète, c'est labellisé en Kids si elle te met des trucs pour ados ouais là t'es un peu foutu mais il me semble qu'on prévoit de sortir un mode incognito comme sur Google, et là ça réglerait beaucoup de choses mais pareil c'est pour pouvoir écouter ses Guilty Pleasure sans que ça pop quand tu prêtes ton téléphone en soirée pour mettre bande organisée bah ouais ça a un impact sur ton algorithme ça ouais, à part après tu peux tu peux dislike une chanson dire me la recommander plus mais quand même tu peux quand même l'écouter elle va pas disparaître de cas d'hoc donc si tu prends toutes les chansons préférées de ta fille et que tu les dislike toutes normalement elles apparaîtront pas longtemps l'algo, et elle pourra les écouter tranquillement mais bon ça te demande du travail de ton côté, mais normalement ouais le mode incognito en tout cas c'est prévu.

Bruno:
J'ai jamais essayé de trouver des points de.

Arielle:
Des des HKIs qui sont intéressants. Et pour en revenir sur ton histoire de Skip, si Skip c'est qu'il n'aime pas l'algo, on ne s'est pas posé la question comme ça, mais on s'est dit peut-être que ce n'est pas assez, une découverte pour lui, par exemple. Oui, on s'est dit, c'était plus ça qu'on s'est posé comme question, et du coup, on a introduit un flow découverte ou une tracklist découverte. Donc on peut, ouais, introduire des nouvelles fonctionnalités en fonction de... Après, c'est peut-être pas les skips qui nous ont... En fait, il me semble que les family user research, l'équipe, je crois qu'au bout de x skips, elles t'envoyaient une espèce d'enquête qualitative où tu devais... Ouais, c'était ça. Où tu devais répondre pourquoi t'as skippé là ? Qu'est-ce que t'aimerais ? Mais c'est un truc qu'on a fait il y a peut-être 2-3 ans. Ou alors, ça se trouve, ils le font régulièrement, mais ils nous reparlent plus. Mais oui, en effet, à un moment, ils nous ont présenté en réunion leur enquête. Au bout de x skips, on leur envoie l'enquête. Et il y a moyen que à l'issue de cette enquête d'il y a trois ans, on s'en rendu compte que les utilisateurs attendaient plus de découvertes et donc on a introduit la fonctionnalité qui va bien en vrai ça me fait penser à ça ta question.

Bruno:
Un autre edge case donc admettons on prend ce chiffre que j'ai évoqué tout à l'heure vous avez 90 millions de tracks disponibles sur Deezer je me mets sur cette fonction découverte aléatoires. Combien de chansons il faut que j'écoute ?

Arielle:
C'est pas aléatoire. En fait, c'est des chansons que t'as jamais écoutées sur Deezer, donc on considère que tu les connais pas. Après, ça se trouve, tu sais, les Beatles... Enfin, moi, j'ai jamais écouté les Beatles sur Deezer, mais je connais toute leur discographie, tu vois. Et du coup, c'est quand même dans tes goûts, parce que c'est des chansons qui sont proches d'un de tes clusters, mais que t'as jamais écoutées.

Bruno:
Et donc, vous sortez jamais de... Tu vois, il y a un moment où tu peux peut-être te dire, bon, ok, là, ma question c'était vous avez 80 millions de tracks combien de chansons il faut que j'écoute pour pouvoir écouter toutes les chansons au moins une fois, Est-ce que si j'écoute 100 millions de chansons sur Deezer, en mode... Je suis en random, aléatoire. Est-ce que si j'en fais 100 millions, j'ai écouté les 90 millions ? Ou est-ce qu'il faut que j'en écoute 180 millions ? À quel moment... Tu vois, ma question, c'est...

Arielle:
C'est marrant que cette question.

Bruno:
À quel point est-ce que tu sors, en fait, de ton...

Arielle:
Alors, j'ai pas du tout la réponse, mais... Déjà, ce qui est sûr, c'est que si c'est dans une même session, comme on va pas te répéter plusieurs fois la reco, t'as besoin juste de 90 millions de tracks, puisqu'on va pas te mettre deux fois la même dans une seule session mais 90 millions de tracks ça fait une longue session donc en pratique ça marche pas comme ça et du coup, franchement c'est une bonne question la théorie.

Bruno:
Voudrait que si je fais 90 millions de chansons d'affilé j'écoute tout le.

Arielle:
Catalogue de Deezer ah dans une seule session oui théoriquement on renvoie jamais deux fois dans la même session mais ça ça n'arrive 790 millions de trucs, ça fait beaucoup. Ça fait une longue session.

Bruno:
Ça fait environ 270 millions de minutes. Donc, ça... Ça fait quelques années, on va dire. Vous n'êtes peut-être pas capé pour faire ce genre de...

Arielle:
Je pense vraiment.

Bruno:
Comment est-ce que tu... Question, en fait, de très bête. Ça correspond à quoi ton quotidien ? Est-ce que c'est, uniquement des mises en place de règles mathématiques ? C'est quoi ton quotidien en tant que data scientist chez Deezer ?

Arielle:
Ah, ça suffit bien de préciser chez Deezer, parce que c'est pas dans toutes les boîtes aussi rose la vie, mais chez Deezer, on se met bien quand même. J'arrive pas trop tôt. Je peux aller prendre un petit café, parler avec mes collègues, machin. Mais bon, en termes de travail, si je commence un projet, Mais là, par exemple, j'ai commencé un nouveau projet. Donc, je t'ai dit de d'abord clusteriser les tracks et ensuite de passer à l'utilisateur, alors qu'avant, c'était je prenais les écoutes d'utilisateurs et je clusterisais ses tracks à lui. Donc, bref, j'ai commencé ce projet. Il y a eu une semaine où j'ai un peu fait l'inventaire de tous les modèles de clustering, lesquels étaient scalables, pas scalables, lesquels permettaient de faire ce que je voulais faire. Donc ça, pendant une semaine, mon quotidien, c'était de faire de la doc ou de tester des trucs aussi, de faire tourner tel modèle sur un petit jeu de données pour voir si c'est escalable. Ça, c'était mon quotidien pendant une semaine. La semaine d'après, j'ai commencé à tester une méthode en particulier, à l'évaluer. Donc je me suis codé de quoi évaluer la couverture de mon clustering à quel point à partir d'une bibliothèque utilisateur je pouvais la couper en deux, prendre 90% de ses chansons et voir si je pouvais retrouver les 10% restants c'est comme ça qu'on a décidé d'évaluer après j'aurais pu aussi, regarder sur moi ce que ça donnait en vrai je ne l'ai pas fait pendant une autre semaine c'était ça mes semaines elles ne se ressemblent pas trop mais.

Bruno:
Attends parce que j'essaie.

Arielle:
De former la.

Bruno:
Question en même temps la majorité de ton métier c'est de redéfinir la manière dont les chansons sont.

Arielle:
Clostorisées ou de comment est-ce que tu passes d'une non la majorité sinon c'est améliorer les trucs déjà existants par exemple mais.

Bruno:
Donc là parce que dans le projet que t'évoquais c'est à dire que quoi qu'il arrive si vous sortez un nouvel algo de recommandation ça passe par une reclusterisation des chansons.

Arielle:
Non non pas du tout non non pas du tout là justement je travaille vraiment la racine de la reco en fait une fois que t'as la reclusterisation, les fonctionnalités après elles sont plus évidentes entre guillemets mais non non je pourrais retravailler la fonctionnalité, les découvertes, comment je pourrais faire ça je sais pas en augmentant en augmentant, en augmentant la distance maximale au centroid de l'utilisateur et voir ce que ça donne, faire un AB test, machin. Ça, c'est peut-être amélioré ou pas. On verra avec l'AB test, mais j'améliore la carte Discoveries. Mais non, là, je travaille vraiment à la racine de la reco et on a l'intention de la tester sur le flot. À la fin de mon projet, avant de mettre en preuve, on va faire un AB test. Je ne sais pas si je définis ce que c'est au micro.

Bruno:
L'AB test, non, ça, à priori, les gens connaissent.

Arielle:
Et on va faire la bêtise sur le flow il me semble et du coup on verra si on a mis l'heure ou pas, le nombre d'heures passées enfin le temps passé sur la fonctionnalité la reconnexion est-ce que tu l'écoutais aujourd'hui et aussi demain et aussi après-demain parce que tu la kiffes grave ou est-ce que ça va enfin bref.

Bruno:
Alors sans vouloir révéler de secret parce que peut-être que le projet est encore un peu confidentiel mais c'est quoi l'hypothèse qui a amené.

Arielle:
Ça vient d'un besoin produit, en plus t'en parlais un peu tout à l'heure je crois que les utilisateurs ils ont de plus en plus le besoin de maîtriser un peu leur algorithme et tout et du coup on aimerait bien les laisser, enfin leur dire ok voilà c'est ça tes clusters, sauf que pour ça ça serait cool qu'ils bougent pas d'une semaine à l'autre parce que quand c'est fait à partir de l'utilisateur ça bouge tout le temps en fait je t'ai dit moi en ce moment j'ai 29 clusters en fait on recalcule ça tous les samedis, la semaine prochaine j'aurai peut-être plus ou moins ça sera peut-être pas les mêmes et du coup ouais si je veux te dire ça c'était cluster, faut qu'il bouge pas trop et si en plus on peut mettre des mots dessus donc soit par LLM t'en parlais tout à l'heure soit avec l'aide des éditos ça va dépendre du nombre de clusters que je vais sortir de mon clustering, ça peut être 3000 clusters, ou beaucoup moins, ou beaucoup plus. Mais bref. Donc ça venait d'un besoin produit à la base. Et puis même pour nous, en vrai, on s'est toujours demandé si ça marcherait aussi bien. Si ça se trouve, ça prendra moins de ressources financièrement. On va voir.

Bruno:
J'essaie peut-être de redéfinir cette idée des clusters, parce que j'ai peut-être loupé un truc. Si je reprends ma représentation schématique dans un espace à trois dimensions, donc j'imagine tous les points de toutes les chansons qui sont plus ou moins proches en fonction de genre, de ce qu'on veut ? Mon cluster à moi en tant qu'individu, ça va être toutes les chansons que j'ai déjà écoutées qui sont illuminées.

Arielle:
Toi, tu auras plusieurs clusters.

Bruno:
J'essaie de voir un peu comment tu les construis. Dans ma perception, dans mon idée peut-être naïve, c'est que tu vas allumer toutes les chansons que j'ai déjà écoutées et tu vas créer plusieurs bulles qui en englobent le maximum.

Arielle:
Non, pas le maximum. Je vais prendre toutes celles qui sont très collées entre elles et très éloigné d'autres. Enfin, très éloigné.

Bruno:
Et du coup, toutes les autres chansons que je n'ai pas écoutées qui sont dans cette même bulle, a priori, tu te dis que c'est des chansons que tu peux me recommander.

Arielle:
C'est ça. Ça sera des découvertes pour toi.

Bruno:
Et donc, ça, ces fameuses bulles, c'est ça que vous recalculez tous les samedis ?

Arielle:
Ouais, c'est ça. T'as très bien compris.

Bruno:
Et donc, toi, quand tu fais ton flow, ce que tu vas déterminer, c'est la taille du saut que tu fais d'un point à un autre, pour essayer de trouver la chanson d'une même bulle. Et oui, parfois, le critère de là, on va sortir de... On va changer de cluster, on va changer de bulle. On pourrait t'en proposer une autre. Ça, c'est la taille du saut que tu vas déterminer. C'est ça un peu le... Sur le flow, quand tu passes au suivant, peut-être que tu as une taille de saut qui est...

Arielle:
Alors, le flow. Je te prends un des clusters. Je prends les X plus proches voisins. Parmi tous les... Enfin, donc, toutes les tracts de la bulle ou qui dépassent un petit peu. Enfin, si jamais dans ta bulle, t'as que 100 chansons mais que j'en veux sans une je vais prendre la plus proche du centruïde, et après tu fais plein de filtres donc t'enlèves tout ce qui a été banni dislike machin t'enlèves celles que je t'ai déjà recommandées la veille, et puis ouais et après en effet on va prendre d'abord la plus proche puis la deuxième plus proche puis la troisième plus proche, et voilà et ça c'est un premier cluster ah oui et puis aussi donc on va arriver entre la Madeleine de Proust celle-là je la connais celle-là scène découverte machin, Et au bout de six chansons, on passe à notre cluster. Et on fait pareil. Et voilà, six par six. Et moins de six si jamais on voit que tu skippes parce que c'est dynamique.

Bruno:
Et donc, j'imagine... Je reprends cet espace à trois dimensions, j'ai mes points qui sont allumés, donc j'allume une chanson pour l'écouter. Tu me passes à celle d'après. Il y a quand même un moment où... À aucun moment, tu peux sortir de cette bulle qui est définie, de mes goûts. C'est-à-dire que tu vois, tu as défini ce cluster, en fait. C'est ce que moi, j'appelle une bulle. Dans mon esprit, un peu simpliste. À aucun moment, tu peux en sortir pour me proposer un truc qui n'est pas très loin de mes goûts, mais qui est quand même...

Arielle:
En vrai, si tu as tout saigné, si tu as déjà tout écouté, si je t'ai déjà recommandé tous les trucs que tu connais.

Bruno:
Mais au travers d'une même session, toujours.

Arielle:
Ah non, d'une même journée, on va dire. Voir même... j'ai pas forcément ça se trouve dans la même semaine on a pas envie de te recommander je sais plus quel est le seuil mais non non on essaye vraiment de pas être en boucle donc non non y'a grave quand même que tu sortes.

Bruno:
Si jamais moi dans mes habitudes tu décèles que une chanson sur deux que je prends c'est du Taylor Swift est-ce que tu vas me recommander plus de Taylor Swift même si, j'ai déjà signé cette discographie dans une session et du coup tu commences à me remettre Est-ce qu'il y a des contextes où tu peux réussir à quand même me proposer plusieurs fois la même chanson dans une même session ? Ou ça, quoi qu'il arrive, c'est...

Arielle:
En fait, si t'écoutes d'abord le flow, puis tes nouveautés du vendredi... Non, et puis non, même, en fait. Ok, si t'écoutes d'abord le flow, puis une des cartes thématiques sur lesquelles on ne met pas de nom... Là, il y a moyen que tu tombes peut-être sur une chanson qui était déjà dans ton flow. Mais si t'écoutes que le flow, il n'y aura pas de répétition.

Bruno:
Il y a une exclusion ferme, définitive, il n'y a pas deux fois la même track.

Arielle:
Ouais.

Bruno:
Et donc ça, c'est vraiment des règles métiers qui sont définies, c'est une bête, c'est un simple if, bête et méchant, qui dit si ça te j'ai écouté.

Arielle:
J'en prouve en plus tard, quand tu fais ta liste.

Bruno:
T'as des exclusions, je lui me dis un if, mais on s'entend. C'est une requête SQL ou lambda, enfin c'est ton exclusion de ta liste c'est ça, en tout cas c'est une règle de métier ok, assez fou c'est quoi le t'as déjà travaillé dans le monde de la banque de l'énergie et donc de la musique, est-ce que soit d'intuition, soit de culture personnelle, à quel point est-ce que la recommandation de chansons est différente de la recommandation sur Amazon par exemple ah ok.

Arielle:
Bon alors il faut savoir que dans la banque et dans l'énergie, j'ai pas fait de recommandation. Et ouais, c'est marrant que tu parles d'Amazon parce que généralement, quand j'ai des slides, je fais le parallèle avec Amazon. Mais c'est pareil, Amazon, en bas de la fiche d'article, a écrit « Souvent acheté avec cet article ». Et là, bim, et en fait, c'est la même... Nous aussi, c'est souvent écouté dans la même playlist que cette chanson, en fait. En fait, c'est un nom, ça s'appelle du collaborative filtering, filtrage collaboratif. Et ouais, il fonctionne pareil. Enfin, je t'avoue que j'ai jamais vu de présentation de comment ça marche mais je le vois enfin c'est littéralement, souvent acheté avec le même produit donc je devine que c'est du filtrage collaboratif j'imagine qu'ils rajoutent d'autres comme nous on rajoute aussi le signal audio ils doivent rajouter d'autres paramètres dont j'ai pas trop d'idées mais, Je pense qu'ils doivent aller dans pas mal de conférences. Je pourrais trouver l'info, mais je n'ai pas trop cherché.

Bruno:
Donc, le collaborative filtering, vu le nom, on est d'accord, c'est le fait que tu as plein de gens qui mettent les choses dans les mêmes playlists et donc on suppose que c'est des choses qui vont bien ensemble. On est d'accord que moi, en tant qu'individu seul, si je me fais une playlist hyper éclectique, ça n'aura aucun impact.

Arielle:
Sur l'espace. Sur toi, ça aura un impact sur ta session, mais pas sur l'espace.

Bruno:
Je fais une légère digression mais tu vas voir où est-ce que je veux aller il y a quelques années, c'est un artiste plus qu'un chercheur il a pris je crois 30 téléphones qu'il a mis sur Google Maps avec un trajet, il les a mis dans une petite charrette et il a marché sur une rue il.

Arielle:
A fait un embouteillage.

Bruno:
Du coup il a créé un embouteillage sur Google Maps comment est-ce que est-ce qu'il y aurait un moyen pour un individu ou un groupe d'individus de réussir à, rapprocher deux chansons, juste deux chansons, en réussissant à faire suffisamment de volume et de signaux pour perturber du coup votre...

Arielle:
Il y a un gars, c'est un génie. Il a... Bon, on l'a dégagé malheureusement, mais moi je trouve que c'est un génie. En fait, sur Giza, tu peux faire des pilises collaboratives. En gros, on est plusieurs je sais pas comment il a fait il a dû avec une API il a dû avoir la liste le lien vers toutes les playlists collaboratives pas toutes mais beaucoup beaucoup, et c'est à l'insiste le mec et il a mis ses tracks dedans donc du coup il apparaissait dans plein plein plein de playlists t'as.

Bruno:
Donné son nom ou t'as dit quoi c'était.

Arielle:
Qui le mec c'était un artiste ah c'était un artiste mais enfin un cognue au bataillon mais on l'a cramé et on la banne du coup parce que c'est de la fraude, et encore il a mis ses chansons dans plein de piédistes comme l'Ouropie et du coup il est remonté dans le... Je sais pas si on l'a cramé parce qu'il est remonté en vrai je sais pas si c'était suffisant quand même je pense pas qu'il soit remonté je pense que c'était même pas suffisant, Mais en tout cas, il avait le bon... S'il avait continué, ça se trouve, il serait remonté. Donc, trop intelligent. Mais bon, on l'a cramé.

Bruno:
Alors, justement, tu parles effectivement d'artistes connus ou moins connus. Déjà, est-ce que vous essayez ? Et si oui, comment est-ce que vous faites pour doser le fait que peut-être que tout le monde n'a pas envie d'écouter Taylor Swift à Bâle, et que du coup, je vais peut-être aller faire écouter d'autres artistes qui méritent aussi d'être diffusés. De favoriser la découverte de nouveaux artistes ?

Arielle:
Ouais. Alors, déjà, on a littéralement une fonctionnalité qui s'appelle Découverte. Et comme tout le monde connaît Taylor Swift, c'est très rare qu'elle apparaisse dedans. Donc, on a toute une fonctionnalité.

Bruno:
Même le nouvel album de Taylor Swift n'apparaîtra pas dans la playlist Découverte ?

Arielle:
Ouais, on fait ça au niveau de l'artiste. Donc, normalement, si j'ai streamé une fois sur Taylor Swift, C'est peut-être pas un, le seuil, mais normalement, je ne tomberais pas sur le tailorsus dans ma playlist découverte. Et sinon, on moniteur énormément la couverture de notre catalogue par la recommandation. Aussi, dès qu'on fait un AB test, notre KPI, je définis ce que c'est ? Notre KPI qu'on regarde le plus, c'est le collect. Le collect, c'est ajout en fave ou ajout en playlist. Généralement, si tu ajoutes en fave, c'est que tu la connaissais ce n'est pas avant. Donc, en gros, on monite la découverte. Notre KPI, c'est la découverte. Ça aurait pu être le temps passé sur la feature, mais on a décidé que c'était la découverte. Donc, c'est vraiment très important pour nous. Et troisième chose, il y a une étude... Il y a des chercheurs indépendants qui ont fait une étude, une étude sur des data de Deezer, quoi. Et ils ont trouvé une corrélation entre l'usage de la recommandation et la diversité dans le profil. Donc, une corrélation, c'est pas une causalité, mais ça montre qu'on n'enferme pas l'utilisateur dans une bulle, quoi. Au contraire. Et trop cool.

Bruno:
Dernière question, peut-être un peu pointue, enfin pas pointue, mais on va dire un peu née. On a parlé donc du like, du dislike, du skip, et donc effectivement les impacts que ça peut avoir sur l'algorithme est-ce que le no action.

Arielle:
Très bonne question, si t'écoutes la chanson à 100% ça peut vouloir dire que tu l'aimes bien ou alors que t'as posé ton téléphone là-bas et tu le mets, signal implicite, pareil, c'est comme le skip on peut pas trop le prendre en compte mais par exemple si dans ton flow t'écoutes 100% on te laisse dans le cluster, c'est que t'aimes bien jusqu'au moment où il y a eu ce seuil de x chansons ouais c'est ça, mais ouais t'as bien fait poser la question parce que dans les signes implicites je voulais parler de ça aussi, signal implicite ok.

Bruno:
Donc c'est à dire que tu le tu supposes ce que ça veut dire en sachant que ça peut potentiellement dire autre chose c'est ça le ouais.

Arielle:
Bah dans le flow on va supposer que t'as aimé la chanson alors que, ouais non généralement on va supposer enfin ouais on, Ouais, non, on suppose que t'as aimé la chanson. Enfin, en tout cas, on met pas trop de poids dessus, quoi qu'il arrive. Juste si c'est pas un skip, on laisse ton cluster tourner dans le flow, en tout cas.

Bruno:
Est-ce que vous prenez en compte aussi des... Je sais pas pourquoi, j'ai que ce genre de questions qui pop, mais, tu vois, mettons, par exemple, la journée, je vais plutôt avoir tendance à écouter des chansons pour me mettre dans un certain mood, le soir, machin, tu vois. Est-ce que cette recours sur le flot va aussi dépendre de.

Arielle:
Ah non de la position géographique.

Bruno:
Vous voyez que je suis au bureau et que je suis chez moi je suis.

Arielle:
Un site de sport en vrai on pourrait c'est marrant que tu fasses une question, on pourrait essayer de prédire dans quel contexte tu es, mais on a décidé qu'on allait te laisser le dire explicitement et c'est pour ça qu'on a autant de fonctionnalités t'as envie de me dire que tu fais du sport, tu cliques sur le mood sport et voilà. T'as envie d'écouter des découvertes, tu cliques sur découvertes. Je pense qu'on a peut-être des moyens de le prédire, peut-être pas hyper précisément pour l'instant parce qu'on n'a pas cherché à le faire. Mais en vrai, c'est un choix de laisser le théâtre choisir. Ça fait peut-être même un peu moins peur. Je ne sais pas si tout était dirigé par l'algorithme. Mais par exemple, le fait qu'on voit que tu changes beaucoup de pays, ça peut nous servir pour d'autres cas d'usage par exemple les utilisateurs qui ne payent pas ils reçoivent des pubs si on voit qu'ils voyagent on va lui envoyer des pubs pour les agences de voyage, à savoir qu'on n'utilise pas la localisation parce qu'on n'a pas le droit on utilise l'adresse IP, donc si t'as un VPN, on est foutu c'est pas mort d'homme mais on n'utilise pas la localisation parce que c'est pas GDPR.

Bruno:
Du coup, le travail aujourd'hui sur ces IA de recommandation, on va dire la continuité ou la recherche, c'est quoi ? C'est de voir quel genre de critères tu peux rajouter pour rendre la recours plus pertinente ou plus impactante ? Ou il y a d'autres recherches d'optimisation ? C'est quoi un peu les évolutions de ce métier ?

Arielle:
Il y a toujours plus clairement nos modèles ils sont tous perfectibles donc pour l'instant on a encore du boulot après il y a peut-être des nouvelles fonctionnalités dont on va avoir l'impression que les utilisateurs ont besoin, je sais pas moi j'ai beaucoup poussé pour une fonctionnalité qui va un peu te bon c'est pas de la reco mais ça part de tes datas. Tes mémories enfin tu sais sur Facebook ils te disent il y a 8h jour pour jour tu avais fait ce statut débile ouais j'ai eu mon bac enfin bref moi j'aimerais trop qu'on fasse ça donc ça serait une nouvelle fonctionnalité il y a plein de nouvelles fonctionnalités qui peuvent apparaître, sinon bah on a une grosse problématique c'est qu'on a de plus en plus de de tracks qui arrivent dans le catalogue en plus là avec la générative via, et du coup ça va être de plus en plus dur de pousser la bonne chanson au bon utilisateur donc il va falloir qu'on et puis même pour le théâtre L'utilisateur, il est inondé de... Même quand tu veux juste chercher ta chanson, t'en as 40 000 qui s'appellent pareil. Donc, c'est tout un challenge. Il y a une équipe qui s'occupe de la barre de recherche, qui gère ça. Mais comme on est inondé en tant qu'utilisateur, on ne sait même pas qu'est-ce qu'on veut écouter. Donc, ça serait cool qu'on puisse utiliser les LLM, par exemple, pour dire, bon, OK, là, j'ai envie d'écouter ça, ça, ça. Et débrouille-toi. Au lieu de taper un titre, ça pourrait être enfin c'est en cours, mais ça répond au challenge de on est inondé de contenu, on fait comment, et sinon toujours plus pousser la collaboration avec les humains, bah là donc comme je t'ai dit les éditos ils nous servent beaucoup dans nos dans nos fonctionnalités mais nous aussi on leur sert en vrai à on leur a créé un outil qui leur sert un peu à, beaucoup même qui les aide à créer leurs propres playlistes, Oui, collaboration avec l'humain.

Bruno:
Voilà. Ok. Traj avait une question et qui est partie. Attends, on parlait de quoi ?

Arielle:
J'étais dit.

Bruno:
Les LLM. Oui. Ah oui, les tracks générés.

Arielle:
Oui.

Bruno:
Comment est-ce que vous gérez ça entre les artistes qui se retrouvent imités, d'autres qui le font ? Je ne sais plus qu'il y a l'artiste qui disait « Prenez ma voix, faites-vous plaisir ». Comment est-ce que vous gérez ça ?

Arielle:
On a fait le choix de ne pas les recommander. On ne les supprime pas du catalogue, si tu as envie de les écouter, vas-y, mais elles ne seront pas dans nos algos et on peut les reconnaître. On a breveté une solution. On est les premiers à savoir le faire. On a trouvé comment reconnaître des... Parce que c'était impossible jusqu'à présent. C'est super dur à reconnaître. alors par contre c'est pas du tout mon équipe c'est la recherche et développement et d'ailleurs nos actions sont grave montées depuis, mais ouais ouais c'est trop cool et du coup on les sort de la reco mais on les supprime pas du catalogue après on n'est pas, on diabolise beaucoup ça mais ça parce que ça peut être mal utilisé mais sinon c'est comme quand les synthétiseurs sont apparus ça, Ça faisait peur, quoi. Après, il va falloir voir... Après, ça ne dépend plus trop de nous. J'imagine qu'il va y avoir des législations. Les maisons de disques, ils vont devoir aussi faire leur taf. Je ne sais pas. Mais nous, en tout cas, c'est bon. On est tranquille.

Bruno:
Je vois. Merci beaucoup, Ariel, pour cette discussion. J'aurais deux dernières questions pour toi, qui sont les questions rituelles de ce podcast. La première, c'est est-ce qu'il y a un contenu que tu souhaiterais partager avec l'ensemble des auditories ?

Arielle:
J'ai deux contenus. Alors, premièrement j'en ai pas parlé pendant l'épisode je suis hyper impliquée dans, l'initiative diversité inclusion chez Easeur et plus particulièrement dans le sujet des femmes dans la tech, je pousse beaucoup pour améliorer le cadre des femmes qui sont déjà dans la tech, surtout chez Easeur mais aussi j'essaye de faire en sorte de faire du prosélytisme et de pousser les jeunes filles ou les femmes qui hésitent à se reconvertir à venir dans la tech parce que, c'est trop bien, c'est confortable, c'est intéressant c'est bien payé mais voilà c'est ça, et je sais bien que les filles elles se sentent pas forcément représentées parce qu'il y a encore beaucoup plus d'hommes que de femmes et donc voilà c'est pour ça que, j'ai pris mon courage à deux mains pour venir faire ce podcast c'était un peu compliqué pour moi mais je suis là pour vous montrer que ça existe que je suis très épanouie, Tout ça pour dire que. Quand j'ai besoin de me sentir powerful, machin, je travaille dans la musique, donc je vais vous recommander une artiste que tout le monde connaît très bien, que certains n'aiment pas, mais que moi, c'est ma reine, Ayana Kamoura. Donc je vous recommande l'intégralité de sa discographie. Pour, je sais pas, en tout cas moi, ça me fait beaucoup d'effets. Je me sens très puissante quand j'écoute Ayana Kamoura. Je me sens... Je recommande ça. Et deuxième contenu, rien à voir, c'est un ancien collègue à moi, donc de mon ancien taf, qui a sorti un livre que je n'ai pas encore lu, parce que c'est demain l'inauguration, mais un livre sur l'intelligence artificielle qui s'appelle, je ne sais même plus, je crois que ça s'appelle La leçon d'échec. Et donc, ça parle de l'histoire de l'intelligence artificielle et de comment ça façonne notre société actuelle et tout. Je dis ça parce que j'ai dû le résumer, mais je n'ai pas encore lu le livre. Mais je suis sûre alors c'est un mec brillant enfin je l'aime trop, et voilà donc je vous recommande son livre je vais faire un petit peu de pub.

Bruno:
Il s'appelle Alexis.

Arielle:
Gladiline Bozio et du coup la leçon d'échec.

Bruno:
On mettra bien évidemment le lien trop bien les liens en description pour que vous puissiez le trouver facilement et un lien vers Yann Akamura aussi parce que c'est important aussi très important de pouvoir la mettre en avant, très bien et dernière question de loin la plus importante de ce podcast Ariel tu es plutôt espace ou tabulation.

Arielle:
Tabulation après pour justifier ce choix j'utilise plus la tabulation.

Bruno:
Voilà merci beaucoup Ariel et merci à tous d'avoir écouté cet épisode je trouve que c'est un métier qui est assez fascinant ce métier data scientist parce que vous faites plein de trucs qui sont assez fous, et effectivement il y a des usages de tous les côtés sur plein de trucs différents moi je suis toujours très heureux de discuter avec vous donc merci beaucoup Ariel d'être venu. Et moi comme toujours je vous remercie de partager ce podcast autour de vous ça fait remonter le podcast dans les algos donc n'hésitez pas à mettre un commentaire 5 étoiles aussi parce que ça fait remonter le podcast dans les algos mais je crois que ce qui fonctionne le mieux encore c'est de le recommander à un ou une collègue, parce que bon il y a peu de chances que vous le recommandiez à quelqu'un qui n'est pas dans ce milieu là mais en tout cas merci beaucoup de le partager autour de vous je vous souhaite une très bonne fin de semaine je vous dis à la semaine prochaine et d'ici là codez bien.

La cybersécurité, c’est l’affaire de tous !

Et si un simple clic pouvait compromettre toute votre entreprise ? Avec Riot, testez la vigilance de vos équipes grâce aux simulations d’attaques de phishing, et formez-les en continu avec Albert, le coach cyber qui les sensibilise directement sur Slack et Teams. Exclusif pour les auditeurs d’If This Then Dev : bénéficiez de 20% de réduction pendant un an avec le code IFTTD sur tryriot.com. Ne laissez pas une faille humaine devenir votre plus grande menace.