Jour 1

Toute expérience qu’elle soit mathématique, philosophique, physique, ou de quelconque science que ce soit requiert a minima une démonstration. Dans l’entreprise — et c’est de ça qu’il est question ici — on demande au zélote qui suit sa vision les KPI, Key Performance Indicators.

Lors de nos premiers pitches pour financer nos IA en 2019, non pas des Large Language Model (LLM), mais des modèles bien plus accessibles basés sur du Named Entity Recognition (NER) nous nous sommes heurtés à cet aspect, un aspect que je développe ici : le problème des KPI dans l’IA en Europe avant 2020.

Le but premier de notre entreprise était de construire une technologie basée sur du Natural Language Processing (NLP) associée à de l’analyse du DOM avec un crawler headless basé sur Chromium lancé par cron pour capter les XPath et collecter le maximum de données — nombre de sites n’avaient d’ailleurs pas d’API ou ne nous laissaient pas accéder à leurs API, sans compter les blocages et limites de requêtes.

L’idée derrière cette technologie étant de labelliser les attributs produits dans le but d’opérer un tri général entre les diverses sous-versions d’un même produit. Le but : diminuer le temps passé sur les moteurs de recherche qui, je le voyais comme beaucoup à cette époque, avaient une problématique conséquente : les résultats étaient empiriques, boostés par du Search Engine Optimisation (SEO). Autrement dit : qui avait au mieux optimisé son site et avait au plus de liens entrants, apparaissait en top résultats, d’où l’apparition des comparateurs de prix, qui peu à peu sont devenus des outils de niche : meilleurs rasoirs, meilleurs PC gamer, etc.

Pour en revenir à l’idée principale de notre modèle d’IA, si nous parvenions à labelliser tout produit existant, alors nous pourrions avoir une base de données suffisante pour faire un pré-tri de chaque produit pour l’utilisateur : qui veut un smartphone rose de X Go n’aura jusqu’à sélectionner le smartphone sur notre site « Marque, Couleur, GB, etc. » et l’IA se chargerait d’explorer le web pour lui.

Bien sûr cela impliquait non seulement une IA à même de reconnaître les labels produits dans le titre, dans la description mais aussi dans les boutons interactifs de chaque site. Si nous y arrivions alors la recherche produit ne prendrait plus que quelques clics.

Certains répondront que c’est le principe de Google Shopping. Pourtant, et comme je l’avance plus haut : les résultats sont systématiquement tronqués soit par la publicité, soit par le SEO. De fait l’utilisateur — et vous pouvez faire le test — passe des heures à écumer les moteurs de recherche pour trouver son produit, pour finalement atterrir sur tel ou tel site où une promotion en cours dans le modèle qu’il souhaite vient de prendre fin.

Tout est une question de temps, et notre entreprise voulait proposer d’en gagner.

Néanmoins pour développer ce genre de technologie, il faut non seulement des données, trier ces données, les annoter ou labelliser pour apprendre à nos modèles quelles données sont des couleurs, de la mémoire flash, ou bien une marque. Cela coûte de l’argent et c’est là que le cercle vicieux commence : pour financer une entreprise d’IA en Europe avant 2020 vous aviez besoin d’indices de performance. Or une IA est par définition contraire au business model traditionnel : une IA est un produit mis à l’échelle (scalée) d’entrée de jeu, et ses financements n’ont pas pour but de gagner des utilisateurs mais de la développer.

Pour faciliter la compréhension de cela un exemple s’impose. Si vous aviez un verger et que vous désiriez en vendre les fruits, alors vous pouvez commencer par vos voisins, puis votre quartier. Voyant que cela prend, vous pouvez demander des financements : planter plus d’arbres, embaucher plus, faciliter le transport. Vos KPI sont vos premières ventes, et les premiers indices de transactions financières.

Dans le domaine de l’IA tout est différent. Vous n’avez pas un verger privé mais un verger public : vous voulez exploiter tous les arbres de la région et de votre pays car les fruits sont là. Vous n’avez simplement pas les ressources pour le faire. Ici vous demandez des financements non pas pour grandir, mais pour exploiter une source conséquente : les fruits, les vergers sont là, mais ce qui vous manque, ce sont les outils. Dans le premier cas vous financez pour grandir, dans le second cas vous financez pour exploiter.

Cette philosophie en Europe avant 2020 et particulièrement en France était une aberration. Je me rappelle encore de ce pitch devant des business angels France « Même si vous étiez le nouveau Google, on ne vous financerait pas« . Il doit aujourd’hui financer 200 boîtes d’IA sans que la moitié d’entre elle n’ait aucun KPI.

En revanche, et c’est le paradoxe : Amazon AWS fut la seule entreprise qui nous finança avec 10 000 $ de crédit Cloud. USA vs Europe. Deux visions, deux paradigmes.

Pour en revenir à la finalité de ce blog et de cette expérience, il est essentiel, eu égard au développement et de l’avancée des IA, d’utiliser à nos fins la capacité de code, de vision et la puissance de l’IA dans une nouvelle entreprise à l’échelle mondiale, qui viserait, comme notre idée primaire : à organiser, à diminuer le temps de recherche, et finalement à réduire — ce qui a toujours été le coeur de mon ambition — le temps de friction entre le besoin de et la satisfaction de ce besoin.

Si l’univers est simulé et mathématique, toute friction entre le besoin et sa satisfaction doit être traitée comme du bruit, et tout accès à un besoin doit se faire selon une vision mathématique simple :

Besoin (B) / (Friction (F) x Temps (Tₙ)) = Satisfaction Efficient (SE)

B / F x Tₙ = SE

Si le prologue constitue l’élaboration de ce blog, et le jour 1 la présentation globale du pourquoi. Le Jour 2 présentera la thèse fondamentale derrière l’idée et le jour 3 sa mise en place fonctionnelle, du moins les premières étapes de mise en place, car le but précis est de déterminer si, par l’IA et via l’humain, une technologie d’organisation générale peut être.