Une architecture data ouverte est-elle nécessaire à la mise en place de modèles d’IA Générative ?

L'IA générative (GenAI) continue de transformer les industries, avec le potentiel de révolutionner la productivité des équipes, d'encourager l'innovation et d'améliorer l'efficacité opérationnelle des organisations grâce à l’utilisation des données disponibles.

Pour favoriser la mise en place de ces modèles innovants, les entreprises ont besoin de pouvoir compter sur une infrastructure de données capable d'alimenter leurs modèles GenAI de façon qualitative et fiable.

Cependant, comme les données sont stockées dans différentes sources, on-premises ou dans le (ou les) cloud(s), il est important d’adopter en priorité une stratégie d’exploration des données répondant à ce contexte hybride. L’approche correspondant à une architecture data ouverte est aujourd’hui particulièrement adaptée à ces besoins.

Étude de cas : JP Morgan Chase et l'adoption croissante de GenAI

Les initiatives de ce type sont nombreuses dans l’actualité ces jours-ci. Au début du mois d’août, CNBC a annoncé une initiative de transformation chez JP Morgan Chase (JPMC) pour créer un "assistant alimenté par l'IA" en utilisant directement GenAI. Cette technologie, basée sur le modèle GPT d'OpenAI, sera utilisée par 60 000 employés à travers l'organisation. Pour ce faire, elle utilisera un corpus interne de données pour alimenter l'IA. Les insights obtenus aideront à simplifier des processus qui nécessiteraient autrement une intervention manuelle importante. C'est un puissant exemple de l'utilisation de l'IA par une entreprise pour résoudre des problèmes réels.

La GenAI est désormais utilisée jusque dans les industries les plus réglementées

L'annonce de JPMC marque un tournant important dans l'acceptation de l’IA Générative comme outil d'automatisation des processus et d'amélioration de la productivité des équipes en interne. Cela est particulièrement intéressant dans un environnement bancaire hautement réglementé, un secteur généralement peu connu pour l'adoption rapide de nouvelles technologies. En résumé, l'adoption de GenAI dans une industrie généralement conservatrice est de bon augure pour son adoption dans d'autres industries.

Il est important de se rappeler pourquoi cette approche fonctionne. JPMC a lancé cette initiative pour atteindre ses objectifs organisationnels, en espérant améliorer la productivité des employés en recherche, en favorisant la synthèse de contenu, pour proposer un engagement client hyper-personnalisé ainsi que davantage d'analyse comportementale. Cela montre clairement que les LLM comme OpenAI résolvent déjà des problèmes réels en exploitant les données internes de manière innovante. Cependant, cela n’est possible que si l’accès aux données pertinentes est mise en place de manière sécurisée et qu’il n’est pas restreint par des contraintes technologiques. Une stratégie d’accessibilité des données est indispensable à la mise en place de modèles GenAI, de façon à ce que les données soient facilement et rapidement utilisables.
3 étapes à suivre lors de l'adoption d'une architecture de données ouverte pour GenAI

1) Augmenter votre écosystème EDW avec un Data Lakehouse ouvert :

Les Data Warehouses d'entreprise traditionnels (EDW) n’ont pas été conçus pour l'IA, et présentent désormais des limites dans leurs fonctionnalités. Envisagez de compléter votre Data Warehouse par la mise en place d’un Lakehouse ouvert. Cette approche élimine la nécessité de transférer toutes vos données dans une seule et même source, la « single source of truth ». En ajoutant un Data Lakehouse basé sur le stockage d'objets dans le cloud (AWS S3, Google GCS, Azure ADLS) ou on-premises (Dell ECS, MinIO), vous combinez la scalabilité d'un data lake avec les capacités de requête structurées d'un Data Warehouse traditionnel. En adoptant ce type d’architecture ouverte et hybride, vous pourrez plus facilement gérer un volume croissant de données, aux typologies diverses et variables.

2) Favoriser la découverte des données pour accélérer la compréhension de GenAI :

La découverte de données permet de mettre les bonnes données à la disposition des modèles d’IA, tout en tenant compte des contraintes réglementaires, de conformité et économiques. Ce point est particulièrement important lorsque vous faites adopter vos workloads de GenAI et d’analyses de données à travers d’autres lignes de métiers au sein de l'organisation. Puisque les données pertinentes ne sont pas facilement disponibles et accessibles dans un Data Warehouse unique et centralisé, il est important de mettre en place des solutions pour accéder aux données dans leurs sources d’origine.

3) Adopter une approche « multi-tout » des données

L'adoption d'une architecture de données multiformat et multi-cloud présente de nombreux avantages. À mesure que ce changement de paradigme s'opère et que les organisations prennent conscience de la variabilité inévitable des données, les solutions technologiques ouvertes font leurs preuves en leur permettant plus de flexibilité tout en améliorant l’accessibilité des données. Apache Iceberg est une solution qui permet, de plus, d’éviter d’être verrouillé avec un fournisseur de formats de tables unique et propriétaire. Vous conservez ainsi le contrôle total de vos données, tout en maintenant en place vos propres politiques de contrôles d'accès et de gestion des données.
C'est précisément pour cette raison qu'Apache Iceberg est en passe de devenir le format ouvert par défaut. En choisissant Iceberg, vous activez un modèle dans lequel VOUS gardez réellement le contrôle sur vos données. Plus important encore, vous « possédez des options » pour ces données sous la forme d'optimisation du calcul, du stockage, de la mise à l'échelle et de la découverte.

Auteurs: Justin Borgman & Victor Coustenoble

PLUS DE CONTENUS EXCLUSIFS BIG DATA & AI