Un regard en coulisses sur la construction d'un pipeline de tri d'attributs piloté par l'IA pour des millions de références.Un regard en coulisses sur la construction d'un pipeline de tri d'attributs piloté par l'IA pour des millions de références.

Comment j'ai utilisé l'IA pour corriger à grande échelle les valeurs d'attributs incohérentes dans l'e-commerce

Lorsque les gens parlent de la mise à l'échelle du e-commerce, ils se concentrent sur des défis techniques majeurs : la recherche distribuée, l'inventaire en temps réel, les moteurs de recommandation et l'optimisation du processus de paiement. Mais sous tout cela se trouve un problème plus discret et plus persistant auquel presque tous les détaillants sont confrontés : les valeurs des attributs.

Les attributs sont l'épine dorsale de la découverte de produits. Ils alimentent les filtres, les comparaisons, le classement des recherches et la logique de recommandation. Mais dans les catalogues réels, les valeurs d'attributs sont rarement propres. Elles sont incohérentes, dupliquées, mal formatées ou sémantiquement ambiguës.

Prenons quelque chose d'aussi simple que la Taille. Vous pourriez voir :

Code

["XL", "Small", "12cm", "Large", "M", "S"]

Ou la Couleur :

Code

["RAL 3020", "Crimson", "Red", "Dark Red"]

Individuellement, ces incohérences semblent inoffensives. Mais multipliez-les sur plus de 3 millions de SKU, chacun avec des dizaines d'attributs, et le problème devient systémique. Les filtres se comportent de manière imprévisible, les moteurs de recherche perdent en pertinence, les merchandisers se noient dans le nettoyage manuel, et la découverte de produits devient plus lente et plus frustrante pour les clients.

C'était le défi auquel j'ai été confronté en tant qu'ingénieur logiciel full-stack chez Zoro, un problème facile à négliger mais qui affectait chaque page de produit.

Mon approche : L'IA hybride rencontre le déterminisme

Je ne voulais pas d'une boîte noire mystérieuse pilotée par l'IA qui trie simplement les choses. Les systèmes comme celui-là sont difficiles à faire confiance, à déboguer ou à mettre à l'échelle. Au lieu de cela, j'ai visé un pipeline qui était :

  • explicable
  • prévisible
  • évolutif
  • contrôlable par les humains

Le résultat a été un pipeline d'IA hybride qui combine le raisonnement contextuel des LLM avec des règles claires et des contrôles pour les merchandisers. Il agit intelligemment lorsque nécessaire, mais reste toujours prévisible. C'est de l'IA avec des garde-fous, pas de l'IA hors de contrôle.

Tâches en arrière-plan : Conçues pour le débit

Tout le traitement des attributs se produit dans des tâches en arrière-plan hors ligne, pas en temps réel. Ce n'était pas un compromis ; c'était un choix architectural stratégique.

Les pipelines en temps réel semblent attrayants, mais à l'échelle du e-commerce, ils introduisent :

  • une latence imprévisible
  • des dépendances fragiles
  • des pics de calcul coûteux
  • une fragilité opérationnelle

Les tâches hors ligne, en revanche, nous ont donné :

  • Haut débit : d'énormes lots traités sans affecter les systèmes en production
  • Résilience : les pannes n'affectaient jamais le trafic client
  • Contrôle des coûts : le calcul pouvait être planifié pendant les périodes de faible trafic
  • Isolation : la latence du LLM n'affectait jamais les pages de produits
  • Cohérence : les mises à jour étaient atomiques et prévisibles

Garder les systèmes destinés aux clients séparés des pipelines de traitement des données est essentiel lorsqu'on travaille avec des millions de SKU.

Nettoyage et normalisation

Avant d'utiliser l'IA sur les données, j'ai exécuté une étape de prétraitement claire pour éliminer le bruit et la confusion. Cette étape peut sembler simple, mais elle a grandement amélioré le raisonnement du LLM.

Le pipeline de nettoyage comprenait :

  • la suppression des espaces blancs
  • la suppression des valeurs vides
  • la déduplication des valeurs
  • l'aplatissement des fils d'Ariane de catégories en une chaîne contextuelle

Cela garantissait que le LLM recevait une entrée propre et claire, ce qui est essentiel pour des résultats cohérents. Garbage in, garbage out. À cette échelle, même de petites erreurs peuvent entraîner de plus gros problèmes plus tard.

Service LLM avec contexte

Le LLM ne se contentait pas de trier les valeurs par ordre alphabétique. Il raisonnait à leur sujet.

Le service recevait :

  • des valeurs d'attributs nettoyées
  • des fils d'Ariane de catégories
  • des métadonnées d'attributs

Avec ce contexte, le modèle pouvait comprendre :

  • Que « Voltage » dans les Outils électriques est numérique
  • que la « Taille » dans les Vêtements suit une progression connue
  • que la « Couleur » dans les Peintures peut suivre les normes RAL
  • que le « Matériau » dans la Quincaillerie a des relations sémantiques

Le modèle retournait :

  • des valeurs ordonnées
  • des noms d'attributs affinés
  • une décision : ordonnancement déterministe ou contextuel

Cela permet au pipeline de gérer différents types d'attributs sans coder en dur des règles pour chaque catégorie.

Solutions de repli déterministes

Tous les attributs n'ont pas besoin d'IA.

En fait, de nombreux attributs sont mieux gérés par une logique déterministe.

Les plages numériques, les valeurs basées sur des unités et les ensembles simples bénéficient souvent de :

  • un traitement plus rapide
  • un ordonnancement prévisible
  • un coût plus faible
  • zéro ambiguïté

Le pipeline détectait automatiquement ces cas et utilisait une logique déterministe pour eux. Cela maintenait le système efficace et évitait les appels LLM inutiles.

Étiquetage manuel vs LLM

Les merchandisers avaient toujours besoin de contrôle, en particulier pour les attributs sensibles sur le plan commercial.

Ainsi, chaque catégorie pouvait être étiquetée comme :

  • LLM_SORT — laisser le modèle décider
  • MANUAL_SORT — les merchandisers définissent l'ordre

Ce système de double étiquetage permet aux personnes de prendre les décisions finales pendant que l'IA faisait la majeure partie du travail. Il a également créé de la confiance, puisque les merchandisers pouvaient remplacer le modèle lorsque nécessaire sans casser le pipeline.

Persistance et contrôle

Tous les résultats étaient stockés directement dans une base de données Product MongoDB, ce qui maintenait l'architecture simple et centralisée.

MongoDB est devenu le magasin opérationnel unique pour :

  • les valeurs d'attributs triées
  • les noms d'attributs affinés
  • les balises de tri au niveau de la catégorie
  • les champs sortOrder au niveau du produit

Cela facilitait l'examen des modifications, le remplacement des valeurs, le retraitement des catégories et la synchronisation avec d'autres systèmes.

Intégration de la recherche

Une fois triées, les valeurs affluaient vers :

  • Elasticsearch pour la recherche par mots-clés
  • Vespa pour la recherche sémantique et vectorielle

Cela garantissait que :

  • les filtres apparaissaient dans un ordre logique
  • les pages de produits affichaient des attributs cohérents
  • les moteurs de recherche classaient les produits plus précisément
  • les clients pouvaient parcourir les catégories plus facilement

La recherche est l'endroit où le tri des attributs est le plus visible, et où la cohérence compte le plus.

Aperçu de l'architecture

Pour que cela fonctionne sur des millions de SKU, j'ai conçu un pipeline modulaire construit autour de tâches en arrière-plan, de raisonnement IA et d'intégration de recherche. Le diagramme d'architecture ci-dessous capture le flux complet :

  • Les données de produit entrent depuis le système d'information produit
  • La tâche d'extraction d'attributs extrait les valeurs d'attributs et le contexte de catégorie
  • Celles-ci sont transmises au service de tri IA
  • Les documents de produits mis à jour sont écrits dans le Product MongoDB
  • La tâche de synchronisation sortante met à jour le système d'information produit avec l'ordre de tri
  • Les tâches de synchronisation Elasticsearch et Vespa poussent les données triées dans leurs systèmes de recherche respectifs
  • Les services API connectent Elasticsearch et Vespa à l'application client

Ce flux garantit que chaque valeur d'attribut, qu'elle soit triée par l'IA ou définie manuellement, se reflète dans la recherche, le merchandising et l'expérience client.

La solution en action

Voici comment les valeurs désordonnées ont été transformées :

| Attribut | Valeurs brutes | Sortie ordonnée | |----|----|----| | Taille | XL, Small, 12cm, Large, M, S | Small, M, Large, XL, 12cm | | Couleur | RAL 3020, Crimson, Red, Dark Red | Red, Dark Red, Crimson, Red (RAL 3020) | | Matériau | Steel, Carbon Steel, Stainless, Stainless Steel | Steel, Stainless Steel, Carbon Steel | | Numérique | 5cm, 12cm, 2cm, 20cm | 2cm, 5cm, 12cm, 20cm |

Ces exemples montrent comment le pipeline combine le raisonnement contextuel avec des règles claires pour créer des séquences propres et faciles à comprendre.

Pourquoi des tâches hors ligne au lieu du traitement en temps réel ?

Le traitement en temps réel aurait introduit :

  • une latence imprévisible
  • des coûts de calcul plus élevés
  • des dépendances fragiles
  • une complexité opérationnelle

Les tâches hors ligne nous ont donné :

  • une efficacité par lots
  • des appels LLM asynchrones
  • une logique de nouvelle tentative et des files d'attente d'erreurs
  • des fenêtres d'examen humain
  • des dépenses de calcul prévisibles

Le compromis était un léger délai entre l'ingestion des données et l'Affichage, mais l'avantage était la cohérence à grande échelle, que les clients apprécient beaucoup plus.

Impact

Les résultats ont été significatifs :

  • Ordonnancement cohérent des attributs sur plus de 3 millions de SKU
  • Tri numérique prévisible via des solutions de repli déterministes
  • Contrôle des merchandisers grâce à l'étiquetage manuel
  • Pages de produits plus propres et filtres plus intuitifs
  • Pertinence de recherche améliorée
  • Confiance et conversion des clients accrues

Ce n'était pas seulement une victoire technique ; c'était aussi une victoire pour l'expérience utilisateur et les revenus.

Leçons apprises

  • Les pipelines hybrides surpassent l'IA pure à grande échelle. Les garde-fous sont importants.
  • Le contexte améliore considérablement la précision du LLM
  • Les tâches hors ligne sont essentielles pour le débit et la résilience
  • Les mécanismes de remplacement humain créent la confiance et l'adoption
  • Une entrée propre est le fondement d'une sortie IA fiable

Réflexion finale

Trier les valeurs d'attributs semble simple, mais cela devient un véritable défi lorsque vous devez le faire pour des millions de produits.

En combinant l'intelligence du LLM avec des règles claires et le contrôle des merchandisers, j'ai transformé un problème complexe et caché en un système propre et évolutif.

C'est un rappel que certaines des plus grandes victoires proviennent de la résolution des problèmes ennuyeux, ceux qui sont faciles à manquer mais qui apparaissent sur chaque page de produit.

\n \n \n

Opportunité de marché
Logo de Sleepless AI
Cours Sleepless AI(AI)
$0.0383
$0.0383$0.0383
-0.02%
USD
Graphique du prix de Sleepless AI (AI) en temps réel
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter service@support.mexc.com pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.