IA et données du bâtiment : ce qui marche, ce qui relève du bluff

2023-09-26 · par Dimas Sony

Visualisation abstraite de réseau de neurones sur fond bleu nuit

Une promesse trop belle

Depuis 2023, je reçois la même question chaque semaine. « Dimas, est-ce que l'IA peut lire mes plans et remplir mes rapports tout seuls ? » La réponse honnête tient en deux mots : parfois, partiellement. Mais ce n'est jamais la réponse qu'on espère. On espère un bouton magique. Ce qu'on obtient, c'est un assistant utile et faillible, qui vous fait gagner du temps sur les tâches répétitives et vous en fait perdre quand vous lui faites trop confiance.

J'écris cet essai après deux ans à intégrer des modèles dans des outils métier réels, pour des diagnostiqueurs et des bureaux d'études. J'ai vu des succès francs et des fiascos coûteux. La différence ne tient presque jamais à la qualité du modèle. Elle tient à la qualité des données et à la clarté du problème qu'on essaie de résoudre. Un modèle remarquable nourri de données pourries produit des absurdités convaincantes. C'est le pire des deux mondes.

L'OCR de plans, ou la tentation du tout-automatique

Lire automatiquement un plan de bâtiment pour en extraire les surfaces, les pièces, les cotes, c'est le rêve. Techniquement, on parle de reconnaissance optique de caractères couplée à de la détection d'objets. Sur un plan d'architecte récent, propre, vectoriel, ça fonctionne plutôt bien. Sur un plan scanné des années 1980, photocopié trois fois, avec des annotations manuscrites au crayon, c'est une autre affaire. L'algorithme confond un placard avec une salle d'eau, ou lit 3,20 mètres là où il y a 8,20.

Le problème de fond, c'est que l'erreur n'est pas aléatoire, elle est plausible. Un humain qui se trompe sur une surface produit souvent un chiffre manifestement faux, qu'on repère. Un modèle produit un chiffre crédible mais inexact, qui passe les contrôles superficiels. J'ai assisté à un projet où l'extraction automatique des surfaces a faussé une série d'estimations pendant des semaines, parce que personne ne revérifiait les valeurs « calculées par l'IA ». La confiance excessive coûte plus cher que la saisie manuelle.

La piste sérieuse n'est pas le plan scanné, c'est la maquette numérique. Le BIM, pour Building Information Modeling, structure le bâtiment en objets porteurs de données. Le format d'échange ouvert IFC, normalisé sous la référence ISO 16739, permet de récupérer directement les surfaces et les volumes sans avoir à les deviner depuis une image. La page Building Information Modeling de Wikipédia retrace l'histoire de cette approche, née dans les années 1970 et généralisée depuis 2010. Quand la donnée existe déjà sous forme structurée, on n'a pas besoin de la faire halluciner par un modèle.

L'estimation automatisée et le mirage de la précision

L'autre grande promesse, c'est l'estimation. Donner un prix à un bien, un coût à des travaux, une valeur à un parc, en un clic. Les modèles sont bons à ce jeu, parce qu'il existe des données publiques massives. En France, la base des demandes de valeurs foncières, publiée sur data.gouv.fr, recense des millions de transactions immobilières réelles. Un modèle entraîné sur ces <a href="https://www.data.gouv.fr/fr/datasets/demandes-de-valeurs-foncieres/">données de valeurs foncières</a> sort des estimations souvent correctes dans la moyenne.

Souvent, dans la moyenne. Deux mots qui cachent le piège. Une estimation automatisée se trompe le plus là où ça compte le plus : sur les biens atypiques, ceux qui sortent du lot et dont la valeur réelle dépend de détails qu'aucune base ne contient. La vue, l'exposition, l'état de la copropriété, l'ambiance du quartier le soir. Le modèle ramène tout vers la moyenne du secteur, et c'est précisément pour les biens hors norme qu'on aurait besoin d'une expertise. L'algorithme est bon là où on n'a pas vraiment besoin de lui, et faible là où on en aurait besoin.

La donnée, ce mot qu'on prononce sans y penser

Tout revient toujours à la donnée. On parle d'intelligence artificielle comme si l'intelligence venait du modèle. Elle vient surtout de ce qu'on lui donne à manger. Or les données du bâtiment sont sales. Adresses mal saisies, surfaces incohérentes entre deux documents, doublons, champs vides, unités mélangées. J'ai passé plus de temps à nettoyer des données qu'à entraîner quoi que ce soit. Et ce n'est pas une exception, c'est la règle du métier.

Il y a aussi une dimension qu'on néglige : la protection des personnes. Estimer un bien, croiser des données de logement, c'est manipuler de l'information qui touche des particuliers. Le règlement général sur la protection des données, le RGPD, s'applique. Entraîner un modèle sur des données personnelles sans base légale, sans information des personnes, expose à des sanctions réelles. Avant de rêver d'IA, beaucoup d'éditeurs feraient bien de relire les recommandations de la CNIL sur l'usage des données. C'est moins excitant qu'un chatbot, c'est plus structurant.

Où l'IA aide vraiment

Je ne suis pas anti-IA, loin de là. Je suis contre l'IA présentée comme un substitut au jugement professionnel. Là où elle aide, c'est sur les tâches ennuyeuses et vérifiables. Pré-classer des photos par pièce. Suggérer une formulation pour un commentaire de rapport, que le technicien valide ou corrige. Détecter une incohérence flagrante dans une saisie. Résumer un long document réglementaire. Dans tous ces cas, l'humain garde la main et le dernier mot. C'est là le bon partage.

Mon conseil pour les éditeurs et les professionnels : commencez petit, sur un usage précis, mesurable, où l'erreur du modèle est facile à repérer. Gardez toujours un humain dans la boucle pour tout ce qui engage une responsabilité. Et fuyez quiconque vous vend une IA qui « comprend » votre métier. Elle ne comprend rien. Elle calcule des corrélations. C'est utile, mais ce n'est pas la même chose, et confondre les deux finit toujours par coûter cher. Pour replacer ces outils dans le paysage logiciel, mon dossier sur les logiciels métier du bâtiment et la proptech donne le cadre, et celui sur les outils de numérisation des métiers explique pourquoi la donnée doit d'abord être propre à la source.