Le projet

Cette installation numérique se compose de six visualisations interactives qui explorent À la recherche du temps perdu de Marcel Proust à travers les données, le design et l'intelligence artificielle. L'ambition artistique : rendre visible l'architecture invisible du plus long roman moderne de la littérature française — ses réseaux thématiques, ses arcs émotionnels, la géographie sociale de ses personnages.

Quatre visualisations reposent sur l'analyse statistique du texte (fréquences, distributions, corrélations). Deux autres font appel à l'intelligence artificielle pour détecter le sentiment et identifier les personnages. Ensemble, elles offrent six points de vue complémentaires sur une œuvre de 1 247 516 mots.

La fondation scientifique de ce travail est l'étude de Cyril Labbé et Dominique Labbé (CNRS, Université Grenoble-Alpes, 2019), qui a posé les bases de l'analyse lexicale de la Recherche.

Les données

Texte intégral (8.3 MB HTML)
↓ BeautifulSoup + Python
7 fichiers texte (1 par volume)
1 247 516 mots

Le texte source

À la recherche du temps perdu, édition intégrale en 7 volumes, source unepagedeproust.org. Le texte HTML brut (8,3 Mo) a été nettoyé avec BeautifulSoup : suppression des balises, normalisation de la ponctuation, découpage en volumes. Résultat : 1 247 516 mots extraits. Ce chiffre diffère légèrement des 1 327 850 mots recensés par Labbé & Labbé (2019) sur les éditions Gallimard originales — l'écart s'explique par des différences d'édition et de méthode de comptage (nos comptages portent sur les formes exactes, Labbé lemmatise les vocables).

Les 466 mots analysés

Sélection des substantifs, noms propres, adjectifs et verbes les plus significatifs, classés en 7 champs sémantiques :

Temps & Mémoire Sensations & Corps Espace & Lieux Émotions & Âme Art & Esthétique Nature & Fleurs Société & Mondanité

Ces 466 mots constituent le vocabulaire analysé dans les quatre premières visualisations. Leur fréquence, leur distribution et leurs corrélations révèlent la structure profonde de l'œuvre.

Les 7 volumes

Volume Titre Mots
IDu côté de chez Swann186 335
IIÀ l'ombre des jeunes filles en fleurs183 648
IIILe Côté de Guermantes201 725
IVSodome et Gomorrhe170 832
VLa Prisonnière141 278
VIAlbertine disparue107 463
VIILe Temps retrouvé256 235

L'analyse statistique

Les quatre premières visualisations reposent sur le comptage, la classification et la mise en relation des 466 mots sélectionnés. Aucun modèle d'IA n'est utilisé ici : ce sont des méthodes statistiques classiques, rendues sensibles par le design.

VISUALISATION 01
Cathédrale Sonore

Rendu en Three.js r128 avec WebGL et des shaders GLSL personnalisés (vertex + fragment). Trois couches de particules par champ sémantique, animées en temps réel. L'audio utilise la Web Audio API pour une synthèse spectrale avancée : synthèse granulaire, réverbération cathédrale de 6 secondes, 7 drones spectraux (un par champ sémantique). Chaque mot devient son et lumière.

VISUALISATION 02
Les mots de Proust

Scatter plot en D3.js v7.8.5 : 466 mots classés par fréquence d'apparition. L'idée centrale du « aussi fréquent que » permet de révéler les échos entre thèmes : découvrir que « jalousie » apparaît aussi souvent que « cathédrale » dit quelque chose de l'œuvre que la lecture seule ne révèle pas.

VISUALISATION 03
Le poids des thèmes

Treemap et barres horizontales en D3.js. Comment quelques mots portent la moitié du poids d'un thème entier : dans chaque champ sémantique, une poignée de termes concentre l'essentiel des occurrences, révélant les obsessions de Proust.

VISUALISATION 04
Tissage des thèmes

Graphe de forces en D3.js. Les « ponts lexicaux » sont les mots de fréquence similaire entre thèmes différents (tolérance ±15%). Ces connexions révèlent comment les champs sémantiques s'entrelacent dans la prose de Proust — le tissage invisible de la Recherche.

L'intelligence artificielle

Les deux dernières visualisations utilisent des modèles de langue de type Transformer pour analyser le texte à une échelle qu'aucune lecture humaine ne pourrait atteindre : 4 989 fenêtres de sentiment, 5 012 paragraphes scannés pour la reconnaissance de personnages.

CamemBERT — Le modèle de langue

CamemBERT est un modèle de type Transformer (architecture à mécanisme d'attention), entraîné par l'INRIA et Meta sur 138 Go de texte français — archives web, Wikipédia, livres. Il « comprend » le français en ayant lu des milliards de phrases et appris les relations statistiques entre les mots.

Le modèle utilisé pour l'analyse de sentiment est distilcamembert-base-sentiment (270 Mo, 66 millions de paramètres), affiné sur 200 000 critiques de cinéma AlloCiné pour détecter la tonalité positive ou négative d'un texte.

La limite : un modèle entraîné sur des critiques de films ne lit pas la littérature comme un être humain. Il détecte des tonalités générales, pas les subtilités de l'ironie proustienne. C'est un instrument de mesure imparfait mais révélateur.

L'arc émotionnel — Comment il est calculé

Le texte intégral est découpé en fenêtres glissantes de 500 mots avec un pas de 250 mots, produisant 4 989 mesures. Chaque fenêtre est soumise au modèle qui produit un score de tonalité entre -1 (sombre) et +1 (lumineux).

En complément, le lexique NRC d'émotions (développé par le National Research Council Canada) identifie 8 émotions fondamentales par correspondance lexicale : joie, tristesse, colère, peur, confiance, dégoût, surprise, anticipation.

Les scènes clés (la madeleine, les pavés inégaux, la mort d'Albertine...) sont repérées par recherche textuelle et annotées sur la courbe. Temps de calcul : environ 5 minutes sur GPU Apple Silicon (MPS).

La reconnaissance de personnages

Le modèle camembert-ner (Jean-Baptiste/camembert-ner, 440 Mo) identifie automatiquement les noms de personnes dans le texte — c'est la tâche de Named Entity Recognition (NER).

Problème spécifique à Proust : un même personnage peut être désigné de 4 ou 5 manières différentes. « M. de Charlus », « le baron », « Charlus », « Palamède » désignent le même personnage. Une table d'alias de 34 personnages résout ces ambiguïtés.

Le réseau de co-occurrence : deux personnages sont « liés » s'ils apparaissent dans le même paragraphe. Plus ils partagent de paragraphes, plus leur lien est fort. Résultat : 445 liens identifiés entre 34 personnages.

Texte intégral
↓ distilcamembert-base-sentiment (270 Mo)
4 989 mesures de tonalité → arc-emotionnel.json (1.6 MB)
↓ camembert-ner (440 Mo) + table d'alias (34 personnages)
5 012 paragraphes analysés → 34 personnages, 445 liens
reseau-personnages.json (82 KB)

Les technologies

L'ensemble de l'installation repose sur des technologies web standards, sans serveur backend. Les données sont pré-calculées en Python et servies sous forme de fichiers JSON statiques.

Couche Technologie Usage
Rendu 3D Three.js r128, WebGL, GLSL shaders Cathédrale Sonore
Audio Web Audio API, synthèse granulaire Sonification spectrale
Graphiques 2D D3.js v7.8.5 Toutes les visualisations analytiques
IA — Sentiment distilcamembert-base-sentiment Arc émotionnel
IA — NER Jean-Baptiste/camembert-ner Réseau de personnages
Calcul Python 3.12, PyTorch, HuggingFace Transformers Pipeline de pré-calcul
Émotions NRC Emotion Lexicon (français) 8 émotions fondamentales

Références

Limites et perspectives

Les limites

Le modèle de sentiment est entraîné sur des critiques de cinéma, pas sur de la littérature. Sa lecture est parfois littérale là où Proust est ironique, et il ne saisit pas toujours la tonalité d'un passage où la beauté et la mélancolie se mêlent.

La reconnaissance de personnages est limitée aux 34 personnages de la table d'alias. Les personnages secondaires — les domestiques, les passants, les visages entrevus — échappent à l'analyse. Le réseau montre l'ossature sociale de la Recherche, pas sa chair.

Les perspectives

Analyse par modèle de langue plus fin (Claude, GPT-4) pour une compréhension littéraire plus profonde. Topic modeling neuronal avec BERTopic pour identifier des thèmes émergents sans classification préalable. Mesure de similarité entre passages pour détecter les échos et les reprises. Cartographie spatiale des lieux de la Recherche — Combray, Balbec, Paris, Venise — superposée à la chronologie narrative.