-
Notifications
You must be signed in to change notification settings - Fork 0
Segmentation : détecter les changements de lieu dans un chunk multi-scènes #31
Description
Problème
La segmentation sémantique (similarité cosinus entre blocs adjacents) ne détecte pas les changements de lieu — elle détecte les changements de sujet. Dans LOTR par exemple, une transition Shire → Orthanc a une similarité élevée car les deux scènes partagent le même contexte narratif (Gandalf, la menace de Sauron).
Résultat : un chunk peut contenir deux scènes distinctes à deux lieux différents, et l'analyseur produit un résumé hybride incohérent.
Contrainte
Le format libre (pas de headings INT./EXT.) est volontaire — on ne peut pas se baser sur des marqueurs de scène.
Pistes
-
Post-détection LLM : si l'analyseur détecte deux lieux distincts dans son résumé, resplitter le chunk et ré-analyser chaque moitié (coût : appels supplémentaires)
-
Modèle de sortie N scènes : adapter le prompt +
output_typepour que l'analyseur retourne une liste de scènes au lieu d'une seule — un chunk multi-scènes produit N entrées en base -
Hybride : combiner similarité sémantique + heuristique de changement de lieu (NER sur les noms de lieux entre blocs adjacents)