Skip to content

Segmentation : détecter les changements de lieu dans un chunk multi-scènes #31

@renaudcepre

Description

@renaudcepre

Problème

La segmentation sémantique (similarité cosinus entre blocs adjacents) ne détecte pas les changements de lieu — elle détecte les changements de sujet. Dans LOTR par exemple, une transition Shire → Orthanc a une similarité élevée car les deux scènes partagent le même contexte narratif (Gandalf, la menace de Sauron).

Résultat : un chunk peut contenir deux scènes distinctes à deux lieux différents, et l'analyseur produit un résumé hybride incohérent.

Contrainte

Le format libre (pas de headings INT./EXT.) est volontaire — on ne peut pas se baser sur des marqueurs de scène.

Pistes

  1. Post-détection LLM : si l'analyseur détecte deux lieux distincts dans son résumé, resplitter le chunk et ré-analyser chaque moitié (coût : appels supplémentaires)

  2. Modèle de sortie N scènes : adapter le prompt + output_type pour que l'analyseur retourne une liste de scènes au lieu d'une seule — un chunk multi-scènes produit N entrées en base

  3. Hybride : combiner similarité sémantique + heuristique de changement de lieu (NER sur les noms de lieux entre blocs adjacents)

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions