Skip to content

AndreNazar/text-visualization

Repository files navigation

Визуализация текста в пространстве

Приложение, в котором можно ввести набор текстов и посмотреть, как они будут располагаться в пространстве в виде точек.

Такую визуализацию я однажды увидел на канале @onigiri, где он визуализировал более 10000 комментариев, очень интересный ролик и идея. Я не пробовал загружать 10000 комментариев, но если постараться найти файл с эмбендингами на 10000 комментариев, то в добрый путь! Ограничений никаких нет, все вычисления производятся в браузере на клиенте.

Не нашел вариант генерировать эмбендинги в браузере, кроме как генерировать скрипт и слать пользователя с этим скриптом в Google Colab, где есть python с LLMками.

Работает так:

На вход дается набор текста, этот текст разрезается на абзацы и генерируется тот самый скрипт, пользователь переходит в Google Colab и вставляет скрипт, после чего на компьютер загружается json эмбендигов каждого абзаца. После пользователь отдает на вход сгенерированный json, и далее эмбединги обрабатываются через алгоритм UMAP и преобразуются из 384-мерного пространства в 2-мерное. Затем проходит процесс кластеризации точек через алгоритм DBSCAN, чтобы выделить ближайшие точки и объединить их в один кластер (цвет). Далее это всё попадает в визуальное пространство с помощью WebGL. Использовал для этого библиотеку PixiJS.

Демо: andrenazar.github.io/text-visualization

About

Визуализация текста в пространстве

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors