Приложение, в котором можно ввести набор текстов и посмотреть, как они будут располагаться в пространстве в виде точек.
Такую визуализацию я однажды увидел на канале @onigiri, где он визуализировал более 10000 комментариев, очень интересный ролик и идея. Я не пробовал загружать 10000 комментариев, но если постараться найти файл с эмбендингами на 10000 комментариев, то в добрый путь! Ограничений никаких нет, все вычисления производятся в браузере на клиенте.
Не нашел вариант генерировать эмбендинги в браузере, кроме как генерировать скрипт и слать пользователя с этим скриптом в Google Colab, где есть python с LLMками.
На вход дается набор текста, этот текст разрезается на абзацы и генерируется тот самый скрипт, пользователь переходит в Google Colab и вставляет скрипт, после чего на компьютер загружается json эмбендигов каждого абзаца. После пользователь отдает на вход сгенерированный json, и далее эмбединги обрабатываются через алгоритм UMAP и преобразуются из 384-мерного пространства в 2-мерное. Затем проходит процесс кластеризации точек через алгоритм DBSCAN, чтобы выделить ближайшие точки и объединить их в один кластер (цвет). Далее это всё попадает в визуальное пространство с помощью WebGL. Использовал для этого библиотеку PixiJS.