Invisible Threads

🌐 Live Project: This backend powers threads.anshumani.com — a web application that visualizes invisible threads across podcasts and essays.

About

Extracts "invisible threads" from podcasts and essays — non-obvious insights that connect multiple conversations. This repository contains the backend pipeline that powers the frontend visualization at threads.anshumani.com.

Works with two content types:

🎧 YouTube podcasts (transcript-based) - Links insights to exact video timestamps
📝 Essays/blogs (website-based) - Links insights to source URLs

Final Results

🎧 Lenny's Podcast

465 high-quality insights extracted from 13,513 chunks (3.4% rate, avg novelty 8.1/10)
20 invisible threads connecting 116 insights across 75+ episodes
- 8 major threads (3+ insights each)
- 12 emerging threads (2 insights each)
25% coverage — 1 in 4 insights forms part of a cross-episode thread
Direct YouTube links — each insight links to the exact timestamp in the source video

📝 Paul Graham Essays

270 high-quality insights extracted from 4,415 chunks (6.1% rate)
22 invisible threads connecting 170 insights across 70+ essays
63% coverage — higher density than podcasts due to written content
Direct essay links — each insight links to the source essay URL

Total across both sources:

735 insights discovered
42 invisible threads found
286 insights connected across conversations

🌐 Live Website

This pipeline powers Invisible Threads, a web application where you can:

🔍 Browse all 20 discovered threads
🎧 Explore insights from Lenny's Podcast (465 insights across 303 episodes)
📝 Read insights from Paul Graham's Essays (270 insights across 228 essays)
🔗 Click through to exact timestamps in YouTube videos or essay sources
🧠 Discover non-obvious patterns across hundreds of conversations

Frontend Repository: The web interface is built separately and consumes the JSON files generated by this pipeline.

Quick Start

# 1. Install dependencies
pip install -r requirements.txt

# 2. Set up Modal account (for GPU inference)
# Sign up at https://modal.com and run:
modal setup

# 3. Prepare your database
# You'll need a SQLite database with:
# - chunks table: text chunks with document_id (+ timestamp_start for videos)
# - documents table: metadata with video_url or essay_url

# 4a. Run pipeline for podcasts/videos
modal run modal_extract.py --db your_database.db
python find_threads_v2.py --input data/modal_extraction_*.json
modal run name_clusters.py --input data/threads_*.json

# 4b. Run pipeline for essays/blogs
modal run modal_extract_pg.py --db your_database.db
python find_threads_v2.py --input data/pg_extraction_*.json --min-episodes 2
modal run name_clusters.py --input data/threads_*.json --min-episodes 2

Pipeline Scripts

Core Pipeline (run in order)

File	Purpose	Command
`modal_extract.py`	Extract insights from podcasts	`modal run modal_extract.py --db your_database.db`
`modal_extract_pg.py`	Extract insights from essays/blogs	`modal run modal_extract_pg.py --db your_database.db`
`find_threads_v2.py`	Discover connected threads	`python find_threads_v2.py --input data/modal_extraction_*.json`
`name_clusters.py`	Name discovered threads	`modal run name_clusters.py --input data/threads_*.json`
`check_thread_quality.py`	Validate thread quality	`modal run check_thread_quality.py --input data/named_threads_*.json`
`add_thread_descriptions.py`	Add descriptions to 2-insight threads	`modal run add_thread_descriptions.py`

Utility Scripts

File	Purpose
`enrich_with_video.py`	Add video URLs to existing podcast data
`create_final_export.py`	Create curated final output
`create_clean_threads_v2.py`	Clean and deduplicate threads
`fix_pg_threads.py`	Fix Paul Graham essay threads
`merge_pairs.py`	Merge thread pairs
`list_threads.py`	List all threads in a file

Experimental/Legacy

File	Status
`find_debates.py`	Experimental - debate detection has high false positive rate
`validate_debates.py`	Helper for debate validation
`find_threads.py`	Legacy - replaced by find_threads_v2.py

Output Data

Final Output (in data/ directory):

Lenny's Podcast:

threads_final.json — 20 curated threads (116 insights) — USE THIS FOR PRODUCTION
modal_extraction_20260120_024600.json — 465 extracted insights with YouTube timestamps

Paul Graham Essays:

pg_threads_final.json — 22 curated threads (170 insights)
pg_extraction_*.json — 270 extracted insights with essay URLs

Intermediate Files (in data/ directory):

threads_v2_*.json — Raw threading output before curation
named_threads_v2_*.json — Threads with LLM-generated names
quality_check_*.json — Quality validation results

Note: Data files are excluded from git (see .gitignore). You'll need to run the pipeline to generate them.

Documentation

File	Contents
`README.md`	This file - quick start and pipeline overview
`PROJECT_LOG.md`	Complete project history, decisions, what worked/didn't work
`FINAL_SUMMARY.md`	Executive summary of results and technical decisions

Database Requirements

The pipeline requires a SQLite database with the following schema:

`chunks` table

id — Unique chunk identifier
text — Chunk text (transcript or essay)
document_id — Reference to source document
timestamp_start — (Optional) Starting timestamp for videos (HH:MM:SS format)

`documents` table

id — Unique document identifier
title — Document title (episode or essay)
video_url OR essay_url — Source URL
Additional metadata fields as needed

Examples:

lennys_full.db — 13,513 chunks from 303 podcast episodes
pg_essays.db — 4,415 chunks from 228 Paul Graham essays

Key Difference: Chunk Size

Podcasts: 500 words per chunk (conversational, less dense)
Essays: 150 words per chunk (dense, polished writing)

Smaller chunks for essays allow each distinct idea to be evaluated separately. At 500 words, essays often contain 3-4 ideas and the LLM must pick one.

Key Approach

Extract insights first — strict LLM filtering (must be SPECIFIC + NON-OBVIOUS + ACTIONABLE)
Extract topics from insights — LLM extracts core topic/claim from each insight
Embed topics (not insights) — this captures conceptual similarity vs vocabulary overlap
Graph-based threading — Louvain community detection finds natural clusters
Multi-episode filtering — threads must span 2+ different episodes (min_episodes=2)
Size threshold — accept threads with 2+ insights (min_size=2)
Same-guest filtering — remove 2-insight threads from the same guest (likely duplicates)
Deduplication — keep only best insight per episode per thread
Manual curation — LLM naming failed, thread names curated by hand
Video linking — each insight includes timestamp_url for direct YouTube playback

Why Topic-Based Embedding?

Problem discovered: Embedding full insights captures vocabulary overlap, not conceptual similarity.

99th percentile insight similarity was only 0.496
Different guests using different words for same concept → low embedding similarity
High similarity = near-duplicates, not conceptual connections

Solution: Extract topic/claim from each insight → embed the topic → cluster by topic similarity.

This captures conceptual similarity regardless of vocabulary
Improved coverage from 8% to 54% (before filtering)
Final output: 20% coverage after quality filtering

Quality Filtering

Multi-episode requirement: Min 2 different episodes (no single-source "threads")
Same-guest filtering: Remove 2-insight threads from same guest (3 filtered out)
Deduplication: Max 1 insight per episode per thread
Remove NO_CLEAR_THREAD: LLM couldn't find coherent theme
Manual name curation: LLM produced ALL_CAPS_WITH_UNDERSCORES

Result: 8 major threads (3+ insights) + 12 emerging threads (2 insights) = 20 total threads

Source Links

For Podcasts

Every insight includes:

video_url — base YouTube URL
timestamp_start — HH:MM:SS timestamp
timestamp_url — clickable link like https://youtube.com/watch?v=xyz&t=1633

This is included by default in modal_extract.py. For existing data, run enrich_with_video.py.

For Essays

Every insight includes:

essay_url — direct link to the source essay
title — essay title

This is included by default in modal_extract_pg.py.

Podcasts vs Essays: Key Differences

The pipeline works for both content types with one key adaptation:

Aspect	Podcasts	Essays
Chunk size	500 words	150 words
Extraction rate	3.4%	6.1%
Coverage	25%	63%
Content style	Conversational	Dense/polished
Links	YouTube timestamps	Essay URLs
Multiple voices	Yes (guests)	No (single author)
Extractor	`modal_extract.py`	`modal_extract_pg.py`
Database	`lennys_full.db`	`pg_essays.db`

Why smaller chunks for essays?

Essays are dense — at 500 words, a chunk often contains 3-4 distinct ideas. The LLM has to pick ONE, potentially missing the others. Smaller chunks (150 words) let each idea get evaluated separately.

Why higher yield for essays?

Written content is more intentional with fewer filler words and tangents compared to conversational podcasts.

What About Debates?

Attempted but failed. The debate detection approach had a fatal flaw:

Mechanism:

Extract TOPIC + STANCE from each insight (LLM)
Group insights by topic similarity (embeddings)
Check if stances within group are opposed (LLM)

Problem: The LLM opposition checker treats ANY difference as opposition:

"Prioritize user feedback" vs "Don't solely rely on feedback" → marked as opposition
Reality: Both recommend using feedback, just different emphasis
Even identical positions with different wording were marked as oppositions

Evidence: 9.5% of checked pairs marked as "genuine opposition", but 95%+ were false positives.

Conclusion: The approach successfully groups related insights but cannot distinguish:

Genuine opposition ("Do X" vs "Don't do X")
Different emphasis ("Prioritize X" vs "Balance X and Y")
Complementary views ("Focus on X" vs "Also consider Y")

Result: Debates removed from final output. Only threads retained.

Requirements

Python 3.8+
Modal account (for GPU inference) — https://modal.com
Dependencies in requirements.txt:
- modal — GPU inference platform
- sentence-transformers — Embedding model
- networkx — Graph algorithms
- python-louvain — Community detection
- scikit-learn — Similarity computations

Installation

# Clone the repository
git clone https://github.com/baboonzero/invisible-threads.git
cd invisible-threads

# Install dependencies
pip install -r requirements.txt

# Set up Modal (requires account)
modal setup

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Invisible Threads

About

Final Results

🎧 Lenny's Podcast

📝 Paul Graham Essays

🌐 Live Website

Quick Start

Pipeline Scripts

Core Pipeline (run in order)

Utility Scripts

Experimental/Legacy

Output Data

Documentation

Database Requirements

`chunks` table

`documents` table

Key Difference: Chunk Size

Key Approach

Why Topic-Based Embedding?

Quality Filtering

Source Links

For Podcasts

For Essays

Podcasts vs Essays: Key Differences

What About Debates?

Requirements

Installation

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
assets		assets
.gitignore		.gitignore
DATA_README.md		DATA_README.md
FINAL_SUMMARY.md		FINAL_SUMMARY.md
GITHUB_PREP_SUMMARY.md		GITHUB_PREP_SUMMARY.md
LICENSE		LICENSE
PROJECT_LOG.md		PROJECT_LOG.md
README.md		README.md
add_thread_descriptions.py		add_thread_descriptions.py
check_thread_quality.py		check_thread_quality.py
create_clean_threads_v2.py		create_clean_threads_v2.py
create_final_export.py		create_final_export.py
enrich_with_video.py		enrich_with_video.py
find_debates.py		find_debates.py
find_threads.py		find_threads.py
find_threads_v2.py		find_threads_v2.py
fix_pg_threads.py		fix_pg_threads.py
list_threads.py		list_threads.py
merge_pairs.py		merge_pairs.py
modal_extract.py		modal_extract.py
modal_extract_pg.py		modal_extract_pg.py
name_clusters.py		name_clusters.py
requirements.txt		requirements.txt
validate_debates.py		validate_debates.py

License

baboonzero/invisible-threads

Folders and files

Latest commit

History

Repository files navigation

Invisible Threads

About

Final Results

🎧 Lenny's Podcast

📝 Paul Graham Essays

🌐 Live Website

Quick Start

Pipeline Scripts

Core Pipeline (run in order)

Utility Scripts

Experimental/Legacy

Output Data

Documentation

Database Requirements

chunks table

documents table

Key Difference: Chunk Size

Key Approach

Why Topic-Based Embedding?

Quality Filtering

Source Links

For Podcasts

For Essays

Podcasts vs Essays: Key Differences

What About Debates?

Requirements

Installation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

`chunks` table

`documents` table

Packages