Private Knowledge Hub
AbgeschlossenLocale / Privato — nessuna demo liveLokales Dokumenten-Retrievalsystem für private Projektunterlagen. Indexiert CLAUDE.md-, README- und SKILL.md-Dateien aus 10+ Projekten und beantwortet Fragen in natürlicher Sprache mit quellenbasierter Antwortgenerierung und Markdown-Rendering.
Technologien
Problem
Über 65 persönliche Projektdokumente (CLAUDE.md-Dateien, README-Dateien, SKILL.md-Dateien, Code-Dateien) sind über mehrere Repos verteilt. Kein einheitliches Interface, um projektübergreifend Wissen abzufragen oder Kontext gezielt abzurufen.
Ansatz
FolderIngester mit rekursivem Ordner-Walk, 18 unterstützte Dateitypen, SHA-256-Dedup und 50 MB-Grenze. MarkdownLoader mit Regex-Stripping-Pipeline (entfernt ##, **, Tabellensyntax) vor dem Embedding für bessere Ähnlichkeitstreffer. Similarity-Threshold auf 0,25 kalibriert — Markdown-Dokumente scoren niedriger als Prosa-PDFs. Scoped über app_name="private_hub" in der gemeinsamen pgvector-Datenbank auf AWS RDS.
Ergebnis
65+ persönliche Projektdokumente indexiert. FastAPI lokal auf localhost:8001 — komplett getrennt von der öffentlichen RAG-Demo. Löschen und De-Indexierung pro Dokument mit Cascade-Cleanup von Chunks und Embeddings. Antworten werden mit marked.js als formatiertes Markdown gerendert.
Learnings
Similarity-Threshold ist dokumenttypabhängig: Markdown-Dokumente mit Struktursyntax scoren niedriger als Prosa-PDFs — Stripping vor dem Embedding verbessert die Retrievalqualität messbar. app_name-Scoping ermöglicht mandantenfähige Wiederverwendung einer gemeinsamen pgvector-Datenbank ohne Datenvermischung.
Relevanz
Zeigt Privacy-first AI-Tooling, praktische Wiederverwendung geteilter Infrastruktur und den Aufbau persönlicher Produktivitätswerkzeuge für Wissensarbeiter — ohne externe Abhängigkeiten oder Cloud-Deployments für private Inhalte.