← Zurück zu Projekten

Private Knowledge Hub

AbgeschlossenLocal / Privé — pas de démo en ligne
Intéressé par une démonstration personnelle ? Me contacter →

Lokales Dokumenten-Retrievalsystem für private Projektunterlagen. Indexiert CLAUDE.md-, README- und SKILL.md-Dateien aus 10+ Projekten und beantwortet Fragen in natürlicher Sprache mit quellenbasierter Antwortgenerierung und Markdown-Rendering.

Technologien

PythonFastAPIPostgreSQLpgvectorAWS RDSmarked.js

Problem

Über 65 persönliche Projektdokumente (CLAUDE.md-Dateien, README-Dateien, SKILL.md-Dateien, Code-Dateien) sind über mehrere Repos verteilt. Kein einheitliches Interface, um projektübergreifend Wissen abzufragen oder Kontext gezielt abzurufen.

Ansatz

FolderIngester mit rekursivem Ordner-Walk, 18 unterstützte Dateitypen, SHA-256-Dedup und 50 MB-Grenze. MarkdownLoader mit Regex-Stripping-Pipeline (entfernt ##, **, Tabellensyntax) vor dem Embedding für bessere Ähnlichkeitstreffer. Similarity-Threshold auf 0,25 kalibriert — Markdown-Dokumente scoren niedriger als Prosa-PDFs. Scoped über app_name="private_hub" in der gemeinsamen pgvector-Datenbank auf AWS RDS.

Ergebnis

65+ persönliche Projektdokumente indexiert. FastAPI lokal auf localhost:8001 — komplett getrennt von der öffentlichen RAG-Demo. Löschen und De-Indexierung pro Dokument mit Cascade-Cleanup von Chunks und Embeddings. Antworten werden mit marked.js als formatiertes Markdown gerendert.

Learnings

Similarity-Threshold ist dokumenttypabhängig: Markdown-Dokumente mit Struktursyntax scoren niedriger als Prosa-PDFs — Stripping vor dem Embedding verbessert die Retrievalqualität messbar. app_name-Scoping ermöglicht mandantenfähige Wiederverwendung einer gemeinsamen pgvector-Datenbank ohne Datenvermischung.

Relevanz

Zeigt Privacy-first AI-Tooling, praktische Wiederverwendung geteilter Infrastruktur und den Aufbau persönlicher Produktivitätswerkzeuge für Wissensarbeiter — ohne externe Abhängigkeiten oder Cloud-Deployments für private Inhalte.