Zum Inhalt springen
✓ 7-Phasen-Pipeline ✓ 450+ Shops getestet ✓ Vollautomatisch ✓ Kein API-Key

So arbeitet der Algorithmus

Von der URL-Eingabe bis zu 5 fertigen Ausgabedateien — in 7 aufeinanderfolgenden Phasen, vollautomatisch, ohne manuelle Konfiguration – hier vollständig erklärt.

Generator starten → Alle Funktionen
2.000
URLs / Analyse
5
Klassif.-Phasen
20×
Parallel-Fetches
450+
Shops getestet
26+
Intent-Routings
5
Ausgabeformate
Live-Analyse-Log — solar-autark.com
$ analyse https://www.solar-autark.com

7 Phasen im Detail

Jede Phase baut auf der vorherigen auf. Höhere Schichten überschreiben niedrigere nur bei eindeutigeren Signalen — dadurch bleiben Klassifikationen stabil und korrekt.

🔍P1
Phase 1 · Discovery
robots.txt → Sitemap → Fallback-Crawl

Gestartet wird mit der robots.txt — Disallow-Regeln erfasst, Sitemap-Pfade ausgelesen. XML- und gzip-Sitemaps (.xml.gz) werden geladen, Index-Sitemaps rekursiv aufgelöst. Ohne Sitemap: strukturierter Homepage-Crawl.

✓ gzip · ✓ Index-Rekursion · ✓ Disallow-Filter · ✓ max. 2.000 URLs
Gambio · WooCommerce · Shopware · Shopify · JTL · TYPO3 · Joomla
robots.txtXML SitemapgzipRekursion
🗂️P2
Phase 2 · Inventar
URL-Normalisierung & Deduplizierung

Alle gesammelten URLs werden normalisiert, auf die Basis-Domain beschränkt, dedupliziert. System-URLs — Admin, API, Checkout, Login, Warenkorb — werden automatisch herausgefiltert.

Beispiel: 685 Sitemap-URLs → 612 Produkte + 61 Kategorien + 12 Info-Seiten
Filter: /admin/ · /checkout/ · /api/ · /login/ · /?action=
NormalisierungDedupSystem-Filter
🧠P3
Phase 3 · Klassifikation
5-Schicht-Klassifikation (autoCat)

Das algorithmische Herzstück. Jede URL durchläuft fünf Erkennungsschichten. Nav-bestätigte Kategorien (catUrls) sind dauerhaft immunisiert gegen Reklassifikation.

1. Schema.org Product · CollectionPage · Brand
2. URL-Pattern Gambio .html · WooCommerce /product/ · Pfadtiefe
3. Hersteller /hersteller/ gecrawlt → Marken gesetzt
4. BRAND_WORDS 40+ Muster
5. Strukturell Tiefe × Dateiendung × Navigation
Schema.org5 SchichtenNav-Immunität40+ Muster
P4
Phase 4 · Anreicherung
Batch-Fetch: 20 URLs simultan

Alle klassifizierten URLs werden in Batches à 20 gleichzeitig abgerufen. Extrahiert: Titel, Description, OG-Tags, Schema.org JSON-LD, Preise, Währung, Marke, H1–H3-Headings. Soft-404 via HTML-Analyse erkannt.

Batch: 20 URLs/Aufruf · Ø 0.38s/Batch
Extraktion: title · desc · schema · price · currency · brand · headings
Soft-404: HTML-Body-Analyse · hStr() Heading-Normalisierung
Parallel-FetchJSON-LDPreisdatenSoft-404
🔄P5
Phase 5 · Neuklassifikation
Metadaten-Verfeinerung (reClassify)

Mit den angereicherten Metadaten wird die Klassifikation verfeinert. Preismuster identifizieren weitere Produkte. Marken und Nav-Kategorien bleiben permanent geschützt.

Muster: € · kaufen · Warenkorb · inkl. MwSt. · sofort lieferbar
Schutz: catUrls + confirmedBrandUrls blockieren Fehlumstufen
WooCommerce: Tiefe≥2 ohne /product/ = immer Kategorie
PreiserkennungNav-SchutzMarken-Immunität
P6
Phase 6 · Featured
Angebote-Erkennung & Prioritäts-Scoring

Angebots- und Neuheiten-Seiten (specials.php, /sale/) werden gecrawlt. Verlinkte Produkte erhalten featured=true + Prio 0.95 und erscheinen im Preset „⭐ Empfohlen" an erster Stelle.

Quellen: specials.php · products_new.php · /sale/ · /angebote/
Scoring: 0.95 Angebote · 0.90 Neuheiten · 0.85 regulär
AngeboteNeuheitenPrio-Scoring
📄P7
Phase 7 · Generierung
5 Ausgabeformate simultan

Alle Daten fließen gleichzeitig in fünf Ausgabeformate. Smart Titles, 26+ branchenspezifische Intent-Routings, Stand-Datum-Header. Bereit als ZIP-Archiv zum Download.

Smart Titles: Schema.org → URL-Slug → Pfad-Fallback
26+ Intents: automatisch nach erkannter Branche eingefügt
llms.txtJSONYAMLrobots.txtZIP

5 fertige Dateien in einem ZIP

Alle Formate entstehen in einem Durchlauf — direkt zum Hochladen bereit.

📋
llms.txt
Standard für ChatGPT, Claude & Perplexity. Kompakt, direkt zitierbar.
📄
llms-full.txt
Erweitertes Format mit Volltexten und strukturierten Produktdaten.
🗃️
llms-data.json
Maschinenlesbares JSON für APIs, Cronjobs und Weiterverarbeitung.
📝
llms-meta.yaml
YAML für Entwickler, CI/CD-Pipelines und technische Dokumentation.
🤖
robots-llms.txt
Snippet für die direkte Einbindung in Ihre robots.txt.

Technische Erkennungslogik

Jeder Mechanismus wurde durch Tests mit realen Shops entwickelt und verfeinert.

🏭 CMS-Erkennung

Gambio, WooCommerce, Shopware, JTL, PrestaShop — jedes CMS hat eigene URL-Muster. Gambio: .html, WooCommerce: /product/. Regeln werden automatisch angepasst.

💰 Preis- & Währungs-Extraktion

Preise aus offers.price + offers.priceCurrency (ISO-4217). Preisspannen und mehrstufige Offer-Strukturen werden korrekt verarbeitet.

🏷️ Marken-Immunisierung

Erkannte Marken-URLs (confirmedBrandUrls) sind immun gegen alle späteren Reklassifikationen — auch wenn Produkt-Schema vorhanden ist.

🔒 Soft-404-Erkennung

HTTP 200 auf nicht existierende Seiten wird durch HTML-Body-Analyse erkannt — nicht via Content-Type, der auf falsch konfigurierten Servern trügt.

📊 Heading-Normalisierung

Proxy-Antworten liefern Headings als Objekte {tag, text}. hStr() normalisiert zu Strings und verhindert Abstürze auf Mobilgeräten.

🧭 26+ Intent-Routings

Produktempfehlungen, Lieferzeiten, Preisvergleiche, Montage-Anleitungen — automatisch eingefügt, passend zur erkannten Branche.

Pipeline live erleben

Geben Sie Ihre Shop-URL ein — alle 7 Phasen laufen in unter 60 Sekunden.

Generator starten → 📄 Produktübersicht (PDF)