So arbeitet der Algorithmus
Von der URL-Eingabe bis zu 5 fertigen Ausgabedateien — in 7 aufeinanderfolgenden Phasen, vollautomatisch, ohne manuelle Konfiguration – hier vollständig erklärt.
Generator starten → Alle Funktionen7 Phasen im Detail
Jede Phase baut auf der vorherigen auf. Höhere Schichten überschreiben niedrigere nur bei eindeutigeren Signalen — dadurch bleiben Klassifikationen stabil und korrekt.
Gestartet wird mit der robots.txt — Disallow-Regeln erfasst, Sitemap-Pfade ausgelesen. XML- und gzip-Sitemaps (.xml.gz) werden geladen, Index-Sitemaps rekursiv aufgelöst. Ohne Sitemap: strukturierter Homepage-Crawl.
Gambio · WooCommerce · Shopware · Shopify · JTL · TYPO3 · Joomla
Alle gesammelten URLs werden normalisiert, auf die Basis-Domain beschränkt, dedupliziert. System-URLs — Admin, API, Checkout, Login, Warenkorb — werden automatisch herausgefiltert.
Filter: /admin/ · /checkout/ · /api/ · /login/ · /?action=
Das algorithmische Herzstück. Jede URL durchläuft fünf Erkennungsschichten. Nav-bestätigte Kategorien (catUrls) sind dauerhaft immunisiert gegen Reklassifikation.
2. URL-Pattern Gambio .html · WooCommerce /product/ · Pfadtiefe
3. Hersteller /hersteller/ gecrawlt → Marken gesetzt
4. BRAND_WORDS 40+ Muster
5. Strukturell Tiefe × Dateiendung × Navigation
Alle klassifizierten URLs werden in Batches à 20 gleichzeitig abgerufen. Extrahiert: Titel, Description, OG-Tags, Schema.org JSON-LD, Preise, Währung, Marke, H1–H3-Headings. Soft-404 via HTML-Analyse erkannt.
Extraktion: title · desc · schema · price · currency · brand · headings
Soft-404: HTML-Body-Analyse · hStr() Heading-Normalisierung
Mit den angereicherten Metadaten wird die Klassifikation verfeinert. Preismuster identifizieren weitere Produkte. Marken und Nav-Kategorien bleiben permanent geschützt.
Schutz: catUrls + confirmedBrandUrls blockieren Fehlumstufen
WooCommerce: Tiefe≥2 ohne /product/ = immer Kategorie
Angebots- und Neuheiten-Seiten (specials.php, /sale/) werden gecrawlt. Verlinkte Produkte erhalten featured=true + Prio 0.95 und erscheinen im Preset „⭐ Empfohlen" an erster Stelle.
Scoring: 0.95 Angebote · 0.90 Neuheiten · 0.85 regulär
Alle Daten fließen gleichzeitig in fünf Ausgabeformate. Smart Titles, 26+ branchenspezifische Intent-Routings, Stand-Datum-Header. Bereit als ZIP-Archiv zum Download.
26+ Intents: automatisch nach erkannter Branche eingefügt
5 fertige Dateien in einem ZIP
Alle Formate entstehen in einem Durchlauf — direkt zum Hochladen bereit.
Technische Erkennungslogik
Jeder Mechanismus wurde durch Tests mit realen Shops entwickelt und verfeinert.
🏭 CMS-Erkennung
Gambio, WooCommerce, Shopware, JTL, PrestaShop — jedes CMS hat eigene URL-Muster. Gambio: .html, WooCommerce: /product/. Regeln werden automatisch angepasst.
💰 Preis- & Währungs-Extraktion
Preise aus offers.price + offers.priceCurrency (ISO-4217). Preisspannen und mehrstufige Offer-Strukturen werden korrekt verarbeitet.
🏷️ Marken-Immunisierung
Erkannte Marken-URLs (confirmedBrandUrls) sind immun gegen alle späteren Reklassifikationen — auch wenn Produkt-Schema vorhanden ist.
🔒 Soft-404-Erkennung
HTTP 200 auf nicht existierende Seiten wird durch HTML-Body-Analyse erkannt — nicht via Content-Type, der auf falsch konfigurierten Servern trügt.
📊 Heading-Normalisierung
Proxy-Antworten liefern Headings als Objekte {tag, text}. hStr() normalisiert zu Strings und verhindert Abstürze auf Mobilgeräten.
🧭 26+ Intent-Routings
Produktempfehlungen, Lieferzeiten, Preisvergleiche, Montage-Anleitungen — automatisch eingefügt, passend zur erkannten Branche.
Pipeline live erleben
Geben Sie Ihre Shop-URL ein — alle 7 Phasen laufen in unter 60 Sekunden.
Generator starten → 📄 Produktübersicht (PDF)