Ergebnis 1 bis 12 von 12

Thema: Suchindex bzw. Crawler läuft enorm lange | Verständnisfrage

  1. #1
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard Suchindex bzw. Crawler läuft enorm lange | Verständnisfrage

    Hallo zusammen,

    auf einer Seite eines Kunden soll nun die Contao Suche zum Einsatz kommen. Die Seite ist schon relativ umfangreich (Zweisprachig DE/EN, etwa 200 Einträge tl_page, etwa 3300 Einträge tl_content), aber mir kommt das Indizieren durch den Crawler schon mächtig lange vor.

    Der läuft nun schon seit 15min, der Fortschrittsbalken steht bei 4% und an Zahlen drunter steht 1340 / 30212. Das verändert bzw vergrößert sich auch ständig. Kann sein, dass meine Frage dumm klingt Aber ist das normal? Ich hatte den schon mal durchlaufen lassen, danach hatte ich dann 2.5 Mio Einträge in der tl_search_index. Beim Versuch auf diesen Datenbestand die Suche auszuführen, lief die Seite in einen Timeout.

    Hat mir da jemand einen Tip, wonach kann ich schauen ob und was auf der Seite vielleicht falsch konfiguriert ist oder was ich sonst falsch mache?

    Lieben Dank schon mal für eure Hilfe.
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  2. #2
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Das kann passieren, wen du bspw. auf deiner Seite Filter via Query Parameter hast. In diesem Fall kann die Zahl an gültigen URLs exponentiell steigen.
    » sponsor me via GitHub or PayPal or Revolut

  3. #3
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    Das war jetzt quasi Gedankenübertragung Genau auf die Möglichkeit bin ich nun auch gekommen. Ich verwendet tatsächlich den Produktfilter von Isotope, der baut ja jeweils die Filterparameter hinten dran.

    Davon gibt es vier Seiten (zwei DE und zwei EN). In diesen Seiten habe ich jetzt in den jeweiligen Seiteneinstellung die Option "nicht durchsuchen" angehakt. Seltsamerweise finden sich beim erneuten Durchlauf immer noch Seiten mit Filer in der tl_crawl_queue - aber nicht mehr so viele.

    Beim vorhin ersten beschriebenen Durchlauf des Crawlers hatte ich in der tl_crawl_queue über 28000 Einträge - jetzt sind es momentan nur etwas über 1000.

    Verständnisfrage: Weisst du was der Crawler zuerst macht ? Also legt er erst alle Einträge in der tl_crawl_queue an und macht danach die Einträge in der tl_search und tl_search_index oder geht das auch häppchenweise ? Und was sagt die Zahl im Contao Backend unter der Fortschrittsanzeige aus 1351 / 29579 - sind das 1351 gecrawlte Seiten von 29579 ?

    Ist es denn "Gut" wenn die tl_search_index so mächtig groß ist? Wiegesagt vorhin, als ich mit dem alten Stand der tl_search_index ne Suche ausführen wollte, kam ein Timeout von Webserver. Was kann man hier machen ?
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  4. #4
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Welche Isotope Version?
    » sponsor me via GitHub or PayPal or Revolut

  5. #5
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    2.6.15 - da war ne individuelle Anpassung drin die nicht so ganz updatesicher ist Deswegen noch kein Update.
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  6. #6
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Du könntest in den Einstellungen deines Website Roots unter Website-Einstellungen » Individuelle robots.txt-Anweisungen folgendes hinzufügen:
    Code:
    user-agent: *
    disallow: /*?*isorc=
    disallow: /*?*categoryfilter=
    Stelle aber sicher dass du (abgesehen von Isotope) die neuesten Versionen aller Pakete in deiner Contao Installation hast (insbesondere terminal42/escargot). Also im Contao Manager: Systemwartung » Composer-Abhängigkeiten » Composer Update ausführen.
    Geändert von Spooky (11.01.2023 um 11:44 Uhr)
    » sponsor me via GitHub or PayPal or Revolut

  7. #7
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    Zitat Zitat von creativx Beitrag anzeigen
    Verständnisfrage: Weisst du was der Crawler zuerst macht ? Also legt er erst alle Einträge in der tl_crawl_queue an und macht danach die Einträge in der tl_search und tl_search_index oder geht das auch häppchenweise ? Und was sagt die Zahl im Contao Backend unter der Fortschrittsanzeige aus 1351 / 29579 - sind das 1351 gecrawlte Seiten von 29579 ?
    1. Der Crawler sucht zuerst nach der robots.txt der jeweiligen Domain.
    2. Findet er dort eine und diese robots.txt hat einen "sitemap" Eintrag (Default in Contao), parsed der Crawler die Sitemap.
    3. Die URLs der Sitemap werden in die URL Queue hinzugefügt.
    4. Der Crawler arbeitet die Queue dann nach der Reihe ab.
    5. Der Crawler fügt dabei jede neue URL, die auf den einzelnen Seiten gefunden werden, zur Queue hinzu, wenn bestimmte Kriterien zutreffen (bspw. wenn die URL nicht via robots.txt Disallowed ist etc.).
    » sponsor me via GitHub or PayPal or Revolut

  8. #8
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    okay, lieben Dank mal für die Ansätze. Werde ich mir anschauen....
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  9. #9
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    Guten Morgen,

    habe mir jetzt eben die individuellen Robots-Einstellungen angschaut. Da steht schon folgender Eintrag drin:

    Code:
    User-Agent: *
    Disallow:/*?*cumulativefilter=
    Disallow:/*?*isorc=
    Die habe ich damals beim Launch bereits in Absprache mit der SEO-Agentur eingefügt, weil die Seiten natürlich von Google auch nicht gelistet werden sollen Hatte ich gar nicht mehr dran gedacht. Folglich bringt das aber dann für die Suche über den internen Crawler nix.

    Blöde Frage: Du schreibst, es soll alles aktuell sein. Ich arbeite nicht mit dem Manager, sondern direkt über die composer.json (lokale Entwicklung, danach Deployment mit Mage PHP). In der composer.lock hab ich drin stehen:

    Code:
     "name": "terminal42/escargot",
     "version": "1.4.1",
    In der composer.json steht escargot ja gar nicht drin. Ich arbeite mit Contao 4.9.31 - kann nun einfach meine composer.json dahingehend ergänzen das ich escargot explizit aufführe in der Version 1.5.0 - das scheint die neuste zu sein.
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  10. #10
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    35.517
    Partner-ID
    10107

    Standard

    In deiner robots.txt fehlt die Disallow Direktive für den Kategorie Filter (außer du hast das nicht).

    Führe einfach composer update aus. In deiner composer.json musst du nichts ändern.
    » sponsor me via GitHub or PayPal or Revolut

  11. #11
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    Ne, wir arbeiten da "nur" mit dem kumulativen Filter. Okay, mach ich mal
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

  12. #12
    Contao-Fan
    Registriert seit
    21.12.2009.
    Beiträge
    445

    Standard

    Hat geklappt, Suchindex ist nicht mehr so unfassbar groß. Mal noch die Suchergebnisse prüfen, aber sollte soweit passen Dankeschön !!!
    Viele Grüße aus dem Süden
    creativx
    ---- Planung ist Ersatz des Zufalls durch den Irrtum ----

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •