Contao-Camp 2024
Seite 1 von 2 12 LetzteLetzte
Ergebnis 1 bis 40 von 77

Thema: Suchindex per CLI bei ALL-INKL aufbauen

  1. #1
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard Suchindex per CLI bei ALL-INKL aufbauen

    Hallo,

    ich möchte jetzt mal den Suchindex per CLI aufbauen.

    Ich bin bei All-Inkl und mein SSH User meldet sich quasi gleich für meine Domain an, wenn ich das richtig verstehe. So wie es im Handbuch steht mit der Domain hinter der Anmeldung wird mir der Zugang verweigert.
    https://docs.contao.org/manual/de/sy...rtung/#crawler

    Also habe ich das Unterverzeichnis der Installation gewechselt, wo ich den Suchindex aktualisieren möchte. Es liegen da aber mehrere Umgebungen nebeneinander in verschiedenen Unterverzeichnissen, also

    SSH-User Berechtigung für das Verzeichnis und darin ist:

    contao_1
    contao_2
    contao_3

    Wenn nun die Umgebung, wo ich den Suchindex aufbauen möchten, in Verzeichnis "contao_3" liegt, bin ich in dieses gewechselt und dann in

    vendor/bin/

    Gebe ich dort

    contao-console contao:crawl

    ein, bekomme ich ein "comand not found". Ich muss mich ja sicherlich auch im CLI anmelden oder? Wie mache ich das?
    Geändert von Shania (04.01.2022 um 17:07 Uhr)
    Viele Grüße
    Shania

  2. #2
    Contao-Urgestein Avatar von fiedsch
    Registriert seit
    09.07.2009.
    Ort
    München
    Beiträge
    2.935

    Standard

    Du musst (sollst) nicht weiter in vendor/bin/ wechseln. Das Programm contao-console wird nicht gefunden, das das aktuelle Verzwichnis typischerweise nicht in Suchpfad enthalten ist. Mit vendor/bin/contao-console (wie in der Doku angegeben) sollte es funktionieren.

    Edit:
    ch muss mich ja sicherlich auch im CLI anmelden oder?
    Nein, musst Du nicht. Du bist ja bereits Durch Deinen ssh-Login „angemeldet“.
    Contao-Community-Treff Bayern: http://www.contao-bayern.de

  3. #3
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Ok, danke, super, das klappt nun .
    Viele Grüße
    Shania

  4. #4
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Jetzt läuft auch der Check auf Broken Links mit. Dazu zwei Fragen:

    1. Kann man das getrennt laufen lassen und wie?

    2. Kann man die broken links auch im CLI in einer Datei ausgeben lassen? Das wird bei meiner Seite viel, wie es aussieht. Sie ist halt groß und alt enthält an vielen Stellen auch externe Links.
    Viele Grüße
    Shania

  5. #5
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    1. Kann man das getrennt laufen lassen und wie?
    Code:
    vendor/bin/contao-console contao:crawl --help
    Code:
    vendor/bin/contao-console contao:crawl --subscribers="search-index"
    Damit wird nur der Suchindex aufgebaut.
    » sponsor me via GitHub or PayPal or Revolut

  6. #6
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    2. Kann man die broken links auch im CLI in einer Datei ausgeben lassen? Das wird bei meiner Seite viel, wie es aussieht. Sie ist halt groß und alt enthält an vielen Stellen auch externe Links.
    Code:
    vendor/bin/contao-console contao:crawl --help
    Code:
    vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv
    Damit wird im Projektverzeichnis ein CSV erstellt.
    » sponsor me via GitHub or PayPal or Revolut

  7. #7
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Ok, danke, dann versuche ich das mal, der Job ist jetzt leider bei 25 % abgebrochen.

    Code:
    Crawling…
    15642/62119 [=======>--------------------]  25%
    PHP Fatal error:  Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes) in /www/htdocs/***/***/vendor/symfony/dom-crawler/Crawler.php on line 1224
    
    Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes) in /www/htdocs/***/***/vendor/symfony/dom-crawler/Crawler.php on line 1224
    
    In Crawler.php line 1224:
    
      Error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes)
    Eine Seite, die ich sehr oft verlinkt habe, hat ihre URL Struktur geändert. Das ist natürlich blöd.

    Den kaputte Links Crawler kann ich dann wohl gar nicht nutzen, denn im backend bricht der Job irgendwann ab, weil sich das backend wegen Inaktivität abmeldet und ich würde ja auch nicht dabei bleiben wollen, sondern das einfach durchlaufen lassen. Am besten, wenn ich schlafe .
    Viele Grüße
    Shania

  8. #8
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Auf deinem Hosting gibt es auf der Command Line wohl ein 128 MiB memory_limit. Du könntest folgendes Kommando versuchen:
    Code:
    php -d memory_limit=4G vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv
    Hinweis:
    Code:
    php
    musst du ggf. mit dem Pfad zum richtigen PHP CLI ersetzen.
    » sponsor me via GitHub or PayPal or Revolut

  9. #9
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    trage das mal in web/.htaccess oben ein

    PHP-Code:
    # All-inkl memory_limit
    php_value memory_limit 512M 
    (ist natürlich nur für die Web-Aufrufe und nicht CLI)

  10. #10
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von zonky Beitrag anzeigen
    trage das mal in web/.htaccess oben ein

    PHP-Code:
    # All-inkl memory_limit
    php_value memory_limit 512M 
    Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.
    » sponsor me via GitHub or PayPal or Revolut

  11. #11
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.
    hatte ich inzwischen als Hinweis ergänzt - aber damit ist auch bei den Webaufrufen etwas mehr Luft nach oben...

  12. #12
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Genau und das ist auch schon lange dort eingetragen .

    Es ist wieder nicht durchgelaufen . Es kam:

    Code:
    Remote side unexpectedly closed network connection
    
    Session stopped
        - Press <return> to exit tab
        - Press R to restart session
        - Press S to save terminal output to file
    login as: Remote side unexpectedly closed network connection
    Remote side unexpectedly closed network connection
    Das liegt am Client oder am meiner Internetverbindung?

    Also, wenn ihr mal was zum testen braucht, dann scheint meine Seite sich für den hardcoretest zu eignen .
    Viele Grüße
    Shania

  13. #13
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Es ist wieder nicht durchgelaufen . Es kam:

    Code:
    Remote side unexpectedly closed network connection
    
    Session stopped
        - Press <return> to exit tab
        - Press R to restart session
        - Press S to save terminal output to file
    login as: Remote side unexpectedly closed network connection
    Remote side unexpectedly closed network connection
    Das liegt am Client oder am meiner Internetverbindung?
    Die SSH Verbindung wurde unterbrochen. Das kann viele Gründe haben. Evt. hilft es wenn du einen SSH Client mit Keep-Alive Funktion nutzt.

    Versuchst du das Ganze auf einem normalen Shared Hosting? Ich denke dein Vorhaben benötigt eher einen richtigen Root- oder Managed Server, wo du auf der Konsole bspw. mit screen arbeiten kannst.
    » sponsor me via GitHub or PayPal or Revolut

  14. #14
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.
    Und wenn, dann nur falls bei All-Inkl mod_php benutzt wird, also das Apache Modul, Falls das FastCGI oder PHP-FPM ist, dann wird es - außer eventuell einem Fehler 500 - keine Wirkung haben. Bei mir bei all-inkl ist das jedenfalls kein mod_php. Du kannst dann aber das memory_limit in einer .user.ini im web-Verzeichnis setzen, dauert allerdings ne Weile bis das dann greift.

  15. #15
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Auf deinem Hosting gibt es auf der Command Line wohl ein 128 MiB memory_limit. Du könntest folgendes Kommando versuchen:
    Code:
    php -d memory_limit=4G vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv
    Hinweis:
    Code:
    php
    musst du ggf. mit dem Pfad zum richtigen PHP CLI ersetzen.
    Ich denke das Leerzeichen hinter php -d gehört weg. Jedenfalls habe ich damals bei meiner Nextcloud bei all-inkl ohne Weiteres 512MB einstellen können, so wie es die Cloud gern haben wollte.

  16. #16
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Kann ich nicht bestätigen:
    Code:
    php -d memory_limit=128M -r "echo ini_get('memory_limit');"
    128M
    » sponsor me via GitHub or PayPal or Revolut

  17. #17
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Tatsächlich, klappt!

  18. #18
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Ja, das ist ein Hostingpaket. Ich nutze MobaXterm und habe da jetzt die keepalive Einstellung gefunden. Ich dachte das wäre automatisch eingeschaltet.
    Viele Grüße
    Shania

  19. #19
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Zitat Zitat von tab Beitrag anzeigen
    Du kannst dann aber das memory_limit in einer .user.ini im web-Verzeichnis setzen, dauert allerdings ne Weile bis das dann greift.
    Was muss ich da tun?
    Viele Grüße
    Shania

  20. #20
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Da musst du eine Datei .user.ini anlegen im Web-Verzeichnis. Da kannst du es in der Syntax wie in der php.ini einsetzen. Könnte also z.B. so aussehen
    Code:
    memory_limit=512M
    max_execution_time=0
    Wie die Datei heissen muss steht in user_ini.filename (meist .user.ini, so heißt sie auch in meinem All-Inkl Webhosting), wie oft die Datei eingelesen wird steht in user_ini.cache_ttl (Default 5 Minuten)
    Falls eine max_execution_time von 0 (unbegrenzt) nicht angenommen wird, eben eine positive Zahl eingeben, z.B. 600 für 10 Minuten.

  21. #21
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    @tab: Meinst du das web Verzeichnis von Contao? Oder wo muss ich diese Dateien anlegen? Finden kann ich bei mir keine mit den Namen. Die max_execution_time habe ich bisher über die .htaccess gesetzt.

    Also, eigentlich hatte ich mich über den Crawler gefreut, aber er läuft nun weder im Backend, noch per CLI durch. Auch nicht nur für die Seiten und aufgrund meiner zahlreichen Metamodels steht da (neben nicht funktionierenden Links wie es sein soll) ganz viel im Log, was keinen Sinn für mich macht. Er zählt auch jede Seite der Metamodels mit einer Page nochmal als Seite. Das hat die alte Funktion nicht gemacht. Was da nun richtig oder falsch ist, sei mal dahin gestellt.

    Den Suchindex kann ich so derzeit nicht mehr komplett aufbauen. Das finde ich schon sehr unschön. Die kaputten Links wären schön zu haben, aber wenns nicht geht, ist es auch kein Drama. Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.
    Viele Grüße
    Shania

  22. #22
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Also, eigentlich hatte ich mich über den Crawler gefreut, aber er läuft nun weder im Backend, noch per CLI durch.
    Meinst du nun mit oder ohne Broken Link Clecker?
    » sponsor me via GitHub or PayPal or Revolut

  23. #23
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Beides, es läuft nicht zusammen durch und auch nicht einzeln. Auch allein den Suchindex kann ich nicht aufbauen.
    Viele Grüße
    Shania

  24. #24
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.
    Grundsätzlich hat sich an der "MM-Indexierung" (da werden die Detailseiten zum Seitenindex hinzugefügt) nichts geändert - die Behandlung der Mehrsprachigkeit ist in MM 2.2 etwas anders und da gab es noch einen Bug, der gefixt ist... bisher sind keine (weiteren) Meldungen zur Indexierung bei mir aufgelaufen

  25. #25
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    @tab: Meinst du das web Verzeichnis von Contao? Oder wo muss ich diese Dateien anlegen? Finden kann ich bei mir keine mit den Namen. Die max_execution_time habe ich bisher über die .htaccess gesetzt.
    Ist das ein Server oder vielleicht ein älteres Webhostingpaket? Bei meinem aktuellen Webhostingpaket läuft PHP per FastCGI bzw FPM. PHP Variablen per .htaccess kann man meines Wissens nur setzen, wenn PHP über das entsprechende Apache-Modul mod_php läuft. Ob solche PHP-Einstellungen in der .htaccess im Zweifelsfall einen Fehler 500 erzeugen würde oder einfach ignoriert werden, hängt wohl von der Apache-Konfiguration ab.

    Mit dem Web-Verzeichnis meine ich das web Verzeichnis von Contao, die document root, da wo die index.php drinliegt. Die .user.ini gilt nur für das Verzeichnis, in dem sie drinliegt. Dass noch keine existiert ist normal.

  26. #26
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Vielleicht habe ich ja etwas falsch eingestellt. Schau mal, so sehen die Meldungen aus:

    Code:
    [Contao\CoreBundle\Crawl\Escargot\Subscriber\SearchIndexSubscriber] [[object] (Terminal42\Escargot\CrawlUri: URI: https://www.***/seitenname/page/3.html?page=4 (Level: 4, Processed: yes, Found on: https://www.***/seitenname/page/3.html, Tags: none))] Broken link! HTTP Status Code: 404.
    Wo kommen diese SeitenURLs her? https://www.***/seitenname/page/3.html?page=4

    Die habe ich gar nicht.

    Und so sehen sie auch nicht aus: https://www.***/seitenname/page/3.html

    sondern so: https://www.***/seitenname.html?page=4


    Bild_2022-01-05_110432.png
    Viele Grüße
    Shania

  27. #27
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Zitat Zitat von tab Beitrag anzeigen
    Ist das ein Server oder vielleicht ein älteres Webhostingpaket?
    Das Paket ist schon alt, aber wir sind zwischendurch bestimmt auch mal umgezogen. Aber ich wollte ohnehin noch mit dem Support telefonieren. Da kann ich mal fragen, ob wir auf einen aktuellen Server ziehen können. Sie haben ja nun SSD Platten, habe ich gesehen. Die hätte ich natürlich auch gerne .
    Viele Grüße
    Shania

  28. #28
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.
    Upps - Text nochmal richtig durchgelesen... ich war automatisch von der MM-Indexierung ausgegangen - korrekt: an der MM-Paginierung gab es einige Änderungen und lt. Deinem Screenshot hast Du die auf GET-Parameter gesetzt - von daher dürften da keine Slug-Parameter mehr da sein... kommen die ggf. aus dem Seitencache?

  29. #29
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Vielleicht habe ich ja etwas falsch eingestellt. Schau mal, so sehen die Meldungen aus:

    Code:
    [Contao\CoreBundle\Crawl\Escargot\Subscriber\SearchIndexSubscriber] [[object] (Terminal42\Escargot\CrawlUri: URI: https://www.***/seitenname/page/3.html?page=4 (Level: 4, Processed: yes, Found on: https://www.***/seitenname/page/3.html, Tags: none))] Broken link! HTTP Status Code: 404.
    Wo kommen diese SeitenURLs her? https://www.***/seitenname/page/3.html?page=4

    Die habe ich gar nicht.

    Und so sehen sie auch nicht aus: https://www.***/seitenname/page/3.html

    sondern so: https://www.***/seitenname.html?page=4


    Bild_2022-01-05_110432.png
    Poste die echte URL, um das zu analysieren.
    » sponsor me via GitHub or PayPal or Revolut

  30. #30
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    @Shania - ich guck mir das heute Nachmittag mal bei Dir an...

  31. #31
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Ok, danke dir, zonky.

    Zitat Zitat von zonky Beitrag anzeigen
    Deinem Screenshot hast Du die auf GET-Parameter gesetzt - von daher dürften da keine Slug-Parameter mehr da sein... kommen die ggf. aus dem Seitencache?
    Ich habe jetzt beide MM Caches im Backend gelöscht und nochmal den Anwendungscache im Manager. Noch einer?

    Ich hab jetzt auch erst was anderes zu tun und kann dann nochmal den Crawler auf der Systemebene starten.
    Viele Grüße
    Shania

  32. #32
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Auf der geposteten Seite kommt eine Pagination zum Einsatz - diese funktioniert jedoch nicht.
    » sponsor me via GitHub or PayPal or Revolut

  33. #33
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    wie gesagt - guck ich mir an....

    aber dadurch dürfte der Aufbau des Suchindex nicht abschmieren!

  34. #34
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Also, ich denke wir haben das Problem so weit eingegrenzt, dass es an den Filtern von MM liegt. Hier werden Links erzeugt, die es eigentlich nicht geben sollte. Das war auch schon vorher so, haben wir nun feststellen können, aber es ist mir nie aufgefallen. Es gab ja auch nie einen Zusammenhang mit dem Aufbau des Suchindexes.

    Als Workaround will ich nun mal alle Filter deaktivieren und dann den Suchindex neu erzeugen. Wenn das geht ist das der Workaround. Ansonsten ist es wie es ist, bis es eine Korrektur dazu gibt. zonky hat schon ein Ticket dazu erstellt. Danke dafür und auch für die tolle Hilfe bei der Analyse !

    Aus dem Fehler ergibt sich nun ein weiteres Problem bei mir. Die Datensicherung der Datenbank funktioniert derzeit nicht über das Tool von do_while. Das liegt an der Größe, die die Datenbank jetzt hat. Es gibt einen Serverfehler, dass der Speicherverbrauch vom RAM zu hoch ist.

    Vor dem Upgrade von 4.4. hatte die gesamte Datenbank ca. 100 MB, nun hat sie durch die Einträge in der Tabelle tl_crawl_queue 530 MB. Allein diese Tabelle hat 436 MB . Kann ich die einfach leeren? Oder wofür wird die verwendet? Die Crawler Jobs laufen bisher ja nie durch und ich habe sie mehrfach gestartet. Ich finde auch gleiche Einträge. Muss man die Tabelle über die Systemwartung leeren, bevor man einen neuen Crawl Prozess startet?

    Im Handbuch steht dazu noch nichts und der Screenshot ist auch nicht aus 4.9, dann da ist die Tabelle noch nicht drauf zu sehen. So sieht es nun bei mir in 4.9 aus.

    Bild_2022-01-08_115610.png
    Viele Grüße
    Shania

  35. #35
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Die tl_crawl_queue Tabelle kannst du auf jeden Fall vom Backup ausschließen lassen.
    » sponsor me via GitHub or PayPal or Revolut

  36. #36
    Contao-Fan
    Registriert seit
    20.06.2009.
    Beiträge
    563

    Standard

    Hmm, da weiß ich jetzt gar nicht wie das in dem Tool ginge. Daher würde ich sie einfach leeren, wenn das ginge. Das wäre über das Backend ja sogar möglich.

    Was man an dem Crawler auf jeden Fall ändern sollte, wäre, dass er jede aufrufbare Seite indiziert, also auch jeden Filter, der (nicht nur durch MM) erzeugt wird. Ich denke, das gleiche Problem haben Catalognutzer oder alle Seiten, die andere Erweiterungen nutzen, die Seiten oder Auswahlmöglichkeiten erzeugen. Vielleicht fällt es bei kleineren Seiten nicht so schnell auf oder deren Server sind andere, aber richtig ist es deshalb ja dennoch nicht. Für den Suchindex brauche ich ja auch nicht jede einzelne Seite, die aufrufbar ist, sondern eigentlich die URLs, die auch in der Sitemap stehen. Da ist trotz der Filter alles richtig drin .
    Viele Grüße
    Shania

  37. #37
    Wandelndes Contao-Lexikon Avatar von tab
    Registriert seit
    22.10.2013.
    Beiträge
    10.060
    Contao-Projekt unterstützen

    Support Contao

    Standard

    In System->Einstellungen->BackupDB-Einstellungen unter "Blacklist für Backups" kannst du einfach eine (kommagetrennte) Liste von Tabellen reinschreiben, die nicht gesichert werden sollen.

  38. #38
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von Shania Beitrag anzeigen
    Was man an dem Crawler auf jeden Fall ändern sollte, wäre, dass er jede aufrufbare Seite indiziert, also auch jeden Filter, der (nicht nur durch MM) erzeugt wird.
    Das ist ja gerade der Vorteil des Crawlers, damit auch wirklich jede URL im Suchindex landet.



    Zitat Zitat von Shania Beitrag anzeigen
    Ich denke, das gleiche Problem haben Catalognutzer oder alle Seiten, die andere Erweiterungen nutzen, die Seiten oder Auswahlmöglichkeiten erzeugen.
    Die jeweiligen Extensions sollten vielleicht einen canonical Tag hinzufügen, wenn sie nicht wollen, dass eine bestimmte URL indexiert werden soll. Ab Contao 4.13 kannst du selbst den Canonical Tag setzen lassen über die Seiteneinstellungen.



    Zitat Zitat von Shania Beitrag anzeigen
    aber richtig ist es deshalb ja dennoch nicht. Für den Suchindex brauche ich ja auch nicht jede einzelne Seite, die aufrufbar ist, sondern eigentlich die URLs, die auch in der Sitemap stehen.
    Nein, du willst ja potentiell jede URL im Index haben, denn jede URL kann andere Inhalte haben.
    » sponsor me via GitHub or PayPal or Revolut

  39. #39
    Contao-Urgestein Avatar von zonky
    Registriert seit
    19.03.2010.
    Ort
    Berlin, Rdf
    Beiträge
    9.682
    User beschenken
    Wunschliste

    Standard

    Zitat Zitat von Spooky Beitrag anzeigen
    Das ist ja gerade der Vorteil des Crawlers, damit auch wirklich jede URL im Suchindex landet.

    Die jeweiligen Extensions sollten vielleicht einen canonical Tag hinzufügen, wenn sie nicht wollen, dass eine bestimmte URL indexiert werden soll.
    o.k. - muss ich mal testen... ich war bisher davon ausgegangen, dass mit einem canonical Tag zwar die URLs indexiert werden, aber eben mit einer gemeinsamen "Basis-URL" - ist mir neu, das damit man di URLs ausschließt

    ansonsten wäre es m.E. auch nicht sinnig, alle möglichen URLs zu indexieren, die bei einer Filterung auftreten könnten - das können ja schnell einige hundert Kombinationen an URLs werden

  40. #40
    Community-Moderator
    Wandelndes Contao-Lexikon
    Avatar von Spooky
    Registriert seit
    12.04.2012.
    Ort
    Scotland
    Beiträge
    33.897
    Partner-ID
    10107

    Standard

    Zitat Zitat von zonky Beitrag anzeigen
    o.k. - muss ich mal testen... ich war bisher davon ausgegangen, dass mit einem canonical Tag zwar die URLs indexiert werden, aber eben mit einer gemeinsamen "Basis-URL" - ist mir neu, das damit man di URLs ausschließt
    In der alten Implementation ging das nur mit $GLOBALS['TL_NOINDEX_KEYS'] - also da musstest du alle möglichen Filter Query parameter registrieren, damit die URL nicht im Search Index landet. Und selbst das hindert dann aber wiederum niemanden daran einen beliebigen Parameter anzuhängen.
    » sponsor me via GitHub or PayPal or Revolut

Aktive Benutzer

Aktive Benutzer

Aktive Benutzer in diesem Thema: 2 (Registrierte Benutzer: 0, Gäste: 2)

Lesezeichen

Lesezeichen

Berechtigungen

  • Neue Themen erstellen: Nein
  • Themen beantworten: Nein
  • Anhänge hochladen: Nein
  • Beiträge bearbeiten: Nein
  •