Suchindex per CLI bei ALL-INKL aufbauen

Druckbare Version

70 Beiträge dieses Themas auf einer Seite anzeigen

04.01.2022, 10:19
Shania

Suchindex per CLI bei ALL-INKL aufbauen

Hallo,

ich möchte jetzt mal den Suchindex per CLI aufbauen.

Ich bin bei All-Inkl und mein SSH User meldet sich quasi gleich für meine Domain an, wenn ich das richtig verstehe. So wie es im Handbuch steht mit der Domain hinter der Anmeldung wird mir der Zugang verweigert.
https://docs.contao.org/manual/de/sy...rtung/#crawler

Also habe ich das Unterverzeichnis der Installation gewechselt, wo ich den Suchindex aktualisieren möchte. Es liegen da aber mehrere Umgebungen nebeneinander in verschiedenen Unterverzeichnissen, also

SSH-User Berechtigung für das Verzeichnis und darin ist:

contao_1
contao_2
contao_3

Wenn nun die Umgebung, wo ich den Suchindex aufbauen möchten, in Verzeichnis "contao_3" liegt, bin ich in dieses gewechselt und dann in

vendor/bin/

Gebe ich dort

contao-console contao:crawl

ein, bekomme ich ein "comand not found". Ich muss mich ja sicherlich auch im CLI anmelden oder? Wie mache ich das?
04.01.2022, 10:36
fiedsch

Du musst (sollst) nicht weiter in vendor/bin/ wechseln. Das Programm contao-console wird nicht gefunden, das das aktuelle Verzwichnis typischerweise nicht in Suchpfad enthalten ist. Mit vendor/bin/contao-console (wie in der Doku angegeben) sollte es funktionieren.

Edit:

Zitat:

ch muss mich ja sicherlich auch im CLI anmelden oder?

Nein, musst Du nicht. Du bist ja bereits Durch Deinen ssh-Login „angemeldet“.
04.01.2022, 10:40
Shania

Ok, danke, super, das klappt nun :) .
04.01.2022, 10:50
Shania

Jetzt läuft auch der Check auf Broken Links mit. Dazu zwei Fragen:

1. Kann man das getrennt laufen lassen und wie?

2. Kann man die broken links auch im CLI in einer Datei ausgeben lassen? Das wird bei meiner Seite viel, wie es aussieht. Sie ist halt groß und alt enthält an vielen Stellen auch externe Links.
04.01.2022, 10:55
Spooky

Zitat:

Zitat von Shania

1. Kann man das getrennt laufen lassen und wie?

Code:

vendor/bin/contao-console contao:crawl --help

Code:

vendor/bin/contao-console contao:crawl --subscribers="search-index"

Damit wird nur der Suchindex aufgebaut.
04.01.2022, 10:56
Spooky

Zitat:

Zitat von Shania

2. Kann man die broken links auch im CLI in einer Datei ausgeben lassen? Das wird bei meiner Seite viel, wie es aussieht. Sie ist halt groß und alt enthält an vielen Stellen auch externe Links.

Code:

vendor/bin/contao-console contao:crawl --help

Code:

vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv

Damit wird im Projektverzeichnis ein CSV erstellt.
04.01.2022, 11:27
Shania

Ok, danke, dann versuche ich das mal, der Job ist jetzt leider bei 25 % abgebrochen.

Code:

Crawling… 15642/62119 [=======>--------------------] 25% PHP Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes) in /www/htdocs/***/***/vendor/symfony/dom-crawler/Crawler.php on line 1224 Fatal error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes) in /www/htdocs/***/***/vendor/symfony/dom-crawler/Crawler.php on line 1224 In Crawler.php line 1224: Error: Allowed memory size of 134217728 bytes exhausted (tried to allocate 147456 bytes)

Eine Seite, die ich sehr oft verlinkt habe, hat ihre URL Struktur geändert. Das ist natürlich blöd.

Den kaputte Links Crawler kann ich dann wohl gar nicht nutzen, denn im backend bricht der Job irgendwann ab, weil sich das backend wegen Inaktivität abmeldet und ich würde ja auch nicht dabei bleiben wollen, sondern das einfach durchlaufen lassen. Am besten, wenn ich schlafe :D .
04.01.2022, 11:51
Spooky

Auf deinem Hosting gibt es auf der Command Line wohl ein 128 MiB memory_limit. Du könntest folgendes Kommando versuchen:

Code:

php -d memory_limit=4G vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv

Hinweis:

Code:

php

musst du ggf. mit dem Pfad zum richtigen PHP CLI ersetzen.
04.01.2022, 13:44
zonky

trage das mal in web/.htaccess oben ein

PHP-Code:

# All-inkl memory_limit php_value memory_limit 512M

(ist natürlich nur für die Web-Aufrufe und nicht CLI)
04.01.2022, 13:45
Spooky

Zitat:

Zitat von zonky

trage das mal in web/.htaccess oben ein

PHP-Code:

# All-inkl memory_limit php_value memory_limit 512M

Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.
04.01.2022, 13:46
zonky

Zitat:

Zitat von Spooky

Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.

hatte ich inzwischen als Hinweis ergänzt - aber damit ist auch bei den Webaufrufen etwas mehr Luft nach oben...
04.01.2022, 13:50
Shania

Genau und das ist auch schon lange dort eingetragen :) .

Es ist wieder nicht durchgelaufen :( . Es kam:

Code:

Remote side unexpectedly closed network connection Session stopped - Press <return> to exit tab - Press R to restart session - Press S to save terminal output to file login as: Remote side unexpectedly closed network connection Remote side unexpectedly closed network connection

Das liegt am Client oder am meiner Internetverbindung?

Also, wenn ihr mal was zum testen braucht, dann scheint meine Seite sich für den hardcoretest zu eignen :D .
04.01.2022, 13:53
Spooky

Zitat:

Zitat von Shania

Es ist wieder nicht durchgelaufen :( . Es kam:

Code:

Remote side unexpectedly closed network connection Session stopped - Press <return> to exit tab - Press R to restart session - Press S to save terminal output to file login as: Remote side unexpectedly closed network connection Remote side unexpectedly closed network connection

Das liegt am Client oder am meiner Internetverbindung?

Die SSH Verbindung wurde unterbrochen. Das kann viele Gründe haben. Evt. hilft es wenn du einen SSH Client mit Keep-Alive Funktion nutzt.

Versuchst du das Ganze auf einem normalen Shared Hosting? Ich denke dein Vorhaben benötigt eher einen richtigen Root- oder Managed Server, wo du auf der Konsole bspw. mit screen arbeiten kannst.
04.01.2022, 14:05
tab

Zitat:

Zitat von Spooky

Das hat keine Auswirkungen auf die Command Line, wenn dann nur auf den Web Prozess.

Und wenn, dann nur falls bei All-Inkl mod_php benutzt wird, also das Apache Modul, Falls das FastCGI oder PHP-FPM ist, dann wird es - außer eventuell einem Fehler 500 - keine Wirkung haben. Bei mir bei all-inkl ist das jedenfalls kein mod_php. Du kannst dann aber das memory_limit in einer .user.ini im web-Verzeichnis setzen, dauert allerdings ne Weile bis das dann greift.
04.01.2022, 14:09
tab

Zitat:

Zitat von Spooky

Auf deinem Hosting gibt es auf der Command Line wohl ein 128 MiB memory_limit. Du könntest folgendes Kommando versuchen:

Code:

php -d memory_limit=4G vendor/bin/contao-console contao:crawl --subscribers="broken-link-checker" --enable-debug-csv

Hinweis:

Code:

php

musst du ggf. mit dem Pfad zum richtigen PHP CLI ersetzen.

Ich denke das Leerzeichen hinter php -d gehört weg. Jedenfalls habe ich damals bei meiner Nextcloud bei all-inkl ohne Weiteres 512MB einstellen können, so wie es die Cloud gern haben wollte.
04.01.2022, 14:27
Spooky

Kann ich nicht bestätigen:

Code:

php -d memory_limit=128M -r "echo ini_get('memory_limit');" 128M
04.01.2022, 14:53
tab

Tatsächlich, klappt!
04.01.2022, 15:47
Shania

Ja, das ist ein Hostingpaket. Ich nutze MobaXterm und habe da jetzt die keepalive Einstellung gefunden. Ich dachte das wäre automatisch eingeschaltet.
04.01.2022, 16:04
Shania

Zitat:

Zitat von tab

Du kannst dann aber das memory_limit in einer .user.ini im web-Verzeichnis setzen, dauert allerdings ne Weile bis das dann greift.

Was muss ich da tun?
04.01.2022, 16:37
tab

Da musst du eine Datei .user.ini anlegen im Web-Verzeichnis. Da kannst du es in der Syntax wie in der php.ini einsetzen. Könnte also z.B. so aussehen

Code:

memory_limit=512M max_execution_time=0

Wie die Datei heissen muss steht in user_ini.filename (meist .user.ini, so heißt sie auch in meinem All-Inkl Webhosting), wie oft die Datei eingelesen wird steht in user_ini.cache_ttl (Default 5 Minuten)
Falls eine max_execution_time von 0 (unbegrenzt) nicht angenommen wird, eben eine positive Zahl eingeben, z.B. 600 für 10 Minuten.
05.01.2022, 09:31
Shania

@tab: Meinst du das web Verzeichnis von Contao? Oder wo muss ich diese Dateien anlegen? Finden kann ich bei mir keine mit den Namen. Die max_execution_time habe ich bisher über die .htaccess gesetzt.

Also, eigentlich hatte ich mich über den Crawler gefreut, aber er läuft nun weder im Backend, noch per CLI durch. Auch nicht nur für die Seiten und aufgrund meiner zahlreichen Metamodels steht da (neben nicht funktionierenden Links wie es sein soll) ganz viel im Log, was keinen Sinn für mich macht. Er zählt auch jede Seite der Metamodels mit einer Page nochmal als Seite. Das hat die alte Funktion nicht gemacht. Was da nun richtig oder falsch ist, sei mal dahin gestellt.

Den Suchindex kann ich so derzeit nicht mehr komplett aufbauen. Das finde ich schon sehr unschön. Die kaputten Links wären schön zu haben, aber wenns nicht geht, ist es auch kein Drama. Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.
05.01.2022, 09:35
Spooky

Zitat:

Zitat von Shania

Also, eigentlich hatte ich mich über den Crawler gefreut, aber er läuft nun weder im Backend, noch per CLI durch.

Meinst du nun mit oder ohne Broken Link Clecker?
05.01.2022, 09:37
Shania

Beides, es läuft nicht zusammen durch und auch nicht einzeln. Auch allein den Suchindex kann ich nicht aufbauen.
05.01.2022, 09:56
zonky

Zitat:

Zitat von Shania

Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.

Grundsätzlich hat sich an der "MM-Indexierung" (da werden die Detailseiten zum Seitenindex hinzugefügt) nichts geändert - die Behandlung der Mehrsprachigkeit ist in MM 2.2 etwas anders und da gab es noch einen Bug, der gefixt ist... bisher sind keine (weiteren) Meldungen zur Indexierung bei mir aufgelaufen
05.01.2022, 10:02
tab

Zitat:

Zitat von Shania

@tab: Meinst du das web Verzeichnis von Contao? Oder wo muss ich diese Dateien anlegen? Finden kann ich bei mir keine mit den Namen. Die max_execution_time habe ich bisher über die .htaccess gesetzt.

Ist das ein Server oder vielleicht ein älteres Webhostingpaket? Bei meinem aktuellen Webhostingpaket läuft PHP per FastCGI bzw FPM. PHP Variablen per .htaccess kann man meines Wissens nur setzen, wenn PHP über das entsprechende Apache-Modul mod_php läuft. Ob solche PHP-Einstellungen in der .htaccess im Zweifelsfall einen Fehler 500 erzeugen würde oder einfach ignoriert werden, hängt wohl von der Apache-Konfiguration ab.

Mit dem Web-Verzeichnis meine ich das web Verzeichnis von Contao, die document root, da wo die index.php drinliegt. Die .user.ini gilt nur für das Verzeichnis, in dem sie drinliegt. Dass noch keine existiert ist normal.
05.01.2022, 10:04
Shania

Liste der Anhänge anzeigen (Anzahl: 1)

Vielleicht habe ich ja etwas falsch eingestellt. Schau mal, so sehen die Meldungen aus:

Code:

[Contao\CoreBundle\Crawl\Escargot\Subscriber\SearchIndexSubscriber] [[object] (Terminal42\Escargot\CrawlUri: URI: https://www.***/seitenname/page/3.html?page=4 (Level: 4, Processed: yes, Found on: https://www.***/seitenname/page/3.html, Tags: none))] Broken link! HTTP Status Code: 404.

Wo kommen diese SeitenURLs her? https://www.***/seitenname/page/3.html?page=4

Die habe ich gar nicht.

Und so sehen sie auch nicht aus: https://www.***/seitenname/page/3.html

sondern so: https://www.***/seitenname.html?page=4

Anhang 25165
05.01.2022, 10:16
Shania

Zitat:

Zitat von tab

Ist das ein Server oder vielleicht ein älteres Webhostingpaket?

Das Paket ist schon alt, aber wir sind zwischendurch bestimmt auch mal umgezogen. Aber ich wollte ohnehin noch mit dem Support telefonieren. Da kann ich mal fragen, ob wir auf einen aktuellen Server ziehen können. Sie haben ja nun SSD Platten, habe ich gesehen. Die hätte ich natürlich auch gerne ;) .
05.01.2022, 10:25
zonky

Zitat:

Zitat von Shania

Ich werde meine Protokolle mit den Seiten aus MM mal an zonky senden, wenn das ok für ihn ist. Da hat sich in 2.2 etwas an der Paginierung geändert und das scheint irgendwie nicht zusammen zu passen. Vielleicht ist das ja noch ein Fehler.

Upps - Text nochmal richtig durchgelesen... ich war automatisch von der MM-Indexierung ausgegangen - korrekt: an der MM-Paginierung gab es einige Änderungen und lt. Deinem Screenshot hast Du die auf GET-Parameter gesetzt - von daher dürften da keine Slug-Parameter mehr da sein... kommen die ggf. aus dem Seitencache?
05.01.2022, 10:36
Spooky

Zitat:

Zitat von Shania

Vielleicht habe ich ja etwas falsch eingestellt. Schau mal, so sehen die Meldungen aus:

Code:

[Contao\CoreBundle\Crawl\Escargot\Subscriber\SearchIndexSubscriber] [[object] (Terminal42\Escargot\CrawlUri: URI: https://www.***/seitenname/page/3.html?page=4 (Level: 4, Processed: yes, Found on: https://www.***/seitenname/page/3.html, Tags: none))] Broken link! HTTP Status Code: 404.

Wo kommen diese SeitenURLs her? https://www.***/seitenname/page/3.html?page=4

Die habe ich gar nicht.

Und so sehen sie auch nicht aus: https://www.***/seitenname/page/3.html

sondern so: https://www.***/seitenname.html?page=4

Anhang 25165

Poste die echte URL, um das zu analysieren.
05.01.2022, 10:48
zonky

@Shania - ich guck mir das heute Nachmittag mal bei Dir an...
05.01.2022, 11:38
Shania

Ok, danke dir, zonky.

Zitat:

Zitat von zonky

Deinem Screenshot hast Du die auf GET-Parameter gesetzt - von daher dürften da keine Slug-Parameter mehr da sein... kommen die ggf. aus dem Seitencache?

Ich habe jetzt beide MM Caches im Backend gelöscht und nochmal den Anwendungscache im Manager. Noch einer?

Ich hab jetzt auch erst was anderes zu tun und kann dann nochmal den Crawler auf der Systemebene starten.
05.01.2022, 12:46
Spooky

Auf der geposteten Seite kommt eine Pagination zum Einsatz - diese funktioniert jedoch nicht.
05.01.2022, 12:48
zonky

wie gesagt - guck ich mir an....

aber dadurch dürfte der Aufbau des Suchindex nicht abschmieren!
08.01.2022, 11:00
Shania

Liste der Anhänge anzeigen (Anzahl: 1)

Also, ich denke wir haben das Problem so weit eingegrenzt, dass es an den Filtern von MM liegt. Hier werden Links erzeugt, die es eigentlich nicht geben sollte. Das war auch schon vorher so, haben wir nun feststellen können, aber es ist mir nie aufgefallen. Es gab ja auch nie einen Zusammenhang mit dem Aufbau des Suchindexes.

Als Workaround will ich nun mal alle Filter deaktivieren und dann den Suchindex neu erzeugen. Wenn das geht ist das der Workaround. Ansonsten ist es wie es ist, bis es eine Korrektur dazu gibt. zonky hat schon ein Ticket dazu erstellt. Danke dafür und auch für die tolle Hilfe bei der Analyse :)!

Aus dem Fehler ergibt sich nun ein weiteres Problem bei mir. Die Datensicherung der Datenbank funktioniert derzeit nicht über das Tool von do_while. Das liegt an der Größe, die die Datenbank jetzt hat. Es gibt einen Serverfehler, dass der Speicherverbrauch vom RAM zu hoch ist.

Vor dem Upgrade von 4.4. hatte die gesamte Datenbank ca. 100 MB, nun hat sie durch die Einträge in der Tabelle tl_crawl_queue 530 MB. Allein diese Tabelle hat 436 MB :eek:. Kann ich die einfach leeren? Oder wofür wird die verwendet? Die Crawler Jobs laufen bisher ja nie durch und ich habe sie mehrfach gestartet. Ich finde auch gleiche Einträge. Muss man die Tabelle über die Systemwartung leeren, bevor man einen neuen Crawl Prozess startet?

Im Handbuch steht dazu noch nichts und der Screenshot ist auch nicht aus 4.9, dann da ist die Tabelle noch nicht drauf zu sehen. So sieht es nun bei mir in 4.9 aus.

Anhang 25174
08.01.2022, 11:28
Spooky

Die tl_crawl_queue Tabelle kannst du auf jeden Fall vom Backup ausschließen lassen.
08.01.2022, 11:39
Shania

Hmm, da weiß ich jetzt gar nicht wie das in dem Tool ginge. Daher würde ich sie einfach leeren, wenn das ginge. Das wäre über das Backend ja sogar möglich.

Was man an dem Crawler auf jeden Fall ändern sollte, wäre, dass er jede aufrufbare Seite indiziert, also auch jeden Filter, der (nicht nur durch MM) erzeugt wird. Ich denke, das gleiche Problem haben Catalognutzer oder alle Seiten, die andere Erweiterungen nutzen, die Seiten oder Auswahlmöglichkeiten erzeugen. Vielleicht fällt es bei kleineren Seiten nicht so schnell auf oder deren Server sind andere, aber richtig ist es deshalb ja dennoch nicht. Für den Suchindex brauche ich ja auch nicht jede einzelne Seite, die aufrufbar ist, sondern eigentlich die URLs, die auch in der Sitemap stehen. Da ist trotz der Filter alles richtig drin :) .
08.01.2022, 11:47
tab

In System->Einstellungen->BackupDB-Einstellungen unter "Blacklist für Backups" kannst du einfach eine (kommagetrennte) Liste von Tabellen reinschreiben, die nicht gesichert werden sollen.
08.01.2022, 11:51
Spooky

Zitat:

Zitat von Shania

Was man an dem Crawler auf jeden Fall ändern sollte, wäre, dass er jede aufrufbare Seite indiziert, also auch jeden Filter, der (nicht nur durch MM) erzeugt wird.

Das ist ja gerade der Vorteil des Crawlers, damit auch wirklich jede URL im Suchindex landet.

Zitat:

Zitat von Shania

Ich denke, das gleiche Problem haben Catalognutzer oder alle Seiten, die andere Erweiterungen nutzen, die Seiten oder Auswahlmöglichkeiten erzeugen.

Die jeweiligen Extensions sollten vielleicht einen canonical Tag hinzufügen, wenn sie nicht wollen, dass eine bestimmte URL indexiert werden soll. Ab Contao 4.13 kannst du selbst den Canonical Tag setzen lassen über die Seiteneinstellungen.

Zitat:

Zitat von Shania

aber richtig ist es deshalb ja dennoch nicht. Für den Suchindex brauche ich ja auch nicht jede einzelne Seite, die aufrufbar ist, sondern eigentlich die URLs, die auch in der Sitemap stehen.

Nein, du willst ja potentiell jede URL im Index haben, denn jede URL kann andere Inhalte haben.
08.01.2022, 12:20
zonky

Zitat:

Zitat von Spooky

Das ist ja gerade der Vorteil des Crawlers, damit auch wirklich jede URL im Suchindex landet.

Die jeweiligen Extensions sollten vielleicht einen canonical Tag hinzufügen, wenn sie nicht wollen, dass eine bestimmte URL indexiert werden soll.

o.k. - muss ich mal testen... ich war bisher davon ausgegangen, dass mit einem canonical Tag zwar die URLs indexiert werden, aber eben mit einer gemeinsamen "Basis-URL" - ist mir neu, das damit man di URLs ausschließt

ansonsten wäre es m.E. auch nicht sinnig, alle möglichen URLs zu indexieren, die bei einer Filterung auftreten könnten - das können ja schnell einige hundert Kombinationen an URLs werden
08.01.2022, 12:22
Spooky

Zitat:

Zitat von zonky

o.k. - muss ich mal testen... ich war bisher davon ausgegangen, dass mit einem canonical Tag zwar die URLs indexiert werden, aber eben mit einer gemeinsamen "Basis-URL" - ist mir neu, das damit man di URLs ausschließt

In der alten Implementation ging das nur mit $GLOBALS['TL_NOINDEX_KEYS'] - also da musstest du alle möglichen Filter Query parameter registrieren, damit die URL nicht im Search Index landet. Und selbst das hindert dann aber wiederum niemanden daran einen beliebigen Parameter anzuhängen.

70 Beiträge dieses Themas auf einer Seite anzeigen

Alle Zeitangaben in WEZ +1. Es ist jetzt 14:40 Uhr.