Erfahrung mit Concurrency beim Shared Webhosting
Hallo zusammen,
was sind Eure Erfahrungswerte für die concurrency beim Crawlen bei mittelgroßen Paketen* beim Shared Webhosting?
Hintergrund: das Crawlen braucht aktuell 39 Minuten, es gibt aber erst einen Bruchteil der zu crawlenden Seiten (20.000 URLs). Ich habe die Crawler über die Konsole angestoßen und dabei den Wert für concurrency auf 40 gesetzt. Damit waren es schon nur noch 13 Minuten. Wenn die Website irgendwann fertig ist, ist die Anzahl der URLs um den Faktor 17 gewachsen. Rein rechnerisch brauchen die Crawler dann fast 4 Stunden.
Ich würde den concurrency-Wert daher gern noch weiter erhöhen, fürchte aber, eine Grenze zu überschreiten - und es fällt mir schwer, sie einzuschätzen.
* Zur Einordnung: mein Paket hat 25 GB SSD Webspace, 4096 MB RAM, Scriptlaufzeit 360 Sek.