Automate Collecting Data
From The Web

crwl.io ist ein Web Crawling und Scraping Dienst.
Nutzen Sie unsere No-Code Tool um selbst Crawler bzw. Scraper zu konfigurieren.
Oder lassen Sie Ihre Crawler einfach komfortabel von uns erstellen.

No-Code Web-App

Symbolic image for the feature paragraph "No-Code Web-App"

Die crwl.io Web-App ist ein sogenanntes No-Code Tool, mit dem Sie Crawler ohne Programmierkenntnisse ganz nach Ihren Bedürfnissen konfigurieren können.

Unsere Benutzeroberfläche ermöglicht es Ihnen, Crawling und Scraping Abläufe, mithilfe von vorgefertigten und konfigurierbaren Bausteinen, den sogenannten "Steps", zu definieren.

Sobald Sie Ihren Crawler dann starten, führt er die von Ihnen definierten Schritte aus und Sie erhalten die gewünschten Daten.

Eigene Erweiterungen für maximale Flexibilität

Symbolic image for the feature paragraph "Eigene Erweiterungen für maximale Flexibilität"

Benötigen Sie zusätzliche Funktionalitäten für Ihre Crawler, die nicht bereits in den vorgefertigten Steps enthalten sind, haben Sie die Möglichkeit, eigene Steps zu erstellen und diese als Extension in der Web-App zu installieren. *

Die Anleitung zur Programmierung eigener Steps, finden Sie in der Dokumentation der crwlr.software Open Source Library. Ihren eigenen Code können Sie dann bequem über ein (privates) github Repository bereitstellen. Detailliertere Informationen zu diesem Feature finden Sie in der Web-App.

* Dieses Feature ist erst ab dem "S" Tarif und daher im "XS" Tarif nicht verfügbar.

Mehr als nur HTTP und HTML

Symbolic image for the feature paragraph "Mehr als nur HTTP und HTML"

Im Allgemeinen bezieht sich der Begriff "Web Scraping" auf das Extrahieren von Inhalten aus (HTML) Websites, weshalb viele Dienste sich darauf beschränken. In der Praxis gibt es allerdings immer wieder Anwendungsfälle, bei denen Daten aus anderen Formaten wie JSON, XML oder CSV ausgelesen werden müssen. Mit crwl.io ist das kein Problem.

Javascript Execution oder Performance - Maximale Flexibilität

Symbolic image for the feature paragraph "Javascript Execution oder Performance - Maximale Flexibilität"

Viele Web Crawling- und Scraping-Libraries sowie Dienste bieten einzig und allein die Möglichkeit, Websites mithilfe eines sogenannten Headless Browsers zu laden (ein herkömmlicher Internet-Browser der automatisiert gesteuert wird). Tatsächlich ist jedoch in den meisten Fällen der Einsatz eines Browsers gar nicht erforderlich.

In den meisten Fällen genügt ein einfacher HTTP-Client, der lediglich den HTML Quellcode einer Website lädt, allerdings nicht die dort verlinkten Assets (wie zB Bilder, CSS und Javascript). Somit ist der HTTP Client viel performanter und resourcenschonender und wird daher in der crwl.io Web-App standardmäßig verwendet. Bei Bedarf kann auf Crawling mittels Headless Browser umgestellt werden.

Scheduling

Symbolic image for the feature paragraph "Scheduling"

Selbstverständlich können Sie Ihre Crawler nicht nur bei Bedarf manuell starten, sondern auch regelmäßig und automatisch zu den von Ihnen gewünschten Zeiten. So halten Sie ihre Crawling-Daten laufend aktuell.

Flexibler Datenexport

Symbolic image for the feature paragraph "Flexibler Datenexport"

Nach einem erfolgreichen Durchlauf eines Crawlers können Sie die gesammelten Daten ganz einfach als JSON-, XML- oder CSV-Datei herunterladen. Wenn Sie crwl.io Crawler in Ihre eigenen oder Drittanbieter-Anwendungen integrieren möchten, können Sie Ihre Daten auch über unsere REST-API (Schnittstelle) abrufen. In Kombination mit Webhooks können Sie die Integration in Ihre Anwendungen vollständig automatisieren.

Webhooks

Symbolic image for the feature paragraph "Webhooks"

Webhooks sind der entscheidende Puzzleteil zur Integration von Daten, die crwl.io für Sie gesammelt hat, in Ihre eigenen Anwendungen. Hinterlegen Sie eine Webhook-URL (eine URL die Teil Ihrer Anwendung ist) für einen Crawler, und er wird Ihre Anwendung nach jedem erfolgreichen Durchlauf benachrichtigen. Im Aufruf der Webhook-URL werden die erforderlichen Daten zur Abholung der Ergebnisse des Crawler-Durchlaufs übermittelt.

Basierend auf Open Source Software

Symbolic image for the feature paragraph "Basierend auf Open Source Software"

Das Fundament der crwl.io Web-App bildet die kostenlose und quelloffene Web Crawling und Scraping Library von crwlr.software. Sie können daher jederzeit einsehen, wie die Crawler und die in der App verfügbaren Steps im Detail funktionieren und gegebenenfalls Verbesserungen oder Veränderungen einbringen.

Preise

monatlich
jährlich
XS S M L
Requests/Tag1
Requests/Monat
5.000
150.000
15.000
450.000
60.000
1.800.000
250.000
7.500.000
Speicherplatz2 1 GB 5 GB 20 GB 50 GB
Private Instanz 3
Extensions4
Preis inkl. USt. € 36
pro Monat
€ 72
pro Monat
€ 240
pro Monat
€ 720
pro Monat

1) Gemeint sind HTTP-Requests, die von Ihren Crawlern ausgeführt werden. Dabei ist zu beachten, dass Requests die via Headless Browser durchgeführt werden, mit einem Faktor von fünf gewichtet werden, da sie erheblich aufwendiger sind. Siehe Javascript Execution . Das Tageslimit bezieht sich auf den Durschnitt an täglichen HTTP-Requests in einem Monat. Wird das Limit an einzelnen Tagen überschritten ist das kein Problem, solange der durchschnittliche Tageswert darunter liegt.

2) Der benötigte Speicherplatz für die von den Crawlern gesammelte Daten, sowie die Nutzung des Response-Cache.

3) Im XS Tarif laufen alle Crawler auf einer gemeinsamen Infrastruktur. Ab dem S Tarif und darüber, erhält jeder Kunde seine eigene Instanz der crwl.io App.

4) Aus dem selben Grund (gemeinsame Infrastruktur im XS Tarif) können erst ab dem S Tarif eigene Extensions in der App installiert werden.

Voranmeldung zur Betaphase

Die crwl.io App befindet sich aktuell noch in der geschlossenen Betaphase.
Sie können sich hier für eine Einladung voranmelden.