Jak jsme stáhli 150 000 výsledků Google search za jednu noc

Náš budoucí klient potřeboval zjistit výsledky z vyhledávačů Seznam a Google. Na 75 000 frází ze svého e-shopu. Jedna fráze generuje 2 požadavky na Google, celkem tedy přes 150 000 požadavků.

Máme k dispozici stovky IP adres z různých IP rozsahů, takže třeba Seznam.cz není problém scrapovat. Hůř se stahují výsledky z Googlu, který přestává odpovídat po desítkách až stovkách dotazů a začne vracet captchu. A následně blokuje IP adresu úplně.

Jaké jsou možnosti?

1. Google custom search

Custom search API umožňuje 100 požadavků denně zdarma. Následně $5 za 1000 požadavků. Maximálně však 10 000 požadavků denně. V případě našeho klienta by to stálo 17 000 Kč + čas vývojáře. Stahování by trvalo 17 dní, takže bychom deadline nestihli přesně o 16 dní.

2. Mnoho IP adres

Ideálně takových, které mají dlouhou historii a používají se pro přístup na internet, nejsou tedy úplně neznámé. Nesmí však být vyčerpané jiným scrapingem. Z našich zkušeností projde na jednu IPku do 300 požadavků denně, když je hezké počasí.

Je potřeba počítat s tím, že Google upravuje výsledky podle místa, ze kterého pochází IP adresa. V případně nákupu běžných proxy serverů jsou IP adresy z různých zemí světa a Google pak vrací pro každou proxy jiný výsledek. Můžete nastavit gl parametr, budete však mnohem dříve považováni za robota, protože běžný uživatel tento parametr nenastavuje.

Mimochodem, když si sednete do auta a připojíte se přes mobilní net, budou se přepínat BTSky. A tím se přece budou logicky střídat i IP adresy :) A houby, experimentálně jsme ověřili, že jednomu zařízení zůstává IP adresa (minimálně na jižní Moravě s T-Mobile). Ne, že by bylo nějak praktické scrapovat za jízdy autem.

3. Ať žije captcha

Captcha slouží k tomu, aby ověřila, že na server přistupuje člověk, nikoli robot. A co když nám captcha nevadí, ale naopak ji vítáme? Pak můžeme využít API, za kterým jsou schováni Indové, kteří kódy velmi rychle přepisují. Ano, API nad lidmi (které se navíc strojově učí rozpoznávat jednodušší obrázky). Nejlepší zkušenosti máme s deathbycaptcha.com.

150 000 výsledků za noc jsme stáhli právě díky Indům a velkému množství IP adres.

4. Nákup dat od třetí strany

Třeba od nás :) Když mi napíšete na dvoracek@weps.cz, tak tohle pro vás vyřešíme a vy se můžete věnovat důležitějším věcem.