Nasza klasa ponownie

Znalazłem ostatnio całkiem fajną bibliotekę – ScrapeMark. Ułatwia mi pracę pod tym względem, że gdy sam układałem ekspresje regularne były one dosyć sztywne, czyli wystarczyło zmienić w HTMLu styl i już wszystko się sypało.

Tutaj mogę śmiało ekspresję ułożyć tak:

A zwróci mi wyniki (bez HTMLu) dla każdego z tych:

Ubolewam tylko nad jedną rzeczą…

…nie da się łatwo ułożyć części ‘niewymaganych’. O ile w zwykłych ekspresjach można było po prostu wrzucić niewymaganą część w nawias i po niej znak zapytania, o tyle takiej możliwości w scrapemarku niestety nie ma ;-(. I takim sposobem nie udało mi się niektórych stron zawrzeć w jedej ekspresji.

W obliczu nowych możliwości spróbowałem napisać prosty fetcher profili NK… i udało się! No i dzięki scrapemarkowi wszystko stało się sto razy przejrzystsze. Przykładowo część do wydobywania komentarzy:

A jeśli chodzi o używanie samego fetchera, to nic prostszego niż:

Link do biblioteki

Ponownie intryguje mnie brak jakichkolwiek zabezpieczeń przed takimi praktykami na NK. Niby można część danych ukryć, ale zdajmy sobie sprawę z tego, że domyślne ustawienia jednak sporo ujawniają, a tylko mały ułamek ludzi zainteresował się swoją prywatnością. Ze strony technicznej: klapa. Od czasu postu na hacking.pl o tym jak łatwo owe dane pozyskać nie zmieniło się tak na prawdę nic. A to było już ponad dwa lata temu! Umieram z ciekawości jak to się skończy, skoro każdy średnio-doświadczony programista ma dostęp do zdjęć i danych połowy polski…

Leave a Reply

Your email address will not be published. Required fields are marked *