-- не смог промолчать [time]1285752381[/time] и добавил--
Перехали
-- не смог промолчать [time]1285785701[/time] и добавил--PoshtarBoba
Нэ. Я с головы писал, не тестил, на скорую руку.
url=страничка для выкачки - 1 страничка с 20-ю картинками. Можно задать этот алгоритм в цикл - выкачать 100 страничек по 20 картинок, или сколько там их есть.
from re import findall, replace
from os.path import basename
import os
задаём регулярное выражение - искать картинку-превиев, у которой в адресе есть thum, все другие картинки нас не интересуют.
pat='<img src="(http://www.furryhentaicollection.com/images/thum.+?)">'
вгетом выкачиваем во временный файл ссылочку с 20-ю картинками (файлик в конце проги можно удалить, что я не сделал)
os.popup('wget -U "Mozilla/5.0" -O tmp '+url)
хтмл-файлик считываем в переменную s
f=open(f,tmp,'r')
s=r.read()
f.cloe()
и в этой переменной находим все адреса картинок-превиевов
u=findall(pat,s)
а теперь по очереди выкачиваем все найденные адреса, только не миниатюрки, а полные версии, для чего делаем 2 реплейса:
for i in u:
__j=replace('_thumb',''replace('thumbnails/','',i))
__os.popup('wget -U "Mozilla/5.0" -O '+basename(j)+' '+url)
как-то так...
Скриптовые языки оч. помогают и просты в освоении. Вгет тоже мощняцкая штука - может залогиниться, отправлять данные форм, маскироваться, юзать анонимные прокси... Если свои ф-ции понаписывать - скрипт будет проще, сам алгоритм - в 2 строчки и 2 строчки инициализации (url и pat):
url=страничка для выкачки
pat='<img src="(http://www.furryhentaicollection.com/images/thum.+?)">'
from re import findall, replace
from os.path import basename
from _my import dld
u=findall(pat,dld(url))
for i in u: dld(replace('_thumb',''replace('thumbnails/','',i)),basename(j))
можно альбомы вконтакта выкачивать, имиджборды (хочу написать скрипт, который по всем имиджбордам будет пробегаться и собирать обновления в папочки) и т.п.
ThePiratBay опять в суде.
Интересно что будет дальше?
Пока им везёт.