Ограбете времето с

Ние ограбваме времето от Gismeteo.ru

Вече писах за това как правилно да ограбвате сайтове. Като пример за информация, която трябва да бъде крадена от други сайтове, посочих времето. И така, реших да напиша статия, в която ще ви кажа как можете да получите времето от сайта gismeteo.ru.

Ще ограбя RSS от този сайт. Това е просто и бързо.

title

Грабеж RSS gismeteo.ru

Gismeteo grabber фрагмент за MODx

RSS е технология, предназначена не само да позволи на потребителя да следи голям брой сайтове, без да напуска мястото им. Тази технология предоставя удобни възможности за програмна обработка.

Приготвяме се да започнем

Първо, трябва да получим данни от сървъра gismeteo.ru. Имаме нужда от RSS емисия за времето в Москва.

Цялата лента вече е в променливата $file.

Сега имам непреодолимо желание да разделя нашата лента на елементи - единици информация в потока. За да направим това, използваме прост регулярен израз:

preg_match_all("# (.*?) #е", $file, $items);

Сега масивът $items съдържа съдържанието на всяка част от информацията от hysmeteo.

Сега трябва да преминем през всеки елемент и да извадим данните, които ни трябват от него. Направих го така:

foreach($items[1] като $item) #вземете заглавието preg_match("# (.*?) #is", $item, $title); #изрежете думата "Москва", това е ясно) $title = str_replace("Москва: ", "", $title[1]);

#Търсене на числа в заглавката. Това ще бъде датата. preg_match("#(\d+)#", $title, $date); $date = $date[1];

#изтегляне на текста на описанието. preg_match("# (.*?) #е", $item, $descr); #Изхвърлете всичко извън температурата (налягане, вятър и т.н.) #Ако тази информация също е необходима, тогава можете да убиете този ред. $descr = preg_replace("#(\d\.\.-\d C).*#i", "$$1", $descr[1]);

Сега, когато нашият скрипт е завършен, ще получим файла gismeteo.cache, който ще съхранява това, от което се нуждаем. Сега, за да вмъкнете информационен блок за времето в кода на сайта, трябва само да направите следното:

Можете да актуализирате нашия кеш чрез chron. Обикновено хостингите поддържат chron, можете да настроите актуализацията на кеша два до четири пъти на ден. Повече няма смисъл.

И сега внимание, въпросът за постоянството.

Защо кеширането ни е лошо и как може да се подобри? Отговорът може да бъде намерен в моята статия „Как да ограбваме уебсайтове правилно“.

Ако не искате да разбирате тънкостите на грабването, можете да поръчате сайт граббер от мен. Грабер, подобен на описания в статията, изобщо няма да струва много.