Парсинг сайтов на PHP с Simple HTML DOM Parser. Часть 3: выкачивание картинок.

Собственно в прошлой статье мы с вами  успешно завершили ту часть программного кода, которая отвечает непосредственно за парсинг и автоматическую отправку поискового запроса в Google.Картинки. Однако мало получить ссылки на оригинальные изображения с донорских сайтов, их же ещё нужно скачать и где-то сохранить.

Для решения задачи напишем небольшую функцию с применением cURL:

/**
 * Получая путь до картинки $image_url, 
 * сохраняет её в каталог $destination_url, 
 * "шифруя" имя файла с помощью MD5.
 * 
 * @param string $image_url
 * @param string $destination_url
 */
function save_image($image_url, $destination_url) {
    $path_parts = pathinfo($image_url);
    $filename = md5($path_parts['filename']) . '.' . $path_parts['extension'];
    $destination_url = $destination_url . $filename;

(далее…)

Опубликовано 11-11-2013 в 15:29

Парсинг сайтов на PHP с Simple HTML DOM Parser. Часть 2: собственно пример парсинга.

Как вы помните в прошлой статье мы с вами получили содержимое веб-страницы выдачи Google.Картинок по заданному поисковому запросу. Теперь будем с помощью библиотеки Simple HTML DOM Parser их вынимать, и сохранять себе на жесткий диск, программно.

1. Итак, к тому коду, что я создал ранее добавьте такие строчки, предварительно удалив вывод содержимого веб-страницы серпа:

$content = turn_to_google('MODX Revolution');
$content = str_get_html($content); // - создаем объект DOM из строки.
$images = $content->find('#ires td a img');
foreach ($images as $image) :
    echo $image->src . "<br />\n";
endforeach;

Итого, вы получите 20 ссылок с первой страницы на картинки-миниатюрки предварительного просмотра, сформированные Гуглом: (далее…)

Опубликовано 11-11-2013 в 13:01

Парсинг сайтов на PHP с Simple HTML DOM Parser: ищем по Google.Картинки. Часть 1: эмуляция браузера.

Сегодня рассмотрим на примере относительно простой задачи — автоматическое вытягивание картинок с выдачи системы Google по заранее определенному поисковому запросу. Без всякого рода рассуждений и «воды».

1. Скачиваем библиотеку под названием Simple HTML DOM Parser с http://sourceforge.net. Из всего множества файлов в распакованном архиве нам с вами будет интересен пока лишь 1: simple_html_dom.php.

2. Создаем свой сценарий на PHP. Подключаем парсер HTML:

<?php
// Подключаем парсер структуры DOM:
require_once('simple_html_dom.php');

3. И как бы банально это сейчас, не прозвучало, но прежде чем что-то спарсить нужно, чтобы для начала было что парсить. Потому нам с вами придется выполнить эмуляцию «человеческого» браузера. Сделать это можно средствами cURL. (далее…)

Опубликовано 11-11-2013 в 10:49













Свежие комментарии

  • krasnov8953: к записи Не работает как мне кажется строчка $newTvId = $ »
  • Dimanski: к записи ничего не понимаю. Ставлю ModX на хостинг r01.ru »
  • Дмитрий: к записи Спасибо! Очень выручили. С битриксом беда, а прав »
  • леонид: к записи как сделать что были в ряд? у меня получается по о »
  • Администратор: к записи Статический IP. »
  • Steel: к записи Администратор, вы данную проблему решили подключен »
  • Дмитрий: к записи Хотел узнать как прикрутить данное окно (http://re »

Последние твиты