Парсинг сайтов на PHP с Simple HTML DOM Parser. Часть 3: выкачивание картинок.

Собственно в прошлой статье мы с вами  успешно завершили ту часть программного кода, которая отвечает непосредственно за парсинг и автоматическую отправку поискового запроса в Google.Картинки. Однако мало получить ссылки на оригинальные изображения с донорских сайтов, их же ещё нужно скачать и где-то сохранить.

Для решения задачи напишем небольшую функцию с применением cURL:

/**
 * Получая путь до картинки $image_url, 
 * сохраняет её в каталог $destination_url, 
 * "шифруя" имя файла с помощью MD5.
 * 
 * @param string $image_url
 * @param string $destination_url
 */
function save_image($image_url, $destination_url) {
    $path_parts = pathinfo($image_url);
    $filename = md5($path_parts['filename']) . '.' . $path_parts['extension'];
    $destination_url = $destination_url . $filename;

(далее…)

Опубликовано 11-11-2013 в 15:29
PHP

Парсинг сайтов на PHP с Simple HTML DOM Parser. Часть 2: собственно пример парсинга.

Как вы помните в прошлой статье мы с вами получили содержимое веб-страницы выдачи Google.Картинок по заданному поисковому запросу. Теперь будем с помощью библиотеки Simple HTML DOM Parser их вынимать, и сохранять себе на жесткий диск, программно.

1. Итак, к тому коду, что я создал ранее добавьте такие строчки, предварительно удалив вывод содержимого веб-страницы серпа:

$content = turn_to_google('MODX Revolution');
$content = str_get_html($content); // - создаем объект DOM из строки.
$images = $content->find('#ires td a img');
foreach ($images as $image) :
    echo $image->src . "<br />\n";
endforeach;

Итого, вы получите 20 ссылок с первой страницы на картинки-миниатюрки предварительного просмотра, сформированные Гуглом: (далее…)

Опубликовано 11-11-2013 в 13:01
PHP

Парсинг сайтов на PHP с Simple HTML DOM Parser: ищем по Google.Картинки. Часть 1: эмуляция браузера.

Сегодня рассмотрим на примере относительно простой задачи — автоматическое вытягивание картинок с выдачи системы Google по заранее определенному поисковому запросу. Без всякого рода рассуждений и «воды».

1. Скачиваем библиотеку под названием Simple HTML DOM Parser с http://sourceforge.net. Из всего множества файлов в распакованном архиве нам с вами будет интересен пока лишь 1: simple_html_dom.php.

2. Создаем свой сценарий на PHP. Подключаем парсер HTML:

<?php
// Подключаем парсер структуры DOM:
require_once('simple_html_dom.php');

3. И как бы банально это сейчас, не прозвучало, но прежде чем что-то спарсить нужно, чтобы для начала было что парсить. Потому нам с вами придется выполнить эмуляцию «человеческого» браузера. Сделать это можно средствами cURL. (далее…)

Опубликовано 11-11-2013 в 10:49



Свежие комментарии

  • Администратор: к записи Николай, посмотрите файл '.htaccess' в корне сайта »
  • Николай: к записи Простите если немного не по теме. Я сделал экспорт »
  • Эрик: к записи Спасибо, помогло) 20 минут мучался) »
  • steblo: к записи спаисбо »
  • Иван: к записи Привет всем, доброго времени суток! Я излазил весь »
  • Александер: к записи Потом пригляделся, вроде Вы не это имели в виду и »
  • Александер: к записи У Вас не русифицируется, потому что не везде включ »

Статистика спама

Последние твиты