Парсинг сайтов на PHP с Simple HTML DOM Parser: ищем по Google.Картинки. Часть 1: эмуляция браузера.

Сегодня рассмотрим на примере относительно простой задачи — автоматическое вытягивание картинок с выдачи системы Google по заранее определенному поисковому запросу. Без всякого рода рассуждений и «воды».

1. Скачиваем библиотеку под названием Simple HTML DOM Parser с http://sourceforge.net. Из всего множества файлов в распакованном архиве нам с вами будет интересен пока лишь 1: simple_html_dom.php.

2. Создаем свой сценарий на PHP. Подключаем парсер HTML:

<?php
// Подключаем парсер структуры DOM:
require_once('simple_html_dom.php');

3. И как бы банально это сейчас, не прозвучало, но прежде чем что-то спарсить нужно, чтобы для начала было что парсить. Потому нам с вами придется выполнить эмуляцию «человеческого» браузера. Сделать это можно средствами cURL. (далее…)

Опубликовано 11-11-2013 в 10:49

Яндекс на NASDAQ

Как помните, ранее я уже аккуратно предположил в чем причина начала столь интенсивных изменений в большинстве веб-сервисов Яндекса, когда новые «фишки» появляются чуть ли не ежедневно. Теперь косвенно эта «теория» подтверждается.

В общем смотрим на курсы акций компании Yandex на NASDAQ (National Association of Securities Dealers Automated Quotation, если по-русски, то это что-то типа «Автоматизированные котировки Национальной ассоциации дилеров по ценным бумагам», судя по Википедии).

http://news.yandex.ru/quotes/42.html, Яндекс.Новости -> Котировки -> Акции:

Yandex.News: Yandex NASDAQ

(далее…)

Опубликовано 9-11-2013 в 14:44

Хронология событий с сайтом за минувшие 12 месяцев

Ниже я приведу кратенькую хронологию событий, приключившихся с этим блогом за минувшие 12 месяцев.

  • Ноябрь 2012 года. Собственно сайт http://red-book-cms.ru был запущен в свободное плавание в море Интернет-ресурсов.
  • Где-то конец 2012 или начало 2013-ого, — точно не помню. Сайт пережил взлом, — предполагаемая дырка безопасности закралась в старой версии модуля CKEditor, установленного на заброшенном ресурсе под управлением CMS Drupal 7 на том же аккаунте, что и сей проект.
  • Конец июня-начало июля 2013 года. Успешно пережив волну АГС, хлынувшую практически сразу после новогодних праздников, проект умудрился при ясном небе угодить под обстрел и чуть было не затонуть. Через пару месяцев курс удалось выровнять.
  • Выходные дни октября 2013-ого. Попал в какой-то спам-список мировых спамеров. Было несколько тысяч комментариев в час-пик. Akismet не проявил себя должным образом, потому был усовершенствован (в смысле плагин). На текущий момент набеги ботов продолжаются, но в силу наличия кирпичной стенки перед их лбами, уже не так интенсивно.

(далее…)

Опубликовано 8-11-2013 в 13:52

Перлы форумных ‘гениев’: хостинг

Периодически из любопытства и для сбора чужого опыта (все на своем опыте пробовать, согласитесь, достаточно глупо) мельком просматриваю некоторые форумы, бложики и т.п. места Интернета. И не перестаю натыкаться на различные неадекватные рассуждения.

Чуть ниже представлен отрывок одного из таких экземпляров,  — с ещё и громким сеошным заголовком — влияние хостинга на продвижение сайта!

Веб-сервер из домашнего компьютера

Особо бредовые / печальные / смешные моменты сего высказывания я выделил красным подчеркиванием. (далее…)

Опубликовано 8-11-2013 в 13:15

Платный или бесплатный хостинг: что лучше?

Наверное многие из вас, особенно новички, часто задумывались над тем какой же хостинг выбрать.  Конечно не в том плане у какой компании приобрести услугу, а в принципе какой вариант стоит использовать: платный или бесплатный. Прежде чем немного порассуждать, я дам вам однозначный ответ — используйте только платный хостинг!

И вот почему.

Бесплатный хостинг

Плюсы:

  1. За такую услугу не нужно платить, халява.
  2. Если повезет, то там будет и PHP, и MySQL.
  3. Если повезет, то там будет и адекватная тех. поддержка.

(далее…)

Опубликовано 8-11-2013 в 12:44

Как без дополнительных программ быстро настроить прокси на Windows 7

Ниже представлена пошаговая инструкция по настройке прокси  на своем компьютере под управлением операционной системы Microsoft Windows 7. Я не буду рассказывать для чего это нужно, я просто опишу процесс подключения.

1. Итак, открываем Google Chrome. Выбираем пункт Настройки в главном меню браузера.

Настройка прокси - Google Chrome

2. В поле ввода поиска настроек набираем слово «прокси», — чтобы не копаться в доступных опциях. Кликаем по кнопочке «Изменить настройки прокси-сервера».

Изменить настройки прокси-сервера - Google Chrome

3. После описанного действия появится системное окошко Windows с заголовком «Свойства: Интернет», любезно открытое Хромом сразу на вкладке «Подключения». (далее…)

Опубликовано 8-11-2013 в 09:58

Яндекс и его АГС: краткая история, хронология

Чуть ниже приведена краткая хронология появления набора алгоритмов, именуемых (даже официально Яндексом), не иначе, как АГС.

АГС — в народным массах, так сказать, данную аббревиатуру обычно расшифровывают, как АнтиГовноСайт, что частично раскрывает смысл появления и назначение описываемого фильтра, если это можно так называть.

Периодически этим алгоритмом (точнее их совокупностью) проверяется каждый известный поисковой системе сайт. Частота обхода для каждой группы ресурсов / каждого ресурса (?) разная.

АГС призван исключить из результатов поиска / индекса некоторую часть некачественных с точки зрения Yandex сайтов. Обычно под таковыми понимаются заброшенные и/или немодерируемые проекты, ресурсы, содержащие неуникальный контент,  заспамленные, с плохой структурой навигации, некрасивым и неудобным оформлением и прочие. (далее…)

Опубликовано 7-11-2013 в 16:56













Свежие комментарии

  • krasnov8953: к записи Не работает как мне кажется строчка $newTvId = $ »
  • Dimanski: к записи ничего не понимаю. Ставлю ModX на хостинг r01.ru »
  • Дмитрий: к записи Спасибо! Очень выручили. С битриксом беда, а прав »
  • леонид: к записи как сделать что были в ряд? у меня получается по о »
  • Администратор: к записи Статический IP. »
  • Steel: к записи Администратор, вы данную проблему решили подключен »
  • Дмитрий: к записи Хотел узнать как прикрутить данное окно (http://re »

Последние твиты