Вам «выпарсить» или только «ограббить»?
21 декабря 2012
Рубрика: ИТ-ресно.
Автор: .

По стене ползет утюг?
Не волнуйся — это глюк.
ИТ-поговорка

Каждый день мы узнаем новые слова, термины и даже целые интернет-мемы, которые сначала удивляют своей необычностью и несозвучием, затем становятся частью речи и жизни, а потом еще появляется народный сленг на их основе. Только представьте, что должен подумать нормальный человек, услышав фразу: «Я вчера заменил свою старую мать на новую, вставил ей мозгов побольше, чтобы не тупила, да и камень заменил на ней с ветродуем, чтобы не подвисала мать во время игр». Для любого компьютерного железячника эта фраза понятна с первого раза, а для непосвященных граждан она означает: «Я вчера заменил на ПК системную плату, добавил объема оперативной памяти для более быстрой загрузки программ, а также заменил процессор и кулер на нем, чтобы он работал производительно и не перегревался при работе с современными компьютерными играми». В общем, человек сделал апгрейд и апдейт, а мы могли подумать черти чего :) Как гласит ИТ-народная мудрость: «Если в ворде сервис «орфография» подчеркнул слово красным, утверждая, что «вариантов замены нет», то это еще не значит, что такого слова нет в природе».

И вот представьте мое удивление (человека, видавшего все виды спама и читавшего много ИТ-терминов по «долгу службы»), когда я получил спам-рассылку следующего содержания: «Наша команда предлагает услугу по парсингу сайтов, экспорту/импорту контента. А именно парсинг сайта-донора, и сохранения в различные приемники…». Что за парсинг? Что за сайт-донор? Зачем они нужны? Это ИТ-ресно!

Что такое «парсинг (Parsing)»?
Начну с цитирования спам-письма.
«Прежде всего, наше предложение будет интересно web-студиям, web-мастерам, менеджерам web-проектов.

Вероятно, вы сталкивались с такой ситуацией. Когда к вам обращался клиент, желающий, помимо разработки интернет-магазина или сайта, сделать экспорт/импорт информации с какого-то другого сайта (например, сайта поставщика). В такой ситуации, два выхода — писать парсер сайта самим (одноразово, трудоемко, невыгодно) или воспользоваться услугами сторонней компании (быстро, качественно, недорого).

Наша команда предлагает услугу по парсингу сайтов, экспорту/импорту контента. А именно парсинг сайта-донора, и сохранения в различные приемники -> CSV, MySQL, XML в заданном формате.

Помимо всего прочего, вы можете расширить спектр предлагаемых услуг вашим клиентам за счет услуги «экспорт/импорт контента», дополнительно на этом заработав. Все необходимые материалы для размещения мы предоставим. Вам останется только разместить у себя на сайте.

Схема взаимодействия прозрачна. Дополнительную информацию (стоимость, услуги, примеры, информацию для ваших клиентов) вы можете узнать на нашем сайте…».

Стало интересно, что же такое парсинг? Немного погуглив, нашел наиболее интересное описание…

«Парсинг — автоматизированный сбор контента или данных с какого-либо сайта или сервиса. Как правило, парсинг производится с применением одного из скриптовых, серверных языков программирования: PHP, Perl и других. Результат парсинга чаще всего складывается в базу данных, в файл, либо выдается в формате XML.

Скрипт или программа, занимающаяся непосредственно сбором, анализом и преобразованием требуемой информации, называется парсером.

На фриланс-биржах и специализированных форумах, парсинг чего-либо — крайне популярный вид услуг, пользующийся большим спросом. Как правило, под этими услугами подразумевается создание парсера, способного собрать нужную информацию или контент. Но нередки случаи, когда заказчика интересует исключительно сам контент, который он и просит предоставить ему в удобном для него виде.

Заметим, что парсинг — это, по сути, преобразование данных из неудобоваримого формата в формат удобованимый. То есть, например, разбор и импорт RSS-ленты парсингом не является, поскольку формат RSS является подмножеством стандартного формата XML.

Фазы парсинга
Любой парсер состоит из трех частей, которые отвечают за три отдельных процесса парсинга:
• Получение контента в исходном виде. Под получением контента чаще всего подразумевается скачивание кода веб-страницы, из которой необходимо извлечь данные или контент. Одним из самых развитых решений для получения кода требуемой страницы является библиотека c URL для языка PHP.
• Извлечение и преобразование данных. В этой фазе происходит извлечение требуемых данных из полученного на первом этапе кода страницы. Чаще всего для извлечения используют регулярные выражения. Также на этом этапе происходит преобразование извлеченных данных к нужному формату, если это требуется.
• Генерация результата. Завершающий этап парсинга. На нем происходит вывод или запись полученных на втором этапе данных в требуемый формат. Чаще всего, запись ведется напрямую в базу данных».
Источник: http://westseo.ru/article/parsing

Нашлось даже описание парсинга в словаре «SEOшника» …

Парсингом (от англ. parse) называют процесс анализа или разбора определенного контента на составляющие с помощью роботов-парсеров (специальных программ или скриптов). В SEO этим контентом является html-код страниц сайтов.

Самые известные парсеры в сети это поисковые роботы, которые анализируют страницы, сохраняют данные анализа у себя в базе и потом при поиске выдают релевантные и актуальные документы.

Часто парсинг путают с граббингом. Это близкие понятия, но все же имеют разные значения. Граббер позволяет скачивать информацию из сети (html-страницы, rss-ленты, xml-документы) в свою базу, а парсер позволяет выявить из этой кучи полезную информацию и обработать ее, в зависимости от поставленных задач.

В области поисковой оптимизации парсинг используется очень часто. Все seo-инструменты что-то парсят (ссылки, ключевые слова) и на основе этого предоставляют полезные данные для анализа. Синонимы парсинга: граббинг. Источник: http://seodic.ru/terms/парсинг

Есть и более «научное» описание термина:
«Парсинг – это синтаксический анализ сайтов, который автоматически производится парсером – специальной программой или скриптом. Характер парсинга определяется заданием получить определенную информацию со страниц сайта, параметры анализа заранее задаются. Собранная информация предоставляется в определенном виде и проводится на одном из языков программирования.

Три фазы парсинга являются логичными стадиями процесса: сначала это пунктуальный сбор информации, например, это может быть код интернет-страницы. Затем анализ данных, обработка и преобразование в нужный формат. Наконец – предоставление результата, вывод данных. Наиболее часто парсинг опирается на систему регулярных выражений. Источник: http://www.webeffector.ru/wiki/Парсинг

Даже грабли бывают разными!

Что такое граббинг?
Как оказалось, у парсинга еще есть и синоним — граббинг. Еще раз погуглил… И нашел: «Понятие «граббинг», или «спутниковая рыбалка», возникло совсем недавно и означает перехват чужого интернет-трафика со спутника, предоставляющего услуги спутникового Интернета…». Что-то совсем не то, вроде?

Оказывается, у граббинга имеется два значения. Второе — «Граббинг — это сканирование каких-либо ресурсов и получение с них нужной информации. В применении к Интернету это чаще всего сканирование сайтов и скачивание с них информации. Эта информация может быть самой разнообразной — программы, фильмы, музыка, архивы и всякая другая информация, интересная пользователям Интернета…

Этот термин произошел от английского слоыв «grab», что в переводе обозначает использовать, перехватывать. В большинстве случаев этот процесс автоматизирован, для этого используется соответствующее программное обеспечение. Эти программы называются грабберами…

При сравнении терминов граббинг и парсинг, приходишь к выводу, что процесс парсинга и применение парсеров будет несколько шире своего синонима. Ведь принципы парсинга применяются в таких программных разработках, как переводчики с одного языка на другой или в трансляторах языков программирования, и здесь термин граббинг ну совершенно не подходит.

Если быть более конкретным, то граббинг сайтов — это сбор информации по определенным параметрам с определенных сайтов. Это может помочь при каких-либо статистических исследованиях или при создании тематических баз данных. Причем процесс этот довольно кропотливый и требует затрат как временных, так и моральных. Особенно при нестабильной работе Интернета.

Люди, специализирующиеся по этой теме, очень неплохие программисты. Для написания программы-граббов чаще всего используют язык C#, несколько реже PHP или другие языки программирования…».

Источник: http://inetmkt.ru/audit/grabbing-protsess-skanirovaniya-informatsii.

Вот теперь все встало на свои места. Так что, если вам кто-то в час ночи предложит «выпарсить» пару-тройку тысяч сайтов-доноров или ограббить какой-нибудь уникальный контент — не переживайте — это просто «сеошное» предложение и вполне приличное :)

Я тут в «SEO — Энциклопедии» (есть и такая), наткнулся на незнакомое слово «сниппет»… Врочем, новых ИТ-терминов с каждым днем становится все больше и больше. А значит, наша с вами жизнь становится все ИТ-реснее :)

Orphus system
В Telegram
В Одноклассники
ВКонтакте