Парсер

Про софт и железки.
Сообщение
Автор
Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#1 Сообщение 25.07.2010, 14:41

КАК создать?

KKSeven92
VIP
VIP
Сообщения: 1821
Зарегистрирован: 12.05.2008
Благодарил (а): 1 раз
Поблагодарили: 8 раз
Контактная информация:

#2 Сообщение 25.07.2010, 16:18

Grizhster
В любом супермаркете продается, за копейки, чего ты мелочишься-то? Пойди да купи.
на чем тебе парсер нужен лол

Аватара пользователя
SIEMENS_AG
Майор
Майор
Сообщения: 647
Зарегистрирован: 12.01.2009
Откуда: Херсон, Украшка
Благодарил (а): 710 раз
Поблагодарили: 469 раз
Контактная информация:

#3 Сообщение 25.07.2010, 16:42

Ват из ит?
Изображение
Спасибо, поржал
Divash писал(а):Куплю ключ Battlefield 3 Premium. Не дороже 300 рублей.
Куплю аккаунт с Battlefield 4 Deluxe - 20 рублей.

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#4 Сообщение 25.07.2010, 17:38

Автоматически сохранить инфо с интернета

KKSeven92
VIP
VIP
Сообщения: 1821
Зарегистрирован: 12.05.2008
Благодарил (а): 1 раз
Поблагодарили: 8 раз
Контактная информация:

#5 Сообщение 25.07.2010, 17:56

Grizhster
Ты хоть язык, на котором тебе парсер нужен назвать можешь?

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#6 Сообщение 25.07.2010, 18:08

Извини не понял

Аватара пользователя
NiGHt-LEshiY
Полковник
Полковник
Сообщения: 10258
Зарегистрирован: 13.06.2008
Откуда: Россия
Благодарил (а): 752 раза
Поблагодарили: 2667 раз
Контактная информация:

#7 Сообщение 25.07.2010, 20:00

Получить "что-то" из интернета - wget.
Парсинг - вычленение конкретной информации из интернет-странички. Обычно для этого применяются регулярные выражения.
Посмотри исходный код страницы http://m.yandex.ru/ - ничего не понятно, но нужно получить вполне конкретную информацию в текстовом виде.
Нужно спарсить погоду - ищем соответствующую информацию в коде и вычленяем. Например, такое регулярное выражение (довольно простое, на самом деле):

Код: Выделить всё

"<a id=\"weather\"[^>]*>[^<]*<[^>]*><[^>]*><[^>]*>[^<]*<[^>]*><[^>]*>[^<]*<\/a>"
C помощью этого регулярного выражения мы получили следующий код, очищенный от всего лишнего (если бы код страничек яндекса был лучше, не пришлось бы так извращаться):

Код: Выделить всё

<a id="weather" class="link" href="http://m.weather.yandex.ru/">Погода<span class="m"><img src="http://img.yandex.net/i/wiz7.png" alt="ясно" /><strong class="num">+35</strong></span>ночью +22 </a>
Мы нашли нужный код, теперь нужно выдрать сам текст. Мы видим, что информация о ясности хранится внутри img в параметре alt, текущая температура в strong, а температура вечером только внутри тэга a. Дальше составляем нужные регулярки и вообще используем все возможности утилит Unix или различных языков программирования.
Я же советую открыть вики и почитать про регулярные выражения, утилиты Unix, например sed, grep, cut. Мне этих трех для чего угодно хватает.
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#8 Сообщение 25.07.2010, 20:09

NiGHt-LEshiY
Спасибо большое. а это можно прелажить к парсингу любой другой информации?

Аватара пользователя
NiGHt-LEshiY
Полковник
Полковник
Сообщения: 10258
Зарегистрирован: 13.06.2008
Откуда: Россия
Благодарил (а): 752 раза
Поблагодарили: 2667 раз
Контактная информация:

#9 Сообщение 25.07.2010, 20:10

Абсолютно любая информация. Ведь вся информация в html содержится в текстовом виде, а зная весь текст, можно получить его по кускам.
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#10 Сообщение 25.07.2010, 20:48

Здорово спасибо

Добавлено спустя 22 минуты 2 секунды:
NiGHt-LEshiY
ты не знаешь как добыть underscore _ типо того в command prompt или DOS?
Зарание спасибо

KKSeven92
VIP
VIP
Сообщения: 1821
Зарегистрирован: 12.05.2008
Благодарил (а): 1 раз
Поблагодарили: 8 раз
Контактная информация:

#11 Сообщение 25.07.2010, 20:50

NiGHt-LEshiY
Тебе бы быть учителем, невозмутимый прямо.

Grizhster
А все таки просвети, что ты хочешь сделать? На каком языке, с какой целью?

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#12 Сообщение 25.07.2010, 20:55

Вообще скачать инфо с большой базы данных а что?

Аватара пользователя
NiGHt-LEshiY
Полковник
Полковник
Сообщения: 10258
Зарегистрирован: 13.06.2008
Откуда: Россия
Благодарил (а): 752 раза
Поблагодарили: 2667 раз
Контактная информация:

#13 Сообщение 25.07.2010, 20:58

Grizhster
Точно. Расскажи суть задачи и мы тебе поможем её решить.
Тебе нужно нижнее подчеркивание?
Вообще, в регулярках все символы пишутся как они есть, например выражение "a[0-9]b" найдет a0b, a1b и так далее.
Но есть спецсимволы, которые нужно экранировать. Для этого нужно поставить перед символом. К примеру, выражение ""a"" найдет "a".
Символ _ не входит в число таких спецсимволов.

Adiost
А чего тут возмущаться.. редко кто интересуется такой темой. А тут прямо на Бога Парсинга нарвались :)


Добавлено спустя 1 минуту 4 секунды:
База данных является интернет-страничкой или именно отдельной базой данных, например MySQL?
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.

Grizhster
Нович0к
Нович0к
Сообщения: 23
Зарегистрирован: 10.01.2010

#14 Сообщение 25.07.2010, 21:00

Я открыл Вертуальную клаву и там нашел.
underscore или подчеркивание

Аватара пользователя
NiGHt-LEshiY
Полковник
Полковник
Сообщения: 10258
Зарегистрирован: 13.06.2008
Откуда: Россия
Благодарил (а): 752 раза
Поблагодарили: 2667 раз
Контактная информация:

#15 Сообщение 25.07.2010, 21:01

Что-то никак не могу понять, что ты делаешь и что тебе нужно.
Что за виртуальная клавиатура, зачем она тебе?
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.

Ответить