Парсер
- SIEMENS_AG
- Майор
- Сообщения: 647
- Зарегистрирован: 12.01.2009
- Откуда: Херсон, Украшка
- Благодарил (а): 710 раз
- Поблагодарили: 469 раз
- Контактная информация:
Ват из ит?
Спасибо, поржал
Автоматически сохранить инфо с интернета
- NiGHt-LEshiY
- Полковник
- Сообщения: 10258
- Зарегистрирован: 13.06.2008
- Откуда: Россия
- Благодарил (а): 752 раза
- Поблагодарили: 2667 раз
- Контактная информация:
Получить "что-то" из интернета - wget.
Парсинг - вычленение конкретной информации из интернет-странички. Обычно для этого применяются регулярные выражения.
Посмотри исходный код страницы http://m.yandex.ru/ - ничего не понятно, но нужно получить вполне конкретную информацию в текстовом виде.
Нужно спарсить погоду - ищем соответствующую информацию в коде и вычленяем. Например, такое регулярное выражение (довольно простое, на самом деле):
C помощью этого регулярного выражения мы получили следующий код, очищенный от всего лишнего (если бы код страничек яндекса был лучше, не пришлось бы так извращаться):
Мы нашли нужный код, теперь нужно выдрать сам текст. Мы видим, что информация о ясности хранится внутри img в параметре alt, текущая температура в strong, а температура вечером только внутри тэга a. Дальше составляем нужные регулярки и вообще используем все возможности утилит Unix или различных языков программирования.
Я же советую открыть вики и почитать про регулярные выражения, утилиты Unix, например sed, grep, cut. Мне этих трех для чего угодно хватает.
Парсинг - вычленение конкретной информации из интернет-странички. Обычно для этого применяются регулярные выражения.
Посмотри исходный код страницы http://m.yandex.ru/ - ничего не понятно, но нужно получить вполне конкретную информацию в текстовом виде.
Нужно спарсить погоду - ищем соответствующую информацию в коде и вычленяем. Например, такое регулярное выражение (довольно простое, на самом деле):
Код: Выделить всё
"<a id=\"weather\"[^>]*>[^<]*<[^>]*><[^>]*><[^>]*>[^<]*<[^>]*><[^>]*>[^<]*<\/a>"
Код: Выделить всё
<a id="weather" class="link" href="http://m.weather.yandex.ru/">Погода<span class="m"><img src="http://img.yandex.net/i/wiz7.png" alt="ясно" /><strong class="num">+35</strong></span>ночью +22 </a>
Я же советую открыть вики и почитать про регулярные выражения, утилиты Unix, например sed, grep, cut. Мне этих трех для чего угодно хватает.
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.
Просьба присылать сообщения об ошибках в ЛС.
NiGHt-LEshiY
Спасибо большое. а это можно прелажить к парсингу любой другой информации?
Спасибо большое. а это можно прелажить к парсингу любой другой информации?
- NiGHt-LEshiY
- Полковник
- Сообщения: 10258
- Зарегистрирован: 13.06.2008
- Откуда: Россия
- Благодарил (а): 752 раза
- Поблагодарили: 2667 раз
- Контактная информация:
Абсолютно любая информация. Ведь вся информация в html содержится в текстовом виде, а зная весь текст, можно получить его по кускам.
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.
Просьба присылать сообщения об ошибках в ЛС.
Здорово спасибо
Добавлено спустя 22 минуты 2 секунды:
NiGHt-LEshiY
ты не знаешь как добыть underscore _ типо того в command prompt или DOS?
Зарание спасибо
Добавлено спустя 22 минуты 2 секунды:
NiGHt-LEshiY
ты не знаешь как добыть underscore _ типо того в command prompt или DOS?
Зарание спасибо
Вообще скачать инфо с большой базы данных а что?
- NiGHt-LEshiY
- Полковник
- Сообщения: 10258
- Зарегистрирован: 13.06.2008
- Откуда: Россия
- Благодарил (а): 752 раза
- Поблагодарили: 2667 раз
- Контактная информация:
Grizhster
Точно. Расскажи суть задачи и мы тебе поможем её решить.
Тебе нужно нижнее подчеркивание?
Вообще, в регулярках все символы пишутся как они есть, например выражение "a[0-9]b" найдет a0b, a1b и так далее.
Но есть спецсимволы, которые нужно экранировать. Для этого нужно поставить перед символом. К примеру, выражение ""a"" найдет "a".
Символ _ не входит в число таких спецсимволов.
Adiost
А чего тут возмущаться.. редко кто интересуется такой темой. А тут прямо на Бога Парсинга нарвались :)
Добавлено спустя 1 минуту 4 секунды:
База данных является интернет-страничкой или именно отдельной базой данных, например MySQL?
Точно. Расскажи суть задачи и мы тебе поможем её решить.
Тебе нужно нижнее подчеркивание?
Вообще, в регулярках все символы пишутся как они есть, например выражение "a[0-9]b" найдет a0b, a1b и так далее.
Но есть спецсимволы, которые нужно экранировать. Для этого нужно поставить перед символом. К примеру, выражение ""a"" найдет "a".
Символ _ не входит в число таких спецсимволов.
Adiost
А чего тут возмущаться.. редко кто интересуется такой темой. А тут прямо на Бога Парсинга нарвались :)
Добавлено спустя 1 минуту 4 секунды:
База данных является интернет-страничкой или именно отдельной базой данных, например MySQL?
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.
Просьба присылать сообщения об ошибках в ЛС.
Я открыл Вертуальную клаву и там нашел.
underscore или подчеркивание
underscore или подчеркивание
- NiGHt-LEshiY
- Полковник
- Сообщения: 10258
- Зарегистрирован: 13.06.2008
- Откуда: Россия
- Благодарил (а): 752 раза
- Поблагодарили: 2667 раз
- Контактная информация:
Что-то никак не могу понять, что ты делаешь и что тебе нужно.
Что за виртуальная клавиатура, зачем она тебе?
Что за виртуальная клавиатура, зачем она тебе?
Кодекс поведения участников сообщества — обязательно к прочтению.
Просьба присылать сообщения об ошибках в ЛС.
Просьба присылать сообщения об ошибках в ЛС.