Русский / Russian English / Английский

Сейчас на форуме: LoxmatbIj, _MBK_ (+4 невидимых)
 · Начало · Статистика · Регистрация · Поиск · ПРАВИЛА ФОРУМА · Язык · RSS ·

 eXeL@B —› Программирование —› Парсер ссылок в файле
. 1 . 2 . >>
Посл.ответ Сообщение


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 2 ноября 2008 12:39 · Поправил: Модератор New!
Цитата · Личное сообщение · #1

Ситуация такая:
В моём The Bat! в одом из ящиков лежит много писем примерно одинакого содержания.
В каждом(или почти в каждом) письме есть ссылка. У всех ссылок есть одинаковый участок.
К примеру:
хттп://ввв.гугл.ру/index.php?hgurnRjrk141246
хттп://ввв.йа.ру/index.php?hgurnRjrk516483
Вот жирным выделены одинаковые участки.
Задача состоит в том чтобы собрать все эти ссылки.
З.Ы. Если не в том форуме создал то переместите =)

Ранг: 253.9 (наставник)
Статус: Участник

Создано: 2 ноября 2008 12:48 New!
Цитата · Личное сообщение · #2

экспортни все нужные письма в текстовые файлы, потом слей эти файлы в один чем-нибудь... ну и наконец, возьми любую прогу (можно регулярные выражения), которая может фильтровать строки, в фильтре задай свою одинаковую последовательность.


Ранг: 114.1 (ветеран)
Статус: Участник

Создано: 2 ноября 2008 12:49 New!
Цитата · Личное сообщение · #3

Magister Yoda Скажем так, не только не на том форуме, а и не на том сайте!


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 2 ноября 2008 13:46 New!
Цитата · Личное сообщение · #4

да кстати ошибся словом...
Экспорт надо было написать...
с экспортированием в один файл всех писем всё нормально...
но как отсеять ссылки тогда?


Ранг: 1288.1 (!!!!)
Статус: Участник

Создано: 2 ноября 2008 13:51 New!
Цитата · Личное сообщение · #5

Magister Yoda пишет:
но как отсеять ссылки тогда?

примитивной прогой на любом ЯП, написанной за 5 минут самостоятельно.


Ранг: 467.7 (мудрец)
Статус: Участник
Иной :)

Создано: 2 ноября 2008 14:01 New!
Цитата · Личное сообщение · #6

Magister Yoda
Регулярки спасут отца демократии!
В том же notepad++ или в FAR через плагин.
Регулярка приблизительно такого вида
Code:
  1. (http.+\/index\.php\?hgurnRjrk\d+)


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 2 ноября 2008 14:44 New!
Цитата · Личное сообщение · #7

[HEX]
либо я что-то не так делаю либо ты не правильно написал...
сделай так в Notepad++ и сделай скриншот чтобы понятно было


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 2 ноября 2008 17:50 · Поправил: Модератор New!
Цитата · Личное сообщение · #8

переименуйте топик в парсер ссылок в файле

сделал


Ранг: 450.3 (мудрец)
Статус: Участник

Создано: 2 ноября 2008 17:50 New!
Цитата · Личное сообщение · #9

[HEX] пишет:
или в FAR через плагин


Это ты про какой именно плагин ?
Я активно пользую макросы в редакторе, но иногда не хватает функционала. А каждый раз писать программку для обработки чего либо бывает лень...

Ранг: 253.9 (наставник)
Статус: Участник

Создано: 2 ноября 2008 22:38 New!
Цитата · Личное сообщение · #10

вот мой старый проект, делал по нужде. фильтрует строки по регулярке.

топикстартеру осталось всего лишь слить все письма в один файл, это совсем не сложно, простейший способ - сжать их TAR'ом

{ Атач доступен только для участников форума } - project1.exe


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 3 ноября 2008 06:46 New!
Цитата · Личное сообщение · #11

Tim
на самом деле всё проще про сливание писем в 1 файл...
в The Bat! есть функция Сохранить в файл - уже пробовал, работает норм
Tim
Спасибо попробую, ещё разобраться надо


Ранг: 251.8 (наставник)
Статус: Участник
Seeker

Создано: 3 ноября 2008 10:54 New!
Цитата · Личное сообщение · #12

ToBad
RE Search

[HEX]
Ты забыл про жадность (иногда без нее не работает):

Code:
  1. (http.+?\/index\.php\?hgurnRjrk\d+)


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 3 ноября 2008 11:59 New!
Цитата · Личное сообщение · #13

всё равно ничо не понял
ничо не отсеивает...


Ранг: 450.3 (мудрец)
Статус: Участник

Создано: 3 ноября 2008 16:13 New!
Цитата · Личное сообщение · #14

=TS= пишет:
RE Search


Спасибо !


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 3 ноября 2008 17:28 New!
Цитата · Личное сообщение · #15

=TS=,[HEX]
покажите пример в notepad++

Ранг: 133.4 (ветеран)
Статус: Участник

Создано: 3 ноября 2008 22:47 New!
Цитата · Личное сообщение · #16

Немного изменил свой скриптец исходя из условий задачи. Правда я ее не совсем понял, поэтому сделал два варианта. Скрипт создает два файла: html с линкованными ссылками и txt - просто список ссылок. Первая твоя кнопка вытаскивает все ссылки, начинающиеся с , вторая - ссылки, у которых есть текст, выделенный тобой в первом посте. В поле вводишь путь к файлу относительно файла со скриптом.
Скрипт работает только в IE. Твой файл должен быть в ANSI - кодировке.


{ Атач доступен только для участников форума } - getlink_script_yoda.rar


Ранг: 467.7 (мудрец)
Статус: Участник
Иной :)

Создано: 4 ноября 2008 18:02 New!
Цитата · Личное сообщение · #17

Хмм... за это время так и не решился вопрос?
В общем в notepad++ решается, но правда немного через попу, но всеже это подручные средства, а не специализированое ПО.

Для примера возьмём поиск ссылок на картинки (подобного вида /images/logo_xx_xxxxxx.gif) со страницы рамблера hxxp://tv.rambler.ru/index.html

Идея в следующем:
1. Создаем желательно единственный таб в notepad++ и вставляем туда содержимое страницы (файла).
2. Ищем регуляркой все вхождения. Но найденые участки будут ввиде строк что нам наверное не совсем подходит для данного примера, поэтому сделаем переносы строк до и после нужных нам ссылок. Жмём CTRL+H, выбираем регулярные выражения, в строку поиска вставляем регулярку (\/images\/logo_\d+_\d+\.gif), а в строку замены вставляем \n\1\n. Таким образом у найденых ссылок слева и справа будут переносы строк. Теперь ищем все строки с нашими ссылками. Нажимаем CTRL+F, ставим пункт регулярные выражения, вставляем снова нашу регулярку (\/images\/logo_\d+_\d+\.gif) и нажимаем кнопку "Искать всё в". В итоге получаем результат поиска приблизительно следующего вида:
Code:
  1. [new 2]
  2. Line 91 : /images/logo_41_8304.gif
  3. Line 93 : /images/logo_42_17748.gif
  4. Line 95 : /images/logo_47_8306.gif
  5. Line 97 : /images/logo_43_17749.gif
  6. Line 99 : /images/logo_44_8898.gif
  7. Line 101 : /images/logo_45_8319.gif
  8. Line 103 : /images/logo_46_8315.gif
  9. ...

Копируем всё в буффер и вставляем в новый таб.
3. Избавляемся от ненужного нам текста Line 91 : той же заменой через регулярку (Line \d+ : ) на пустоту.

В итоге получаем чистые ссылки на картинки.
Я согласен что метод не идеален и описание очень нудное и долгое. Но если под рукой ничего нет, то и это сойдет.

ToBad
Я непомню идет ли плагин в стандартной комплектации или нет, но на всякий случай вот ссыль на автора плагина hxxp://pavel.kostrom.spb.ru/programs/far#research


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 17 февраля 2009 05:13 New!
Цитата · Личное сообщение · #18

сделайе плиз регулярку для link_deleted_by_forum_engine/files/*********


Ранг: 467.7 (мудрец)
Статус: Участник
Иной :)

Создано: 17 февраля 2009 17:47 · Поправил: [HEX] New!
Цитата · Личное сообщение · #19

http:\/\/depositfiles\.com\/files\/\w+

советую почитать www.pcre.ru/ там же и конструктор регулярок есть.

Ранг: 45.5 (посетитель)
Статус: Участник

Создано: 18 февраля 2009 00:57 New!
Цитата · Личное сообщение · #20

см. аттач

{ Атач доступен только для участников форума } - HELP.rar


Ранг: 107.3 (ветеран)
Статус: Участник

Создано: 18 февраля 2009 05:43 New!
Цитата · Личное сообщение · #21

[HEX]
спс за сайт! буду разбираться


Ранг: 209.5 (наставник)
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 07:06 · Поправил: Getorix New!
Цитата · Личное сообщение · #22

Кстати говоря, а не знает ли народ движка регулярных выражений на сях с сырцами (желательно отдельно, а не Boost какой нить)? На CodeProject я нашел парочку, мож кто еще подкинет? Заранее пасиб

Ранг: 516.1 (!)
Статус: Участник

Создано: 18 февраля 2009 07:54 New!
Цитата · Личное сообщение · #23

в винде есть встроенный обработчик regexp через библиотеки vbscript

Ранг: 191.8 (ветеран)
Статус: Участник

Создано: 18 февраля 2009 08:24 New!
Цитата · Личное сообщение · #24

Когда-то давно пользовался прогой, вроде ссылки живые, мож в помощь
macx.chat.ru/grgen/
macx.chat.ru/grgen/grgen11ru.zip

Ранг: 162.2 (ветеран)
Статус: Участник

Создано: 18 февраля 2009 08:33 New!
Цитата · Личное сообщение · #25

Getorix
pcre


Ранг: 209.5 (наставник)
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 09:02 · Поправил: Getorix New!
Цитата · Личное сообщение · #26

Av0id
> в винде есть встроенный обработчик regexp через библиотеки vbscript
Клевая штука конечно, но низя юзать библиотеки vbscript

asd
> pcre
Там вроде как на Javascript он, а мне бы на сях либочку

Ранг: 162.2 (ветеран)
Статус: Участник

Создано: 18 февраля 2009 10:31 New!
Цитата · Личное сообщение · #27

Getorix
на сях есть. х.з. где, но я когда-то пользовался. пошарь по офсайту


Ранг: 467.7 (мудрец)
Статус: Участник
Иной :)

Создано: 18 февраля 2009 12:11 · Поправил: [HEX] New!
Цитата · Личное сообщение · #28

Getorix
www.pcre.org
billposer.org/Linguistics/Computation/Resources.html#patterns
www.dmoz.org/Computers/Programming/Languages/Regular_Expressions/C_and_C%2b%2b/


Ранг: 209.5 (наставник)
Статус: Участник
WinCE ARM M@sTeR

Создано: 18 февраля 2009 12:27 New!
Цитата · Личное сообщение · #29

[HEX]
Пасиба бро!
Кажись то что надо.

Ранг: 133.4 (ветеран)
Статус: Участник

Создано: 18 февраля 2009 18:21 New!
Цитата · Личное сообщение · #30

Есть неплохая книжка по регуляркам: Дж.Фридл, Регулярные выражения. Djvu 7,5мб: www.phpfaq.ru/files/friedl.rar.
. 1 . 2 . >>
 eXeL@B —› Программирование —› Парсер ссылок в файле
Эта тема закрыта. Ответы больше не принимаются.

Видеокурс ВЗЛОМ