Искать  
 
   
 
Модуль для грабинга rss и html
Отправлено: 06 Ноябрь 2010 07:12 P.M.   [ Игнорировать ]
Новичок
Rank
Всего сообщений:  5
Зарегистрирован  2010-09-24

Дело было вечером, делать было нечего smile
Давненько написал модуль для импорта контента с rss фидов и html страниц к себе на сайт, так как найти похожий модуль у меня не получилось, если есть что то подобное - ткните носом. Решил им поделиться.

Немного плохого: это мой первый модуль для EE, писался он для себя, отдавать полностью модуль - мне жалко smile поэтому в выложенной версии: ограничение на количество импортируемых новостей (максимум 5 за раз), принудительно в каждой новости добавляется ссылка на источник. Модуль может глючить, не работать и т.д., так как проверял я его на трех сайтах и допиливал так чтобы он работал с нужными мне источниками, используйте на свой страх и риск smile

Немного хорошего: модуль умеет обрабатывать RSS фид, находить ссылки на полные новости, и грабить их. Обрабатывать HTML страницы, находить с помощью регулярных выражений ссылки на полные новости и грабить их. Находить в новостях картинки и засовывать их в нужное поле. Работает с utf8 и с windows-1251. Грабинг статьи можно выполнять либо с помощью регулярных выражений, либо с помощью указания начала и конца статьи. Первый вариант рекомендуемый, так как я в основном пользовался им и работать он должен более менее нормально.

Будущее модуля: если я надумаю доделать этот модуль до более работоспособного состояния, то он естественно будет не бесплатный. Скорей всего буду делать подобный модуль для EE 2.x


Скачать: narod.yandex.ru/disk/27083380000/Importer 1.0.zip

Приложения с изображениями
1.jpg2.jpg
Профиль
 
 
Отправлено: 06 Ноябрь 2010 08:04 P.M.   [ Игнорировать ]   [ # 1 ]
Sr. Member
RankRankRankRank
Всего сообщений:  987
Зарегистрирован  2008-09-27

На скринах мало, что видно, но вроде бы настроек нормально.
Интересно было бы проверить в действии.
По поводу готового уже есть вот что:
http://brandnewbox.co.uk/products/details/feedgrab
http://brandnewbox.co.uk/products/details/datagrab

Профиль
 
 
Отправлено: 06 Ноябрь 2010 11:19 P.M.   [ Игнорировать ]   [ # 2 ]
Member
Avatar
RankRankRank
Всего сообщений:  363
Зарегистрирован  2009-01-02

feedgrab бесплатный и полностью устраивает. Зачем велосипед изобретать? да еще и с ограничениями

 Подпись 

Я в космосе

Профиль
 
 
Отправлено: 06 Ноябрь 2010 11:34 P.M.   [ Игнорировать ]   [ # 3 ]
Новичок
Rank
Всего сообщений:  5
Зарегистрирован  2010-09-24
Stop-TussiN - 06 Ноябрь 2010 11:19 P.M.

feedgrab бесплатный и полностью устраивает. Зачем велосипед изобретать? да еще и с ограничениями

документация и туториалы по фидграберу не открываются на офф сайте, фидграбер грабит контент только из rss? умеет парсить html страницы? Парсит полный текст новости или берет текст только из rss?

Профиль
 
 
Отправлено: 07 Ноябрь 2010 12:05 A.M.   [ Игнорировать ]   [ # 4 ]
Администратор
Avatar
RankRankRankRank
Всего сообщений:  891
Зарегистрирован  2008-01-07

1. Модуль с таким названием уже есть для ЕЕ - http://www.solspace.com/software/detail/importer/ так что лучше переименовать wink
2. Будет отлично если будет поддерживать Fieldtypes и Matrix - http://pixelandtonic.com/fieldframe

Профиль
 
 
Отправлено: 07 Ноябрь 2010 12:23 A.M.   [ Игнорировать ]   [ # 5 ]
Новичок
Rank
Всего сообщений:  5
Зарегистрирован  2010-09-24

1. Переименуем )
2. Возможно сделаю, чем они отличаются от nGen File Field? smile

Профиль
 
 
Отправлено: 07 Ноябрь 2010 03:25 P.M.   [ Игнорировать ]   [ # 6 ]
Администратор
Avatar
RankRankRankRank
Всего сообщений:  891
Зарегистрирован  2008-01-07
skyman - 07 Ноябрь 2010 12:23 A.M.

1. Переименуем )
2. Возможно сделаю, чем они отличаются от nGen File Field? smile

ну так там можно скачать бесплатно)) матрикс правда платный ну и его еще бесплатную версию можно найти или http://eematrix.com/

Профиль