# -*- coding: utf-8 -*- import re import time import urllib from net import HTTP from cache import Cache from html import Clear import kinopoisk.LOGGER import kinopoisk.pageparser import kinopoisk.common GENRE = { 'anime': 1750, 'biography': 22, 'action': 3, 'western': 13, 'military': 19, 'detective': 17, 'children': 456, 'for adults': 20, 'documentary': 12, 'drama': 8, 'game': 27, 'history': 23, 'comedy': 6, 'concert': 1747, 'short': 15, 'criminal': 16, 'romance': 7, 'music': 21, 'cartoon': 14, 'musical': 9, 'news': 28, 'adventures': 10, 'realitytv': 25, 'family': 11, 'sports': 24, 'talk shows': 26, 'thriller': 4, 'horror': 1, 'fiction': 2, 'filmnoir': 18, 'fantasy': 5 } COUNTRIES = ( (0, u'Все'), (2, u'Россия'), (1, u'США'), (13, u'СССР'), (25, u'Австралия'), (57, u'Австрия'), (136, u'Азербайджан'), (120, u'Албания'), (20, u'Алжир'), (1026, u'Американские Виргинские острова'), (139, u'Ангола'), (159, u'Андорра'), (1044, u'Антарктида'), (1030, u'Антигуа и Барбуда'), (1009, u'Антильские Острова'), (24, u'Аргентина'), (89, u'Армения'), (175, u'Аруба'), (113, u'Афганистан'), (124, u'Багамы'), (75, u'Бангладеш'), (105, u'Барбадос'), (164, u'Бахрейн'), (69, u'Беларусь'), (173, u'Белиз'), (41, u'Бельгия'), (140, u'Бенин'), (109, u'Берег Слоновой кости'), (1004, u'Бермуды'), (148, u'Бирма'), (63, u'Болгария'), (118, u'Боливия'), (178, u'Босния'), (39, u'Босния-Герцеговина'), (145, u'Ботсвана'), (10, u'Бразилия'), (92, u'Буркина-Фасо'), (162, u'Бурунди'), (114, u'Бутан'), (1059, u'Вануату'), (11, u'Великобритания'), (49, u'Венгрия'), (72, u'Венесуэла'), (1043, u'Восточная Сахара'), (52, u'Вьетнам'), (170, u'Вьетнам Северный'), (127, u'Габон'), (99, u'Гаити'), (165, u'Гайана'), (1040, u'Гамбия'), (144, u'Гана'), (135, u'Гватемала'), (129, u'Гвинея'), (116, u'Гвинея-Бисау'), (3, u'Германия'), (60, u'Германия (ГДР)'), (18, u'Германия (ФРГ)'), (1022, u'Гибралтар'), (112, u'Гондурас'), (28, u'Гонконг'), (117, u'Гренландия'), (55, u'Греция'), (61, u'Грузия'), (142, u'Гуаделупа'), (1045, u'Гуам'), (4, u'Дания'), (1037, u'Демократическая Республика Конго'), (1028, u'Джибути'), (1031, u'Доминика'), (128, u'Доминикана'), (101, u'Египет'), (155, u'Заир'), (133, u'Замбия'), (104, u'Зимбабве'), (42, u'Израиль'), (29, u'Индия'), (73, u'Индонезия'), (154, u'Иордания'), (90, u'Ирак'), (48, u'Иран'), (38, u'Ирландия'), (37, u'Исландия'), (15, u'Испания'), (14, u'Италия'), (169, u'Йемен'), (146, u'Кабо-Верде'), (122, u'Казахстан'), (1051, u'Каймановы острова'), (84, u'Камбоджа'), (95, u'Камерун'), (6, u'Канада'), (1002, u'Катар'), (100, u'Кения'), (64, u'Кипр'), (1024, u'Кирибати'), (31, u'Китай'), (56, u'Колумбия'), (1058, u'Коморы'), (134, u'Конго'), (1014, u'Конго (ДРК)'), (156, u'Корея'), (137, u'Корея Северная'), (26, u'Корея Южная'), (1013, u'Косово'), (131, u'Коста-Рика'), (76, u'Куба'), (147, u'Кувейт'), (86, u'Кыргызстан'), (149, u'Лаос'), (54, u'Латвия'), (1015, u'Лесото'), (176, u'Либерия'), (97, u'Ливан'), (126, u'Ливия'), (123, u'Литва'), (125, u'Лихтенштейн'), (59, u'Люксембург'), (115, u'Маврикий'), (67, u'Мавритания'), (150, u'Мадагаскар'), (153, u'Макао'), (80, u'Македония'), (1025, u'Малави'), (83, u'Малайзия'), (151, u'Мали'), (1050, u'Мальдивы'), (111, u'Мальта'), (43, u'Марокко'), (102, u'Мартиника'), (1042, u'Масаи'), (17, u'Мексика'), (1041, u'Мелкие отдаленные острова США'), (81, u'Мозамбик'), (58, u'Молдова'), (22, u'Монако'), (132, u'Монголия'), (1034, u'Мьянма'), (91, u'Намибия'), (106, u'Непал'), (157, u'Нигер'), (110, u'Нигерия'), (12, u'Нидерланды'), (138, u'Никарагуа'), (35, u'Новая Зеландия'), (1006, u'Новая Каледония'), (33, u'Норвегия'), (119, u'ОАЭ'), (1019, u'Оккупированная Палестинская территория'), (1003, u'Оман'), (1052, u'Остров Мэн'), (1047, u'Остров Святой Елены'), (1007, u'острова Теркс и Кайкос'), (74, u'Пакистан'), (1057, u'Палау'), (78, u'Палестина'), (107, u'Панама'), (163, u'Папуа - Новая Гвинея'), (143, u'Парагвай'), (23, u'Перу'), (32, u'Польша'), (36, u'Португалия'), (82, u'Пуэрто Рико'), (1036, u'Реюньон'), (1033, u'Российская империя'), (2, u'Россия'), (103, u'Руанда'), (46, u'Румыния'), (121, u'Сальвадор'), (1039, u'Самоа'), (1011, u'Сан-Марино'), (158, u'Саудовская Аравия'), (1029, u'Свазиленд'), (1010, u'Сейшельские острова'), (65, u'Сенегал'), (1055, u'Сент-Винсент и Гренадины'), (1049, u'Сент-Люсия'), (177, u'Сербия'), (174, u'Сербия и Черногория'), (1021, u'Сиам'), (45, u'Сингапур'), (98, u'Сирия'), (94, u'Словакия'), (40, u'Словения'), (160, u'Сомали'), (13, u'СССР'), (167, u'Судан'), (171, u'Суринам'), (1, u'США'), (1023, u'Сьерра-Леоне'), (70, u'Таджикистан'), (44, u'Таиланд'), (27, u'Тайвань'), (130, u'Танзания'), (161, u'Того'), (1012, u'Тонго'), (88, u'Тринидад и Тобаго'), (1053, u'Тувалу'), (50, u'Тунис'), (152, u'Туркменистан'), (68, u'Турция'), (172, u'Уганда'), (71, u'Узбекистан'), (62, u'Украина'), (79, u'Уругвай'), (1008, u'Фарерские острова'), (1038, u'Федеративные Штаты Микронезии'), (166, u'Фиджи'), (47, u'Филиппины'), (7, u'Финляндия'), (8, u'Франция'), (1032, u'Французская Гвиана'), (1046, u'Французская Полинезия'), (85, u'Хорватия'), (141, u'ЦАР'), (77, u'Чад'), (1020, u'Черногория'), (34, u'Чехия'), (16, u'Чехословакия'), (51, u'Чили'), (21, u'Швейцария'), (5, u'Швеция'), (108, u'Шри-Ланка'), (96, u'Эквадор'), (87, u'Эритрея'), (53, u'Эстония'), (168, u'Эфиопия'), (30, u'ЮАР'), (19, u'Югославия'), (66, u'Югославия (ФР)'), (93, u'Ямайка'), (9, u'Япония') ) class KinoPoisk: """ API: scraper - скрапер movie - профайл фильма search - поиск фильма best - поиск лучших фильмов person - поиск персон work - информация о работах персоны """ def __init__(self, language='ru'): dbname='kinopoisk.%s.db' % language self.cache = Cache(dbname, 1.0) self.html = Clear() self.timeout = 60.0 self.http = HTTP() self.headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; rv:10.0.2) Gecko/20100101 Firefox/10.0.2', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Accept-Language': 'ru-ru,ru;q=0.8,en-us;q=0.5,en;q=0.3', 'Cache-Control': 'no-cache', 'Referer': 'http://www.kinopoisk.ru/level/7/' } # API def scraper(self, search, year=None): try: if not isinstance(search, list): search = [search] tag = 'scraper:' + urllib.quote_plus(":".join(search).encode('utf8')) except: return None else: if year: tag += ':' + str(year) id = self.cache.get(tag, self._scraper, search, year) if not id: return None return self.movie(id) def movie(self, id): id = str(id) return self.cache.get('movie:' + id, self._movie, id) def search(self, search, year): return self._search_movie(search, year) def countries(self): return COUNTRIES def country(self, id, default=None): country = [x[1] for x in COUNTRIES if x[0] == id] return country[0] if country else default def _search_movie(self, search, year=None): parser = kinopoisk.pageparser.PageParser(kinopoisk.LOGGER, isDebug=True) orginalname = search[0] if len(search) > 1: name = search[1] else: name = None results = parser.fetchAndParseSearchResults(orginalname, year, name) if results and results[0][3] > 70: return results[0][0] def _scraper(self, search, year): timeout = True # если фильм свежий, то кладем в кэш НЕ на долго (могут быть обновления на сайте) if year and year > time.gmtime(time.time()).tm_year: timeout = 7 * 24 * 60 * 60 * 4 # 4 week movie_id = self._search_movie(search, year) if movie_id is None: # сохраняем пустой результат на 4 week return 7 * 24 * 60 * 60 * 4, None else: return timeout, movie_id def _movie(self, id): response = self.http.fetch('http://www.kinopoisk.ru/film/' + id + '/', headers=self.headers, timeout=self.timeout) if response.error: return False, None html = response.body.decode('windows-1251') res = { 'icon': None, 'thumbnail': None, 'properties': { 'fanart_image': None, }, 'info': { 'count': int(id) } } # имя, оригинальное имя, девиз, цензура, год, top250 # runtime - длительность фильма (в отдельную переменную, иначе не видно размер файла) for tag, reg, cb in ( ('title', '(.+?)', self.html.string), ('originaltitle', 'itemprop="alternativeHeadline">([^<]*)', self.html.string), ('tagline', '«(.+?)»', self.html.string), ('mpaa', 'images/mpaa/([^\.]+).gif', self.html.string), ('runtime', '[^<]+/([^<]+)', self.html.string), ('year', '(.+?)'), ('writer', u'сценарий]*>(.+?)'), ('genre', u'(.+?)') ): r = re.compile(reg, re.U | re.S).search(html) if r: r2 = [] for r in re.compile('([^<]+)', re.U).findall(r.group(1)): r = self.html.string(r) if r and r != '...': r2.append(r) if r2: res['info'][tag] = u', '.join(r2) # актеры r = re.compile(u'

В главных ролях:

(.+?)', re.U | re.S).search(html) if r: actors = [] for r in re.compile('
  • ]+>([^<]+)
  • ', re.U).findall(r.group(1)): r = self.html.string(r) if r and r != '...': actors.append(r) if actors: res['info']['cast'] = actors[:] # res['info']['castandrole'] = actors[:] # описание фильма r = re.compile('
    (.+?)
    ', re.U).search(html) if r: plot = self.html.text(r.group(1).replace('<=end=>', '\n')) if plot: res['info']['plot'] = plot # IMDB r = re.compile('IMDb: ([0-9.]+) \(([0-9\s]+)\)', re.U).search(html) if r: res['info']['rating'] = float(r.group(1).strip()) res['info']['votes'] = r.group(2).strip() # премьера r = re.compile(u'премьера \(мир\)(.+?)', re.U | re.S).search(html) if r: r = re.compile(u'data\-ical\-date="([^"]+)"', re.U | re.S).search(r.group(1)) if r: data = r.group(1).split(' ') if len(data) == 3: i = 0 for mon in ( u'января', u'февраля', u'марта', u'апреля', u'мая', u'июня', u'июля', u'августа', u'сентября', u'октября', u'ноября', u'декабря'): i += 1 if mon == data[1]: mon = str(i) if len(mon) == 1: mon = '0' + mon day = data[0] if len(day) == 1: day = '0' + day res['info']['premiered'] = '-'.join([data[2], mon, day]) break # постер r = re.compile(u'onclick="openImgPopup\(([^\)]+)\)', re.U | re.S).search(html) if r: poster = r.group(1).replace("'", '').strip() if poster: res['thumbnail'] = res['icon'] = 'http://kinopoisk.ru' + poster menu = re.compile('