PQzMCy3L

· 9 years ago · Oct 14, 2016, 03:02 PM
1# -*- coding: utf-8 -*-
2import re, requests, time, argparse
3
4# Ð·Ð°Ð³Ð¾Ð»Ð¾Ð²ÐºÐ¸ Ð´Ð»Ñ Ð¸Ð¼Ð¸Ñ‚Ð°Ñ†Ð¸Ð¸ Ð·Ð°Ð¿Ñ€Ð¾ÑÐ° Ð¾Ñ‚ Ð±Ñ€Ð°ÑƒÐ·ÐµÑ€Ð°
5headers = {
6    'Cache-Control': 'max-age=0',
7    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
8    'Accept-Encoding': 'gzip, deflate, sdch',
9    'Accept-Language': 'ru-RU,ru;q=0.8,en-US;q=0.6,en;q=0.4',
10    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36',
11    'Connection': 'keep-alive',
12    'Host': 'yandex.ru',
13    'Content-Type': 'text/html;charset=utf-8',
14}
15
16# ÑÐ¾Ð·Ð´Ð°Ð½Ð¸Ðµ Ð¿Ð°Ñ€ÑÐµÑ€Ð° ÐºÐ¾Ð¼Ð°Ð½Ð´Ð½Ð¾Ð¹ ÑÑ‚Ñ€Ð¾ÐºÐ¸
17def create_parser ():
18    parser = argparse.ArgumentParser()
19    parser.add_argument('input_text', nargs='?')
20    parser.add_argument('input_num', nargs='?')
21 
22    return parser
23
24# Ð¿Ð¾Ð»ÑƒÑ‡ÐµÐ½Ð¸Ðµ Ð´Ð°Ð½Ð½Ñ‹Ñ… Ñ Ð¾Ð´Ð½Ð¾Ð¹ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹
25def get_page(text,page):
26    url = "https://yandex.ru/search/?text=%s&lr=2&p=%d" % (text,page)    # lr - Ñ€ÐµÐ³Ð¸Ð¾Ð½(Ð² Ð´Ð°Ð½Ð½Ð¾Ð¼ ÑÐ»ÑƒÑ‡Ð°Ðµ - Ð¡ÐŸÐ±)
27    
28    try :
29        request = requests.get(url, headers=headers , verify=False)
30    except Exception as detail :
31        return 'Ð’Ð¾Ð·Ð½Ð¸ÐºÐ»Ð° Ð¾ÑˆÐ¸Ð±ÐºÐ° Ð¿Ñ€Ð¸ Ð¾ÑÑƒÑ‰ÐµÑÑ‚Ð²Ð»ÐµÐ½Ð¸Ð¸ Ð·Ð°Ð¿Ñ€Ð¾ÑÐ°: %s' % detail
32        
33    request.encoding = 'utf-8'
34
35    html = request.text.encode('utf-8')
36    
37    # Ð¿Ñ€Ð¾Ð²ÐµÑ€ÐºÐ° Ð½Ð° ÐºÐ¾Ð´ Ð¾Ñ‚Ð²ÐµÑ‚Ð° ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹ Ð¸ Ð±Ð»Ð¾ÐºÐ¸Ñ€Ð¾Ð²ÐºÑƒ ÑÐ½Ð´ÐµÐºÑÐ¾Ð¼
38    if request.status_code != 200 :
39        return request.status_code
40    if re.search('action=\"\/checkcaptcha\"',request.text.encode('utf-8')) :
41        return 'Ð¯Ð½Ð´ÐµÐºÑ Ð¾Ð±Ð½Ð°Ñ€ÑƒÐ¶Ð¸Ð» Ð°Ð²Ñ‚Ð¾Ð¼Ð°Ñ‚Ð¸Ñ‡ÐµÑÐºÐ¸Ð¹ Ð·Ð°Ð¿Ñ€Ð¾Ñ'
42
43    # Ð²Ñ‹Ð´ÐµÐ»ÑÐµÐ¼ Ð½ÑƒÐ¶Ð½Ñ‹Ðµ Ñ„Ñ€Ð°Ð³Ð¼ÐµÐ½Ñ‚Ñ‹
44    match = re.findall(r"<li class=\"serp-item\" data-cid=\"[0-9]+\">(.*?)link organic__url link link_cropped_no\" target=\"_blank\" href=\"(.*?)\"(.*?)</i></span>(.*?)</a>(.*?)text-container organic__text\">(.*?)</div>(.*?)<\/li>", html)
45    
46    return match
47    
48
49# Ð²Ñ‹Ð²Ð¾Ð´ Ñ€ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚Ð¾Ð² Ñ Ð¾Ð´Ð½Ð¾Ð¹ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹
50def get_results(match,num):
51    i = 0
52    for item in match :
53        if i < num :
54            print re.sub(r'<[a-z\"\/= ]{2,}>', '', item[3])             # Ð²Ñ‹Ñ€Ð°Ð¶ÐµÐ½Ð¸Ðµ
55            print item[1]                                               # url
56            print re.sub(r'<[a-z\"\/=_ ]{1,}>', '', item[5])            # Ñ‚ÐµÐºÑÑ‚
57            print ''
58            i += 1
59        else :
60            break
61            
62    return i
63    
64       
65def move(text,result_num,page=0):
66    match = get_page(text,page)           # Ð¿Ð¾Ð»ÑƒÑ‡Ð°ÐµÐ¼ Ð´Ð°Ð½Ð½Ñ‹Ðµ ÑÐ¾ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹
67    
68    # Ð¿Ñ€Ð¾Ð²ÐµÑ€ÐºÐ° Ñ‚Ð¸Ð¿Ð° Ð¿Ð¾Ð»ÑƒÑ‡ÐµÐ½Ð½Ñ‹Ñ… Ð´Ð°Ð½Ð½Ñ‹Ñ…
69    match_type = type(match)
70    if match_type == int :
71        print 'Ð¡Ñ‚Ñ€Ð°Ð½Ð¸Ñ†Ð° Ð²ÐµÑ€Ð½ÑƒÐ»Ð° ÐºÐ¾Ð´ %d' % match                # ÐµÑÐ»Ð¸ Ð¿Ð¾Ð»ÑƒÑ‡Ð¸Ð»Ð¸ ÐºÐ¾Ð´ Ð¾Ñ‚Ð²ÐµÑ‚Ð° Ð½Ðµ 200
72    elif type(match) == list :
73        # Ð¿Ñ€Ð¾Ð²ÐµÑ€ÐºÐ° Ð½Ð° Ð½ÑƒÐ»ÐµÐ²Ð¾Ð¹ Ñ€ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚
74        if (page == 0) and (len(match) == 0) :
75            print 'Ð ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚Ñ‹ Ð½Ðµ Ð½Ð°Ð¹Ð´ÐµÐ½Ñ‹'
76        else :
77            result_num -= get_results(match,result_num)        # Ð¿Ð¾Ð»ÑƒÑ‡Ð°ÐµÐ¼ Ð¾ÑÑ‚Ð°Ñ‚Ð¾Ðº Ñ€ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚Ð¾Ð² Ð¿Ð¾ÑÐ»Ðµ Ð¾Ð±Ñ€Ð°Ð±Ð¾Ñ‚ÐºÐ¸ Ñ‚ÐµÐºÑƒÑ‰ÐµÐ¹ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹
78            
79            # ÐµÑÐ»Ð¸ Ð½ÑƒÐ¶Ð½Ñ‹ ÐµÑ‰Ðµ Ñ€ÐµÐ·ÑƒÐ»ÑŒÑ‚Ð°Ñ‚Ñ‹, Ð·Ð°Ð¿Ñ€Ð°ÑˆÐ¸Ð²Ð°ÐµÐ¼ ÑÐ»ÐµÐ´ÑƒÑŽÑ‰ÑƒÑŽ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñƒ
80            if result_num > 0 :
81                time.sleep(1)                             # Ð½Ð° Ð²ÑÑÐºÐ¸Ð¹ ÑÐ»ÑƒÑ‡Ð°Ð¹ ÑÐ´ÐµÐ»Ð°Ð» Ð·Ð°Ð´ÐµÑ€Ð¶ÐºÑƒ Ð¿ÐµÑ€ÐµÐ´ Ð·Ð°Ð¿Ñ€Ð¾ÑÐ¾Ð¼ ÑÐ»ÐµÐ´ÑƒÑŽÑ‰ÐµÐ¹ ÑÑ‚Ñ€Ð°Ð½Ð¸Ñ†Ñ‹, Ð° Ñ‚Ð¾ ÑÐ½Ð´ÐµÐºÑ Ð½Ðµ Ð¾ÑÐ¾Ð±Ð¾ Ð»ÑŽÐ±Ð¸Ñ‚ Ð°Ð²Ñ‚Ð¾Ð¼Ð°Ñ‚Ð¸Ñ‡ÐµÑÐºÐ¸Ðµ Ð·Ð°Ð¿Ñ€Ð¾ÑÑ‹
82                move(text,result_num,page+1)
83            else :
84                return True
85    else :
86        print match
87
88
89if __name__ == '__main__':
90        
91    # Ñ€Ð°Ð·Ð±Ð¾Ñ€ Ð°Ñ€Ð³ÑƒÐ¼ÐµÐ½Ñ‚Ð¾Ð² ÐºÐ¾Ð¼Ð¼Ð°Ð½Ð´Ð½Ð¾Ð¹ ÑÑ‚Ñ€Ð¾ÐºÐ¸
92    parser = create_parser()
93    namespace = parser.parse_args()
94    
95    if namespace.input_text and namespace.input_num :
96        move(namespace.input_text,int(namespace.input_num))       # Ðº Ð¿Ñ€Ð¸Ð¼ÐµÑ€Ñƒ, move('Ð¼Ñ€Ñ‚ Ð¿Ð¾Ð·Ð²Ð¾Ð½Ð¾Ñ‡Ð½Ð¸ÐºÐ°',12)
97    else :
98        print 'ÐÐµ Ð·Ð°Ð´Ð°Ð½ Ð¾Ð´Ð¸Ð½ Ð¸Ð· Ð¿Ð°Ñ€Ð°Ð¼ÐµÑ‚Ñ€Ð¾Ð²'