Ответ 1
Lib https://github.com/rbaier/urltools
Посмотрите на мой проект я делаю то же самое
https://github.com/tg123/tao.bb/blob/master/url_normalize.py
Есть ли стандартный способ сравнения двух URL-адресов в Python - который реализует are_url_the_same
в этом примере:
url_1 = 'http://www.foo.com/bar?a=b&c=d'
url_2 = 'http://www.foo.com:80/bar?c=d;a=b'
if are_urls_the_same(url_1, url2):
print "URLs are the same"
К тому же я имею в виду, что они обращаются к одному и тому же ресурсу - поэтому два URL-адреса в этом примере одинаковы.
Lib https://github.com/rbaier/urltools
Посмотрите на мой проект я делаю то же самое
https://github.com/tg123/tao.bb/blob/master/url_normalize.py
Вот простой класс, который позволяет вам сделать это:
if Url(url1) == Url(url2):
pass
Его можно легко обновить как функцию, хотя эти объекты хешируются и, следовательно, позволяют добавлять их в кеш с помощью набора или словаря:
from urlparse import urlparse, parse_qsl
from urllib import unquote_plus
class Url(object):
'''A url object that can be compared with other url orbjects
without regard to the vagaries of encoding, escaping, and ordering
of parameters in query strings.'''
def __init__(self, url):
parts = urlparse(url)
_query = frozenset(parse_qsl(parts.query))
_path = unquote_plus(parts.path)
parts = parts._replace(query=_query, path=_path)
self.parts = parts
def __eq__(self, other):
return self.parts == other.parts
def __hash__(self):
return hash(self.parts)
Используйте urlparse
и напишите функцию сравнения с необходимыми полями
>>> from urllib.parse import urlparse
>>> o = urlparse('http://www.cwi.nl:80/%7Eguido/Python.html')
И вы можете сравнить по любому из следующих: