]> git.mxchange.org Git - fba.git/blob - fba/helpers/domain.py
75f97a5d3020b7de9ea406ba7f184c328b84bb36
[fba.git] / fba / helpers / domain.py
1 # Fedi API Block - An aggregator for fetching blocking data from fediverse nodes
2 # Copyright (C) 2023 Free Software Foundation
3 #
4 # This program is free software: you can redistribute it and/or modify
5 # it under the terms of the GNU Affero General Public License as published
6 # by the Free Software Foundation, either version 3 of the License, or
7 # (at your option) any later version.
8 #
9 # This program is distributed in the hope that it will be useful,
10 # but WITHOUT ANY WARRANTY; without even the implied warranty of
11 # MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
12 # GNU Affero General Public License for more details.
13 #
14 # You should have received a copy of the GNU Affero General Public License
15 # along with this program.  If not, see <https://www.gnu.org/licenses/>.
16
17 import logging
18
19 from urllib.parse import urlparse
20
21 import validators
22
23 logging.basicConfig(level=logging.INFO)
24 logger = logging.getLogger(__name__)
25
26 def raise_on(domain: str):
27     logger.debug("domain='%s' - CALLED!", domain)
28     if not isinstance(domain, str):
29         raise ValueError(f"Parameter domain[]='{type(domain)}' is not of type 'str'")
30     elif domain == "":
31         raise ValueError("Parameter 'domain' is empty")
32     elif domain.lower() != domain:
33         raise ValueError(f"Parameter domain='{domain}' must be all lower-case")
34     elif not validators.domain(domain.split("/")[0]):
35         raise ValueError(f"domain='{domain}' is not a valid domain")
36     elif domain.endswith(".arpa"):
37         raise ValueError(f"domain='{domain}' is a domain for reversed IP addresses, please don't crawl them!")
38     elif domain.endswith(".onion"):
39         raise ValueError(f"domain='{domain}' is a TOR, please don't crawl them!")
40     elif domain.endswith(".tld"):
41         raise ValueError(f"domain='{domain}' is a fake domain, please don't crawl them!")
42     elif "xn--" in domain:
43         raise ValueError(f"domain='{domain}' is a punycode domain, please don't crawl them!")
44
45     logger.debug("EXIT!")
46
47 def is_in_url(domain: str, url: str) -> bool:
48     logger.debug("domain='%s',url='%s' - CALLED!", domain, url)
49     raise_on(domain)
50
51     if not isinstance(url, str):
52         raise ValueError(f"Parameter url[]='%s' is not of type 'str'", type(url))
53     elif url == "":
54         raise ValueError("Parameter 'url' is empty")
55
56     components = urlparse(url)
57     punycode = domain.encode("idna").decode("utf-8")
58
59     logger.debug("components[]='%s',punycode='%s'", type(components), punycode)
60     is_found = (punycode == components.netloc or punycode == components.hostname)
61
62     logger.debug("is_found='%s' - EXIT!", is_found)
63     return is_found