Updated 'core'.
[hub.git] / application / hub / main / source / class_BaseUrlSource.php
1 <?php
2 /**
3  * A general URL source class
4  *
5  * @author              Roland Haeder <webmaster@shipsimu.org>
6  * @version             0.0.0
7  * @copyright   Copyright (c) 2007, 2008 Roland Haeder, 2009 - 2015 Hub Developer Team
8  * @license             GNU GPL 3.0 or any newer version
9  * @link                http://www.shipsimu.org
10  *
11  * This program is free software: you can redistribute it and/or modify
12  * it under the terms of the GNU General Public License as published by
13  * the Free Software Foundation, either version 3 of the License, or
14  * (at your option) any later version.
15  *
16  * This program is distributed in the hope that it will be useful,
17  * but WITHOUT ANY WARRANTY; without even the implied warranty of
18  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
19  * GNU General Public License for more details.
20  *
21  * You should have received a copy of the GNU General Public License
22  * along with this program.  If not, see <http://www.gnu.org/licenses/>.
23  */
24 class BaseUrlSource extends BaseSource {
25         // Stack name for all URLs
26         const STACKER_NAME_URLS = 'urls';
27
28         // Array elements for CSV data array
29         const CRAWL_JOB_ARRAY_START_URL      = 'start_url';
30         const CRAWL_JOB_ARRAY_DEPTH          = 'start_depth';
31         const CRAWL_JOB_ARRAY_EXTERNAL_DEPTH = 'external_depth';
32
33         /**
34          * Protected constructor
35          *
36          * @param       $className      Name of the class
37          * @return      void
38          */
39         protected function __construct ($className) {
40                 // Call parent constructor
41                 parent::__construct($className);
42         }
43
44         /**
45          * Initalizes this source
46          *
47          * @param       $prefix                 Prefix for this source
48          * @param       $sourceName             Name of this source
49          * @return      void
50          */
51         protected function initSource ($prefix, $sourceName) {
52                 // Use another object factory
53                 $stackInstance = FileStackFactory::createFileStackInstance($prefix . '_url', $sourceName);
54
55                 // Set the stack here
56                 $this->setStackInstance($stackInstance);
57         }
58
59         /**
60          * Determines whether the stack 'urls' is empty.
61          *
62          * @return      $isEmpty        Whether the stack 'urls' is empty.
63          */
64         public function isUrlStackEmpty () {
65                 // Determine it
66                 $isEmpty = $this->getStackInstance()->isStackEmpty(self::STACKER_NAME_URLS);
67
68                 // Return result
69                 return $isEmpty;
70         }
71
72         /**
73          * Enriches the given associative array with more data, now at least 2
74          * elements are required:
75          *
76          * 'start_url'   - Starting URL
77          * 'start_depth' - Crawl depth for starting URL
78          *
79          * @param       $crawlData      Array with partial data for being queued
80          * @return      void
81          * @todo        ~10% done
82          */
83         protected function enrichCrawlerQueueData (array &$crawlData) {
84                 // Debug message
85                 //* NOISY-DEBUG: */ self::createDebugInstance(__CLASS__)->debugOutput('CRAWLER-SOURCE [' . __METHOD__ . ':' . __LINE__ . ']: crawlData()=' . count($crawlData) . ' - CALLED!');
86
87                 // Check for minimum array elements
88                 assert(isset($crawlData[self::CRAWL_JOB_ARRAY_START_URL]));
89                 assert(isset($crawlData[self::CRAWL_JOB_ARRAY_DEPTH]));
90
91                 // @TODO Add more elements
92
93                 // Debug message
94                 //* NOISY-DEBUG: */ self::createDebugInstance(__CLASS__)->debugOutput('CRAWLER-SOURCE [' . __METHOD__ . ':' . __LINE__ . ']: EXIT!');
95         }
96
97         /**
98          * Enqueues given crawler array in assigned file-based stack
99          *
100          * @param       $crawlData      Array with partial data for being queued
101          * @return      void
102          */
103         protected function enqueueInFileStack (array $crawlData) {
104                 // Debug message
105                 //* NOISY-DEBUG: */ self::createDebugInstance(__CLASS__)->debugOutput('CRAWLER-SOURCE [' . __METHOD__ . ':' . __LINE__ . ']: crawlData()=' . count($crawlData) . ' - CALLED!');
106
107                 // Get the stack instance and enqueue it
108                 $this->getStackInstance()->pushNamed(self::STACKER_NAME_URLS, $crawlData);
109
110                 // Debug message
111                 //* NOISY-DEBUG: */ self::createDebugInstance(__CLASS__)->debugOutput('CRAWLER-SOURCE [' . __METHOD__ . ':' . __LINE__ . ']: EXIT!');
112         }
113 }
114
115 // [EOF]
116 ?>