]> git.mxchange.org Git - friendica.git/blob - include/html2plain.php
API: Seesmic is now working. Optimizing text export.
[friendica.git] / include / html2plain.php
1 <?php
2 require_once "html2bbcode.php";
3
4 function breaklines($line, $level, $wraplength = 75)
5 {
6
7         if ($wraplength == 0)
8                 return($line);
9
10         $wraplen = $wraplength-$level;
11
12         $newlines = array();
13
14         do {
15                 $oldline = $line;
16
17                 $subline = substr($line, 0, $wraplen);
18
19                 $pos = strrpos($subline, ' ');
20
21                 if ($pos == 0)
22                         $pos = strpos($line, ' ');
23
24                 if (($pos > 0) and strlen($line) > $wraplen) {
25                         $newline = trim(substr($line, 0, $pos));
26                         if ($level > 0)
27                                 $newline = str_repeat(">", $level).' '.$newline;
28
29                         $newlines[] = $newline." ";
30                         $line = substr($line, $pos+1);
31                 }
32
33         } while ((strlen($line) > $wraplen) and !($oldline == $line));
34
35         if ($level > 0)
36                 $line = str_repeat(">", $level).' '.$line;
37
38         $newlines[] = $line;
39
40
41         return(implode($newlines, "\n"));
42 }
43
44 function quotelevel($message, $wraplength = 75)
45 {
46         $lines = explode("\n", $message);
47
48         $newlines = array();
49         $level = 0;
50         foreach($lines as $line) {;
51                 $line = trim($line);
52                 $startquote = false;
53                 while (strpos("*".$line, '[quote]') > 0) {
54                         $level++;
55                         $pos = strpos($line, '[quote]');
56                         $line = substr($line, 0, $pos).substr($line, $pos+7);
57                         $startquote = true;
58                 }
59
60                 $currlevel = $level;
61
62                 while (strpos("*".$line, '[/quote]') > 0) {
63                         $level--;
64                         if ($level < 0)
65                                 $level = 0;
66
67                         $pos = strpos($line, '[/quote]');
68                         $line = substr($line, 0, $pos).substr($line, $pos+8);
69                 }
70
71                 if (!$startquote or ($line != ''))
72                         $newlines[] = breaklines($line, $currlevel, $wraplength);
73         }
74         return(implode($newlines, "\n"));
75 }
76
77 function html2plain($html, $wraplength = 75)
78 {
79         global $lang;
80
81         $message = str_replace("\r", "", $html);
82
83         $doc = new DOMDocument();
84         $doc->preserveWhiteSpace = false;
85
86         $message = mb_convert_encoding($message, 'HTML-ENTITIES', "UTF-8");
87
88         @$doc->loadHTML($message);
89
90         $xpath = new DomXPath($doc);
91         $list = $xpath->query("//pre");
92         foreach ($list as $node) {
93                 $node->nodeValue = str_replace("\n", "\r", $node->nodeValue);
94         }
95
96         $message = $doc->saveHTML();
97         $message = str_replace(array("\n<", ">\n", "\r", "\n", "\xC3\x82\xC2\xA0"), array("<", ">", "<br>", " ", ""), $message);
98         $message = preg_replace('= [\s]*=i', " ", $message);
99
100         // nach <a href="...">...</a> suchen, die ... miteinander vergleichen und bei Gleichheit durch ein einzelnes ... ersetzen.
101         $pattern = '/<a.*?href="(.*?)".*?>(.*?)<\/a>/is';
102         preg_match_all($pattern, $message, $result, PREG_SET_ORDER);
103
104         foreach ($result as $treffer) {
105                 if ($treffer[1] == $treffer[2]) {
106                         $search = '<a href="'.$treffer[1].'" target="external-link">'.$treffer[1].'</a>';
107                         $message = str_replace($search, $treffer[1], $message);
108                 }
109         }
110         @$doc->loadHTML($message);
111
112         node2bbcode($doc, 'html', array(), '', '');
113         node2bbcode($doc, 'body', array(), '', '');
114
115         // MyBB-Auszeichnungen
116         /*
117         node2bbcode($doc, 'span', array('style'=>'text-decoration: underline;'), '_', '_');
118         node2bbcode($doc, 'span', array('style'=>'font-style: italic;'), '/', '/');
119         node2bbcode($doc, 'span', array('style'=>'font-weight: bold;'), '*', '*');
120
121         node2bbcode($doc, 'strong', array(), '*', '*');
122         node2bbcode($doc, 'b', array(), '*', '*');
123         node2bbcode($doc, 'i', array(), '/', '/');
124         node2bbcode($doc, 'u', array(), '_', '_');
125         */
126
127         node2bbcode($doc, 'blockquote', array(), '[quote]', "[/quote]\n");
128
129         node2bbcode($doc, 'br', array(), "\n", '');
130
131         node2bbcode($doc, 'span', array(), "", "");
132         node2bbcode($doc, 'pre', array(), "", "");
133         node2bbcode($doc, 'div', array(), "\r", "\r");
134         node2bbcode($doc, 'p', array(), "\n", "\n");
135
136         //node2bbcode($doc, 'ul', array(), "\n[list]", "[/list]\n");
137         //node2bbcode($doc, 'ol', array(), "\n[list=1]", "[/list]\n");
138         node2bbcode($doc, 'li', array(), "\n* ", "\n");
139
140         node2bbcode($doc, 'hr', array(), str_repeat("-", 70), "");
141
142         node2bbcode($doc, 'tr', array(), "\n", "");
143         node2bbcode($doc, 'td', array(), "\t", "");
144
145         node2bbcode($doc, 'h1', array(), "\n\n*", "*\n");
146         node2bbcode($doc, 'h2', array(), "\n\n*", "*\n");
147         node2bbcode($doc, 'h3', array(), "\n\n*", "*\n");
148         node2bbcode($doc, 'h4', array(), "\n\n*", "*\n");
149         node2bbcode($doc, 'h5', array(), "\n\n*", "*\n");
150         node2bbcode($doc, 'h6', array(), "\n\n*", "*\n");
151
152         // Problem: there is no reliable way to detect if it is a link to a tag or profile
153         //node2bbcode($doc, 'a', array('href'=>'/(.+)/'), ' $1 ', '', true);
154         //node2bbcode($doc, 'img', array('alt'=>'/(.+)/'), '$1', '');
155         //node2bbcode($doc, 'img', array('title'=>'/(.+)/'), '$1', '');
156         //node2bbcode($doc, 'img', array(), '', '');
157         node2bbcode($doc, 'img', array('src'=>'/(.+)/'), '[img]$1', '[/img]');
158
159         $message = $doc->saveHTML();
160
161         $message = str_replace("[img]", "", $message);
162         $message = str_replace("[/img]", "", $message);
163
164         // was ersetze ich da?
165         // Irgendein stoerrisches UTF-Zeug
166         $message = str_replace(chr(194).chr(160), ' ', $message);
167
168         $message = str_replace("&nbsp;", " ", $message);
169
170         // Aufeinanderfolgende DIVs
171         $message = preg_replace('=\r *\r=i', "\n", $message);
172         $message = str_replace("\r", "\n", $message);
173
174         $message = strip_tags($message);
175
176         $message = html_entity_decode($message, ENT_QUOTES, 'UTF-8');
177
178         do {
179                 $oldmessage = $message;
180                 $message = str_replace("\n\n\n", "\n\n", $message);
181         } while ($oldmessage != $message);
182
183         $message = quotelevel(trim($message), $wraplength);
184
185         return(trim($message));
186 }
187 ?>