]> git.mxchange.org Git - quix0rs-gnu-social.git/blob - lib/util.php
Implement $config['site']['logdebug']
[quix0rs-gnu-social.git] / lib / util.php
1 <?php
2 /*
3  * StatusNet - the distributed open-source microblogging tool
4  * Copyright (C) 2008-2011, StatusNet, Inc.
5  *
6  * This program is free software: you can redistribute it and/or modify
7  * it under the terms of the GNU Affero General Public License as published by
8  * the Free Software Foundation, either version 3 of the License, or
9  * (at your option) any later version.
10  *
11  * This program is distributed in the hope that it will be useful,
12  * but WITHOUT ANY WARRANTY; without even the implied warranty of
13  * MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE.  See the
14  * GNU Affero General Public License for more details.
15  *
16  * You should have received a copy of the GNU Affero General Public License
17  * along with this program.  If not, see <http://www.gnu.org/licenses/>.
18  */
19
20 /* XXX: break up into separate modules (HTTP, user, files) */
21
22 /**
23  * Show a server error.
24  */
25 function common_server_error($msg, $code=500)
26 {
27     $err = new ServerErrorAction($msg, $code);
28     $err->showPage();
29 }
30
31 /**
32  * Show a user error.
33  */
34 function common_user_error($msg, $code=400)
35 {
36     $err = new ClientErrorAction($msg, $code);
37     $err->showPage();
38 }
39
40 /**
41  * This should only be used at setup; processes switching languages
42  * to send text to other users should use common_switch_locale().
43  *
44  * @param string $language Locale language code (optional; empty uses
45  *                         current user's preference or site default)
46  * @return mixed success
47  */
48 function common_init_locale($language=null)
49 {
50     if (!$language) {
51         $language = common_language();
52     }
53     putenv('LANGUAGE='.$language);
54     putenv('LANG='.$language);
55     $ok =  setlocale(LC_ALL,
56                      $language . ".utf8",
57                      $language . ".UTF8",
58                      $language . ".utf-8",
59                      $language . ".UTF-8",
60                      $language);
61
62     return $ok;
63 }
64
65 /**
66  * Initialize locale and charset settings and gettext with our message catalog,
67  * using the current user's language preference or the site default.
68  *
69  * This should generally only be run at framework initialization; code switching
70  * languages at runtime should call common_switch_language().
71  *
72  * @access private
73  */
74 function common_init_language()
75 {
76     mb_internal_encoding('UTF-8');
77
78     // Note that this setlocale() call may "fail" but this is harmless;
79     // gettext will still select the right language.
80     $language = common_language();
81     $locale_set = common_init_locale($language);
82
83     if (!$locale_set) {
84         // The requested locale doesn't exist on the system.
85         //
86         // gettext seems very picky... We first need to setlocale()
87         // to a locale which _does_ exist on the system, and _then_
88         // we can set in another locale that may not be set up
89         // (say, ga_ES for Galego/Galician) it seems to take it.
90         //
91         // For some reason C and POSIX which are guaranteed to work
92         // don't do the job. en_US.UTF-8 should be there most of the
93         // time, but not guaranteed.
94         $ok = common_init_locale("en_US");
95         if (!$ok && strtolower(substr(PHP_OS, 0, 3)) != 'win') {
96             // Try to find a complete, working locale on Unix/Linux...
97             // @fixme shelling out feels awfully inefficient
98             // but I don't think there's a more standard way.
99             $all = `locale -a`;
100             foreach (explode("\n", $all) as $locale) {
101                 if (preg_match('/\.utf[-_]?8$/i', $locale)) {
102                     $ok = setlocale(LC_ALL, $locale);
103                     if ($ok) {
104                         break;
105                     }
106                 }
107             }
108         }
109         if (!$ok) {
110             common_log(LOG_ERR, "Unable to find a UTF-8 locale on this system; UI translations may not work.");
111         }
112         $locale_set = common_init_locale($language);
113     }
114
115     common_init_gettext();
116 }
117
118 /**
119  * @access private
120  */
121 function common_init_gettext()
122 {
123     setlocale(LC_CTYPE, 'C');
124     // So we do not have to make people install the gettext locales
125     $path = common_config('site', 'locale_path');
126     bindtextdomain("statusnet", $path);
127     bind_textdomain_codeset("statusnet", "UTF-8");
128     textdomain("statusnet");
129 }
130
131 /**
132  * Switch locale during runtime, and poke gettext until it cries uncle.
133  * Otherwise, sometimes it doesn't actually switch away from the old language.
134  *
135  * @param string $language code for locale ('en', 'fr', 'pt_BR' etc)
136  */
137 function common_switch_locale($language=null)
138 {
139     common_init_locale($language);
140
141     setlocale(LC_CTYPE, 'C');
142     // So we do not have to make people install the gettext locales
143     $path = common_config('site', 'locale_path');
144     bindtextdomain("statusnet", $path);
145     bind_textdomain_codeset("statusnet", "UTF-8");
146     textdomain("statusnet");
147 }
148
149 function common_timezone()
150 {
151     if (common_logged_in()) {
152         $user = common_current_user();
153         if ($user->timezone) {
154             return $user->timezone;
155         }
156     }
157
158     return common_config('site', 'timezone');
159 }
160
161 function common_valid_language($lang)
162 {
163     if ($lang) {
164         // Validate -- we don't want to end up with a bogus code
165         // left over from some old junk.
166         foreach (common_config('site', 'languages') as $code => $info) {
167             if ($info['lang'] == $lang) {
168                 return true;
169             }
170         }
171     }
172     return false;
173 }
174
175 function common_language()
176 {
177     // Allow ?uselang=xx override, very useful for debugging
178     // and helping translators check usage and context.
179     if (isset($_GET['uselang'])) {
180         $uselang = strval($_GET['uselang']);
181         if (common_valid_language($uselang)) {
182             return $uselang;
183         }
184     }
185
186     // If there is a user logged in and they've set a language preference
187     // then return that one...
188     if (_have_config() && common_logged_in()) {
189         $user = common_current_user();
190
191         if (common_valid_language($user->language)) {
192             return $user->language;
193         }
194     }
195
196     // Otherwise, find the best match for the languages requested by the
197     // user's browser...
198     if (common_config('site', 'langdetect')) {
199         $httplang = isset($_SERVER['HTTP_ACCEPT_LANGUAGE']) ? $_SERVER['HTTP_ACCEPT_LANGUAGE'] : null;
200         if (!empty($httplang)) {
201             $language = client_preferred_language($httplang);
202             if ($language) {
203                 return $language;
204             }
205         }
206     }
207
208     // Finally, if none of the above worked, use the site's default...
209     return common_config('site', 'language');
210 }
211
212 /**
213  * Salted, hashed passwords are stored in the DB.
214  */
215 function common_munge_password($password, Profile $profile=null)
216 {
217     $hashed = null;
218
219     if (Event::handle('StartHashPassword', [&$hashed, $password, $profile])) {
220         Event::handle('EndHashPassword', [&$hashed, $password, $profile]);
221     }
222     if (empty($hashed)) {
223         throw new PasswordHashException();
224     }
225
226     return $hashed;
227 }
228
229 /**
230  * Check if a username exists and has matching password.
231  */
232 function common_check_user($nickname, $password)
233 {
234     // empty nickname always unacceptable
235     if (empty($nickname)) {
236         return false;
237     }
238
239     $authenticatedUser = false;
240
241     if (Event::handle('StartCheckPassword', [$nickname, $password, &$authenticatedUser])) {
242         if (common_is_email($nickname)) {
243             $user = User::getKV('email', common_canonical_email($nickname));
244         } else {
245             $user = User::getKV('nickname', Nickname::normalize($nickname));
246         }
247
248         if ($user instanceof User && !empty($password)) {
249             if (0 == strcmp(common_munge_password($password, $user->getProfile()), $user->password)) {
250                 //internal checking passed
251                 $authenticatedUser = $user;
252             }
253         }
254     }
255     Event::handle('EndCheckPassword', [$nickname, $password, $authenticatedUser]);
256
257     return $authenticatedUser;
258 }
259
260 /**
261  * Is the current user logged in?
262  */
263 function common_logged_in()
264 {
265     return (!is_null(common_current_user()));
266 }
267
268 function common_local_referer()
269 {
270     return isset($_SERVER['HTTP_REFERER'])
271             && parse_url($_SERVER['HTTP_REFERER'], PHP_URL_HOST) === common_config('site', 'server');
272 }
273
274 function common_have_session()
275 {
276     return (0 != strcmp(session_id(), ''));
277 }
278
279 /**
280  * Make sure session is started and handled by
281  * the correct handler.
282  */
283 function common_ensure_session()
284 {
285     if (!common_have_session()) {
286         if (common_config('sessions', 'handle')) {
287             session_set_save_handler(new InternalSessionHandler(), true);
288         }
289         if (array_key_exists(session_name(), $_GET)) {
290             $id = $_GET[session_name()];
291         } elseif (array_key_exists(session_name(), $_COOKIE)) {
292             $id = $_COOKIE[session_name()];
293         }
294         if (isset($id)) {
295             session_id($id);
296         }
297         session_start();
298         if (!isset($_SESSION['started'])) {
299             $_SESSION['started'] = time();
300             if (!empty($id)) {
301                 common_log(LOG_WARNING, 'Session cookie "' . $_COOKIE[session_name()] . '" ' .
302                            ' is set but started value is null');
303             }
304         }
305     }
306 }
307
308 // Three kinds of arguments:
309 // 1) a user object
310 // 2) a nickname
311 // 3) null to clear
312
313 // Initialize to false; set to null if none found
314 $_cur = false;
315
316 function common_set_user($user)
317 {
318     global $_cur;
319
320     if (is_null($user) && common_have_session()) {
321         $_cur = null;
322         unset($_SESSION['userid']);
323         return true;
324     } elseif (is_string($user)) {
325         $nickname = $user;
326         $user = User::getKV('nickname', $nickname);
327     } elseif (!$user instanceof User) {
328         return false;
329     }
330
331     if ($user) {
332         if (Event::handle('StartSetUser', [&$user])) {
333             if (!empty($user)) {
334                 if (!$user->hasRight(Right::WEBLOGIN)) {
335                     // TRANS: Authorisation exception thrown when a user a not allowed to login.
336                     throw new AuthorizationException(_('Not allowed to log in.'));
337                 }
338                 common_ensure_session();
339                 $_SESSION['userid'] = $user->id;
340                 $_cur = $user;
341                 Event::handle('EndSetUser', [$user]);
342                 return $_cur;
343             }
344         }
345     }
346     return false;
347 }
348
349 function common_set_cookie($key, $value, $expiration=0)
350 {
351     $path = common_config('site', 'path');
352     $server = common_config('site', 'server');
353
354     if ($path && ($path != '/')) {
355         $cookiepath = '/' . $path . '/';
356     } else {
357         $cookiepath = '/';
358     }
359     return setcookie($key,
360                      $value,
361                      $expiration,
362                      $cookiepath,
363                      $server,
364                      GNUsocial::useHTTPS());
365 }
366
367 define('REMEMBERME', 'rememberme');
368 define('REMEMBERME_EXPIRY', 30 * 24 * 60 * 60); // 30 days
369
370 function common_rememberme($user=null)
371 {
372     if (!$user) {
373         $user = common_current_user();
374         if (!$user) {
375             return false;
376         }
377     }
378
379     $rm = new Remember_me();
380
381     $rm->code = common_random_hexstr(16);
382     $rm->user_id = $user->id;
383
384     // Wrap the insert in some good ol' fashioned transaction code
385
386     $rm->query('BEGIN');
387
388     $result = $rm->insert();
389
390     if (!$result) {
391         common_log_db_error($rm, 'INSERT', __FILE__);
392         $rm->query('ROLLBACK');
393         return false;
394     }
395
396     $rm->query('COMMIT');
397
398     $cookieval = $rm->user_id . ':' . $rm->code;
399
400     common_log(LOG_INFO, 'adding rememberme cookie "' . $cookieval . '" for ' . $user->nickname);
401
402     common_set_cookie(REMEMBERME, $cookieval, time() + REMEMBERME_EXPIRY);
403
404     return true;
405 }
406
407 function common_remembered_user()
408 {
409     $user = null;
410
411     $packed = isset($_COOKIE[REMEMBERME]) ? $_COOKIE[REMEMBERME] : null;
412
413     if (!$packed) {
414         return null;
415     }
416
417     list($id, $code) = explode(':', $packed);
418
419     if (!$id || !$code) {
420         common_log(LOG_WARNING, 'Malformed rememberme cookie: ' . $packed);
421         common_forgetme();
422         return null;
423     }
424
425     $rm = Remember_me::getKV('code', $code);
426
427     if (!$rm) {
428         common_log(LOG_WARNING, 'No such remember code: ' . $code);
429         common_forgetme();
430         return null;
431     }
432
433     if ($rm->user_id != $id) {
434         common_log(LOG_WARNING, 'Rememberme code for wrong user: ' . $rm->user_id . ' != ' . $id);
435         common_forgetme();
436         return null;
437     }
438
439     $user = User::getKV('id', $rm->user_id);
440
441     if (!$user instanceof User) {
442         common_log(LOG_WARNING, 'No such user for rememberme: ' . $rm->user_id);
443         common_forgetme();
444         return null;
445     }
446
447     // successful!
448     $result = $rm->delete();
449
450     if (!$result) {
451         common_log_db_error($rm, 'DELETE', __FILE__);
452         common_log(LOG_WARNING, 'Could not delete rememberme: ' . $code);
453         common_forgetme();
454         return null;
455     }
456
457     common_log(LOG_INFO, 'logging in ' . $user->nickname . ' using rememberme code ' . $rm->code);
458
459     common_set_user($user);
460     common_real_login(false);
461
462     // We issue a new cookie, so they can log in
463     // automatically again after this session
464
465     common_rememberme($user);
466
467     return $user;
468 }
469
470 /**
471  * must be called with a valid user!
472  */
473 function common_forgetme()
474 {
475     common_set_cookie(REMEMBERME, '', 0);
476 }
477
478 /**
479  * Who is the current user?
480  */
481 function common_current_user()
482 {
483     global $_cur;
484
485     if (!_have_config()) {
486         return null;
487     }
488
489     if ($_cur === false) {
490         if (isset($_COOKIE[session_name()]) || isset($_GET[session_name()])
491             || (isset($_SESSION['userid']) && $_SESSION['userid'])) {
492             common_ensure_session();
493             $id = isset($_SESSION['userid']) ? $_SESSION['userid'] : false;
494             if ($id) {
495                 $user = User::getKV('id', $id);
496                 if ($user instanceof User) {
497                     $_cur = $user;
498                     return $_cur;
499                 }
500             }
501         }
502
503         // that didn't work; try to remember; will init $_cur to null on failure
504         $_cur = common_remembered_user();
505
506         if ($_cur) {
507             // XXX: Is this necessary?
508             $_SESSION['userid'] = $_cur->id;
509         }
510     }
511
512     return $_cur;
513 }
514
515 /**
516  * Logins that are 'remembered' aren't 'real' -- they're subject to
517  * cookie-stealing. So, we don't let them do certain things. New reg,
518  * OpenID, and password logins _are_ real.
519  */
520 function common_real_login($real=true)
521 {
522     common_ensure_session();
523     $_SESSION['real_login'] = $real;
524 }
525
526 function common_is_real_login()
527 {
528     return common_logged_in() && $_SESSION['real_login'];
529 }
530
531 /**
532  * Get a hash portion for HTTP caching Etags and such including
533  * info on the current user's session. If login/logout state changes,
534  * or we've changed accounts, or we've renamed the current user,
535  * we'll get a new hash value.
536  *
537  * This should not be considered secure information.
538  *
539  * @param User $user (optional; uses common_current_user() if left out)
540  * @return string
541  */
542 function common_user_cache_hash($user=false)
543 {
544     if ($user === false) {
545         $user = common_current_user();
546     }
547     if ($user) {
548         return crc32($user->id . ':' . $user->nickname);
549     } else {
550         return '0';
551     }
552 }
553
554 /**
555  * get canonical version of nickname for comparison
556  *
557  * @param string $nickname
558  * @return string
559  *
560  * @throws NicknameException on invalid input
561  * @deprecated call Nickname::normalize() directly.
562  */
563 function common_canonical_nickname($nickname)
564 {
565     return Nickname::normalize($nickname);
566 }
567
568 /**
569  * get canonical version of email for comparison
570  *
571  * @fixme actually normalize
572  * @fixme reject invalid input
573  *
574  * @param string $email
575  * @return string
576  */
577 function common_canonical_email($email)
578 {
579     // XXX: canonicalize UTF-8
580     // XXX: lcase the domain part
581     return $email;
582 }
583
584 function common_to_alphanumeric($str)
585 {
586     $filtered = preg_replace('/[^A-Za-z0-9]\s*/', '', $str);
587     if (strlen($filtered) < 1) {
588         throw new Exception('Filtered string was zero-length.');
589     }
590     return $filtered;
591 }
592
593 function common_purify($html, array $args=[])
594 {
595     require_once INSTALLDIR.'/extlib/HTMLPurifier/HTMLPurifier.auto.php';
596
597     $cfg = HTMLPurifier_Config::createDefault();
598     /**
599      * rel values that should be avoided since they can be used to infer
600      * information about the _current_ page, not the h-entry:
601      *
602      *      directory, home, license, payment
603      *
604      * Source: http://microformats.org/wiki/rel
605      */
606     $cfg->set('Attr.AllowedRel', ['bookmark', 'enclosure', 'nofollow', 'tag', 'noreferrer']);
607     $cfg->set('HTML.ForbiddenAttributes', ['style']);  // id, on* etc. are already filtered by default
608     $cfg->set('URI.AllowedSchemes', array_fill_keys(common_url_schemes(), true));
609     if (isset($args['URI.Base'])) {
610         $cfg->set('URI.Base', $args['URI.Base']);   // if null this is like unsetting it I presume
611         $cfg->set('URI.MakeAbsolute', !is_null($args['URI.Base']));   // if we have a URI base, convert relative URLs to absolute ones.
612     }
613     if (common_config('cache', 'dir')) {
614         $cfg->set('Cache.SerializerPath', common_config('cache', 'dir'));
615     }
616     // if you don't want to use the default cache dir for htmlpurifier, set it specifically as $config['htmlpurifier']['Cache.SerializerPath'] = '/tmp'; or something.
617     foreach (common_config('htmlpurifier') as $key=>$val) {
618         $cfg->set($key, $val);
619     }
620
621     // Remove more elements than what the default filter removes, default in GNU social are remotely
622     // linked resources such as img, video, audio
623     $forbiddenElements = [];
624     foreach (common_config('htmlfilter') as $tag=>$filter) {
625         if ($filter === true) {
626             $forbiddenElements[] = $tag;
627         }
628     }
629     $cfg->set('HTML.ForbiddenElements', $forbiddenElements);
630
631     $html = common_remove_unicode_formatting($html);
632
633     $purifier = new HTMLPurifier($cfg);
634     $purified = $purifier->purify($html);
635     Event::handle('EndCommonPurify', [&$purified, $html]);
636
637     return $purified;
638 }
639
640 function common_remove_unicode_formatting($text)
641 {
642     // Strip Unicode text formatting/direction codes
643     // this is pretty dangerous for visualisation of text and can be used for mischief
644     return preg_replace('/[\\x{200b}-\\x{200f}\\x{202a}-\\x{202e}]/u', '', $text);
645 }
646
647 /**
648  * Partial notice markup rendering step: build links to !group references.
649  *
650  * @param string    $text partially rendered HTML
651  * @param Profile   $author the Profile that is composing the current notice
652  * @param Notice    $parent the Notice this is sent in reply to, if any
653  * @return string partially rendered HTML
654  */
655 function common_render_content($text, Profile $author, Notice $parent=null)
656 {
657     $text = common_render_text($text);
658     $text = common_linkify_mentions($text, $author, $parent);
659     return $text;
660 }
661
662 /**
663  * Finds @-mentions within the partially-rendered text section and
664  * turns them into live links.
665  *
666  * Should generally not be called except from common_render_content().
667  *
668  * @param string    $text   partially-rendered HTML
669  * @param Profile   $author the Profile that is composing the current notice
670  * @param Notice    $parent the Notice this is sent in reply to, if any
671  * @return string partially-rendered HTML
672  */
673 function common_linkify_mentions($text, Profile $author, Notice $parent=null)
674 {
675     $mentions = common_find_mentions($text, $author, $parent);
676
677     // We need to go through in reverse order by position,
678     // so our positions stay valid despite our fudging with the
679     // string!
680
681     $points = [];
682
683     foreach ($mentions as $mention) {
684         $points[$mention['position']] = $mention;
685     }
686
687     krsort($points);
688
689     foreach ($points as $position => $mention) {
690         $linkText = common_linkify_mention($mention);
691
692         $text = substr_replace($text, $linkText, $position, $mention['length']);
693     }
694
695     return $text;
696 }
697
698 function common_linkify_mention(array $mention)
699 {
700     $output = null;
701
702     if (Event::handle('StartLinkifyMention', [$mention, &$output])) {
703         $xs = new XMLStringer(false);
704
705         $attrs = ['href' => $mention['url'],
706                   'class' => 'h-card u-url p-nickname '.$mention['type']];
707
708         if (!empty($mention['title'])) {
709             $attrs['title'] = $mention['title'];
710         }
711
712         $xs->element('a', $attrs, $mention['text']);
713
714         $output = $xs->getString();
715
716         Event::handle('EndLinkifyMention', [$mention, &$output]);
717     }
718
719     return $output;
720 }
721
722 function common_get_attentions($text, Profile $sender, Notice $parent=null)
723 {
724     $mentions = common_find_mentions($text, $sender, $parent);
725     $atts = [];
726     foreach ($mentions as $mention) {
727         foreach ($mention['mentioned'] as $mentioned) {
728             $atts[$mentioned->getUri()] = $mentioned->getObjectType();
729         }
730     }
731     if ($parent instanceof Notice) {
732         $parentAuthor = $parent->getProfile();
733         // afaik groups can't be authors
734         $atts[$parentAuthor->getUri()] = ActivityObject::PERSON;
735     }
736     return $atts;
737 }
738
739 /**
740  * Find @-mentions in the given text, using the given notice object as context.
741  * References will be resolved with common_relative_profile() against the user
742  * who posted the notice.
743  *
744  * Note the return data format is internal, to be used for building links and
745  * such. Should not be used directly; rather, call common_linkify_mentions().
746  *
747  * @param string    $text
748  * @param Profile   $sender the Profile that is sending the current text
749  * @param Notice    $parent the Notice this text is in reply to, if any
750  *
751  * @return array
752  *
753  * @access private
754  */
755 function common_find_mentions($text, Profile $sender, Notice $parent=null)
756 {
757     $mentions = [];
758
759     if (Event::handle('StartFindMentions', [$sender, $text, &$mentions])) {
760         // Get the context of the original notice, if any
761         $origMentions = [];
762         // Does it have a parent notice for context?
763         if ($parent instanceof Notice) {
764             foreach ($parent->getAttentionProfiles() as $repliedTo) {
765                 if (!$repliedTo->isPerson()) {
766                     continue;
767                 }
768                 $origMentions[$repliedTo->id] = $repliedTo;
769             }
770         }
771
772         $matches = common_find_mentions_raw($text, '@');
773
774         foreach ($matches as $match) {
775             try {
776                 $nickname = Nickname::normalize($match[0]);
777             } catch (NicknameException $e) {
778                 // Bogus match? Drop it.
779                 continue;
780             }
781
782             // primarily mention the profiles mentioned in the parent
783             $mention_found_in_origMentions = false;
784             foreach ($origMentions as $origMentionsId=>$origMention) {
785                 if ($origMention->getNickname() == $nickname) {
786                     $mention_found_in_origMentions = $origMention;
787                     // don't mention same twice! the parent might have mentioned
788                     // two users with same nickname on different instances
789                     unset($origMentions[$origMentionsId]);
790                     break;
791                 }
792             }
793
794             // Try to get a profile for this nickname.
795             // Start with parents mentions, then go to parents sender context
796             if ($mention_found_in_origMentions) {
797                 $mentioned = $mention_found_in_origMentions;
798             } elseif ($parent instanceof Notice && $parent->getProfile()->getNickname() === $nickname) {
799                 $mentioned = $parent->getProfile();
800             } else {
801                 // sets to null if no match
802                 $mentioned = common_relative_profile($sender, $nickname);
803             }
804
805             if ($mentioned instanceof Profile) {
806                 try {
807                     $url = $mentioned->getUri();    // prefer the URI as URL, if it is one.
808                     if (!common_valid_http_url($url)) {
809                         $url = $mentioned->getUrl();
810                     }
811                 } catch (InvalidUrlException $e) {
812                     $url = common_local_url('userbyid', ['id' => $mentioned->getID()]);
813                 }
814
815                 $mention = ['mentioned' => [$mentioned],
816                             'type' => 'mention',
817                             'text' => $match[0],
818                             'position' => $match[1],
819                             'length' => mb_strlen($match[0]),
820                             'title' => $mentioned->getFullname(),
821                             'url' => $url];
822
823                 $mentions[] = $mention;
824             }
825         }
826
827         // @#tag => mention of all subscriptions tagged 'tag'
828
829         preg_match_all(
830             '/'.Nickname::BEFORE_MENTIONS.'@#([\pL\pN_\-\.]{1,64})/',
831             $text,
832             $hmatches,
833             PREG_OFFSET_CAPTURE
834         );
835         foreach ($hmatches[1] as $hmatch) {
836             $tag = common_canonical_tag($hmatch[0]);
837             $plist = Profile_list::getByTaggerAndTag($sender->getID(), $tag);
838             if (!$plist instanceof Profile_list || $plist->private) {
839                 continue;
840             }
841             $tagged = $sender->getTaggedSubscribers($tag);
842
843             $url = common_local_url('showprofiletag',
844                                     ['nickname' => $sender->getNickname(),
845                                      'tag' => $tag]);
846
847             $mentions[] = ['mentioned' => $tagged,
848                            'type'      => 'list',
849                            'text' => $hmatch[0],
850                            'position' => $hmatch[1],
851                            'length' => mb_strlen($hmatch[0]),
852                            'url' => $url];
853         }
854
855         $hmatches = common_find_mentions_raw($text, '!');
856         foreach ($hmatches as $hmatch) {
857             $nickname = Nickname::normalize($hmatch[0]);
858             $group = User_group::getForNickname($nickname, $sender);
859
860             if (!$group instanceof User_group || !$sender->isMember($group)) {
861                 continue;
862             }
863
864             $profile = $group->getProfile();
865
866             $mentions[] = ['mentioned' => [$profile],
867                            'type'      => 'group',
868                            'text'      => $hmatch[0],
869                            'position'  => $hmatch[1],
870                            'length'    => mb_strlen($hmatch[0]),
871                            'url'       => $group->permalink(),
872                            'title'     => $group->getFancyName()];
873         }
874
875         Event::handle('EndFindMentions', [$sender, $text, &$mentions]);
876     }
877
878     return $mentions;
879 }
880
881 /**
882  * Does the actual regex pulls to find @-mentions in text.
883  * Should generally not be called directly; for use in common_find_mentions.
884  *
885  * @param string $text
886  * @param string $preMention Character(s) that signals a mention ('@', '!'...)
887  * @return array of PCRE match arrays
888  */
889 function common_find_mentions_raw($text, $preMention='@')
890 {
891     $tmatches = [];
892     preg_match_all('/^T (' . Nickname::DISPLAY_FMT . ') /',
893                    $text,
894                    $tmatches,
895                    PREG_OFFSET_CAPTURE);
896
897     $atmatches = [];
898     // the regexp's "(?!\@)" makes sure it doesn't matches the single "@remote" in "@remote@server.com"
899     preg_match_all('/'.Nickname::BEFORE_MENTIONS.preg_quote($preMention, '/').'(' . Nickname::DISPLAY_FMT . ')\b(?!\@)/',
900                    $text,
901                    $atmatches,
902                    PREG_OFFSET_CAPTURE);
903
904     $matches = array_merge($tmatches[1], $atmatches[1]);
905     return $matches;
906 }
907
908 function common_render_text($text)
909 {
910     $text = common_remove_unicode_formatting($text);
911     $text = nl2br(htmlspecialchars($text));
912
913     $text = preg_replace('/[\x{0}-\x{8}\x{b}-\x{c}\x{e}-\x{19}]/', '', $text);
914     $text = common_replace_urls_callback($text, 'common_linkify');
915     $text = preg_replace_callback(
916         '/(^|\&quot\;|\'|\(|\[|\{|\s+)#([\pL\pN_\-\.]{1,64})/u',
917         function ($m) {
918             return "{$m[1]}#".common_tag_link($m[2]);
919         },
920         $text
921     );
922     // XXX: machine tags
923     return $text;
924 }
925
926 define('_URL_SCHEME_COLON_DOUBLE_SLASH', 1);
927 define('_URL_SCHEME_SINGLE_COLON', 2);
928 define('_URL_SCHEME_NO_DOMAIN', 4);
929 define('_URL_SCHEME_COLON_COORDINATES', 8);
930
931 function common_url_schemes($filter=null)
932 {
933     // TODO: move these to $config
934     $schemes = ['http'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
935                 'https'     => _URL_SCHEME_COLON_DOUBLE_SLASH,
936                 'ftp'       => _URL_SCHEME_COLON_DOUBLE_SLASH,
937                 'ftps'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
938                 'mms'       => _URL_SCHEME_COLON_DOUBLE_SLASH,
939                 'rtsp'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
940                 'gopher'    => _URL_SCHEME_COLON_DOUBLE_SLASH,
941                 'news'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
942                 'nntp'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
943                 'telnet'    => _URL_SCHEME_COLON_DOUBLE_SLASH,
944                 'wais'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
945                 'file'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
946                 'prospero'  => _URL_SCHEME_COLON_DOUBLE_SLASH,
947                 'webcal'    => _URL_SCHEME_COLON_DOUBLE_SLASH,
948                 'irc'       => _URL_SCHEME_COLON_DOUBLE_SLASH,
949                 'ircs'      => _URL_SCHEME_COLON_DOUBLE_SLASH,
950                 'aim'       => _URL_SCHEME_SINGLE_COLON,
951                 'bitcoin'   => _URL_SCHEME_SINGLE_COLON,
952                 'fax'       => _URL_SCHEME_SINGLE_COLON,
953                 'jabber'    => _URL_SCHEME_SINGLE_COLON,
954                 'mailto'    => _URL_SCHEME_SINGLE_COLON,
955                 'tel'       => _URL_SCHEME_SINGLE_COLON,
956                 'xmpp'      => _URL_SCHEME_SINGLE_COLON,
957                 'magnet'    => _URL_SCHEME_NO_DOMAIN,
958                 'geo'       => _URL_SCHEME_COLON_COORDINATES,];
959
960     return array_keys(
961         array_filter(
962             $schemes,
963             function ($scheme) use ($filter) {
964                 return is_null($filter) || ($scheme & $filter);
965             })
966     );
967 }
968
969 /**
970  * Find links in the given text and pass them to the given callback function.
971  *
972  * @param string $text
973  * @param function($text, $arg) $callback: return replacement text
974  * @param mixed $arg: optional argument will be passed on to the callback
975  */
976 function common_replace_urls_callback($text, $callback, $arg = null)
977 {
978     $geouri_labeltext_regex = '\pN\pL\-';
979     $geouri_mark_regex = '\-\_\.\!\~\*\\\'\(\)';    // the \\\' is really pretty
980     $geouri_unreserved_regex = '\pN\pL' . $geouri_mark_regex;
981     $geouri_punreserved_regex = '\[\]\:\&\+\$';
982     $geouri_pctencoded_regex = '(?:\%[0-9a-fA-F][0-9a-fA-F])';
983     $geouri_paramchar_regex = $geouri_unreserved_regex . $geouri_punreserved_regex; //FIXME: add $geouri_pctencoded_regex here so it works
984
985     // Start off with a regex
986     $regex = '#'.
987     '(?:^|[\s\<\>\(\)\[\]\{\}\\\'\\\";]+)(?![\@\!\#])'.
988     '('.
989         '(?:'.
990             '(?:'. //Known protocols
991                 '(?:'.
992                     '(?:(?:' . implode('|', common_url_schemes(_URL_SCHEME_COLON_DOUBLE_SLASH)) . ')://)'.
993                     '|'.
994                     '(?:(?:' . implode('|', common_url_schemes(_URL_SCHEME_SINGLE_COLON)) . '):)'.
995                 ')'.
996                 '(?:[\pN\pL\-\_\+\%\~]+(?::[\pN\pL\-\_\+\%\~]+)?\@)?'. //user:pass@
997                 '(?:'.
998                     '(?:'.
999                         '\[[\pN\pL\-\_\:\.]+(?<![\.\:])\]'. //[dns]
1000                     ')|(?:'.
1001                         '[\pN\pL\-\_\:\.]+(?<![\.\:])'. //dns
1002                     ')'.
1003                 ')'.
1004             ')'.
1005             '|(?:'.
1006                 '(?:' . implode('|', common_url_schemes(_URL_SCHEME_COLON_COORDINATES)) . '):'.
1007                 // There's an order that must be followed here too, if ;crs= is used, it must precede ;u=
1008                 // Also 'crsp' (;crs=$crsp) must match $geouri_labeltext_regex
1009                 // Also 'uval' (;u=$uval) must be a pnum: \-?[0-9]+
1010                 '(?:'.
1011                     '(?:[0-9]+(?:\.[0-9]+)?(?:\,[0-9]+(?:\.[0-9]+)?){1,2})'.    // 1(.23)?(,4(.56)){1,2}
1012                     '(?:\;(?:['.$geouri_labeltext_regex.']+)(?:\=['.$geouri_paramchar_regex.']+)*)*'.
1013                 ')'.
1014             ')'.
1015             // URLs without domain name, like magnet:?xt=...
1016             '|(?:(?:' . implode('|', common_url_schemes(_URL_SCHEME_NO_DOMAIN)) . '):(?=\?))'.  // zero-length lookahead requires ? after :
1017             (common_config('linkify', 'bare_ipv4')   // Convert IPv4 addresses to hyperlinks
1018                 ? '|(?:(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)\.){3}(?:25[0-5]|2[0-4][0-9]|[01]?[0-9][0-9]?)'
1019                 : '').
1020             (common_config('linkify', 'bare_ipv6')   // Convert IPv6 addresses to hyperlinks
1021                 ? '|(?:'. //IPv6
1022                     '\[?(?:(?:(?:[0-9A-Fa-f]{1,4}:){7}(?:(?:[0-9A-Fa-f]{1,4})|:))|(?:(?:[0-9A-Fa-f]{1,4}:){6}(?::|(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})|(?::[0-9A-Fa-f]{1,4})))|(?:(?:[0-9A-Fa-f]{1,4}:){5}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?:(?:[0-9A-Fa-f]{1,4}:){4}(?::[0-9A-Fa-f]{1,4}){0,1}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?:(?:[0-9A-Fa-f]{1,4}:){3}(?::[0-9A-Fa-f]{1,4}){0,2}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?:(?:[0-9A-Fa-f]{1,4}:){2}(?::[0-9A-Fa-f]{1,4}){0,3}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?:(?:[0-9A-Fa-f]{1,4}:)(?::[0-9A-Fa-f]{1,4}){0,4}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?::(?::[0-9A-Fa-f]{1,4}){0,5}(?:(?::(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})?)|(?:(?::[0-9A-Fa-f]{1,4}){1,2})))|(?:(?:(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})(?:\.(?:25[0-5]|2[0-4]\d|[01]?\d{1,2})){3})))\]?(?<!:)'.
1023                     ')'
1024                 : '').
1025             (common_config('linkify', 'bare_domains')
1026                 ? '|(?:'. //DNS
1027                     '(?:[\pN\pL\-\_\+\%\~]+(?:\:[\pN\pL\-\_\+\%\~]+)?\@)?'. //user:pass@
1028                     '[\pN\pL\-\_]+(?:\.[\pN\pL\-\_]+)*\.'.
1029                     //tld list from http://data.iana.org/TLD/tlds-alpha-by-domain.txt, also added local, loc, and onion
1030                     '(?:AC|AD|AE|AERO|AF|AG|AI|AL|AM|AN|AO|AQ|AR|ARPA|AS|ASIA|AT|AU|AW|AX|AZ|BA|BB|BD|BE|BF|BG|BH|BI|BIZ|BJ|BM|BN|BO|BR|BS|BT|BV|BW|BY|BZ|CA|CAT|CC|CD|CF|CG|CH|CI|CK|CL|CM|CN|CO|COM|COOP|CR|CU|CV|CX|CY|CZ|DE|DJ|DK|DM|DO|DZ|EC|EDU|EE|EG|ER|ES|ET|EU|FI|FJ|FK|FM|FO|FR|GA|GB|GD|GE|GF|GG|GH|GI|GL|GM|GN|GOV|GP|GQ|GR|GS|GT|GU|GW|GY|HK|HM|HN|HR|HT|HU|ID|IE|IL|IM|IN|INFO|INT|IO|IQ|IR|IS|IT|JE|JM|JO|JOBS|JP|KE|KG|KH|KI|KM|KN|KP|KR|KW|KY|KZ|LA|LB|LC|LI|LK|LR|LS|LT|LU|LV|LY|MA|MC|MD|ME|MG|MH|MIL|MK|ML|MM|MN|MO|MOBI|MP|MQ|MR|MS|MT|MU|MUSEUM|MV|MW|MX|MY|MZ|NA|NAME|NC|NE|NET|NF|NG|NI|NL|NO|NP|NR|NU|NZ|OM|ORG|PA|PE|PF|PG|PH|PK|PL|PM|PN|PR|PRO|PS|PT|PW|PY|QA|RE|RO|RS|RU|RW|SA|SB|SC|SD|SE|SG|SH|SI|SJ|SK|SL|SM|SN|SO|SR|ST|SU|SV|SY|SZ|TC|TD|TEL|TF|TG|TH|TJ|TK|TL|TM|TN|TO|TP|TR|TRAVEL|TT|TV|TW|TZ|UA|UG|UK|US|UY|UZ|VA|VC|VE|VG|VI|VN|VU|WF|WS|XN--0ZWM56D|测试|XN--11B5BS3A9AJ6G|परीक्षा|XN--80AKHBYKNJ4F|испытание|XN--9T4B11YI5A|테스트|XN--DEBA0AD|טעסט|XN--G6W251D|測試|XN--HGBK6AJ7F53BBA|آزمایشی|XN--HLCJ6AYA9ESC7A|பரிட்சை|XN--JXALPDLP|δοκιμή|XN--KGBECHTV|إختبار|XN--ZCKZAH|テスト|YE|YT|YU|ZA|ZM|ZONE|ZW|local|loc|onion)'.
1031             ')(?![\pN\pL\-\_])'
1032                 : '') . // if common_config('linkify', 'bare_domains') is false, don't add anything here
1033         ')'.
1034         '(?:'.
1035             '(?:\:\d+)?'. //:port
1036             '(?:/['  . URL_REGEX_VALID_PATH_CHARS    . ']*)?'.  // path
1037             '(?:\?[' . URL_REGEX_VALID_QSTRING_CHARS . ']*)?'.  // ?query string
1038             '(?:\#[' . URL_REGEX_VALID_FRAGMENT_CHARS . ']*)?'. // #fragment
1039         ')(?<!['. URL_REGEX_EXCLUDED_END_CHARS .'])'.
1040     ')'.
1041     '#ixu';
1042     //preg_match_all($regex,$text,$matches);
1043     //print_r($matches);
1044     return preg_replace_callback($regex, curry('callback_helper', $callback, $arg), $text);
1045 }
1046
1047 /**
1048  * Intermediate callback for common_replace_links(), helps resolve some
1049  * ambiguous link forms before passing on to the final callback.
1050  *
1051  * @param array $matches
1052  * @param callable $callback
1053  * @param mixed $arg optional argument to pass on as second param to callback
1054  * @return string
1055  *
1056  * @access private
1057  */
1058 function callback_helper($matches, $callback, $arg=null)
1059 {
1060     $url=$matches[1];
1061     $left = strpos($matches[0], $url);
1062     $right = $left+strlen($url);
1063
1064     $groupSymbolSets=[
1065         [
1066             'left'=>'(',
1067             'right'=>')'
1068         ],
1069         [
1070             'left'=>'[',
1071             'right'=>']'
1072         ],
1073         [
1074             'left'=>'{',
1075             'right'=>'}'
1076         ],
1077         [
1078             'left'=>'<',
1079             'right'=>'>'
1080         ]
1081     ];
1082     $cannotEndWith=['.','?',',','#'];
1083     $original_url=$url;
1084     do {
1085         $original_url=$url;
1086         foreach ($groupSymbolSets as $groupSymbolSet) {
1087             if (substr($url, -1)==$groupSymbolSet['right']) {
1088                 $group_left_count = substr_count($url, $groupSymbolSet['left']);
1089                 $group_right_count = substr_count($url, $groupSymbolSet['right']);
1090                 if ($group_left_count<$group_right_count) {
1091                     $right-=1;
1092                     $url=substr($url, 0, -1);
1093                 }
1094             }
1095         }
1096         if (in_array(substr($url, -1), $cannotEndWith)) {
1097             $right-=1;
1098             $url=substr($url, 0, -1);
1099         }
1100     } while ($original_url!=$url);
1101
1102     $result = call_user_func_array($callback, [$url, $arg]);
1103     return substr($matches[0], 0, $left) . $result . substr($matches[0], $right);
1104 }
1105
1106 require_once INSTALLDIR . "/lib/curry.php";
1107
1108 function common_linkify($url)
1109 {
1110     // It comes in special'd, so we unspecial it before passing to the stringifying
1111     // functions
1112     $url = htmlspecialchars_decode($url);
1113
1114     if (strpos($url, '@') !== false && strpos($url, ':') === false && Validate::email($url)) {
1115         //url is an email address without the mailto: protocol
1116         $canon = "mailto:$url";
1117         $longurl = "mailto:$url";
1118     } else {
1119         $canon = File_redirection::_canonUrl($url);
1120         $longurl_data = File_redirection::where($canon, common_config('attachments', 'process_links'));
1121
1122         if (isset($longurl_data->redir_url)) {
1123             $longurl = $longurl_data->redir_url;
1124         } else {
1125             // e.g. local files
1126             $longurl = $longurl_data->url;
1127         }
1128     }
1129
1130     $attrs = ['href' => $longurl, 'title' => $longurl];
1131
1132     $is_attachment = false;
1133     $attachment_id = null;
1134     $has_thumb = false;
1135
1136     // Check to see whether this is a known "attachment" URL.
1137
1138     try {
1139         $f = File::getByUrl($longurl);
1140     } catch (NoResultException $e) {
1141         if (common_config('attachments', 'process_links')) {
1142             // XXX: this writes to the database. :<
1143             try {
1144                 $f = File::processNew($longurl);
1145             } catch (ServerException $e) {
1146                 $f = null;
1147             }
1148         }
1149     }
1150
1151     if ($f instanceof File) {
1152         try {
1153             $enclosure = $f->getEnclosure();
1154             $is_attachment = true;
1155             $attachment_id = $f->id;
1156
1157             $thumb = File_thumbnail::getKV('file_id', $f->id);
1158             $has_thumb = ($thumb instanceof File_thumbnail);
1159         } catch (ServerException $e) {
1160             // There was not enough metadata available
1161         }
1162     }
1163
1164     // Whether to nofollow
1165     $nf = common_config('nofollow', 'external');
1166
1167     if ($nf == 'never') {
1168         $attrs['rel'] = 'external';
1169     } else {
1170         $attrs['rel'] = 'nofollow external';
1171     }
1172
1173     // Add clippy
1174     if ($is_attachment) {
1175         $attrs['class'] = 'attachment';
1176         if ($has_thumb) {
1177             $attrs['class'] = 'attachment thumbnail';
1178         }
1179         $attrs['id'] = "attachment-{$attachment_id}";
1180         $attrs['rel'] .= ' noreferrer';
1181     }
1182
1183     return XMLStringer::estring('a', $attrs, $url);
1184 }
1185
1186 /**
1187  * Find and shorten links in a given chunk of text if it's longer than the
1188  * configured notice content limit (or unconditionally).
1189  *
1190  * Side effects: may save file and file_redirection records for referenced URLs.
1191  *
1192  * Pass the $user option or call $user->shortenLinks($text) to ensure the proper
1193  * user's options are used; otherwise the current web session user's setitngs
1194  * will be used or ur1.ca if there is no active web login.
1195  *
1196  * @param string $text
1197  * @param boolean $always (optional)
1198  * @param User $user (optional)
1199  *
1200  * @return string
1201  */
1202 function common_shorten_links($text, $always = false, User $user=null)
1203 {
1204     if ($user === null) {
1205         $user = common_current_user();
1206     }
1207
1208     $maxLength = User_urlshortener_prefs::maxNoticeLength($user);
1209
1210     if ($always || ($maxLength != -1 && mb_strlen($text) > $maxLength)) {
1211         return common_replace_urls_callback($text, ['File_redirection', 'forceShort'], $user);
1212     } else {
1213         return common_replace_urls_callback($text, ['File_redirection', 'makeShort'], $user);
1214     }
1215 }
1216
1217 /**
1218  * Very basic stripping of invalid UTF-8 input text.
1219  *
1220  * @param string $str
1221  * @return mixed string or null if invalid input
1222  *
1223  * @todo ideally we should drop bad chars, and maybe do some of the checks
1224  *       from common_xml_safe_str. But we can't strip newlines, etc.
1225  * @todo Unicode normalization might also be useful, but not needed now.
1226  */
1227 function common_validate_utf8($str)
1228 {
1229     // preg_replace will return NULL on invalid UTF-8 input.
1230     //
1231     // Note: empty regex //u also caused NULL return on some
1232     // production machines, but none of our test machines.
1233     //
1234     // This should be replaced with a more reliable check.
1235     return preg_replace('/\x00/u', '', $str);
1236 }
1237
1238 /**
1239  * Make sure an arbitrary string is safe for output in XML as a single line.
1240  *
1241  * @param string $str
1242  * @return string
1243  */
1244 function common_xml_safe_str($str)
1245 {
1246     // Replace common eol and extra whitespace input chars
1247     $unWelcome = ["\t",    // tab
1248                   "\n",    // newline
1249                   "\r",    // cr
1250                   "\0",    // null byte eos
1251                   "\x0B"]; // vertical tab
1252
1253     $replacement = [' ', // single space
1254                     ' ',
1255                     '',  // nothing
1256                     '',
1257                     ' '];
1258
1259     $str = str_replace($unWelcome, $replacement, $str);
1260
1261     // Neutralize any additional control codes and UTF-16 surrogates
1262     // (Twitter uses '*')
1263     return preg_replace('/[\p{Cc}\p{Cs}]/u', '*', $str);
1264 }
1265
1266 function common_slugify($str)
1267 {
1268     // php5-intl is highly recommended...
1269     if (!function_exists('transliterator_transliterate')) {
1270         $str = preg_replace('/[^\pL\pN]/u', '', $str);
1271         $str = mb_convert_case($str, MB_CASE_LOWER, 'UTF-8');
1272         $str = substr($str, 0, 64);
1273         return $str;
1274     }
1275     $str = transliterator_transliterate('Any-Latin;' .                  // any charset to latin compatible
1276                                         'NFD;' .                        // decompose
1277                                         '[:Nonspacing Mark:] Remove;' . // remove nonspacing marks (accents etc.)
1278                                         'NFC;' .                        // composite again
1279                                         '[:Punctuation:] Remove;' .     // remove punctuation (.,¿? etc.)
1280                                         'Lower();' .                    // turn into lowercase
1281                                         'Latin-ASCII;',                 // get ASCII equivalents (ð to d for example)
1282                                         $str);
1283     return preg_replace('/[^\pL\pN]/', '', $str);
1284 }
1285
1286 function common_tag_link($tag)
1287 {
1288     $canonical = common_canonical_tag($tag);
1289     if (common_config('singleuser', 'enabled')) {
1290         // regular TagAction isn't set up in 1user mode
1291         $nickname = User::singleUserNickname();
1292         $url = common_local_url('showstream', ['nickname' => $nickname, 'tag' => $canonical]);
1293     } else {
1294         $url = common_local_url('tag', ['tag' => $canonical]);
1295     }
1296     $xs = new XMLStringer();
1297     $xs->elementStart('span', 'tag');
1298     $xs->element('a', ['href' => $url, 'rel' => 'tag'], $tag);
1299     $xs->elementEnd('span');
1300     return $xs->getString();
1301 }
1302
1303 function common_canonical_tag($tag)
1304 {
1305     $tag = common_slugify($tag);
1306     $tag = substr($tag, 0, 64);
1307     return $tag;
1308 }
1309
1310 function common_valid_profile_tag($str)
1311 {
1312     return preg_match('/^[A-Za-z0-9_\-\.]{1,64}$/', $str);
1313 }
1314
1315 /**
1316  * Resolve an ambiguous profile nickname reference, checking in following order:
1317  * - profiles that $sender subscribes to
1318  * - profiles that subscribe to $sender
1319  * - local user profiles
1320  *
1321  * WARNING: does not validate or normalize $nickname -- MUST BE PRE-VALIDATED
1322  * OR THERE MAY BE A RISK OF SQL INJECTION ATTACKS. THIS FUNCTION DOES NOT
1323  * ESCAPE SQL.
1324  *
1325  * @fixme validate input
1326  * @fixme escape SQL
1327  * @fixme fix or remove mystery third parameter
1328  * @fixme is $sender a User or Profile?
1329  *
1330  * @param <type> $sender the user or profile in whose context we're looking
1331  * @param string $nickname validated nickname of
1332  * @param <type> $dt unused mystery parameter; in Notice reply-to handling a timestamp is passed.
1333  *
1334  * @return Profile or null
1335  */
1336 function common_relative_profile($sender, $nickname, $dt=null)
1337 {
1338     // Will throw exception on invalid input.
1339     $nickname = Nickname::normalize($nickname);
1340
1341     // Try to find profiles this profile is subscribed to that have this nickname
1342     $recipient = new Profile();
1343     // XXX: use a join instead of a subquery
1344     $recipient->whereAdd('EXISTS (SELECT subscribed from subscription where subscriber = '.intval($sender->id).' and subscribed = id)', 'AND');
1345     $recipient->whereAdd("nickname = '" . $recipient->escape($nickname) . "'", 'AND');
1346     if ($recipient->find(true)) {
1347         // XXX: should probably differentiate between profiles with
1348         // the same name by date of most recent update
1349         return $recipient;
1350     }
1351     // Try to find profiles that listen to this profile and that have this nickname
1352     $recipient = new Profile();
1353     // XXX: use a join instead of a subquery
1354     $recipient->whereAdd('EXISTS (SELECT subscriber from subscription where subscribed = '.intval($sender->id).' and subscriber = id)', 'AND');
1355     $recipient->whereAdd("nickname = '" . $recipient->escape($nickname) . "'", 'AND');
1356     if ($recipient->find(true)) {
1357         // XXX: should probably differentiate between profiles with
1358         // the same name by date of most recent update
1359         return $recipient;
1360     }
1361     // If this is a local user, try to find a local user with that nickname.
1362     $sender = User::getKV('id', $sender->id);
1363     if ($sender instanceof User) {
1364         $recipient_user = User::getKV('nickname', $nickname);
1365         if ($recipient_user instanceof User) {
1366             return $recipient_user->getProfile();
1367         }
1368     }
1369     // Otherwise, no links. @messages from local users to remote users,
1370     // or from remote users to other remote users, are just
1371     // outside our ability to make intelligent guesses about
1372     return null;
1373 }
1374
1375 function common_local_url($action, $args=null, $params=null, $fragment=null, $addSession=true)
1376 {
1377     if (Event::handle('StartLocalURL', [&$action, &$params, &$fragment, &$addSession, &$url])) {
1378         $r = Router::get();
1379         $path = $r->build($action, $args, $params, $fragment);
1380
1381         $ssl = GNUsocial::useHTTPS();
1382
1383         if (common_config('site', 'fancy')) {
1384             $url = common_path($path, $ssl, $addSession);
1385         } else {
1386             if (mb_strpos($path, '/index.php') === 0) {
1387                 $url = common_path($path, $ssl, $addSession);
1388             } else {
1389                 $url = common_path('index.php/'.$path, $ssl, $addSession);
1390             }
1391         }
1392         Event::handle('EndLocalURL', [&$action, &$params, &$fragment, &$addSession, &$url]);
1393     }
1394     return $url;
1395 }
1396
1397 function common_path($relative, $ssl=false, $addSession=true)
1398 {
1399     $pathpart = (common_config('site', 'path')) ? common_config('site', 'path')."/" : '';
1400
1401     if ($ssl && GNUsocial::useHTTPS()) {
1402         $proto = 'https';
1403         if (is_string(common_config('site', 'sslserver')) &&
1404             mb_strlen(common_config('site', 'sslserver')) > 0) {
1405             $serverpart = common_config('site', 'sslserver');
1406         } elseif (common_config('site', 'server')) {
1407             $serverpart = common_config('site', 'server');
1408         } else {
1409             common_log(LOG_ERR, 'Site server not configured, unable to determine site name.');
1410         }
1411     } else {
1412         $proto = 'http';
1413         if (common_config('site', 'server')) {
1414             $serverpart = common_config('site', 'server');
1415         } else {
1416             common_log(LOG_ERR, 'Site server not configured, unable to determine site name.');
1417         }
1418     }
1419
1420     if ($addSession) {
1421         $relative = common_inject_session($relative, $serverpart);
1422     }
1423
1424     return $proto.'://'.$serverpart.'/'.$pathpart.$relative;
1425 }
1426
1427 // FIXME: Maybe this should also be able to handle non-fancy URLs with index.php?p=...
1428 function common_fake_local_fancy_url($url)
1429 {
1430     /**
1431      * This is a hacky fix to make URIs generated with "index.php/" match against
1432      * locally stored URIs without that. So for example if the remote site is looking
1433      * up the webfinger for some user and for some reason knows about https://some.example/user/1
1434      * but we locally store and report only https://some.example/index.php/user/1 then they would
1435      * dismiss the profile for not having an identified alias.
1436      *
1437      * There are various live instances where these issues occur, for various reasons.
1438      * Most of them being users fiddling with configuration while already having
1439      * started federating (distributing the URI to other servers) or maybe manually
1440      * editing the local database.
1441      */
1442     if (!preg_match(
1443                 // [1] protocol part, we can only rewrite http/https anyway.
1444                 '/^(https?:\/\/)' .
1445                 // [2] site name.
1446                 // FIXME: Dunno how this acts if we're aliasing ourselves with a .onion domain etc.
1447                 '('.preg_quote(common_config('site', 'server'), '/').')' .
1448                 // [3] site path, or if that is empty just '/' (to retain the /)
1449                 '('.preg_quote(common_config('site', 'path') ?: '/', '/').')' .
1450                 // [4] + [5] extract index.php (+ possible leading double /) and the rest of the URL separately.
1451                 '(\/?index\.php\/)(.*)$/',
1452         $url,
1453         $matches
1454     )) {
1455         // if preg_match failed to match
1456         throw new Exception('No known change could be made to the URL.');
1457     }
1458
1459     // now reconstruct the URL with everything except the "index.php/" part
1460     $fancy_url = '';
1461     foreach ([1,2,3,5] as $idx) {
1462         $fancy_url .= $matches[$idx];
1463     }
1464     return $fancy_url;
1465 }
1466
1467 // FIXME: Maybe this should also be able to handle non-fancy URLs with index.php?p=...
1468 function common_fake_local_nonfancy_url($url)
1469 {
1470     /**
1471      * This is a hacky fix to make URIs NOT generated with "index.php/" match against
1472      * locally stored URIs WITH that. The reverse from the above.
1473      *
1474      * It will also "repair" index.php URLs with multiple / prepended. Like https://some.example///index.php/user/1
1475      */
1476     if (!preg_match(
1477                 // [1] protocol part, we can only rewrite http/https anyway.
1478                 '/^(https?:\/\/)' .
1479                 // [2] site name.
1480                 // FIXME: Dunno how this acts if we're aliasing ourselves with a .onion domain etc.
1481                 '('.preg_quote(common_config('site', 'server'), '/').')' .
1482                 // [3] site path, or if that is empty just '/' (to retain the /)
1483                 '('.preg_quote(common_config('site', 'path') ?: '/', '/').')' .
1484                 // [4] should be empty (might contain one or more / and then maybe also index.php). Will be overwritten.
1485                 // [5] will have the extracted actual URL part (besides site path)
1486                 '((?!index.php\/)\/*(?:index.php\/)?)(.*)$/',
1487         $url,
1488         $matches
1489     )) {
1490         // if preg_match failed to match
1491         throw new Exception('No known change could be made to the URL.');
1492     }
1493
1494     $matches[4] = 'index.php/'; // inject the index.php/ rewritethingy
1495
1496     // remove the first element, which is the full matching string
1497     array_shift($matches);
1498     return implode($matches);
1499 }
1500
1501 function common_inject_session($url, $serverpart = null)
1502 {
1503     if (!common_have_session()) {
1504         return $url;
1505     }
1506
1507     if (empty($serverpart)) {
1508         $serverpart = parse_url($url, PHP_URL_HOST);
1509     }
1510
1511     $currentServer = (array_key_exists('HTTP_HOST', $_SERVER)) ? $_SERVER['HTTP_HOST'] : null;
1512
1513     // Are we pointing to another server (like an SSL server?)
1514
1515     if (!empty($currentServer) && 0 != strcasecmp($currentServer, $serverpart)) {
1516         // Pass the session ID as a GET parameter
1517         $sesspart = session_name() . '=' . session_id();
1518         $i = strpos($url, '?');
1519         if ($i === false) { // no GET params, just append
1520             $url .= '?' . $sesspart;
1521         } else {
1522             $url = substr($url, 0, $i + 1).$sesspart.'&'.substr($url, $i + 1);
1523         }
1524     }
1525
1526     return $url;
1527 }
1528
1529 function common_date_string($dt)
1530 {
1531     // XXX: do some sexy date formatting
1532     // return date(DATE_RFC822, $dt);
1533     $t = strtotime($dt);
1534     $now = time();
1535     $diff = $now - $t;
1536
1537     if ($now < $t) { // that shouldn't happen!
1538         return common_exact_date($dt);
1539     } elseif ($diff < 60) {
1540         // TRANS: Used in notices to indicate when the notice was made compared to now.
1541         return _('a few seconds ago');
1542     } elseif ($diff < 92) {
1543         // TRANS: Used in notices to indicate when the notice was made compared to now.
1544         return _('about a minute ago');
1545     } elseif ($diff < 3300) {
1546         $minutes = round($diff/60);
1547         // TRANS: Used in notices to indicate when the notice was made compared to now.
1548         return sprintf(_m('about one minute ago', 'about %d minutes ago', $minutes), $minutes);
1549     } elseif ($diff < 5400) {
1550         // TRANS: Used in notices to indicate when the notice was made compared to now.
1551         return _('about an hour ago');
1552     } elseif ($diff < 22 * 3600) {
1553         $hours = round($diff/3600);
1554         // TRANS: Used in notices to indicate when the notice was made compared to now.
1555         return sprintf(_m('about one hour ago', 'about %d hours ago', $hours), $hours);
1556     } elseif ($diff < 37 * 3600) {
1557         // TRANS: Used in notices to indicate when the notice was made compared to now.
1558         return _('about a day ago');
1559     } elseif ($diff < 24 * 24 * 3600) {
1560         $days = round($diff/(24*3600));
1561         // TRANS: Used in notices to indicate when the notice was made compared to now.
1562         return sprintf(_m('about one day ago', 'about %d days ago', $days), $days);
1563     } elseif ($diff < 46 * 24 * 3600) {
1564         // TRANS: Used in notices to indicate when the notice was made compared to now.
1565         return _('about a month ago');
1566     } elseif ($diff < 330 * 24 * 3600) {
1567         $months = round($diff/(30*24*3600));
1568         // TRANS: Used in notices to indicate when the notice was made compared to now.
1569         return sprintf(_m('about one month ago', 'about %d months ago', $months), $months);
1570     } elseif ($diff < 480 * 24 * 3600) {
1571         // TRANS: Used in notices to indicate when the notice was made compared to now.
1572         return _('about a year ago');
1573     } else {
1574         return common_exact_date($dt);
1575     }
1576 }
1577
1578 function common_exact_date($dt)
1579 {
1580     static $_utc;
1581     static $_siteTz;
1582
1583     if (!$_utc) {
1584         $_utc = new DateTimeZone('UTC');
1585         $_siteTz = new DateTimeZone(common_timezone());
1586     }
1587
1588     $dateStr = date('d F Y H:i:s', strtotime($dt));
1589     $d = new DateTime($dateStr, $_utc);
1590     $d->setTimezone($_siteTz);
1591     // TRANS: Human-readable full date-time specification (formatting on http://php.net/date)
1592     return $d->format(_('l, d-M-Y H:i:s T'));
1593 }
1594
1595 function common_date_w3dtf($dt)
1596 {
1597     $dateStr = date('d F Y H:i:s', strtotime($dt));
1598     $d = new DateTime($dateStr, new DateTimeZone('UTC'));
1599     $d->setTimezone(new DateTimeZone(common_timezone()));
1600     return $d->format(DATE_W3C);
1601 }
1602
1603 function common_date_rfc2822($dt)
1604 {
1605     $dateStr = date('d F Y H:i:s', strtotime($dt));
1606     $d = new DateTime($dateStr, new DateTimeZone('UTC'));
1607     $d->setTimezone(new DateTimeZone(common_timezone()));
1608     return $d->format('r');
1609 }
1610
1611 function common_date_iso8601($dt)
1612 {
1613     $dateStr = date('d F Y H:i:s', strtotime($dt));
1614     $d = new DateTime($dateStr, new DateTimeZone('UTC'));
1615     $d->setTimezone(new DateTimeZone(common_timezone()));
1616     return $d->format('c');
1617 }
1618
1619 function common_sql_now()
1620 {
1621     return common_sql_date(time());
1622 }
1623
1624 function common_sql_date($datetime)
1625 {
1626     return strftime('%Y-%m-%d %H:%M:%S', $datetime);
1627 }
1628
1629 /**
1630  * Return an SQL fragment to calculate an age-based weight from a given
1631  * timestamp or datetime column.
1632  *
1633  * @param string $column name of field we're comparing against current time
1634  * @param integer $dropoff divisor for age in seconds before exponentiation
1635  * @return string SQL fragment
1636  */
1637 function common_sql_weight($column, $dropoff)
1638 {
1639     if (common_config('db', 'type') == 'pgsql') {
1640         // PostgreSQL doesn't support timestampdiff function.
1641         // @fixme will this use the right time zone?
1642         // @fixme does this handle cross-year subtraction correctly?
1643         return "sum(exp(-extract(epoch from (now() - $column)) / $dropoff))";
1644     } else {
1645         return "sum(exp(timestampdiff(second, utc_timestamp(), $column) / $dropoff))";
1646     }
1647 }
1648
1649 function common_redirect($url, $code=307)
1650 {
1651     static $status = [301 => "Moved Permanently",
1652                       302 => "Found",
1653                       303 => "See Other",
1654                       307 => "Temporary Redirect"];
1655
1656     header('HTTP/1.1 '.$code.' '.$status[$code]);
1657     header("Location: $url");
1658     header("Connection: close");
1659
1660     $xo = new XMLOutputter();
1661     $xo->startXML(
1662         'a',
1663         '-//W3C//DTD XHTML 1.0 Strict//EN',
1664         'http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd'
1665     );
1666     $xo->element('a', ['href' => $url], $url);
1667     $xo->endXML();
1668     exit;
1669 }
1670
1671 // Stick the notice on the queue
1672
1673 function common_enqueue_notice($notice)
1674 {
1675     static $localTransports = ['ping'];
1676
1677     $transports = [];
1678     if (common_config('sms', 'enabled')) {
1679         $transports[] = 'sms';
1680     }
1681     if (Event::hasHandler('HandleQueuedNotice')) {
1682         $transports[] = 'plugin';
1683     }
1684
1685     // We can skip these for gatewayed notices.
1686     if ($notice->isLocal()) {
1687         $transports = array_merge($transports, $localTransports);
1688     }
1689
1690     if (Event::handle('StartEnqueueNotice', [$notice, &$transports])) {
1691         $qm = QueueManager::get();
1692
1693         foreach ($transports as $transport) {
1694             $qm->enqueue($notice, $transport);
1695         }
1696
1697         Event::handle('EndEnqueueNotice', [$notice, $transports]);
1698     }
1699
1700     return true;
1701 }
1702
1703 function common_profile_url($nickname)
1704 {
1705     return common_local_url('showstream',
1706                             ['nickname' => $nickname],
1707                             null,
1708                             null,
1709                             false);
1710 }
1711
1712 /**
1713  * Should make up a reasonable root URL
1714  *
1715  * @param   bool    $tls    true or false to force TLS scheme, null to use server configuration
1716  */
1717 function common_root_url($tls=null)
1718 {
1719     if (is_null($tls)) {
1720         $tls = GNUsocial::useHTTPS();
1721     }
1722     $url = common_path('', $tls, false);
1723     $i = strpos($url, '?');
1724     if ($i !== false) {
1725         $url = substr($url, 0, $i);
1726     }
1727     return $url;
1728 }
1729
1730 /**
1731  * returns $bytes bytes of raw random data
1732  */
1733 function common_random_rawstr($bytes)
1734 {
1735     $rawstr = @file_exists('/dev/urandom')
1736             ? common_urandom($bytes)
1737             : common_mtrand($bytes);
1738
1739     return $rawstr;
1740 }
1741
1742 /**
1743  * returns $bytes bytes of random data as a hexadecimal string
1744  */
1745 function common_random_hexstr($bytes)
1746 {
1747     $str = common_random_rawstr($bytes);
1748
1749     $hexstr = '';
1750     for ($i = 0; $i < $bytes; $i++) {
1751         $hexstr .= sprintf("%02x", ord($str[$i]));
1752     }
1753     return $hexstr;
1754 }
1755
1756 function common_urandom($bytes)
1757 {
1758     $h = fopen('/dev/urandom', 'rb');
1759     // should not block
1760     $src = fread($h, $bytes);
1761     fclose($h);
1762     return $src;
1763 }
1764
1765 function common_mtrand($bytes)
1766 {
1767     $str = '';
1768     for ($i = 0; $i < $bytes; $i++) {
1769         $str .= chr(mt_rand(0, 255));
1770     }
1771     return $str;
1772 }
1773
1774 /**
1775  * Record the given URL as the return destination for a future
1776  * form submission, to be read by common_get_returnto().
1777  *
1778  * @param string $url
1779  *
1780  * @fixme as a session-global setting, this can allow multiple forms
1781  * to conflict and overwrite each others' returnto destinations if
1782  * the user has multiple tabs or windows open.
1783  *
1784  * Should refactor to index with a token or otherwise only pass the
1785  * data along its intended path.
1786  */
1787 function common_set_returnto($url)
1788 {
1789     common_ensure_session();
1790     $_SESSION['returnto'] = $url;
1791 }
1792
1793 /**
1794  * Fetch a return-destination URL previously recorded by
1795  * common_set_returnto().
1796  *
1797  * @return mixed URL string or null
1798  *
1799  * @fixme as a session-global setting, this can allow multiple forms
1800  * to conflict and overwrite each others' returnto destinations if
1801  * the user has multiple tabs or windows open.
1802  *
1803  * Should refactor to index with a token or otherwise only pass the
1804  * data along its intended path.
1805  */
1806 function common_get_returnto()
1807 {
1808     common_ensure_session();
1809     return (array_key_exists('returnto', $_SESSION)) ? $_SESSION['returnto'] : null;
1810 }
1811
1812 function common_timestamp()
1813 {
1814     return date('YmdHis');
1815 }
1816
1817 function common_ensure_syslog()
1818 {
1819     static $initialized = false;
1820     if (!$initialized) {
1821         openlog(
1822             common_config('syslog', 'appname'),
1823             0,
1824             common_config('syslog', 'facility')
1825         );
1826         $initialized = true;
1827     }
1828 }
1829
1830 function common_log_line($priority, $msg)
1831 {
1832     static $syslog_priorities = ['LOG_EMERG', 'LOG_ALERT', 'LOG_CRIT', 'LOG_ERR',
1833                                  'LOG_WARNING', 'LOG_NOTICE', 'LOG_INFO', 'LOG_DEBUG'];
1834     return date('Y-m-d H:i:s') . ' ' . $syslog_priorities[$priority] . ': ' . $msg . PHP_EOL;
1835 }
1836
1837 function common_request_id()
1838 {
1839     $pid = getmypid();
1840     $server = common_config('site', 'server');
1841     if (php_sapi_name() == 'cli') {
1842         $script = basename($_SERVER['PHP_SELF']);
1843         return "$server:$script:$pid";
1844     } else {
1845         static $req_id = null;
1846         if (!isset($req_id)) {
1847             $req_id = substr(md5(mt_rand()), 0, 8);
1848         }
1849         if (isset($_SERVER['REQUEST_URI'])) {
1850             $url = $_SERVER['REQUEST_URI'];
1851         }
1852         $method = $_SERVER['REQUEST_METHOD'];
1853         return "$server:$pid.$req_id $method $url";
1854     }
1855 }
1856
1857 function common_log($priority, $msg, $filename=null)
1858 {
1859     // Don't write LOG_DEBUG if that's not wanted
1860     if ($priority === LOG_DEBUG && !common_config('site', 'logdebug')) {
1861         return;
1862     }
1863
1864     if (Event::handle('StartLog', [&$priority, &$msg, &$filename])) {
1865         $msg = (empty($filename)) ? $msg : basename($filename) . ' - ' . $msg;
1866         $msg = '[' . common_request_id() . '] ' . $msg;
1867         $logfile = common_config('site', 'logfile');
1868         if ($logfile) {
1869             $log = fopen($logfile, "a");
1870             if ($log) {
1871                 $output = common_log_line($priority, $msg);
1872                 fwrite($log, $output);
1873                 fclose($log);
1874             }
1875         } else {
1876             common_ensure_syslog();
1877             syslog($priority, $msg);
1878         }
1879         Event::handle('EndLog', [$priority, $msg, $filename]);
1880     }
1881 }
1882
1883 function common_debug($msg, $filename=null)
1884 {
1885     if ($filename) {
1886         common_log(LOG_DEBUG, basename($filename).' - '.$msg);
1887     } else {
1888         common_log(LOG_DEBUG, $msg);
1889     }
1890 }
1891
1892 function common_log_db_error(&$object, $verb, $filename=null)
1893 {
1894     global $_PEAR;
1895
1896     $objstr = common_log_objstring($object);
1897     $last_error = &$_PEAR->getStaticProperty('DB_DataObject', 'lastError');
1898     if (is_object($last_error)) {
1899         $msg = $last_error->message;
1900     } else {
1901         $msg = 'Unknown error (' . var_export($last_error, true) . ')';
1902     }
1903     common_log(LOG_ERR, $msg . '(' . $verb . ' on ' . $objstr . ')', $filename);
1904 }
1905
1906 function common_log_objstring(&$object)
1907 {
1908     if (is_null($object)) {
1909         return "null";
1910     }
1911     if (!($object instanceof DB_DataObject)) {
1912         return "(unknown)";
1913     }
1914     $arr = $object->toArray();
1915     $fields = [];
1916     foreach ($arr as $k => $v) {
1917         if (is_object($v)) {
1918             $fields[] = "$k='".get_class($v)."'";
1919         } else {
1920             $fields[] = "$k='$v'";
1921         }
1922     }
1923     $objstring = $object->tableName() . '[' . implode(',', $fields) . ']';
1924     return $objstring;
1925 }
1926
1927 function common_valid_http_url($url, $secure=false)
1928 {
1929     if (empty($url)) {
1930         return false;
1931     }
1932
1933     // If $secure is true, only allow https URLs to pass
1934     // (if false, we use '?' in 'https?' to say the 's' is optional)
1935     $regex = $secure ? '/^https$/' : '/^https?$/';
1936     return filter_var($url, FILTER_VALIDATE_URL)
1937             && preg_match($regex, parse_url($url, PHP_URL_SCHEME));
1938 }
1939
1940 function common_valid_tag($tag)
1941 {
1942     if (preg_match('/^tag:(.*?),(\d{4}(-\d{2}(-\d{2})?)?):(.*)$/', $tag, $matches)) {
1943         return (Validate::email($matches[1]) ||
1944                 preg_match('/^([\w-\.]+)$/', $matches[1]));
1945     }
1946     return false;
1947 }
1948
1949 /**
1950  * Determine if given domain or address literal is valid
1951  * eg for use in JIDs and URLs. Does not check if the domain
1952  * exists!
1953  *
1954  * @param string $domain
1955  * @return boolean valid or not
1956  */
1957 function common_valid_domain($domain)
1958 {
1959     $octet = "(?:25[0-5]|2[0-4][0-9]|1[0-9]{2}|[1-9][0-9]|[0-9])";
1960     $ipv4 = "(?:$octet(?:\.$octet){3})";
1961     if (preg_match("/^$ipv4$/u", $domain)) {
1962         return true;
1963     }
1964
1965     $group = "(?:[0-9a-f]{1,4})";
1966     $ipv6 = "(?:\[($group(?::$group){0,7})?(::)?($group(?::$group){0,7})?\])"; // http://tools.ietf.org/html/rfc3513#section-2.2
1967
1968     if (preg_match("/^$ipv6$/ui", $domain, $matches)) {
1969         $before = explode(":", $matches[1]);
1970         $zeroes = $matches[2];
1971         $after = explode(":", $matches[3]);
1972         if ($zeroes) {
1973             $min = 0;
1974             $max = 7;
1975         } else {
1976             $min = 1;
1977             $max = 8;
1978         }
1979         $explicit = count($before) + count($after);
1980         if ($explicit < $min || $explicit > $max) {
1981             return false;
1982         }
1983         return true;
1984     }
1985
1986     try {
1987         require_once "Net/IDNA.php";
1988         $idn = Net_IDNA::getInstance();
1989         $domain = $idn->encode($domain);
1990     } catch (Exception $e) {
1991         return false;
1992     }
1993
1994     $subdomain = "(?:[a-z0-9][a-z0-9-]*)"; // @fixme
1995     $fqdn = "(?:$subdomain(?:\.$subdomain)*\.?)";
1996
1997     return preg_match("/^$fqdn$/ui", $domain);
1998 }
1999
2000 /* Following functions are copied from MediaWiki GlobalFunctions.php
2001  * and written by Evan Prodromou. */
2002
2003 function common_accept_to_prefs($accept, $def = '*/*')
2004 {
2005     // No arg means accept anything (per HTTP spec)
2006     if (!$accept) {
2007         return [$def => 1];
2008     }
2009
2010     $prefs = [];
2011
2012     $parts = explode(',', $accept);
2013
2014     foreach ($parts as $part) {
2015         // FIXME: doesn't deal with params like 'text/html; level=1'
2016         @list($value, $qpart) = explode(';', trim($part));
2017         $match = [];
2018         if (!isset($qpart)) {
2019             $prefs[$value] = 1;
2020         } elseif (preg_match('/q\s*=\s*(\d*\.\d+)/', $qpart, $match)) {
2021             $prefs[$value] = $match[1];
2022         }
2023     }
2024
2025     return $prefs;
2026 }
2027
2028 // Match by our supported file extensions
2029 function common_supported_filename_to_mime($filename)
2030 {
2031     // Accept a filename and take out the extension
2032     if (strpos($filename, '.') === false) {
2033         throw new ServerException(sprintf('No extension on filename: %1$s', _ve($filename)));
2034     }
2035
2036     $fileext = substr(strrchr($filename, '.'), 1);
2037     return common_supported_ext_to_mime($fileext);
2038 }
2039
2040 function common_supported_ext_to_mime($fileext)
2041 {
2042     $supported = common_config('attachments', 'supported');
2043     if ($supported === true) {
2044         // FIXME: Should we just accept the extension straight off when supported === true?
2045         throw new UnknownExtensionMimeException($fileext);
2046     }
2047     foreach ($supported as $type => $ext) {
2048         if ($ext === $fileext) {
2049             return $type;
2050         }
2051     }
2052
2053     throw new ServerException('Unsupported file extension');
2054 }
2055
2056 // Match by our supported mime types
2057 function common_supported_mime_to_ext($mimetype)
2058 {
2059     $supported = common_config('attachments', 'supported');
2060     if (is_array($supported)) {
2061         foreach ($supported as $type => $ext) {
2062             if ($mimetype === $type) {
2063                 return $ext;
2064             }
2065         }
2066     }
2067
2068     throw new UnknownMimeExtensionException($mimetype);
2069 }
2070
2071 // The MIME "media" is the part before the slash (video in video/webm)
2072 function common_get_mime_media($type)
2073 {
2074     $tmp = explode('/', $type);
2075     return strtolower($tmp[0]);
2076 }
2077
2078 // Get only the mimetype and not additional info (separated from bare mime with semi-colon)
2079 function common_bare_mime($mimetype)
2080 {
2081     $mimetype = mb_strtolower($mimetype);
2082     if ($semicolon = mb_strpos($mimetype, ';')) {
2083         $mimetype = mb_substr($mimetype, 0, $semicolon);
2084     }
2085     return trim($mimetype);
2086 }
2087
2088 function common_mime_type_match($type, $avail)
2089 {
2090     if (array_key_exists($type, $avail)) {
2091         return $type;
2092     } else {
2093         $parts = explode('/', $type);
2094         if (array_key_exists($parts[0] . '/*', $avail)) {
2095             return $parts[0] . '/*';
2096         } elseif (array_key_exists('*/*', $avail)) {
2097             return '*/*';
2098         } else {
2099             return null;
2100         }
2101     }
2102 }
2103
2104 function common_negotiate_type($cprefs, $sprefs)
2105 {
2106     $combine = [];
2107
2108     foreach (array_keys($sprefs) as $type) {
2109         $parts = explode('/', $type);
2110         if ($parts[1] != '*') {
2111             $ckey = common_mime_type_match($type, $cprefs);
2112             if ($ckey) {
2113                 $combine[$type] = $sprefs[$type] * $cprefs[$ckey];
2114             }
2115         }
2116     }
2117
2118     foreach (array_keys($cprefs) as $type) {
2119         $parts = explode('/', $type);
2120         if ($parts[1] != '*' && !array_key_exists($type, $sprefs)) {
2121             $skey = common_mime_type_match($type, $sprefs);
2122             if ($skey) {
2123                 $combine[$type] = $sprefs[$skey] * $cprefs[$type];
2124             }
2125         }
2126     }
2127
2128     $bestq = 0;
2129     $besttype = 'text/html';
2130
2131     foreach (array_keys($combine) as $type) {
2132         if ($combine[$type] > $bestq) {
2133             $besttype = $type;
2134             $bestq = $combine[$type];
2135         }
2136     }
2137
2138     if ('text/html' === $besttype) {
2139         return "text/html; charset=utf-8";
2140     }
2141     return $besttype;
2142 }
2143
2144 function common_config($main, $sub=null)
2145 {
2146     global $config;
2147     if (is_null($sub)) {
2148         // Return the config category array
2149         return array_key_exists($main, $config) ? $config[$main] : [];
2150     }
2151     // Return the config value
2152     return (array_key_exists($main, $config) &&
2153             array_key_exists($sub, $config[$main])) ? $config[$main][$sub] : false;
2154 }
2155
2156 function common_config_set($main, $sub, $value)
2157 {
2158     global $config;
2159     if (!array_key_exists($main, $config)) {
2160         $config[$main] = [];
2161     }
2162     $config[$main][$sub] = $value;
2163 }
2164
2165 function common_config_append($main, $sub, $value)
2166 {
2167     global $config;
2168     if (!array_key_exists($main, $config)) {
2169         $config[$main] = [];
2170     }
2171     if (!array_key_exists($sub, $config[$main])) {
2172         $config[$main][$sub] = [];
2173     }
2174     if (!is_array($config[$main][$sub])) {
2175         $config[$main][$sub] = [$config[$main][$sub]];
2176     }
2177     array_push($config[$main][$sub], $value);
2178 }
2179
2180 /**
2181  * Pull arguments from a GET/POST/REQUEST array with first-level input checks:
2182  * strips "magic quotes" slashes if necessary, and kills invalid UTF-8 strings.
2183  *
2184  * @param array $from
2185  * @return array
2186  */
2187 function common_copy_args($from)
2188 {
2189     $to = [];
2190     $strip = get_magic_quotes_gpc();
2191     foreach ($from as $k => $v) {
2192         if (is_array($v)) {
2193             $to[$k] = common_copy_args($v);
2194         } else {
2195             if ($strip) {
2196                 $v = stripslashes($v);
2197             }
2198             $to[$k] = strval(common_validate_utf8($v));
2199         }
2200     }
2201     return $to;
2202 }
2203
2204 /**
2205  * Neutralise the evil effects of magic_quotes_gpc in the current request.
2206  * This is used before handing a request off to OAuthRequest::from_request.
2207  * @fixme Doesn't consider vars other than _POST and _GET?
2208  * @fixme Can't be undone and could corrupt data if run twice.
2209  */
2210 function common_remove_magic_from_request()
2211 {
2212     if (get_magic_quotes_gpc()) {
2213         $_POST=array_map('stripslashes', $_POST);
2214         $_GET=array_map('stripslashes', $_GET);
2215     }
2216 }
2217
2218 function common_user_uri(&$user)
2219 {
2220     return common_local_url('userbyid',
2221                             ['id' => $user->id],
2222                             null,
2223                             null,
2224                             false);
2225 }
2226
2227 // 36 alphanums - lookalikes (0, O, 1, I) = 32 chars = 5 bits
2228
2229 function common_confirmation_code($bits)
2230 {
2231     // 36 alphanums - lookalikes (0, O, 1, I) = 32 chars = 5 bits
2232     static $codechars = '23456789ABCDEFGHJKLMNPQRSTUVWXYZ';
2233     $chars = ceil($bits/5);
2234     $code = '';
2235     for ($i = 0; $i < $chars; $i++) {
2236         // XXX: convert to string and back
2237         $num = hexdec(common_random_hexstr(1));
2238         // XXX: randomness is too precious to throw away almost
2239         // 40% of the bits we get!
2240         $code .= $codechars[$num%32];
2241     }
2242     return $code;
2243 }
2244
2245 // convert markup to HTML
2246 function common_markup_to_html($c, $args=null)
2247 {
2248     if ($c === null) {
2249         return '';
2250     }
2251
2252     if (is_null($args)) {
2253         $args = [];
2254     }
2255
2256     // XXX: not very efficient
2257
2258     foreach ($args as $name => $value) {
2259         $c = preg_replace('/%%arg.'.$name.'%%/', $value, $c);
2260     }
2261
2262     $c = preg_replace_callback('/%%user.(\w+)%%/', function ($m) {
2263         return common_user_property($m[1]);
2264     }, $c);
2265     $c = preg_replace_callback('/%%action.(\w+)%%/', function ($m) {
2266         return common_local_url($m[1]);
2267     }, $c);
2268     $c = preg_replace_callback('/%%doc.(\w+)%%/', function ($m) {
2269         return common_local_url('doc', ['title'=>$m[1]]);
2270     }, $c);
2271     $c = preg_replace_callback('/%%(\w+).(\w+)%%/', function ($m) {
2272         return common_config($m[1], $m[2]);
2273     }, $c);
2274
2275     return \Michelf\Markdown::defaultTransform($c);
2276 }
2277
2278 function common_user_property($property)
2279 {
2280     $profile = Profile::current();
2281
2282     if (empty($profile)) {
2283         return null;
2284     }
2285
2286     switch ($property) {
2287     case 'profileurl':
2288     case 'nickname':
2289     case 'fullname':
2290     case 'location':
2291     case 'bio':
2292         return $profile->$property;
2293         break;
2294     case 'avatar':
2295         try {
2296             return $profile->getAvatar(AVATAR_STREAM_SIZE);
2297         } catch (Exception $e) {
2298             return null;
2299         }
2300         break;
2301     case 'bestname':
2302         return $profile->getBestName();
2303         break;
2304     default:
2305         return null;
2306     }
2307 }
2308
2309 function common_profile_uri($profile)
2310 {
2311     $uri = null;
2312
2313     if (!empty($profile)) {
2314         if (Event::handle('StartCommonProfileURI', [$profile, &$uri])) {
2315             $user = User::getKV('id', $profile->id);
2316             if ($user instanceof User) {
2317                 $uri = $user->getUri();
2318             }
2319             Event::handle('EndCommonProfileURI', [$profile, &$uri]);
2320         }
2321     }
2322
2323     // XXX: this is a very bad profile!
2324     return $uri;
2325 }
2326
2327 function common_canonical_sms($sms)
2328 {
2329     // strip non-digits
2330     preg_replace('/\D/', '', $sms);
2331     return $sms;
2332 }
2333
2334 function common_error_handler($errno, $errstr, $errfile, $errline, $errcontext)
2335 {
2336     switch ($errno) {
2337
2338      case E_ERROR:
2339      case E_COMPILE_ERROR:
2340      case E_CORE_ERROR:
2341      case E_USER_ERROR:
2342      case E_PARSE:
2343      case E_RECOVERABLE_ERROR:
2344         common_log(LOG_ERR, "[$errno] $errstr ($errfile:$errline) [ABORT]");
2345         die();
2346         break;
2347
2348      case E_WARNING:
2349      case E_COMPILE_WARNING:
2350      case E_CORE_WARNING:
2351      case E_USER_WARNING:
2352         common_log(LOG_WARNING, "[$errno] $errstr ($errfile:$errline)");
2353         break;
2354
2355      case E_NOTICE:
2356      case E_USER_NOTICE:
2357         common_log(LOG_NOTICE, "[$errno] $errstr ($errfile:$errline)");
2358         break;
2359
2360      case E_STRICT:
2361      case E_DEPRECATED:
2362      case E_USER_DEPRECATED:
2363         // XXX: config variable to log this stuff, too
2364         break;
2365
2366      default:
2367         common_log(LOG_ERR, "[$errno] $errstr ($errfile:$errline) [UNKNOWN LEVEL, die()'ing]");
2368         die();
2369         break;
2370     }
2371
2372     // FIXME: show error page if we're on the Web
2373     /* Don't execute PHP internal error handler */
2374     return true;
2375 }
2376
2377 function common_session_token()
2378 {
2379     common_ensure_session();
2380     if (!array_key_exists('token', $_SESSION)) {
2381         $_SESSION['token'] = common_random_hexstr(64);
2382     }
2383     return $_SESSION['token'];
2384 }
2385
2386 function common_license_terms($uri)
2387 {
2388     if (preg_match('/creativecommons.org\/licenses\/([^\/]+)/', $uri, $matches)) {
2389         return explode('-', $matches[1]);
2390     }
2391     return [$uri];
2392 }
2393
2394 function common_compatible_license($from, $to)
2395 {
2396     $from_terms = common_license_terms($from);
2397     // public domain and cc-by are compatible with everything
2398     if (count($from_terms) == 1 && ($from_terms[0] == 'publicdomain' || $from_terms[0] == 'by')) {
2399         return true;
2400     }
2401     $to_terms = common_license_terms($to);
2402     // sa is compatible across versions. IANAL
2403     if (in_array('sa', $from_terms) || in_array('sa', $to_terms)) {
2404         return count(array_diff($from_terms, $to_terms)) == 0;
2405     }
2406     // XXX: better compatibility check needed here!
2407     // Should at least normalise URIs
2408     return ($from == $to);
2409 }
2410
2411 /**
2412  * returns a quoted table name, if required according to config
2413  */
2414 function common_database_tablename($tablename)
2415 {
2416     if (common_config('db', 'quote_identifiers')) {
2417         $tablename = '"'. $tablename .'"';
2418     }
2419     //table prefixes could be added here later
2420     return $tablename;
2421 }
2422
2423 /**
2424  * Shorten a URL with the current user's configured shortening service,
2425  * or ur1.ca if configured, or not at all if no shortening is set up.
2426  *
2427  * @param string  $long_url original URL
2428  * @param User $user to specify a particular user's options
2429  * @param boolean $force    Force shortening (used when notice is too long)
2430  * @return string may return the original URL if shortening failed
2431  *
2432  * @fixme provide a way to specify a particular shortener
2433  */
2434 function common_shorten_url($long_url, User $user=null, $force = false)
2435 {
2436     $long_url = trim($long_url);
2437
2438     $user = common_current_user();
2439
2440     $maxUrlLength = User_urlshortener_prefs::maxUrlLength($user);
2441
2442     // $force forces shortening even if it's not strictly needed
2443     // I doubt URL shortening is ever 'strictly' needed. - ESP
2444
2445     if (($maxUrlLength == -1 || mb_strlen($long_url) < $maxUrlLength) && !$force) {
2446         return $long_url;
2447     }
2448
2449     $shortenerName = User_urlshortener_prefs::urlShorteningService($user);
2450
2451     if (Event::handle(
2452         'StartShortenUrl',
2453         [$long_url, $shortenerName, &$shortenedUrl]
2454     )) {
2455         if ($shortenerName == 'internal') {
2456             try {
2457                 $f = File::processNew($long_url);
2458                 $shortenedUrl = common_local_url('redirecturl', ['id' => $f->id]);
2459                 if ((mb_strlen($shortenedUrl) < mb_strlen($long_url)) || $force) {
2460                     return $shortenedUrl;
2461                 } else {
2462                     return $long_url;
2463                 }
2464             } catch (ServerException $e) {
2465                 return $long_url;
2466             }
2467         } else {
2468             return $long_url;
2469         }
2470     } else {
2471         //URL was shortened, so return the result
2472         return trim($shortenedUrl);
2473     }
2474 }
2475
2476 /**
2477  * @return mixed array($proxy, $ip) for web requests; proxy may be null
2478  *               null if not a web request
2479  *
2480  * @fixme X-Forwarded-For can be chained by multiple proxies;
2481           we should parse the list and provide a cleaner array
2482  * @fixme X-Forwarded-For can be forged by clients; only use them if trusted
2483  * @fixme X_Forwarded_For headers will override X-Forwarded-For read through $_SERVER;
2484  *        use function to get exact request headers from Apache if possible.
2485  */
2486 function common_client_ip()
2487 {
2488     if (!isset($_SERVER) || !array_key_exists('REQUEST_METHOD', $_SERVER)) {
2489         return null;
2490     }
2491
2492     if (array_key_exists('HTTP_X_FORWARDED_FOR', $_SERVER)) {
2493         if (array_key_exists('HTTP_CLIENT_IP', $_SERVER)) {
2494             $proxy = $_SERVER['HTTP_CLIENT_IP'];
2495         } else {
2496             $proxy = $_SERVER['REMOTE_ADDR'];
2497         }
2498         $ip = $_SERVER['HTTP_X_FORWARDED_FOR'];
2499     } else {
2500         $proxy = null;
2501         if (array_key_exists('HTTP_CLIENT_IP', $_SERVER)) {
2502             $ip = $_SERVER['HTTP_CLIENT_IP'];
2503         } else {
2504             $ip = $_SERVER['REMOTE_ADDR'];
2505         }
2506     }
2507
2508     return [$proxy, $ip];
2509 }
2510
2511 function common_url_to_nickname($url)
2512 {
2513     static $bad = ['query', 'user', 'password', 'port', 'fragment'];
2514
2515     $parts = parse_url($url);
2516
2517     // If any of these parts exist, this won't work
2518
2519     foreach ($bad as $badpart) {
2520         if (array_key_exists($badpart, $parts)) {
2521             return null;
2522         }
2523     }
2524
2525     // We just have host and/or path
2526
2527     // If it's just a host...
2528     if (array_key_exists('host', $parts) &&
2529         (!array_key_exists('path', $parts) || strcmp($parts['path'], '/') == 0)) {
2530         $hostparts = explode('.', $parts['host']);
2531
2532         // Try to catch common idiom of nickname.service.tld
2533
2534         if ((count($hostparts) > 2) &&
2535             (strlen($hostparts[count($hostparts) - 2]) > 3) && # try to skip .co.uk, .com.au
2536             (strcmp($hostparts[0], 'www') != 0)) {
2537             return common_nicknamize($hostparts[0]);
2538         } else {
2539             // Do the whole hostname
2540             return common_nicknamize($parts['host']);
2541         }
2542     } else {
2543         if (array_key_exists('path', $parts)) {
2544             // Strip starting, ending slashes
2545             $path = preg_replace('@/$@', '', $parts['path']);
2546             $path = preg_replace('@^/@', '', $path);
2547             $path = basename($path);
2548
2549             // Hack for MediaWiki user pages, in the form:
2550             // http://example.com/wiki/User:Myname
2551             // ('User' may be localized.)
2552             if (strpos($path, ':')) {
2553                 $parts = array_filter(explode(':', $path));
2554                 $path = $parts[count($parts) - 1];
2555             }
2556
2557             if ($path) {
2558                 return common_nicknamize($path);
2559             }
2560         }
2561     }
2562
2563     return null;
2564 }
2565
2566 function common_nicknamize($str)
2567 {
2568     try {
2569         return Nickname::normalize($str);
2570     } catch (NicknameException $e) {
2571         return null;
2572     }
2573 }
2574
2575 function common_perf_counter($key, $val=null)
2576 {
2577     global $_perfCounters;
2578     if (isset($_perfCounters)) {
2579         if (common_config('site', 'logperf')) {
2580             if (array_key_exists($key, $_perfCounters)) {
2581                 $_perfCounters[$key][] = $val;
2582             } else {
2583                 $_perfCounters[$key] = [$val];
2584             }
2585             if (common_config('site', 'logperf_detail')) {
2586                 common_log(LOG_DEBUG, "PERF COUNTER HIT: $key $val");
2587             }
2588         }
2589     }
2590 }
2591
2592 function common_log_perf_counters()
2593 {
2594     if (common_config('site', 'logperf')) {
2595         global $_startTime, $_perfCounters;
2596
2597         if (isset($_startTime)) {
2598             $endTime = microtime(true);
2599             $diff = round(($endTime - $_startTime) * 1000);
2600             common_log(LOG_DEBUG, "PERF runtime: ${diff}ms");
2601         }
2602         $counters = $_perfCounters;
2603         ksort($counters);
2604         foreach ($counters as $key => $values) {
2605             $count = count($values);
2606             $unique = count(array_unique($values));
2607             common_log(LOG_DEBUG, "PERF COUNTER: $key $count ($unique unique)");
2608         }
2609     }
2610 }
2611
2612 function common_is_email($str)
2613 {
2614     return (strpos($str, '@') !== false);
2615 }
2616
2617 function common_init_stats()
2618 {
2619     global $_mem, $_ts;
2620
2621     $_mem = memory_get_usage(true);
2622     $_ts  = microtime(true);
2623 }
2624
2625 function common_log_delta($comment=null)
2626 {
2627     global $_mem, $_ts;
2628
2629     $mold = $_mem;
2630     $told = $_ts;
2631
2632     $_mem = memory_get_usage(true);
2633     $_ts  = microtime(true);
2634
2635     $mtotal = $_mem - $mold;
2636     $ttotal = $_ts - $told;
2637
2638     if (empty($comment)) {
2639         $comment = 'Delta';
2640     }
2641
2642     common_debug(sprintf("%s: %d %d", $comment, $mtotal, round($ttotal * 1000000)));
2643 }
2644
2645 function common_strip_html($html, $trim=true, $save_whitespace=false)
2646 {
2647     // first replace <br /> with \n
2648     $html = preg_replace('/\<(\s*)?br(\s*)?\/?(\s*)?\>/i', "\n", $html);
2649     // then, unless explicitly avoided, remove excessive whitespace
2650     if (!$save_whitespace) {
2651         $html = preg_replace('/\s+/', ' ', $html);
2652     }
2653     $text = html_entity_decode(strip_tags($html), ENT_QUOTES, 'UTF-8');
2654     return $trim ? trim($text) : $text;
2655 }
2656
2657 function html_sprintf()
2658 {
2659     $args = func_get_args();
2660     for ($i=1; $i<count($args); $i++) {
2661         $args[$i] = htmlspecialchars($args[$i]);
2662     }
2663     return call_user_func_array('sprintf', $args);
2664 }
2665
2666 function _ve($var)
2667 {
2668     return var_export($var, true);
2669 }