]> git.plutz.net Git - cgilite/blobdiff - cgilite.sh
much faster hex decode function
[cgilite] / cgilite.sh
index bee93d86089668be13c59375026e7cfaa0464313..7f828ddd6c8e2234c7cb3e2625505b5796e8eb77 100755 (executable)
@@ -1,6 +1,6 @@
 #!/bin/sh
 
-# Copyright 2017 - 2020 Paul Hänsch
+# Copyright 2017 - 2021 Paul Hänsch
 #
 # This is CGIlite.
 # A collection of posix shell functions for writing CGI scripts.
@@ -18,6 +18,9 @@
 # You should have received a copy of the GNU Affero General Public License
 # along with CGIlite.  If not, see <http://www.gnu.org/licenses/>. 
 
+[ -n "$include_cgilite" ] && return 0
+# guard set after webserver part
+
 # ksh and zsh workaround
 # set -o posix # ksh, not portable
 setopt -o OCTAL_ZEROES 2>&-
@@ -29,6 +32,9 @@ cgilite_timeout=2
 
 PATH(){ 
   local str seg out
+  # normalize path
+  # read from stdin if no arguments are provided
+
   [ $# -eq 0 ] && str="$(cat)" || str="$*"
   while [ "$str" ]; do
     seg=${str%%/*}; str="${str#*/}"
@@ -42,18 +48,58 @@ PATH(){
   [ "${str}" -a "${out}" ] && printf %s "$out" || printf %s/ "${out%/}"
 }
 
-HEX_DECODE='
-  s;\\;\\\\;g; :HEXDECODE_X; s;%([^0-9A-F]);\\045\1;g; tHEXDECODE_X;
-  # Hexadecimal { %00 - %FF } will be transformed to octal { \000 - \377 } for posix printf
-  s;%[0123].;&\\0;g; s;%[4567].;&\\1;g; s;%[89AB].;&\\2;g; s;%[CDEF].;&\\3;g;
-  s;%[048C][0-7]\\.;&0;g; s;%[048C][89A-F]\\.;&1;g; s;%[159D][0-7]\\.;&2;g; s;%[159D][89A-F]\\.;&3;g;
-  s;%[26AE][0-7]\\.;&4;g; s;%[26AE][89A-F]\\.;&5;g; s;%[37BF][0-7]\\.;&6;g; s;%[37BF][89A-F]\\.;&7;g;
-  s;%.[08](\\..);\10;g; s;%.[19](\\..);\11;g; s;%.[2A](\\..);\12;g; s;%.[3B](\\..);\13;g;
-  s;%.[4C](\\..);\14;g; s;%.[5D](\\..);\15;g; s;%.[6E](\\..);\16;g; s;%.[7F](\\..);\17;g;
-'
-
 HEX_DECODE(){
-  printf -- "$(printf %s "$1" |sed -E "$HEX_DECODE")"
+  local pfx="$1" in="$2" out
+  # Print out Data encoded as Hex
+  #
+  # Arguments:
+  # pfx - required, prefix for a hex tupel, e.g. "\x", "%" "\", may be empty
+  # in - required, string to be decoded
+  #
+  # anything that does not constitute a tupel of valid Hex numerals
+  # will be copied to the output literally
+
+  while [ "$in" ]; do
+    case $in in
+      "$pfx"[0-9a-fA-F][0-9a-fA-F]*) in="${in#${pfx}}";;
+      \\*) in="${in#?}"; out="${out}\\\\"; continue;;
+       %*) in="${in#?}"; out="${out}%%";  continue;;
+        *) out="${out}${in%"${in#?}"}"; in="${in#?}"; continue;;
+    esac;
+
+    # Hex escaes for printf (e.g. \x41) are not portable 
+    # The portable way for Hex output is transforming Hex to Octal
+    # (e.g. \x41 = \101)
+    case $in in
+        [0123]?*) out="${out}\\0";;
+        [4567]?*) out="${out}\\1";;
+      [89aAbB]?*) out="${out}\\2";;
+      [c-fC-F]?*) out="${out}\\3";;
+    esac
+    case $in in
+            [048cC][0-7]*) out="${out}0";;
+       [048cC][89a-fA-F]*) out="${out}1";;
+            [159dD][0-7]*) out="${out}2";;
+       [159dD][89a-fA-F]*) out="${out}3";;
+           [26aAeE][0-7]*) out="${out}4";;
+      [26aAeE][89a-fA-F]*) out="${out}5";;
+           [37bBfF][0-7]*) out="${out}6";;
+      [37bBfF][89a-fA-F]*) out="${out}7";;
+    esac
+    case $in in
+       ?[08]*) out="${out}0";;
+       ?[19]*) out="${out}1";;
+      ?[2aA]*) out="${out}2";;
+      ?[3bB]*) out="${out}3";;
+      ?[4cC]*) out="${out}4";;
+      ?[5dD]*) out="${out}5";;
+      ?[6eE]*) out="${out}6";;
+      ?[7fF]*) out="${out}7";;
+    esac
+    in="${in#?}"
+    in="${in#?}"
+  done
+  printf -- "$out"
 }
 
 if [ -z "$REQUEST_METHOD" ]; then
@@ -76,8 +122,10 @@ if [ -z "$REQUEST_METHOD" ]; then
     kill $cgilite_watchdog
 
     SERVER_PROTOCOL="${SERVER_PROTOCOL%${CR}}"
-    PATH_INFO="$(HEX_DECODE "${REQUEST_URI%\?*}" |PATH)"
-    QUERY_STRING="${REQUEST_URI#*\?}"
+    PATH_INFO="$(HEX_DECODE % "${REQUEST_URI%\?*}" |PATH)"
+    [ "${REQUEST_URI}" = "${REQUEST_URI#*\?}" ] \
+    && QUERY_STRING='' \
+    || QUERY_STRING="${REQUEST_URI#*\?}"
     cgilite_headers=''; while read -r hl; do
       hl="${hl%${CR}}"; [ "$hl" ] || break
       case $hl in
@@ -117,11 +165,14 @@ if [ -z "$REQUEST_METHOD" ]; then
   exit 0
 fi
 
+include_cgilite="$0"
+
 if [ "${REQUEST_METHOD}" = POST -a "${CONTENT_LENGTH:-0}" -gt 0 -a \
      "${CONTENT_TYPE}" = "application/x-www-form-urlencoded" ]; then
   cgilite_post="$(head -c "$CONTENT_LENGTH")"
 fi
 
+debug(){ [ $# -gt 0 ] && printf '%s\n' "$@" >&2 || tee -a /dev/stderr; }
 [ "${DEBUG+x}" ] && env >&2
 
 cgilite_count(){
@@ -137,7 +188,7 @@ cgilite_value(){
     str="${str#*&${name}=}"
     cnt=$((cnt - 1))
   done
-  printf -- "$(printf %s "${str%%&*}" |sed -E 's;\+; ;g;'"$HEX_DECODE")"
+  HEX_DECODE % "$(printf %s "${str%%&*}" |tr + \  )"
 }
 
 cgilite_keys(){
@@ -149,15 +200,15 @@ cgilite_keys(){
   | sort -u
 }
 
-GET(){ cgilite_value "${QUERY_STRING}" $@; }
+GET(){ cgilite_value "${QUERY_STRING}" "$@"; }
 GET_COUNT(){ cgilite_count "${QUERY_STRING}" $1; }
 GET_KEYS(){ cgilite_keys "${QUERY_STRING}"; }
 
-POST(){ cgilite_value "${cgilite_post}" $@; }
+POST(){ cgilite_value "${cgilite_post}" "$@"; }
 POST_COUNT(){ cgilite_count "${cgilite_post}" $1; }
 POST_KEYS(){ cgilite_keys "${cgilite_post}"; }
 
-REF(){ cgilite_value "${HTTP_REFERER#*\?}" $@; }
+REF(){ cgilite_value "${HTTP_REFERER#*\?}" "$@"; }
 REF_COUNT(){ cgilite_count "${HTTP_REFERER#*\?}" $1; }
 REF_KEYS(){ cgilite_keys "${HTTP_REFERER#*\?}"; }
 
@@ -177,7 +228,7 @@ HEADER(){
 }
 
 COOKIE(){
-  HEX_DECODE "$(
+  HEX_DECODE "$(
     HEADER Cookie \
     | grep -oE '(^|; ?)'"$1"'=[^;]*' \
     | sed -En "${2:-1}"'{s;^[^=]+=;;; s;\+; ;g; p;}'
@@ -185,35 +236,51 @@ COOKIE(){
 }
 
 HTML(){
-  # HTML Entity Coding
-  # Prints UTF-8 string as decimal Unicode Code Points
-  # Useful for escaping user input for use in HTML text and attributes
-  { [ $# -eq 0 ] && cat || printf %s "$*"; } \
-  | hexdump -ve '/1 "%03o\n"' \
-  | while read n; do
-    case $n in
-      # bitbanging octal UTF-8 chains into singular 7 digit octal numbers
-      [01]??) printf '0000%s' $n;; # 7 bit ASCII character, nothing to do
-      2??)    printf '%s' ${n#2};; # tail fragment, append 6 bit
-      3[0123]?) printf '000%s' ${n#3};; # 2 octet (11 bit) chain start
-      34?) printf '00%s' ${n#34};; # 3 octet (16 bit) chain start
-      35?) printf '01%s' ${n#35};; # 3 octet chain start, high
-      36?) printf '%s' ${n#36};;   # 4 octet (21 bit) chain start
+  # Escape HTML cahracters
+  # Also escape [, ], and \n for use in html-sh
+  local str out
+  [ $# -eq 0 ] && str="$(cat)" || str="$*"
+  while [ "$str" ]; do
+    case $str in
+      \&*) out="${out}&amp;";;
+      \<*) out="${out}&lt;";;
+      \>*) out="${out}&gt;";;
+      \"*) out="${out}&quot;";;
+      \'*) out="${out}&#x27;";;
+      \[*) out="${out}&#x5B;";;
+      \]*) out="${out}&#x5D;";;
+      "${CR}"*) out="${out}&#x0D;";;
+      "${BR}"*) out="${out}&#x0A;";;
+      *) out="${out}${str%"${str#?}"}";;
     esac
-  done \
-  | sed -E 's;.{7};&\n;g;' \
-  | while read n; do
-    printf '&#%d;' $((0$n))
+    str="${str#?}"
   done
+  printf %s "$out"
 }
 
 URL(){
-  # Code every character in URL escape hex format
-  # except alphanumeric ascii
-
-  { [ $# -eq 0 ] && cat || printf %s "$*"; } \
-  | hexdump -v -e '/1 ",%02X"' \
-  | sed 's;,;%;g; s;%2F;/;g;'
+  # Escape pathes, so they can be used in link tags and HTTP Headers
+  local str out
+  [ $# -eq 0 ] && str="$(cat)" || str="$*"
+  while [ "$str" ]; do
+    case $str in
+      \&*) out="${out}%26";;
+      \"*) out="${out}%22";;
+      \'*) out="${out}%27";;
+      \?*) out="${out}%3F";;
+      \#*) out="${out}%23";;
+      \[*) out="${out}%5B";;
+      \]*) out="${out}%5D";;
+      \ *) out="${out}%20";;
+      "        "*) out="${out}%09";;
+      "${CR}"*) out="${out}%0D";;
+      "${BR}"*) out="${out}%0A";;
+      %*) out="${out}%25";;
+      *) out="${out}${str%"${str#?}"}";;
+    esac
+    str="${str#?}"
+  done
+  printf %s "$out"
 }
 
 SET_COOKIE(){