]> git.plutz.net Git - shellwiki/blobdiff - parsers/40_indexer.sh
updated copyright notices
[shellwiki] / parsers / 40_indexer.sh
index 3cfc72c36d4ee61107100b433007bd252d4a9317..56a8990bd89e2bbd3a9d2e6f8a5f65aa6de23c87 100755 (executable)
@@ -1,6 +1,6 @@
 #!/bin/sh
 
-# Copyright 2023 Paul Hänsch
+# Copyright 2023 - 2024 Paul Hänsch
 # 
 # Permission to use, copy, modify, and/or distribute this software for any
 # purpose with or without fee is hereby granted, provided that the above
 # ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR
 # IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
 
-DOC="${PATH_INFO%/}/" P="$_DATA/pages${DOC}" I="$_DATA/index/"
+P="$PWD" I="$_DATA/index/" _DATE=$((_DATE + 1))
 
-if [ -f "$P/#index.flag" -a ! "$P/#page.md" -nt "$P/#index.flag" ] || [ ! -d "$P" ]; then
+if [ "$SEARCH_INDEX" != true ] || [ ! -d "$P" ] || \
+   [ -f "$P/#index.flag" -a ! "$P/#index.flag" -ot "$P/#page.md" ]
+then
   cat
   exit 0
 fi
@@ -25,8 +27,9 @@ fi
 
 exec 3>&1
 
-touch "$P/#index.flag"
+touch -d "@$_DATE" "$P/#index.flag"
 mkdir -p "$I"
+DOC="$(STRING "${P#"$_DATA/pages"}")"
 
 { cat; printf \\n; } \
 | while IFS='' read -r line; do
@@ -34,29 +37,22 @@ mkdir -p "$I"
   printf '%s\n' "$line"
 done \
 | awk '
-  BEGIN { FS = "([] \t\n\r!\"#'\''()*+,./:;<=>?\\^_`{|}~[-]|%[0-9A-Fa-f]{2})+" }
+  BEGIN { # Field separator FS should include punctuation, including Unicode Block U+2000 - U+206F
+          if ( length("¡") == 1 )  # Utf-8 aware AWK
+          FS = "([] \\t\\n\\r!\"#'\''()*+,./:;<=>?\\\\^_`{|}~[-]|%[0-9A-Fa-f]{2}|'"$(printf '[\342\200\200-\342\201\257]')"')+";
+          else                     # UTF-8 Hack
+          FS = "([] \\t\\n\\r!\"#'\''()*+,./:;<=>?\\\\^_`{|}~[-]|%[0-9A-Fa-f]{2}|'"$(printf '\342\200[\200-\277]|\342\201[\201-\257]')"')+";
+          fi
+        }
         { for (n = 1; n <= NF; n++) {
             if ( $n != "" && length($n) <= 128 ) {
               words[tolower($n)]++; total++;
         } } }
     END { for (w in words) printf "%i %i %f %s\n", words[w], total, words[w] / total, w; }
 ' \
-| while read num total freq word; do
+| while read -r num total freq word; do
   [ "$word" ] || continue
-  F="$I/$word"
-  L="$(STRING "$DOC")"
-
-  if LOCK "$F"; then
-    touch "$F"
-    { while read d l f n t; do
-      [ "$l" = "$L" ] \
-      || printf "%i    %s      %f      %i      %i\n" \
-                "$d" "$l" "$f" "$n" "$t"
-      done <"$F"
-      printf "%i       %s      %f      %i      %i\n" \
-             "$_DATE" "$L" "$freq" "$num" "$total"
-    } >"$F.$$"
-    mv -- "$F.$$" "$F"
-    RELEASE "$F"
-  fi
+  printf "%i   %s      %f      %i      %i\n" \
+         "$_DATE" "$DOC" "$freq" "$num" "$total" \
+  >>"$I/$word"
 done