]> git.plutz.net Git - shellwiki/commitdiff
treat %XX URL sequences as field stop in indexing, do not index words > 128 characters
authorPaul Hänsch <paul@plutz.net>
Fri, 22 Sep 2023 09:20:24 +0000 (11:20 +0200)
committerPaul Hänsch <paul@plutz.net>
Fri, 22 Sep 2023 09:20:24 +0000 (11:20 +0200)
handlers/40_search.sh
parsers/40_indexer.sh

index 3db8987164a867273aab6de87d504395aa838166..c558f5394b9cd01b8a86063d69a291de094b7fbc 100644 (file)
@@ -5,14 +5,17 @@
 . "$_EXEC/cgilite/storage.sh"
 
 I="$_DATA/index"
-words="$(GET q |tr '] \t\n\r!\"#'\''()*+,./:;<=>?\\^_`{|}~[-' ' ')"
+words="$( GET q | sed -E '
+  :X $bY; N; bX; :Y
+  s;([] \t\n\r!\"#'\''()*+,./:;<=>?\\^_`{|}~[-]|%[1-9A-Fa-f]{2})+;     ;g
+')"
 
 for w in ${words}; do
   [ ! -f "$I/$w" ] && continue
 
   while read date doc freq num total; do
     P="$_DATA/pages$(UNSTRING "$doc")"
-    d="$(stat -c %Y -- "$P/#page.md")"
+    d="$(stat -c %Y -- "$P/#index.flag")"
     [ "$d" -gt "$date" ] && continue
 
     printf '%s %f\n' "$doc" "$freq"
index d5783f4ea9c8e79cb78dbf706ab75888ec0fd78f..3cfc72c36d4ee61107100b433007bd252d4a9317 100755 (executable)
 # ACTION OF CONTRACT, NEGLIGENCE OR OTHER TORTIOUS ACTION, ARISING OUT OF OR
 # IN CONNECTION WITH THE USE OR PERFORMANCE OF THIS SOFTWARE.
 
-DOC="${PATH_INFO%/}/" DOC="${DOC%/\[*\]/}" DOC="${DOC%/}/"
-P="$_DATA/pages${DOC}" I="$_DATA/index/"
+DOC="${PATH_INFO%/}/" P="$_DATA/pages${DOC}" I="$_DATA/index/"
 
-if [ -f "$P/#index.flag" -a ! "$P/#page.md" -nt "$P/#index.flag" ]; then
+if [ -f "$P/#index.flag" -a ! "$P/#page.md" -nt "$P/#index.flag" ] || [ ! -d "$P" ]; then
   cat
   exit 0
 fi
@@ -35,8 +34,11 @@ mkdir -p "$I"
   printf '%s\n' "$line"
 done \
 | awk '
-  BEGIN { FS = "[] \t\n\r!\"#'\''()*+,./:;<=>?\\^_`{|}~[-]+" }
-        { for (n = 1; n <= NF; n++) if ( $n != "" ) { words[tolower($n)]++; total++; } }
+  BEGIN { FS = "([] \t\n\r!\"#'\''()*+,./:;<=>?\\^_`{|}~[-]|%[0-9A-Fa-f]{2})+" }
+        { for (n = 1; n <= NF; n++) {
+            if ( $n != "" && length($n) <= 128 ) {
+              words[tolower($n)]++; total++;
+        } } }
     END { for (w in words) printf "%i %i %f %s\n", words[w], total, words[w] / total, w; }
 ' \
 | while read num total freq word; do