]> git.plutz.net Git - cgilite/commitdiff
W3C Validator compliance: introduce separate function for escaping URL references...
authorPaul Hänsch <paul@plutz.net>
Thu, 18 May 2023 11:26:54 +0000 (13:26 +0200)
committerPaul Hänsch <paul@plutz.net>
Thu, 18 May 2023 11:26:54 +0000 (13:26 +0200)
markdown.awk

index 44d4e0d7d16aa8aaab7638da20debc775f9770c3..63bb044e8a69c13a87c58c71194ecceaf9b381b8 100755 (executable)
@@ -86,6 +86,20 @@ function HTML ( text ) {
   return text;
 }
 
+function URL ( text ) {
+  gsub( /&/,  "%26",  text );
+  gsub( /"/,  "%22", text );
+  gsub( /'/,  "%27", text );
+  gsub( /\?/,  "%3F", text );
+  gsub( /#/,  "%23", text );
+  gsub( /\[/,  "%5B", text );
+  gsub( /\]/,  "%5D", text );
+  gsub( / /,  "%20", text );
+  gsub( /      /,  "%09", text );
+  gsub( /\\/, "%5C", text );
+  return text;
+}
+
 function inline( line, LOCAL, len, code, href, guard ) {
   nu = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\_]|_[[:alnum:]])*"    # not underline (except when escaped)
   na = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\\\*])*"  # not asterisk (except when escaped)
@@ -103,7 +117,7 @@ function inline( line, LOCAL, len, code, href, guard ) {
 
   # hard brakes
   } else if ( match(line, /^  \n/) ) {
-    return "<br />\n" inline( substr(line, RLENGTH + 1) );
+    return "<br>\n" inline( substr(line, RLENGTH + 1) );
 
   #  ``code spans``
   } else if ( match( line, /^`+/) ) {
@@ -125,18 +139,18 @@ function inline( line, LOCAL, len, code, href, guard ) {
     href = gensub(/^\[\[([^\]\|]+)(\|([^\]]+))?\]\]/, "\\1", 1, substr(line, 1, len) );
     text = gensub(/^\[\[([^\]\|]+)(\|([^\]]+))?\]\]/, "\\3", 1, substr(line, 1, len) );
     if ( ! text ) text = href;
-    return "<a href=\"" HTML(href) "\">" HTML(text) "</a>" inline( substr( line, len + 1) );
+    return "<a href=\"" URL(href) "\">" HTML(text) "</a>" inline( substr( line, len + 1) );
 
   #  quick links ("automatic links" in md doc)
   } else if ( match( line, /^<[a-zA-Z]+:\/\/([-\.[:alnum:]]+)(:[0-9]*)?(\/[^>]*)?>/ ) ) {
     len = RLENGTH;
-    href = HTML( substr( line, 2, len - 2) );
+    href = URL( substr( line, 2, len - 2) );
     return "<a href=\"" href "\">" href "</a>" inline( substr( line, len + 1) );
 
   # quick link email
   } else if ( match( line, /^<[a-zA-Z0-9.!#$%&'\''*+\/=?^_`{|}~-]+@[a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(\.[a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*>/ ) ) {
     len = RLENGTH;
-    href = HTML( substr( line, 2, len - 2) );
+    href = URL( substr( line, 2, len - 2) );
     return "<a href=\"mailto:" href "\">" href "</a>" inline( substr( line, len + 1) );
 
   # inline links
@@ -146,9 +160,9 @@ function inline( line, LOCAL, len, code, href, guard ) {
     href  = gensub(/^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, "\\2", 1, substr(line, 1, len) );
     title = gensub(/^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, "\\4", 1, substr(line, 1, len) );
     if ( title ) {
-      return "<a href=\"" HTML(href) "\" title=\"" HTML(title) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(href) "\" title=\"" HTML(title) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
     } else {
-      return "<a href=\"" HTML(href) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(href) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
     }
 
   # reference style links
@@ -158,9 +172,9 @@ function inline( line, LOCAL, len, code, href, guard ) {
       id = gensub(/^\[([^\n]+)\] ?\[([^\n]*)\].*/, "\\2", 1, substr(line, 1, len) );
     if ( ! id ) id = text;
     if ( rl_href[id] && rl_title[id] ) {
-      return "<a href=\"" HTML(rl_href[id]) "\" title=\"" HTML(rl_title[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(rl_href[id]) "\" title=\"" HTML(rl_title[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
     } else if ( rl_href[id] ) {
-      return "<a href=\"" HTML(rl_href[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(rl_href[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
     } else {
       return "" HTML(substr(line, 1, len)) inline( substr(line, len + 1) );
     }
@@ -173,13 +187,17 @@ function inline( line, LOCAL, len, code, href, guard ) {
     title  = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?/, "\\4", "g", substr(line, 1, len) );
     attrib = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?/, "\\6", "g", substr(line, 1, len) );
     if ( title && attrib ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" class=\"" HTML(attrib) "\"/>" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" class=\"" HTML(attrib) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( title ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( attrib ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\">" \
+             inline( substr( line, len + 1) );
     } else {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\">" \
+             inline( substr( line, len + 1) );
     }
 
   # reference style images
@@ -189,9 +207,11 @@ function inline( line, LOCAL, len, code, href, guard ) {
       id = gensub(/^!\[([^\n]+)\] ?\[([^\n]*)\].*/, "\\2", 1, substr(line, 1, len) );
     if ( ! id ) id = text;
     if ( rl_href[id] && rl_title[id] ) {
-      return "<img src=\"" HTML(rl_href[id]) "\" alt=\"" HTML(text) "\" title=\"" HTML(rl_title[id]) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\" title=\"" HTML(rl_title[id]) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( rl_href[id] ) {
-      return "<img src=\"" HTML(rl_href[id]) "\" alt=\"" HTML(text) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\">" \
+             inline( substr( line, len + 1) );
     } else {
       return "" HTML(substr(line, 1, len)) inline( substr(line, len + 1) );
     }
@@ -427,7 +447,7 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
     gsub(/\n[[:space:]]+/, " ", code);
     gsub(/\n\| /, "\n", code);
     gsub(/^\| |\n$/, "", code);
-    return "<div class=\"line-block\">" gensub(/\n/, "<br />\n", "g", inline( code )) "</div>\n" \
+    return "<div class=\"line-block\">" gensub(/\n/, "<br>\n", "g", inline( code )) "</div>\n" \
            _block( substr( block, len + 1) );
 
   # Indented Code Block
@@ -503,20 +523,20 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
   } else if ( match( block, /^[^\n]+\n===+(\n|$)/ ) ) {
     len = RLENGTH;
     HL[1]++; HL[2] = 0; HL[3] = 0; HL[4] = 0; HL[5] = 0; HL[6] = 0;
-    return "<h1 id=\"" HL[1] " - " HTML(gensub( /\n.*$/, "", "g", block )) "\">" \
+    return "<h1 id=\"" HL[1] ":" URL(gensub( /\n.*$/, "", "g", block )) "\">" \
            inline( gensub( /\n.*$/, "", "g", block ) ) \
-           "<a class=\"anchor\" href=\"#" HL[1] " - " \
-           HTML(gensub( /\n.*$/, "", "g", block )) "\"></a></h1>\n\n" \
+           "<a class=\"anchor\" href=\"#" HL[1] ":" \
+           URL(gensub( /\n.*$/, "", "g", block )) "\"></a></h1>\n\n" \
            _block( substr( block, len + 1 ) );
 
   # Second Order Heading
   } else if ( match( block, /^[^\n]+\n---+(\n|$)/ ) ) {
     len = RLENGTH;
     HL[2]++; HL[3] = 0; HL[4] = 0; HL[5] = 0; HL[6] = 0;
-    return "<h2 id=\"" HL[1] "." HL[2] " - " HTML(gensub( /\n.*$/, "", "g", block )) "\">" \
+    return "<h2 id=\"" HL[1] "." HL[2] ":" URL(gensub( /\n.*$/, "", "g", block )) "\">" \
            inline( gensub( /\n.*$/, "", "g", block ) ) \
-           "<a class=\"anchor\" href=\"#" HL[1] "." HL[2] " - " \
-           HTML(gensub( /\n.*$/, "", "g", block )) "\"></a></h2>\n\n" \
+           "<a class=\"anchor\" href=\"#" HL[1] "." HL[2] ":" \
+           URL(gensub( /\n.*$/, "", "g", block )) "\"></a></h2>\n\n" \
            _block( substr( block, len + 1) );
 
   # Nth Order Heading
@@ -526,7 +546,7 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
     htxt = gensub(/^#{1,6}[ \t]*(([^ \t\n]+|[ \t]+[^ \t\n#]|[ \t]+#+[^\n#])+)([ \t]*#*)(\n.*)?$/, "\\1", 1, block);
     HL[hlvl]++; for ( n = hlvl + 1; n < 7; n++) { HL[n] = 0;}
     hid = HL[1]; for ( n = 2; n <= hlvl; n++) { hid = hid "." HL[n] ; }
-    return "<h" hlvl " id=\"" hid " - " HTML(htxt) "\">" inline( htxt ) \
+    return "<h" hlvl " id=\"" hid ":" URL(htxt) "\">" inline( htxt ) \
            "<a class=\"anchor\" href=\"#" hid "\"></a></h" hlvl ">\n\n" \
            _block( substr( block, len + 1) );
 
@@ -539,7 +559,7 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
   # Horizontal rule
   } else if ( match( block, /(^|\n) ? ? ?((\* *){3,}|(- *){3,}|(_ *){3,})($|\n)/) ) {
     len = RLENGTH; st = RSTART;
-    return _block(substr(block, 1, st - 1)) "<hr />\n" _block(substr(block, st + len));
+    return _block(substr(block, 1, st - 1)) "<hr>\n" _block(substr(block, st + len));
 
   # Plain paragraph
   } else {
@@ -572,25 +592,25 @@ function _list( block, last, LOCAL, p) {
   sub( /\n$/, "", p );
 
   # Task List (pandoc, custom)
-         if ( p ~ /^\[ \].*/ )       { return "<li class=\"task pending\"><input type=checkbox disabled />" \
+         if ( p ~ /^\[ \].*/ )       { return "<li class=\"task pending\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[-\].*/ )       { return "<li class=\"task negative\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[-\].*/ )       { return "<li class=\"task negative\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[\?\].*/ )      { return "<li class=\"task unsure\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[\?\].*/ )      { return "<li class=\"task unsure\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[\/\].*/ )      { return "<li class=\"task partial\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[\/\].*/ )      { return "<li class=\"task partial\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[[xX]\].*/ )    { return "<li class=\"task done\"><input type=checkbox disabled checked />" \
+  } else if ( p ~ /^\[[xX]\].*/ )    { return "<li class=\"task done\"><input type=checkbox disabled checked>" \
                                             substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[ \].*/ )    { return "<li class=\"task pending\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[ \].*/ )    { return "<li class=\"task pending\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[-\].*/ )    { return "<li class=\"task negative\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[-\].*/ )    { return "<li class=\"task negative\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[\?\].*/ )   { return "<li class=\"task unsure\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[\?\].*/ )   { return "<li class=\"task unsure\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[\/\].*/ )   { return "<li class=\"task partial\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[\/\].*/ )   { return "<li class=\"task partial\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[[xX]\].*/ ) { return "<li class=\"task done\"><p><input type=checkbox disabled checked />" \
+  } else if ( p ~ /^<p>\[[xX]\].*/ ) { return "<li class=\"task done\"><p><input type=checkbox disabled checked>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
   } else { return "<li>" p "</li>\n" _list( block, last ); }
 }