]> git.plutz.net Git - shellwiki/commitdiff
Squashed 'cgilite/' changes from 970afdaf..01dadd76
authorPaul Hänsch <paul@plutz.net>
Thu, 18 May 2023 12:05:58 +0000 (14:05 +0200)
committerPaul Hänsch <paul@plutz.net>
Thu, 18 May 2023 12:05:58 +0000 (14:05 +0200)
01dadd76 enable block element Macros
697a1bb3 extesion: introduce <figure>-wrapped images as block elements
a8a5ea58 bugfix: enable image links
ffe17caf W3C Validator compliance: introduce separate function for escaping URL references, omit superfluous trailing slashes (e.g. in <br />)

git-subtree-dir: cgilite
git-subtree-split: 01dadd76ff332d89503364a794423564f01805ea

markdown.awk

index 44d4e0d7d16aa8aaab7638da20debc775f9770c3..b5072666de89f34c4b425211b70dd7471b0d9f21 100755 (executable)
@@ -42,6 +42,8 @@
 # - [x] Automatic heading identifiers (custom)
 # - [x] Fenced code blocks (php md, pandoc)
 #   - [x] Fenced code attributes
+# - [x] Images (as block elements, <figure>-wrapped) (custom)
+#   - [x] reference style block images
 # - [/] Tables
 #   -  ?  Simple table (pandoc)
 #   -  ?  Multiline table (pandoc)
@@ -86,6 +88,20 @@ function HTML ( text ) {
   return text;
 }
 
+function URL ( text ) {
+  gsub( /&/,  "%26",  text );
+  gsub( /"/,  "%22", text );
+  gsub( /'/,  "%27", text );
+  gsub( /\?/,  "%3F", text );
+  gsub( /#/,  "%23", text );
+  gsub( /\[/,  "%5B", text );
+  gsub( /\]/,  "%5D", text );
+  gsub( / /,  "%20", text );
+  gsub( /      /,  "%09", text );
+  gsub( /\\/, "%5C", text );
+  return text;
+}
+
 function inline( line, LOCAL, len, code, href, guard ) {
   nu = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\_]|_[[:alnum:]])*"    # not underline (except when escaped)
   na = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\\\*])*"  # not asterisk (except when escaped)
@@ -103,7 +119,7 @@ function inline( line, LOCAL, len, code, href, guard ) {
 
   # hard brakes
   } else if ( match(line, /^  \n/) ) {
-    return "<br />\n" inline( substr(line, RLENGTH + 1) );
+    return "<br>\n" inline( substr(line, RLENGTH + 1) );
 
   #  ``code spans``
   } else if ( match( line, /^`+/) ) {
@@ -125,30 +141,34 @@ function inline( line, LOCAL, len, code, href, guard ) {
     href = gensub(/^\[\[([^\]\|]+)(\|([^\]]+))?\]\]/, "\\1", 1, substr(line, 1, len) );
     text = gensub(/^\[\[([^\]\|]+)(\|([^\]]+))?\]\]/, "\\3", 1, substr(line, 1, len) );
     if ( ! text ) text = href;
-    return "<a href=\"" HTML(href) "\">" HTML(text) "</a>" inline( substr( line, len + 1) );
+    return "<a href=\"" URL(href) "\">" HTML(text) "</a>" inline( substr( line, len + 1) );
 
   #  quick links ("automatic links" in md doc)
   } else if ( match( line, /^<[a-zA-Z]+:\/\/([-\.[:alnum:]]+)(:[0-9]*)?(\/[^>]*)?>/ ) ) {
     len = RLENGTH;
-    href = HTML( substr( line, 2, len - 2) );
+    href = URL( substr( line, 2, len - 2) );
     return "<a href=\"" href "\">" href "</a>" inline( substr( line, len + 1) );
 
   # quick link email
   } else if ( match( line, /^<[a-zA-Z0-9.!#$%&'\''*+\/=?^_`{|}~-]+@[a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?(\.[a-zA-Z0-9]([a-zA-Z0-9-]{0,61}[a-zA-Z0-9])?)*>/ ) ) {
     len = RLENGTH;
-    href = HTML( substr( line, 2, len - 2) );
+    href = URL( substr( line, 2, len - 2) );
     return "<a href=\"mailto:" href "\">" href "</a>" inline( substr( line, len + 1) );
 
   # inline links
-  } else if ( match(line, /^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/) ) {
+  #                                 ,_______________________Image____________________________,
+  } else if ( match(line, /^\[([^]]+|!\[[^]]+\]\([^"\)]+([ \t]+"[^"]+")?\)(\{[a-zA-Z \t-]*\})?)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/) ) {
     len = RLENGTH;
-    text  = gensub(/^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, "\\1", 1, substr(line, 1, len) );
-    href  = gensub(/^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, "\\2", 1, substr(line, 1, len) );
-    title = gensub(/^\[([^]]+)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, "\\4", 1, substr(line, 1, len) );
+    text  = gensub(/^\[([^]]+|!\[[^]]+\]\([^"\)]+([ \t]+"[^"]+")?\)(\{[a-zA-Z \t-]*\})?)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, \
+                   "\\1", 1, substr(line, 1, len) );
+    href  = gensub(/^\[([^]]+|!\[[^]]+\]\([^"\)]+([ \t]+"[^"]+")?\)(\{[a-zA-Z \t-]*\})?)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, \
+                   "\\4", 1, substr(line, 1, len) );
+    title = gensub(/^\[([^]]+|!\[[^]]+\]\([^"\)]+([ \t]+"[^"]+")?\)(\{[a-zA-Z \t-]*\})?)\]\(([^"\)]+)([[:space:]]+"([^"]+)")?\)/, \
+                   "\\6", 1, substr(line, 1, len) );
     if ( title ) {
-      return "<a href=\"" HTML(href) "\" title=\"" HTML(title) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(href) "\" title=\"" HTML(title) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
     } else {
-      return "<a href=\"" HTML(href) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(href) "\">" inline( text ) "</a>" inline( substr( line, len + 1) );
     }
 
   # reference style links
@@ -158,9 +178,9 @@ function inline( line, LOCAL, len, code, href, guard ) {
       id = gensub(/^\[([^\n]+)\] ?\[([^\n]*)\].*/, "\\2", 1, substr(line, 1, len) );
     if ( ! id ) id = text;
     if ( rl_href[id] && rl_title[id] ) {
-      return "<a href=\"" HTML(rl_href[id]) "\" title=\"" HTML(rl_title[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(rl_href[id]) "\" title=\"" HTML(rl_title[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
     } else if ( rl_href[id] ) {
-      return "<a href=\"" HTML(rl_href[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
+      return "<a href=\"" URL(rl_href[id]) "\">" inline(text) "</a>" inline( substr( line, len + 1) );
     } else {
       return "" HTML(substr(line, 1, len)) inline( substr(line, len + 1) );
     }
@@ -173,13 +193,17 @@ function inline( line, LOCAL, len, code, href, guard ) {
     title  = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?/, "\\4", "g", substr(line, 1, len) );
     attrib = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?/, "\\6", "g", substr(line, 1, len) );
     if ( title && attrib ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" class=\"" HTML(attrib) "\"/>" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" class=\"" HTML(attrib) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( title ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" title=\"" HTML(title) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( attrib ) {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\">" \
+             inline( substr( line, len + 1) );
     } else {
-      return "<img src=\"" HTML(href) "\" alt=\"" HTML(text) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\">" \
+             inline( substr( line, len + 1) );
     }
 
   # reference style images
@@ -189,9 +213,11 @@ function inline( line, LOCAL, len, code, href, guard ) {
       id = gensub(/^!\[([^\n]+)\] ?\[([^\n]*)\].*/, "\\2", 1, substr(line, 1, len) );
     if ( ! id ) id = text;
     if ( rl_href[id] && rl_title[id] ) {
-      return "<img src=\"" HTML(rl_href[id]) "\" alt=\"" HTML(text) "\" title=\"" HTML(rl_title[id]) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\" title=\"" HTML(rl_title[id]) "\">" \
+             inline( substr( line, len + 1) );
     } else if ( rl_href[id] ) {
-      return "<img src=\"" HTML(rl_href[id]) "\" alt=\"" HTML(text) "\" />" inline( substr( line, len + 1) );
+      return "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\">" \
+             inline( substr( line, len + 1) );
     } else {
       return "" HTML(substr(line, 1, len)) inline( substr(line, len + 1) );
     }
@@ -427,7 +453,7 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
     gsub(/\n[[:space:]]+/, " ", code);
     gsub(/\n\| /, "\n", code);
     gsub(/^\| |\n$/, "", code);
-    return "<div class=\"line-block\">" gensub(/\n/, "<br />\n", "g", inline( code )) "</div>\n" \
+    return "<div class=\"line-block\">" gensub(/\n/, "<br>\n", "g", inline( code )) "</div>\n" \
            _block( substr( block, len + 1) );
 
   # Indented Code Block
@@ -503,20 +529,20 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
   } else if ( match( block, /^[^\n]+\n===+(\n|$)/ ) ) {
     len = RLENGTH;
     HL[1]++; HL[2] = 0; HL[3] = 0; HL[4] = 0; HL[5] = 0; HL[6] = 0;
-    return "<h1 id=\"" HL[1] " - " HTML(gensub( /\n.*$/, "", "g", block )) "\">" \
+    return "<h1 id=\"" HL[1] ":" URL(gensub( /\n.*$/, "", "g", block )) "\">" \
            inline( gensub( /\n.*$/, "", "g", block ) ) \
-           "<a class=\"anchor\" href=\"#" HL[1] " - " \
-           HTML(gensub( /\n.*$/, "", "g", block )) "\"></a></h1>\n\n" \
+           "<a class=\"anchor\" href=\"#" HL[1] ":" \
+           URL(gensub( /\n.*$/, "", "g", block )) "\"></a></h1>\n\n" \
            _block( substr( block, len + 1 ) );
 
   # Second Order Heading
   } else if ( match( block, /^[^\n]+\n---+(\n|$)/ ) ) {
     len = RLENGTH;
     HL[2]++; HL[3] = 0; HL[4] = 0; HL[5] = 0; HL[6] = 0;
-    return "<h2 id=\"" HL[1] "." HL[2] " - " HTML(gensub( /\n.*$/, "", "g", block )) "\">" \
+    return "<h2 id=\"" HL[1] "." HL[2] ":" URL(gensub( /\n.*$/, "", "g", block )) "\">" \
            inline( gensub( /\n.*$/, "", "g", block ) ) \
-           "<a class=\"anchor\" href=\"#" HL[1] "." HL[2] " - " \
-           HTML(gensub( /\n.*$/, "", "g", block )) "\"></a></h2>\n\n" \
+           "<a class=\"anchor\" href=\"#" HL[1] "." HL[2] ":" \
+           URL(gensub( /\n.*$/, "", "g", block )) "\"></a></h2>\n\n" \
            _block( substr( block, len + 1) );
 
   # Nth Order Heading
@@ -526,10 +552,68 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
     htxt = gensub(/^#{1,6}[ \t]*(([^ \t\n]+|[ \t]+[^ \t\n#]|[ \t]+#+[^\n#])+)([ \t]*#*)(\n.*)?$/, "\\1", 1, block);
     HL[hlvl]++; for ( n = hlvl + 1; n < 7; n++) { HL[n] = 0;}
     hid = HL[1]; for ( n = 2; n <= hlvl; n++) { hid = hid "." HL[n] ; }
-    return "<h" hlvl " id=\"" hid " - " HTML(htxt) "\">" inline( htxt ) \
+    return "<h" hlvl " id=\"" hid ":" URL(htxt) "\">" inline( htxt ) \
            "<a class=\"anchor\" href=\"#" hid "\"></a></h" hlvl ">\n\n" \
            _block( substr( block, len + 1) );
 
+  # block images (wrapped in <figure>)
+  } else if ( match(block, /^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?(\n|$)/) ) {
+    len = RLENGTH;
+    text   = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?(\n.*)?$/, "\\1", "g", block);
+    href   = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?(\n.*)?$/, "\\2", "g", block);
+    title  = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?(\n.*)?$/, "\\4", "g", block);
+    attrib = gensub(/^!\[([^]]+)\]\(([^"\)]+)([ \t]+"([^"]+)")?\)(\{([a-zA-Z \t-]*)\})?(\n.*)?$/, "\\6", "g", block);
+    if ( title && attrib ) {
+      return "<figure data-src=\"" URL(href) "\" class=\"" HTML(attrib) "\">" \
+               "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\">" \
+               "<figcaption>" inline(title) "</figcaption>" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    } else if ( title ) {
+      return "<figure data-src=\"" URL(href) "\">" \
+               "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\">" \
+               "<figcaption>" inline(title) "</figcaption>" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    } else if ( attrib ) {
+      return "<figure data-src=\"" URL(href) "\" class=\"" HTML(attrib) "\">" \
+               "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\" class=\"" HTML(attrib) "\">" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    } else {
+      return "<figure data-src=\"" URL(href) "\">" \
+               "<img src=\"" URL(href) "\" alt=\"" HTML(text) "\">" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    }
+
+  # reference style images (block)
+  } else if ( match(line, /^!\[([^]]+)\] ?\[([^]]*)\](\n|$)/ ) ) {
+    len = RLENGTH;
+    text = gensub(/^!\[([^\n]+)\] ?\[([^\n]*)\](\n.*)?$/, "\\1", 1, block);
+      id = gensub(/^!\[([^\n]+)\] ?\[([^\n]*)\](\n.*)?$/, "\\2", 1, block);
+    if ( ! id ) id = text;
+    if ( rl_href[id] && rl_title[id] ) {
+      return "<figure data-src=\"" URL(rl_href[id]) "\">" \
+               "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\">" \
+               "<figcaption>" inline(rl_title[id]) "</figcaption>" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    } else if ( rl_href[id] ) {
+      return "<figure data-src=\"" URL(rl_href[id]) "\">" \
+               "<img src=\"" URL(rl_href[id]) "\" alt=\"" HTML(text) "\">" \
+             "</figure>\n\n" \
+             _block( substr( block, len + 1) );
+    } else {
+      return "<p>" HTML(substr(block, 1, len)) "</p>\n" _block( substr(block, len + 1) );
+    }
+
+  # Macros (standalone <<macro>> calls handled as block, so they are not wrapped in paragraph)
+  } else if ( AllowMacros && match( block, /^<<(([^>]|>[^>])+)>>(\n|$)/) ) {
+    len = RLENGTH;
+    text = gensub(/^<<(([^>]|>[^>])+)>>(\n.*)?$/, "\\1", 1, block);
+    return macro(text) _block(substr(block, len + 1));
+
   # Split paragraphs
   } else if ( match( block, /(^|\n)[[:space:]]*(\n|$)/) ) {
     len = RLENGTH; st = RSTART;
@@ -539,7 +623,7 @@ function _block( block, LOCAL, st, len, hlvl, htxt, guard, code, indent, attrib
   # Horizontal rule
   } else if ( match( block, /(^|\n) ? ? ?((\* *){3,}|(- *){3,}|(_ *){3,})($|\n)/) ) {
     len = RLENGTH; st = RSTART;
-    return _block(substr(block, 1, st - 1)) "<hr />\n" _block(substr(block, st + len));
+    return _block(substr(block, 1, st - 1)) "<hr>\n" _block(substr(block, st + len));
 
   # Plain paragraph
   } else {
@@ -572,25 +656,25 @@ function _list( block, last, LOCAL, p) {
   sub( /\n$/, "", p );
 
   # Task List (pandoc, custom)
-         if ( p ~ /^\[ \].*/ )       { return "<li class=\"task pending\"><input type=checkbox disabled />" \
+         if ( p ~ /^\[ \].*/ )       { return "<li class=\"task pending\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[-\].*/ )       { return "<li class=\"task negative\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[-\].*/ )       { return "<li class=\"task negative\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[\?\].*/ )      { return "<li class=\"task unsure\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[\?\].*/ )      { return "<li class=\"task unsure\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[\/\].*/ )      { return "<li class=\"task partial\"><input type=checkbox disabled />" \
+  } else if ( p ~ /^\[\/\].*/ )      { return "<li class=\"task partial\"><input type=checkbox disabled>" \
                                               substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^\[[xX]\].*/ )    { return "<li class=\"task done\"><input type=checkbox disabled checked />" \
+  } else if ( p ~ /^\[[xX]\].*/ )    { return "<li class=\"task done\"><input type=checkbox disabled checked>" \
                                             substr(p, 4) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[ \].*/ )    { return "<li class=\"task pending\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[ \].*/ )    { return "<li class=\"task pending\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[-\].*/ )    { return "<li class=\"task negative\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[-\].*/ )    { return "<li class=\"task negative\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[\?\].*/ )   { return "<li class=\"task unsure\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[\?\].*/ )   { return "<li class=\"task unsure\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[\/\].*/ )   { return "<li class=\"task partial\"><p><input type=checkbox disabled />" \
+  } else if ( p ~ /^<p>\[\/\].*/ )   { return "<li class=\"task partial\"><p><input type=checkbox disabled>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
-  } else if ( p ~ /^<p>\[[xX]\].*/ ) { return "<li class=\"task done\"><p><input type=checkbox disabled checked />" \
+  } else if ( p ~ /^<p>\[[xX]\].*/ ) { return "<li class=\"task done\"><p><input type=checkbox disabled checked>" \
                                               substr(p, 7) "</li>\n" _list( block, last );
   } else { return "<li>" p "</li>\n" _list( block, last ); }
 }