]> git.plutz.net Git - cgilite/commitdiff
md: allow hard line breaks; md extension: ignore embedded underscores
authorPaul Hänsch <paul@plutz.net>
Thu, 1 Jul 2021 14:54:12 +0000 (16:54 +0200)
committerPaul Hänsch <paul@plutz.net>
Thu, 1 Jul 2021 14:54:12 +0000 (16:54 +0200)
markdown.awk

index c4e1a72e3e023102f5a60a9ec8046065315114cc..a5c2eb1f587d79f203df3858819d33da565236bf 100755 (executable)
 
 # Supported Features / TODO:
 # ==========================
 
 # Supported Features / TODO:
 # ==========================
-# [x] done    [ ] todo    [-] not planned    [?] unsure
+# [x] done    [ ] todo    [-] not planned    ? unsure
 #
 # Basic Markdown - Block elements:
 # -------------------------------
 # - [x] Paragraphs
 #
 # Basic Markdown - Block elements:
 # -------------------------------
 # - [x] Paragraphs
-#   - [ ] Double space line breaks
+#   - [x] Double space line breaks
 # - [x] Proper block element nesting
 # - [x] Headings
 # - [x] ATX-Style Headings
 # - [x] Proper block element nesting
 # - [x] Headings
 # - [x] ATX-Style Headings
 #
 # Extensions - Block elements:
 # ----------------------------
 #
 # Extensions - Block elements:
 # ----------------------------
-# - [?] Heading identifiers (phpmarkdown, pandoc)
-# - [x] Fenced code blocks (phpmarkdown, pandoc)
+# -  ?  Heading identifiers (php md, pandoc)
+# - [x] Fenced code blocks (php md, pandoc)
 #   - [-] Fenced code attributes
 # - [ ] Tables
 #   - [-] Fenced code attributes
 # - [ ] Tables
-#   - [?] Simple table (pandoc)
-#   - [?] Multiline table (pandoc)
-#   - [?] Grid table (pandoc)
-#   - [?] Pipe table (phpmarkdown, pandoc)
+#   -  ?  Simple table (pandoc)
+#   -  ?  Multiline table (pandoc)
+#   -  ?  Grid table (pandoc)
+#   -  ?  Pipe table (php md pandoc)
 # - [x] Line blocks (pandoc)
 # - [ ] Task lists (pandoc)
 # - [x] Line blocks (pandoc)
 # - [ ] Task lists (pandoc)
-# - [ ] Definition lists (phpmarkdown, pandoc)
+# - [ ] Definition lists (php md, pandoc)
 # - [-] Numbered example lists (pandoc)
 # - [-] Metadata blocks (pandoc)
 # - [-] Fenced Divs (pandoc)
 #
 # Extensions - Inline elements:
 # ----------------------------
 # - [-] Numbered example lists (pandoc)
 # - [-] Metadata blocks (pandoc)
 # - [-] Fenced Divs (pandoc)
 #
 # Extensions - Inline elements:
 # ----------------------------
-# - [ ] Ignore embedded_underscores (phpmarkdown, pandoc)
+# - [x] Ignore embedded_underscores (php md, pandoc)
 # - [x] ~~strikeout~~ (pandoc)
 # - [x] ^Superscript^ ~Subscript~ (pandoc)
 # - [-] Bracketed spans (pandoc)
 #   - [-] Inline attributes (pandoc)
 # - [-] TEX-Math (pandoc)
 # - [x] ~~strikeout~~ (pandoc)
 # - [x] ^Superscript^ ~Subscript~ (pandoc)
 # - [-] Bracketed spans (pandoc)
 #   - [-] Inline attributes (pandoc)
 # - [-] TEX-Math (pandoc)
-# - [?] Footnotes (phpmarkdown)
-# - [?] Abbreviations (phpmarkdown)
-# - [?] "Curly quotes" (smartypants)
+# -  ?  Footnotes (php md)
+# -  ?  Abbreviations (php md)
+# -  ?  "Curly quotes" (smartypants)
 # - [ ] em-dashes (--) (smartypants old)
 # - [ ] em-dashes (--) (smartypants old)
-# - [?] ... three-dot ellipsis (smartypants)
+# -  ?  ... three-dot ellipsis (smartypants)
 # - [-] en-dash (smartypants)
 # - [ ] Automatic em-dash / en-dash
 # - [ ] Automatic -> Arrows <-
 # - [-] en-dash (smartypants)
 # - [ ] Automatic em-dash / en-dash
 # - [ ] Automatic -> Arrows <-
@@ -82,7 +82,7 @@ function HTML ( text ) {
 }
 
 function inline( line, LOCAL, len, code, href, guard ) {
 }
 
 function inline( line, LOCAL, len, code, href, guard ) {
-  nu = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\_])*"    # not underline (except when escaped)
+  nu = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\_]|_[[:alnum:]])*"    # not underline (except when escaped)
   na = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\\\*])*"  # not asterisk (except when escaped)
   ieu =  "_([^_[:space:]]|[^_[:space:]]" nu "[^_[:space:]])_"                 # inner <em> (underline)
   isu = "__([^_[:space:]]|[^_[:space:]]" nu "[^_[:space:]])__"                # inner <strong> (underline)
   na = "(\\\\\\\\|\\\\[^\\\\]|[^\\\\\\*])*"  # not asterisk (except when escaped)
   ieu =  "_([^_[:space:]]|[^_[:space:]]" nu "[^_[:space:]])_"                 # inner <em> (underline)
   isu = "__([^_[:space:]]|[^_[:space:]]" nu "[^_[:space:]])__"                # inner <strong> (underline)
@@ -96,6 +96,10 @@ function inline( line, LOCAL, len, code, href, guard ) {
   } else if ( line ~ /^\\[]\\`\*_\{\}\(\)#\+-\.![]/) {
     return substr(line, 2, 1) inline( substr(line, 3) );
 
   } else if ( line ~ /^\\[]\\`\*_\{\}\(\)#\+-\.![]/) {
     return substr(line, 2, 1) inline( substr(line, 3) );
 
+  # hard brakes
+  } else if ( match(line, /^  \n/) ) {
+    return "<br />\n" inline( substr(line, RLENGTH + 1) );
+
   #  ``code spans``
   } else if ( match( line, /^`+/) ) {
     len = RLENGTH
   #  ``code spans``
   } else if ( match( line, /^`+/) ) {
     len = RLENGTH
@@ -157,21 +161,35 @@ function inline( line, LOCAL, len, code, href, guard ) {
     len = RLENGTH;
     return "<sub>" inline( substr( line, 2, len - 2 ) ) "</sub>" inline( substr( line, len + 1 ) );
 
     len = RLENGTH;
     return "<sub>" inline( substr( line, 2, len - 2 ) ) "</sub>" inline( substr( line, len + 1 ) );
 
-  #  __strong__
-  } else if ( match(line, "^__(([^_[:space:]]|" ieu ")|([^_[:space:]]|" ieu ")(" nu "|" ieu ")*([^_[:space:]]|" ieu "))__") ) {
+  # ignore embedded underscores (pandoc, php md)
+  } else if ( match(line, "^[[:alnum:]](__|_)") ) {
+    return substr( line, 1, RLENGTH) inline( substr(line, RLENGTH + 1) );
+
+  #  __strong__$
+  } else if ( match(line, "^__(([^_[:space:]]|" ieu ")|([^_[:space:]]|" ieu ")(" nu "|" ieu ")*([^_[:space:]]|" ieu "))__$") ) {
     len = RLENGTH;
     return "<strong>" inline( substr( line, 3, len - 4 ) ) "</strong>" inline( substr( line, len + 1 ) );
 
     len = RLENGTH;
     return "<strong>" inline( substr( line, 3, len - 4 ) ) "</strong>" inline( substr( line, len + 1 ) );
 
+  #  __strong__
+  } else if ( match(line, "^__(([^_[:space:]]|" ieu ")|([^_[:space:]]|" ieu ")(" nu "|" ieu ")*([^_[:space:]]|" ieu "))__[[:space:]]") ) {
+    len = RLENGTH;
+    return "<strong>" inline( substr( line, 3, len - 5 ) ) "</strong>" inline( substr( line, len) );
+
   #  **strong**
   } else if ( match(line, "^\\*\\*(([^\\*[:space:]]|" iea ")|([^\\*[:space:]]|" iea ")(" na "|" iea ")*([^\\*[:space:]]|" iea "))\\*\\*") ) {
     len = RLENGTH;
     return "<strong>" inline( substr( line, 3, len - 4 ) ) "</strong>" inline( substr( line, len + 1 ) );
 
   #  **strong**
   } else if ( match(line, "^\\*\\*(([^\\*[:space:]]|" iea ")|([^\\*[:space:]]|" iea ")(" na "|" iea ")*([^\\*[:space:]]|" iea "))\\*\\*") ) {
     len = RLENGTH;
     return "<strong>" inline( substr( line, 3, len - 4 ) ) "</strong>" inline( substr( line, len + 1 ) );
 
-  #  _em_
-  } else if ( match(line, "^_(([^_[:space:]]|" isu ")|([^_[:space:]]|" isu ")(" nu "|" isu ")*([^_[:space:]]|" isu "))_") ) {
+  #  _em_$
+  } else if ( match(line, "^_(([^_[:space:]]|" isu ")|([^_[:space:]]|" isu ")(" nu "|" isu ")*([^_[:space:]]|" isu "))_$") ) {
     len = RLENGTH;
     return "<em>" inline( substr( line, 2, len - 2 ) ) "</em>" inline( substr( line, len + 1 ) );
 
     len = RLENGTH;
     return "<em>" inline( substr( line, 2, len - 2 ) ) "</em>" inline( substr( line, len + 1 ) );
 
+  #  _em_
+  } else if ( match(line, "^_(([^_[:space:]]|" isu ")|([^_[:space:]]|" isu ")(" nu "|" isu ")*([^_[:space:]]|" isu "))_[[:space:]]") ) {
+    len = RLENGTH;
+    return "<em>" inline( substr( line, 2, len - 3 ) ) "</em>" inline( substr( line, len ) );
+
   #  *em*
   } else if ( match(line, "^\\*(([^\\*[:space:]]|" isa ")|([^\\*[:space:]]|" isa ")(" na "|" isa ")*([^\\*[:space:]]|" isa "))\\*") ) {
     len = RLENGTH;
   #  *em*
   } else if ( match(line, "^\\*(([^\\*[:space:]]|" isa ")|([^\\*[:space:]]|" isa ")(" na "|" isa ")*([^\\*[:space:]]|" isa "))\\*") ) {
     len = RLENGTH;