ENS Name Normalization

raffy · September 12, 2022, 8:02am

Thanks @Theth.eth. Agreed, a bunch of that punctuation block should be disallowed.

General Punctuation

Disallowed

Summary

2000 ( ) EN QUAD
2001 ( ) EM QUAD
2002 ( ) EN SPACE
2003 ( ) EM SPACE
2004 ( ) THREE-PER-EM SPACE
2005 ( ) FOUR-PER-EM SPACE
2006 ( ) SIX-PER-EM SPACE
2007 ( ) FIGURE SPACE
2008 ( ) PUNCTUATION SPACE
2009 ( ) THIN SPACE
200A ( ) HAIR SPACE
200C (‌) ZERO WIDTH NON-JOINER
200D (‍) ZERO WIDTH JOINER
200E (‎) LEFT-TO-RIGHT MARK
200F (‏) RIGHT-TO-LEFT MARK
2017 (‗) DOUBLE LOW LINE
2024 (․) ONE DOT LEADER
2025 (‥) TWO DOT LEADER
2026 (…) HORIZONTAL ELLIPSIS
2028 ( ) LINE SEPARATOR
2029 ( ) PARAGRAPH SEPARATOR
202A (<U+202A>) LEFT-TO-RIGHT EMBEDDING
202B (<U+202B>) RIGHT-TO-LEFT EMBEDDING
202C (<U+202C>) POP DIRECTIONAL FORMATTING
202D (<U+202D>) LEFT-TO-RIGHT OVERRIDE
202E (?) RIGHT-TO-LEFT OVERRIDE
202F ( ) NARROW NO-BREAK SPACE
203C (‼) DOUBLE EXCLAMATION MARK
203E (‾) OVERLINE
2047 (⁇) DOUBLE QUESTION MARK
2048 (⁈) QUESTION EXCLAMATION MARK
2049 (⁉) EXCLAMATION QUESTION MARK
205F ( ) MEDIUM MATHEMATICAL SPACE
2061 (⁡) FUNCTION APPLICATION
2062 (⁢) INVISIBLE TIMES
2063 (⁣) INVISIBLE SEPARATOR
2065 (⁥) undefined
2066 (<U+2066>) LEFT-TO-RIGHT ISOLATE
2067 (<U+2067>) RIGHT-TO-LEFT ISOLATE
2068 (<U+2068>) FIRST STRONG ISOLATE
2069 (<U+2069>) POP DIRECTIONAL ISOLATE
206A (⁪) INHIBIT SYMMETRIC SWAPPING
206B (⁫) ACTIVATE SYMMETRIC SWAPPING
206C (⁬) INHIBIT ARABIC FORM SHAPING
206D (⁭) ACTIVATE ARABIC FORM SHAPING
206E (⁮) NATIONAL DIGIT SHAPES
206F (⁯) NOMINAL DIGIT SHAPES

Ignored

200B () ZERO WIDTH SPACE
2060 (⁠) WORD JOINER
2064 (⁤) INVISIBLE PLUS

Mapped

2010 (‐) HYPHEN → 2D (-) HYPHEN-MINUS
2011 (‑) NON-BREAKING HYPHEN → 2D (-) HYPHEN-MINUS
2012 (‒) FIGURE DASH → 2D (-) HYPHEN-MINUS
2013 (–) EN DASH → 2D (-) HYPHEN-MINUS
2014 (—) EM DASH → 2D (-) HYPHEN-MINUS
2015 (―) HORIZONTAL BAR → 2D (-) HYPHEN-MINUS
2033 (″) DOUBLE PRIME → [2032 2032]
2034 (‴) TRIPLE PRIME → [2032 2032 2032]
2036 (‶) REVERSED DOUBLE PRIME → [2035 2035]
2037 (‷) REVERSED TRIPLE PRIME → [2035 2035 2035]
2057 (⁗) QUADRUPLE PRIME → [2032 2032 2032 2032]

Valid

2016 (‖) DOUBLE VERTICAL LINE
2018 (‘) LEFT SINGLE QUOTATION MARK
2019 (’) RIGHT SINGLE QUOTATION MARK
201A (‚) SINGLE LOW-9 QUOTATION MARK
201B (‛) SINGLE HIGH-REVERSED-9 QUOTATION MARK
201C (“) LEFT DOUBLE QUOTATION MARK
201D (”) RIGHT DOUBLE QUOTATION MARK
201E („) DOUBLE LOW-9 QUOTATION MARK
201F (‟) DOUBLE HIGH-REVERSED-9 QUOTATION MARK
2020 (†) DAGGER
2021 (‡) DOUBLE DAGGER
2022 (•) BULLET
2023 (‣) TRIANGULAR BULLET
2027 (‧) HYPHENATION POINT
2030 (‰) PER MILLE SIGN
2031 (‱) PER TEN THOUSAND SIGN
2032 (′) PRIME
2035 (‵) REVERSED PRIME
2038 (‸) CARET
2039 (‹) SINGLE LEFT-POINTING ANGLE QUOTATION MARK
203A (›) SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
203B (※) REFERENCE MARK
203D (‽) INTERROBANG
203F (‿) UNDERTIE
2040 (⁀) CHARACTER TIE
2041 (⁁) CARET INSERTION POINT
2042 (⁂) ASTERISM
2043 (⁃) HYPHEN BULLET → 2D (-) HYPHEN-MINUS
2044 (⁄) FRACTION SLASH
2045 (⁅) LEFT SQUARE BRACKET WITH QUILL
2046 (⁆) RIGHT SQUARE BRACKET WITH QUILL
204A (⁊) TIRONIAN SIGN ET
204B (⁋) REVERSED PILCROW SIGN
204C (⁌) BLACK LEFTWARDS BULLET
204D (⁍) BLACK RIGHTWARDS BULLET
204E (⁎) LOW ASTERISK
204F (⁏) REVERSED SEMICOLON
2050 (⁐) CLOSE UP
2051 (⁑) TWO ASTERISKS ALIGNED VERTICALLY
2052 (⁒) COMMERCIAL MINUS SIGN
2053 (⁓) SWUNG DASH
2054 (⁔) INVERTED UNDERTIE
2055 (⁕) FLOWER PUNCTUATION MARK
2056 (⁖) THREE DOT PUNCTUATION
2058 (⁘) FOUR DOT PUNCTUATION
2059 (⁙) FIVE DOT PUNCTUATION
205A (⁚) TWO DOT PUNCTUATION
205B (⁛) FOUR DOT MARK
205C (⁜) DOTTED CROSS
205D (⁝) TRICOLON
205E (⁞) VERTICAL FOUR DOTS

For mapped, I think we should disallow what I bolded.
~~For valid, I’m not sure. ⁂⁜※ seem cool, I’m not sure about •, disallow the rest?~~
Edit: for valid, I think we should disallow what I bolded (and map the hyphen-bullet.)

Frequencies: JSON

Edit: If we disallow ‿ and ⁔ we lose a lot of faces like ◕‿◕.