用戶:ItMarki/關於Unicode編碼
“ | Everyone in the world should be able to use their own language on phones and computers. | ” |
——The purpose of Unicode |
簡單介紹
很多人初次聽到這個詞彙,發懵,會發出「啊?Unicode這是什麼啊?」的疑問,事實上不少IT人士對這個詞彙也不是特別的熟悉。
Unicode名稱也可以叫萬國碼,是一套編碼系統,為了解決傳統的字符編碼方案所產生的局限性而推出的,為了滿足跨語言,跨國的需求,Unicode的宗旨是:世間諸語,皆可電算處理。
但如果你看到這裏還是不明白,那麼你就看它的中文名,「萬國」,這總明白吧?Unicode說白了就是任何的字符全部都支持!也就是說,我們現在所輸入,在電腦上所使用的任何一個字符,全都是Unicode里的!我們中國,尤其是瀏覽器使用的語言一般的是GBK或者是Big-5的編碼,但個別的瀏覽器使用Big-5編碼有可能瀏覽網頁時出現亂碼的情況,所以各位如果在貼吧,BBS等地方看到有人輸入字符的時候是一堆亂碼,切勿噴,它的電腦就有可能使用的是Big-5的編碼,使之和大部分用戶的不兼容而出現了這種情況,理解萬歲。
其實有一個和Unicode相聯繫的一個傢伙,叫ASCII,它全稱叫美國信息交換標準代碼,ASCII是基於拉丁字母,西歐字母的基礎上的一套編碼程序,除此之外還有一些半角標點符號,控制字符等等,但是控制字符現在在一般人是不常用的所以不作過多的介紹了。ASCII現在在Unicode的區域是0000~007F。
但後期發現使用ASCII出現了諸多問題,一些其他國家的語言文字,特殊符號等等都無法進行正常的顯示,因為ASCII只是針對的是美國的編碼系統。例如英國的英鎊符號(£),一些拉丁語字母表重音符號,帶鄂化音的字符,使用斯拉夫字母表的希臘語、希伯來語、阿拉伯語和俄語,帶有漢字系統的中國漢字,日語和朝鮮語等等。顯然這並不能保證一致性,但這卻顯示了人們如何想盡辦法為不同的語言來編碼的。於是便有了Unicode這個傢伙,也可以說ASCII是Unicode的前身,因為ASCII和Unicode都是由兩位美國人發明的。
現在Unicode編碼的字符已經擴充到了上萬個字符,涉及到了各個領域,從現在的阿爾泰語系的語言,到中古時期的象形文字,楔形文字;從現在的各種數學符號,到各種各樣的雜項工業符號,上至語言文學,下至各種各樣的雜項符號,可以說Unicode現在已經遍及各個地區,我們生活的每一個地方都充斥着Unicode的影子。
但是啊,因為Unicode的字符眾多,有時候你要去找一個字符會非常麻煩,於是現在的Unicode被分成了很多的範圍,來表示這一範圍內的字符是涉及什麼的。
該編碼表里的內容可能不是最新,一切請按照最新版本的編碼表作為標準。
目前的Unicode編碼所涉及的範圍概覽(文字類) |
---|
European Scripts 歐洲文字類
Armenian 亞美尼亞語
Carian 卡里安語 Caucasian Albanian 高加索阿爾巴尼亞語 Cypriot Syllabary 塞浦路斯音節文字 Cyrillic 西里爾語
Elbasan 愛爾巴桑語 Georgian 格魯吉亞語
Glagolitic 格拉哥里語
Gothic 哥特語 Greek 希臘語
Latin 拉丁字母
Linear A A類線形文字 Linear B B類線形文字
Lycian 利西亞語 Lydian 呂底亞語 Ogham 歐甘語 Old Hungarian 古匈牙利語 Old Italic 古意大利語 Old Permic 老彼爾姆文 Phaistos Disc 斐斯托斯圓盤 Runic 盧恩符文 Shavian 蕭伯納字母 Modifier Letters 修飾符號 Modifier Tone Letters 修飾語音符號 Spacing Modifier Letters 間距修改符號 Superscripts and Subscripts 上下標 Combining Marks 組合符號 Combining Diacritical Marks 結合變音符號
Combining Diacritical Marks for Symbols 標識性結合變音符號 Combining Half Marks 結合半符號 African Scripts 非洲文字類 Adlam 阿德拉姆語 Bamum 巴姆穆語
Bassa Vah 巴薩瓦赫(巴薩華)語 Coptic 哥普特語
Egyptian Hieroglyphs 古埃及象形文字
Ethiopic 埃塞俄比亞語
Medefaidrin 梅德法伊德林文 Mende Kikakui 門地奇卡奎文 Meroitic 梅洛伊語
N'Ko 西非書面語言 Osmanya 奧斯曼亞語 Tifinagh 提非納語 Vai 瓦伊語 Middle Eastern Scripts 中東文字類 Anatolian Hieroglyphs 安納托利亞象形文字 Arabic 阿拉伯語
Aramaic, Imperial 皇室亞拉姆語 Avestan 阿維斯陀語 Chorasmian 花剌子模文字 Cuneiform 楔形文字(1MB)
Elymaic 埃利邁字母 Hatran 哈特蘭文 Hebrew 希伯來語
Mandaic 曼達語 Nabataean 納巴泰語 Old North Arabian 古北阿拉伯語 Old South Arabian 古南阿拉伯語 Pahlavi, Inscriptional 巴拉維銘文 Pahlavi, Psalter 巴拉維詩篇 Palmyrene 帕爾邁拉文 Parthian, Inscriptional 帕提亞碑銘體 Phoenician 腓尼基語 Samaritan 撒瑪利亞語 Syriac 敘利亞語
Yezidi 雅茲迪文字 Central Asian Scripts 中亞文字類 Manichaean 摩尼語 Marchen 象雄語 Mongolian 蒙古語
Old Sogdian 老粟特語 Old Turkic 古突厥語 Phags-Pa 八思巴文 Sogdian 粟特語 Soyombo 索永布蒙古文 Tibetan 藏語 Zanabazar Square 札那巴札爾方形字母 South Asian Scripts 南亞文字類 Ahom 阿霍姆語 Bengali and Assamese 孟加拉語和阿薩姆語 Bhaiksuki 拜克舒基文 Brahmi 婆羅米語 Chakma 恰克瑪語 Devanagari 天城文
Dives Akuru 迪維希阿庫魯文字 Dogra 多格拉語 Grantha 古蘭塔語 Gujarati 古吉拉特語 Gunjala Gondi 古吉拉共地文字 Gurmukhi 果魯穆奇語 Kaithi 凱提文 Kannada 卡納達語 Kharoshthi Khojki 可吉語
Lepcha 雷布查語 Limbu 林布文 Mahajani 馬哈佳尼文 Malayalam 馬拉亞拉姆語 Masaram Gondi 馬薩拉姆共地文字 Meetei Mayek 曼尼普爾文
Modi 莫季語 Mro 默文 Multani 馬洛語 Nandinagari 南迪城文 Newa 尼泊爾紐瓦字母 Ol Chiki 桑塔利語 Oriya (Odia) 奧里亞語(奧迪亞語) Saurashtra 索拉什特拉語 Sharada 沙拉達普拉語 Siddham 悉曇語 Sinhala 僧伽羅語
Sora Sompeng 索拉桑蓬文 Syloti Nagri 塞洛提納格瑞文 Takri 塔卡里文 Tamil 泰米爾語 Telugu 泰盧固語 Thaana 它拿語 Tirhuta 提爾胡塔文 Vedic Extensions 吠陀梵文擴展 Wancho 文喬文 Warang Citi 瓦蘭齊地文 Southeast Asian Scripts 東南亞文字類
Hanifi Rohingya 哈乃斐羅興亞文字 Kayah Li 克耶黎文 Khmer 高棉語
Lao 老撾語 Myanmar 緬甸語
New Tai Lue 新傣仂文 Nyiakeng Puachue Hmong 創世紀苗文 Pahawh Hmong 帕哈苗文 Pau Cin Hau 袍清豪文 Tai Le 德宏傣文 Tai Tham 老傣文 Tai Viet 越南傣文 Thai 泰語 Indonesia & Oceania Scripts 印度尼西亞和大洋洲文字類 Balinese 峇里文 Batak 巴塔克文 Buginese 布吉斯文 Buhid 布迪文 Hanunoo 哈努諾文 Javanese 爪哇語 Makasar 瑪卡莎文 Rejang 勒姜(拉讓)語 Sundanese
Tagalog 他加祿語 Tagbanwa 塔格巴努亞文 East Asian Scripts 東亞文字類 Bopomofo 注音符號
CJK Unified Ideographs (Han) 中日韓統一表意文字(漢字)
CJK Compatibility Ideographs 中日韓兼容表意文字
CJK Radicals / KangXi Radicals 中日韓部首/康熙部首
Hangul Jamo 諺文字母
Hangul Syllables 諺文音節 Hiragana 平假名 Kana Extended-A 假名擴展A Kana Supplement 假名補充 Small Kana Extension 小型假名擴展 Kanbun 象形字註釋標誌 Katakana 片假名
Khitan Small Script 契丹小字 Lisu 傈僳語
Miao 柏格里苗文 Nushu 女書 Tangut 唐古特(西夏)文
Yi 彝語
American Scripts 美洲文字類 Cherokee 切羅基語
Deseret 德澤雷特語 Osage 奧色治語 Unified Canadian Aboriginal Syllabics 統一加拿大原住民音節文字
Other 其他類
|
目前的Unicode編碼所涉及的範圍概覽(符號和標點類) |
---|
Notational Systems 符號系統 Braille Patterns 盲文點陣 Musical Symbols 音樂符號
Duployan 杜普雷嚴速記
Sutton SignWriting 薩頓書寫符號 Punctuation 標點符號 General Punctuation 一般標點符號
CJK Symbols and Punctuation 中日韓符號和標點
CJK Compatibility Forms 中日韓兼容形式
Alphanumeric Symbols 字母數字類符號 Letterlike Symbols 字母符號
Mathematical Alphanumeric Symbols 數學用字母數字符號 Arabic Mathematical Alphabetic Symbols 阿拉伯語數學用字母符號 Enclosed Alphanumerics 封閉式字母數字
Enclosed CJK Letters and Months 封閉式中日韓字母和月份
CJK Compatibility 中日韓兼容形式
Technical Symbols 技術性符號
Numbers & Digits 數字類
ASCII Digits ASCII數字
Common Indic Number Forms 常用印第安數字 Coptic Epact Numbers 科普特數字 Counting Rod Numerals 算籌記數式 Cuneiform Numbers and Punctuation 楔形文字數字和標點符號 Indic Siyaq Numbers 印度西亞克數字 Mayan Numerals 瑪雅數字 Number Forms 數字形式 Ottoman Siyaq Numbers 奧斯曼西亞克數字 Rumi Numeral Symbols 魯米數字符號 Sinhala Archaic Numbers 僧伽羅語古數字 Super and Subscripts 上標和下標 Mathematical Symbols 數學符號 Arrows 箭頭
Mathematical Alphanumeric Symbols 數學字母數字符號
Mathematical Operators 數學運算符
Geometric Shapes 幾何圖形
Emoji & Pictographs 表情符號和象形文字 Dingbats 裝飾符號(丁貝符)
Emoticons 表情符號 Miscellaneous Symbols 雜項符號 Miscellaneous Symbols And Pictographs 雜項符號和象形文字 Supplemental Symbols and Pictographs 追加符號和象形文字 Symbols and Pictographs Extended-A 符號和象形文字擴展A Transport and Map Symbols 運輸和地圖符號 Other Symbols 其他符號 Alchemical Symbols 鍊金術符號 Ancient Symbols 古代符號 Currency Symbols 貨幣符號
Game Symbols 遊戲符號
Miscellaneous Symbols and Arrows 雜項符號和箭頭 Symbols for Legacy Computing 傳統計算符號 Yijing Symbols 易經六十四卦符號
Specials 特殊
Specials 特殊 Tags 標籤符號 Variation Selectors 異體字選擇符
Private Use 私用
Surrogates 代理字
Noncharacters in Charts 表格中的非字符 Noncharacters in blocks 區塊中的非字符
Noncharacters at end of ... 非字符的結尾在……
|
於是,這就涉及到了一些所謂的「黑科技」,你可以在Unicode里找到相應的字符,進行各種組合,來做到一般人做不到的效果。
「黑科技」
根式
看此根式:∜1̅8̅,其中18上的兩橫線是U+0305的編碼,四次根符號的位置則是在U+221C。
或者是三次根,二次根也可以做到這種效果,二次根的根號事實上就是使用對勾代替,比如√9̅=3,∛1̅7̅=2.5712815906582353554531872087397...
在一些條件允許的網頁當中(比如說以維基百科為藍本的網頁),你可以使用以下的代碼,效果會好很多。亦或者直接使用Template:MathJax。這個模板幾乎就是天衣無縫的。
√<span style="border-top:1px solid #000;">18</span>
範例一:∜18=2.059767143907117755830277255201...,√9=3,∛17=2.5712815906582353554531872087397...
該模板我並沒有放入User:FITZGERALD/萌娘百科常用代碼一覽當中,因為我覺得對於我來說這個模板未來的使用可能性並不高,而且這個模板較難上手。
「DIY分數」
先輸入一個數字,之後輸入分數線,然後再輸入一個數字。咱們搞一個複雜一點的分數,比如100⁄9。
注意:
- 在大部分的字體當中看到的是「100/9」這樣子,也屬於正常情況,大部分的地方都會顯示成「100/9」這樣。但在Noto字體中,上下的數字會全部變小,就好像真正的書寫分數一樣。
- 有且只有連貫數字才會變小,而且如果沒有非數字字符的話會一直這樣連貫下去,直到有非數字字符為止。e.g.:b⁄a,10b99⁄9a9a9,0123456789⁄9876543210。
除了Unicode編碼當中現成的一些分數,「⅐⅑⅒⅓⅔⅕⅖⅗⅘⅙⅚⅛⅜⅝⅞↉⅟這啥?◯分之一?」之外,現在有了分數線「⁄」(U+2044),我們便可以自己「DIY分數」了!
常見數學符號
高中數學必修1里講述的集合常用的符號,比如說「∈」為屬於,「∉」為不屬於,「∅」為空集,「∁」為補集這和課本上顯示的不太一樣啊,「∩」為交集,倒過來就是併集「∪」了唄,「⫋」為某是某的真子集,或者是積分「∫」,二重積分「∬」,三重積分「∭」,圍道積分「∮」,啊等等……這裏就不過多舉例了。
數學「圓○」這一章節,其中若表示兩點之間的圓弧可以用弧AB表示,寫作A͡B,這個弧則是U+0361的字符。
使用例:
有許多人想知道我學習,玩遊戲等等的效率是多少,這裏我分成兩種情況討論:
當我學習時,𝜂我受外界溫度𝑡影響,假定𝑡為橫坐標,𝜂我為縱坐標,那麼:
- 當𝑡⩽19時,𝑡值越小,𝜂我值也越小,因此在這一範圍內𝜂我和𝑡成正比。函數圖像近似等於𝑦=0.18𝑥+56 (-300<𝑥<19)
- 但當𝑡>19時,𝑡值變大𝜂我值反而變小,此時𝜂我與𝑡成反比,此時函數圖像近似等於𝑦=$1140 \over x$ (19<𝑥<273.15)
當𝑡>273.15或𝑡<-273.15時,𝜂我=0。
因此若以現在的標準計算,𝜂我≈66.67%
當我玩遊戲時,一般情況下100%>𝜂我⩾90%,此時的𝜂我不受任何外界因素的影響,只受內因的影響,偶爾會出現90%>𝜂我>85%的情況,但出現這種情況大部分時間是我處在感冒狀態。
音樂簡譜
1,2,3,4,5,6,7對應的是do,re,mi,fa,sol,la,si,高音則需要上面加一點,比如高音的do用簡譜表示成「1̇」。
再就是對於四分之一音和八分之一音的表示: ͟5͟6 6͇5͇3 ͟0͟3|5,一橫線的是U+035F,而雙橫線的則是U+0333。(你若是想把四分之一音說成是下劃線也可以。)
化學方程式
化學一定要涉及到化學方程式,那麼在涉及到的這些化學方程式里,有的一些會在等號上面註明反應條件,其中加熱的條件,可以直接在中間的等號上方畫上一個三角形(△),但化學方程式里的三角形和等號是一個在上,一個在下,這可如何是好?咱們先以NaHCO₃受熱分解的化學方程式為例:2NaHCO₃≜Na₂CO₃+H₂O+CO₂↑
看清楚了!沒有錯!這是可以做到的!
首先對於這個「≜」符號,你可以在U+225C的區域找到它,其次是這些下標數字,你在U+2080這一行里全部都能找得到,這裏因為時間關係不全部一一列舉出來了。
化學的離子也是可以做到的,比如像酸根離子:SO₄²⁻,CO₃²⁻,金屬離子:NH₄⁺,Fe²⁺,Fe³⁺,Na⁺,K⁺,非金屬離子Cl⁻,Br⁻,I⁻,又或者是氫氧根離子:OH⁻,等等,也都在上面提到的那裏可以找得到,各位到時候就自己去尋找吧。
MathJax的一個優勢在於,它可以表示化學方程式當中任何反應條件,甚至是漢字都沒問題。而僅靠Unicode則只能表示加熱條件,且還只能是簡略的符號表達形式。
刪除相關
可以在沒有刪除線標準的前提下作出刪除字符的效果,比如:F̶i̶t̶z̶g̶e̶r̶a̶l̶d̶,刪除線所在的碼位為U+0336,你可以拿它和後面這個對比下。Fitzgerald。
模擬筆在紙上劃掉錯誤的地方的樣子:F̷̸̸i̷̸̸t̷̸̸z̷̸̸g̷̸̸e̷̸̸r̷̸̸a̷̸̸l̷̸̸d̷̸̸,看吶,亂糟糟一團。 ( ̷·̷ ̷ω̷ ̷·̷ ) ,這些字符的範圍全在0300—036F中,各位到時自行去尋找吧。
反轉和倒轉相關
甚至是讓你強行右至左書寫,右至左觀看這一句話,外人會以為這全是黑科技,其實呢?這一點都不神秘,如果你對Unicode十分了解,那麼你所看到的這一切全都可以用Unicode來解釋,它就會變成司空見慣的現象。
↑這句話要反過來看,如果你看不明白請點開下面的原文版本,這裏使用的是U+202E的強制右至左書寫的字符。
※注意,我絕對沒有倒過來輸入這句話,你用腳趾頭想想,這麼長的一段文字,誰會對這一行長文字花那麼長的時間去一點一點的把它反過來?想想都不可能。
原文 |
---|
甚至是讓你強行右至左書寫,右至左觀看這一句話,外人會以為這全是黑科技,其實呢?這一點都不神秘,如果你對Unicode十分了解,那麼你所看到的這一切全都可以用Unicode來解釋,它就會變成司空見慣的現象。 |
更有倒翻的英文字母,比如:˙ʞ plɐɹəᵷzʇᴉɟ,像這種的倒翻英文字母如果自己一個一個的弄會很麻煩,字符百科有專門的倒翻的網頁,直接去那裏搞就可以,比較方便。但有一點你需要注意:倒翻英文字母目前僅支持小寫的英文字母。
目前關於各種拉丁字母的倒翻字符整理(摘自某知乎上的文章):
點此展開 |
---|
a→ɐ(U+0250),這個字母也表示次開央元音。 b→q,使用拉丁字母即可。 c→ɔ(U+0254),這個字母也表示半開後圓唇元音。 d→p,使用拉丁字母即可。 e→ǝ(U+01DD),這個字母也表示中央元音。部分機型不支持這個字符,亦可以用ə(U+0259),效果等同。 f→ɟ(U+025F),這個字母也表示濁硬顎塞音,嚴格來說該字母是無點j加上粗線。 g→ᵷ(U+1D77),這個存在爭議,我本人不推薦使用ƃ(U+0183)和ɓ(U+0253)。Unicode字符百科生成的時候使用的是ƃ,而ɓ可以使用在一些機型不支持ᵷ的情況下使用,儘管效果並不是很好。 h→ɥ(U+0265),這個字母也表示濁圓唇硬顎近音。 i→ᴉ(U+1D09),不推薦使用ı(U+0131)。 j→ſ̣,存在爭議,這種屬於附加標的文字,是由ſ(U+017F)+(U+0323)組合而成,Unicode字符百科給出的倒轉形態則是ɾ(U+027E),效果更糟。儘管我本人並不推薦使用結合文字。 k→ʞ(U+029E),曾用以表示清小舌塞音/q/或一種祖魯語中出現的吸氣音。 l→ן(U+05DF),這個是希伯來語字母 nun 的詞尾形式,Unicode字符百科中,給出該字符的倒轉是無變化。由於希伯來語的書寫方向是從右至左,加之在一些使用帶有襯線體的字體當中效果並不是很好。 m→ɯ(U+026F),這個字母也表示閉後不圓唇元音,請注意,俄語當中的字母ш,手寫體是和ɯ相同的。 n→u,使用拉丁字母即可。 o→o,無變化。 p→d,使用拉丁字母即可。 q→b,使用拉丁字母即可。 r→ɹ(U+0279),這個字母也表示齒齦無擦通音。 s→s,無變化。 t→ʇ(U+0287),這個字母也表示舌尖搭嘴音的一種代替寫法,通常用的是/ǀ/。 u→n,使用拉丁字母即可。 v→ʌ(U+028C),這個字母也表示半開後不圓唇元音。 w→ʍ(U+028D),這個字母也表示清圓唇軟顎近音。 x→x,無變化。 y→ʎ(U+028E),這個字母也表示硬顎邊音。 z→z,無變化。 |
中日韓字符集兼容
在Unicode當中,有一個3300—33FF的區塊,這個區塊的名字叫做中日韓字符集兼容,該區塊下有一些由多個字母組成的佔一個單位的字符,而這些字符通常是表示物理,數學,化學,天文地理等領域的一些常用單位,你可以點擊下方來展開查詢它們都代表什麼意思。
點此展開 |
---|
㍱:百帕(斯卡)——壓強 ㍲:道(爾頓)——原子質量 ㍳:天文單位制(Astronomical unit) ㍴:巴(爾)——壓強 ㍵:輸出電壓(output Voltage) ㍶:秒差距——距離 ㍷:分米——距離 ㍸:平方分米——面積 ㍹:立方分米——容積 ㍺:國際單位制(International Units) ㎀:皮安(培)——電流 ㎁:納安(培)——電流 ㎂:微安(培)——電流 ㎃:毫安(培)——電流 ㎄:千安(培)——電流 ㎅:千字節——數據 ㎆:兆字節——數據 ㎇:吉字節——數據 ㎈:卡(路里)——熱量 ㎉:千卡(路里)——熱量 ㎊:皮法(拉第)——電容 ㎋:納法(拉第)——電容 ㎌:微法(拉第)——電容 ㎍:微克——質量 ㎎:毫克——質量 ㎏:千克——質量 ㎐:赫(茲)——電頻 ㎑:千赫(茲)——電頻 ㎒:兆赫(茲)——電頻 ㎓:吉赫(茲)——電頻 ㎔:太赫(茲)——電頻 ㎕:微升——容積 ㎖:毫升——容積 ㎗:分升——容積 ㎘:千升——容積 ㎙:飛米——長度 ㎚:納米——長度 ㎛:微米——長度 ㎜:毫米——長度 ㎝:厘米——長度 ㎞:千米——長度 ㎟:平方毫米——面積 ㎠:平方厘米——面積 ㎡:平方米——面積 ㎢:平方千米——面積 ㎣:立方毫米——容積 ㎤:立方厘米——容積 ㎥:立方米——容積 ㎦:立方千米——容積 ㎧:米每秒——速度 ㎨:米每秒平方——加速度 ㎩:帕(斯卡)——壓強 ㎪:千帕(斯卡)——壓強 ㎫:兆帕(斯卡)——壓強 ㎬:吉帕(斯卡)——壓強 ㎭:弧度——數學 ㎮:弧每秒——角速度 ㎯:弧每秒平方——角加速度 ㎰:皮秒——時間 ㎱:納秒——時間 ㎲:微秒——時間 ㎳:毫秒——時間 ㎴:皮伏(特)——電壓 ㎵:納伏(特)——電壓 ㎶:微伏(特)——電壓 ㎷:毫伏(特)——電壓 ㎸:千伏(特)——電壓 ㎹:兆伏(特)——電壓 ㎺:皮瓦(特)——功率 ㎻:納瓦(特)——功率 ㎼:微瓦(特)——功率 ㎽:毫瓦(特)——功率 ㎾:千瓦(特)——功率 ㎿:兆瓦(特)——功率 ㏀:千歐(姆)——電阻 ㏁:兆歐(姆)——電阻 ㏂:上午(ante meridiem) ㏃:貝可——放射性強度 ㏄:立方厘米——容積 ㏅:坎(德拉)——發光強度 ㏆:庫侖每千克——放射量 ㏇:有限責任公司(Company) ㏈:分貝——聲音強度 ㏉:戈瑞——吸收輻射量 ㏊:公頃——面積 ㏋:馬力——功率 ㏌:英寸——長度 ㏍:千開(爾文)——溫度 ㏎:馬達常數(Motor constants) ㏏:千噸——質量 ㏐:流明——光照度 ㏑:自然對數——數學 ㏒:對數——數學 ㏓:勒(克斯)——光照度 ㏔:毫巴(爾)——壓強 ㏕:密耳——長度 ㏖:摩爾——物質的量 ㏗:酸鹼度(pondus Hydrogenii) ㏘:下午(post meridiem) ㏙:百萬分率(Parts per million) ㏚:複雜度——數學 ㏛:球面度——數學 ㏜:希沃特——吸收輻射量 ㏝:韋伯——磁通量 ㏞:伏(特)每米——電場強度 ㏟:安(培)每米——磁場強度 ㏿:加侖——容積 |
小結
如果你家的電腦依然是Windows XP或者比這更低的系統,或是手機安卓系統在5.0或者比這更往下,那麼有很多的字符會無法顯示,會被「�」或「□」[1],甚至是一個什麼都不顯示的類似空格的字符所替換,若發生這種情況,有兩種解決措施:
- 升級系統;但這個大多數人並不一定能夠接受。
- 安裝相應區域下的字體文件;一般電腦自帶的能夠支持大部分區域的字符有Dotom,Tahoma等等。而Noto字體等都可以說是應對這種方法的不二之選。
總之,你想要的,這裏全都有。這裏的奧秘很多,需要各位自己慢慢探索,我因為時間的關係,不能全部列出。如有需要,也可以去幫助:特殊符號表來查看我沒有提及和列出的地方雖然這個頁面提及和列出的遠沒有我這裏的詳細。
Unicode編碼表歷代版本一覽
版本號 | 發佈日期 | 該階段總分區數 | 該階段總字符數 | 已知的擴增 |
---|---|---|---|---|
1.0.0 | 1991/10 | 24 | 7161 | 最初包含的文字有:阿拉伯字母、亞美尼亞字母、孟加拉文、注音符號、西里爾字母、天城文、格魯吉亞字母、希臘字母、古吉拉特文、古木基文、諺文、希伯來字母、平假名、卡納達文、片假名、寮文字、拉丁字母、馬拉亞拉姆文、奧里亞文、泰米爾文、泰盧固文、泰文字、藏文。 |
1.0.1 | 1992/6 | 25 | 28359 | 定義中日韓統一表意文字最初的20902個字。 |
1.1 | 1993/6 | 24 | 34233 | 於原有2350個諺文字母的基礎上新增4306個諺文字母,移除藏文。 |
2.0 | 1996/7 | 25 | 38590 | 移除原有的諺文字母設置,於新的編碼範圍更換成11172個新的諺文字母。藏文重新加入,但編碼位置更換。代理字符機制建立,並將第15與第16平面分配給私人使用區。 |
2.1 | 1998/5 | 25 | 38952 | 新增歐元符號與對象替換字符。 |
3.0 | 1999/9 | 38 | 49259 | 新增切羅基文、埃塞俄比亞語、高棉語、蒙古語、緬甸語、歐甘字母、盧恩字母、僧伽羅語、敘利亞語、它拿字母、加拿大原住民音節文字、彝文,以及部分盲文圖案。 |
3.1 | 2001/3 | 41 | 94205 | 新增猶他字母、哥特字母、古意大利字母、音樂符號、拜占庭音樂符號,追加了42711個中日韓統一表意文字(擴展區B)。 |
3.2 | 2002/3 | 45 | 95221 | 新增菲律賓文字:布錫文、哈努諾文、他加祿語、塔格巴奴亞文。 |
4.0 | 2003/4 | 52 | 96447 | 新增塞浦路斯音節文字、林布字母、線形文字B、奧斯曼亞字母、蕭伯納字母、德宏傣文、烏加里特字母,以及六十四卦。 |
4.1 | 2005/3 | 59 | 97720 | 新增布吉文、格拉哥里字母、佉盧文、西雙版納傣文、古波斯語、錫爾赫特文、提非納文。科普特字母從希臘語區塊中分離了出來。新增了古希臘音樂符號。 |
5.0 | 2006/7 | 64 | 99089 | 新增峇里語、楔形文字、西非書面文字、八思巴文、腓尼基字母。 |
5.1 | 2008/4 | 75 | 100713 | 新增卡利亞語、占婆字母、克耶黎語、絨巴文、利西亞語、呂底亞語、桑塔利文、拉讓文、索拉什特拉文、巽他語、瓦伊語。同時增加了斐斯托斯圓盤、麻將、多米諾骨牌上的符號。對緬甸語做了重要的補充,追加了手抄縮寫的額外字母,追加了大寫ẞ。 |
5.2 | 2009/10 | 90 | 107361 | 新增阿維斯陀語、巴姆穆文字、埃及象形文字(加汀納符號表,涵蓋1071個符號)、亞拉姆語、巴拉維碑銘體、帕提亞碑銘體、爪哇語、凱提文、老傈僳文、曼尼普爾文、南阿拉伯字母、古突厥語、撒瑪利亞語、老傣文、傣越文。追加4149個中日韓統一表意文字(擴展區C),同時擴展了古韓語和吠陀梵語的字符。 |
6.0 | 2010/10 | 93 | 109449 | 新增巴塔克字母、婆羅米文字、曼達字母、紙牌符號、交通標誌、地圖符號、鍊金術符號、顏文字、繪文字。追加222個額外的中日韓統一表意文字(擴展區D)。 |
6.1 | 2012/1 | 100 | 110181 | 新增查克馬字母、麥羅埃文、麥羅埃象形文字、柏格里苗文、夏拉達文、索拉僧平文字、泰克里文。 |
6.2 | 2012/9 | 100 | 110182 | 土耳其里拉符號。 |
6.3 | 2013/9 | 100 | 110187 | 5個雙向排版符號。 |
7.0 | 2014/6 | 123 | 113021 | 新增巴薩字母、高加索阿爾巴尼亞字母、杜普雷嚴速記、愛爾巴桑字母、古蘭塔文、可吉文、庫達瓦迪文、線形文字A、馬哈佳尼文、摩尼教字母、門得文字、莫迪字母、默文、納巴泰字母、古北阿拉伯文、古彼爾姆文、楊松錄苗文、帕米拉文字、袍清豪文、詩篇巴列維文、悉曇文字、提爾胡塔文、瓦蘭齊地文,以及裝飾符號。 |
8.0 | 2015/6 | 129 | 120737 | 增加阿洪姆文、安納托利亞象形文字、哈坦文、穆爾塔尼文、古匈牙利字母、書寫符號、5771個中日韓統一表意文字(擴展區E)、切羅基語小寫字母,以及5種繪文字膚色修改字符。 |
9.0 | 2016/6 | 135 | 128237 | 新增阿德拉姆字母、比奇舒奇文、象雄文、尼泊爾紐瓦字母、歐塞奇字母、西夏文,以及74個繪文字。 |
10.0 | 2017/6 | 139 | 136755 | 札那巴札爾、索永布文字、馬薩拉姆貢德文字、女書、變體假名(非標準平假名)、7494個中日韓統一表意文字(擴展區F),以及56個繪文字。 |
11.0 | 2018/6 | 146 | 137374 | 多格拉文、格魯吉亞文騎士體大寫字母、貢賈拉貢德文、哈乃斐羅興亞文字、望加錫文、梅德法伊德林文、老粟特文、粟特文,以及145個繪文字。 |
12.0 | 2019/3 | 150 | 137928 | 埃利邁文、南迪城文、創世紀苗文、文喬文,以及61個繪文字。 |
12.1 | 2019/5 | 150 | 137929 | 只在U+32FF新增了一個字符,即日本新年號令和的和字。 |
13.0 | 2020/3 | 154 | 143924 | 花剌子模語、迪維西語的島字母、契丹小字、庫爾德語字母的雅茲迪體、4969個新增的中日韓統一表意文字(包括4939個位於擴展區G)、書寫豪薩語用的阿拉伯附加字母、沃洛夫語、其他非洲語言、在巴基斯坦書寫印德科語和旁遮普語的補充字元、粵語用的注音符號、共享創意授權符號、七十或八十年代電訊用圖符、55個繪文字。 |
其中第一輔助平面又稱多文種補充平面(Supplementary Multilingual Plane,縮寫SMP,或簡稱Plane 1),擺放拼音文字(主要為現時已不再使用的古老文字)、手寫文字、音符、繪文字和其他圖形符號。用於學者的專業論文中使用的古老或過時的語言書寫符號,以及網絡通信等使用的表情符號。範圍在U+10000~U+1FFFD。
第二輔助平面又稱為表意文字補充平面(Supplementary Ideographic Plane,縮寫SIP,或簡稱Plane 2),整個範圍在U+20000~U+2FFFD。整個平面配置的都是一些罕用的漢字或地區的方言用字,如粵語用字及越南語的喃字。現時擺放了「中日韓統一表意文字擴展B區」(43253個漢字)、「中日韓統一表意文字擴展C區」(4149個漢字)、「中日韓統一表意文字擴展D區」(222個漢字)、「中日韓統一表意文字擴展E區」(5762個漢字)、「中日韓統一表意文字擴展F區」(7473個漢字)以及中日韓兼容表意文字增補(CJK Compatibility Ideographs Supplement)。
第三輔助平面已有相關編碼提案。本平面現已用來擺放漢字擴展區G,並規劃用於擺放甲骨文、金文、小篆、中國戰國時期文字等。按Unicode官網的路線圖,計劃分配的編碼區段為:
- U+30000~U+31389:擴展區G(已發佈)。
- U+31400~U+33D1F:小篆(提案已提交)。
- U+33E00~U+355FF:甲骨文(提案已提交)。
第十四輔助平面又稱特別用途補充平面(Supplementary Special-purpose Plane,簡稱SSP),當前僅擺放「語言編碼標籤」和「字形變換選取器」,它們都是控制字符。範圍在U+E0000~U+E01FF。
第十五至十六輔助平面都是私人使用區。它們的範圍是U+F0000~U+FFFFD及U+100000~U+10FFFD,增加了補充私用區A和補充私用區B。由此可見這兩個平面所投入使用的字符已經確定。
- ↑ 這種情況下因其字符形狀,被俗稱「豆腐塊」。Noto系列字體的「Noto」意為「No tofu」,這裏的「tofu」即為前面所提及的不能顯示字符的「豆腐塊」。