2023年政策修订增补工作正在进行中,欢迎参与!
  • Moegirl.ICU:萌娘百科流亡社群 581077156(QQ),欢迎对萌娘百科运营感到失望的编辑者加入
  • Moegirl.ICU:账号认领正在试运行,有意者请参照账号认领流程

說明:語言標籤

萌娘百科,萬物皆可萌的百科全書!轉載請標註來源頁面的網頁連結,並聲明引自萌娘百科。內容不可商用。
跳至導覽 跳至搜尋
Commons-emblem-notice.svg
這個頁面「Help:語言標籤」是萌娘百科的幫助文檔
  • 本文用於介紹萌娘百科中一些特定功能的操作方法;
  • 本文僅是一篇論述,不屬於方針或指引。如果本指南與相關方針或指引發生衝突或存在不一致的情況,請以方針或指引的條文為準。

這篇幫助文檔講解HTML lang屬性中語言標籤(英:language tags)的用法。語言模板通常會用到語言標籤。

用途

相同漢字在不同地區的字形
中國內地 香港特區 台灣地區 日本 朝韓

萌娘百科收錄的內容涵蓋了多個語言及地區,介紹中不可避免地會使用到不同語言。語言標籤旨在標記一段文字的語言信息。

在HTML中使用lang屬性指定語言標籤,這是一個全局屬性。

<span lang="zh-Hans">这是一段标记为“汉语,简体字”的文本。</span>

其中粗體部分為lang屬性,下劃線部分為語言標籤。類似的代碼被封裝在{{Lang}}、{{Ruby}}乃至{{LyricsKai}}等模板中,使用時填寫語言標籤即可。

字形選擇

在萌娘百科,語言標籤最重要的使用情境莫過於使漢字以合適的字形顯示。

漢字在東亞很多地區都有使用,經過各自發展,不同地區對於漢字的字形(或寫法)有了各自的習慣與標準。這些漢字很可能會遇到共用Unicode碼位的情形,這時就需要標記語言來讓瀏覽器顯示正確的變體,很多情況下這體現為根據語言標籤調用不同的字體(如表格所示)[1]

這種情況不僅限於漢字。

屏幕閱讀器

標記語言能夠讓屏幕閱讀器正確地發音和切換語種,服務視覺障礙者。

結構

語言標籤使用IETF(互聯網工程任務組)的BCP 47文檔所定義的格式。

语言子标签-扩展语言子标签-文字子标签-地区子标签-变体子标签-扩展子标签-私用子标签

語言子標籤為必須,其餘為可選,應保持相對順序。子標籤之間以連字號-相連。各個子標籤有其不同的標準,由於地區子標籤之後的子標籤極不常用,下面僅就前四項進行詳細說明。

主要語言子標籤

主要語言子標籤(英:primary language subtag)總是出現在語言標籤的開頭。可以使用ISO 639-1所定義的二字母代碼,以及ISO 639-2ISO 639-3ISO 639-5所定義的三字母代碼,全小寫。推薦的做法是優先使用ISO 639-1的二字母代碼,三字母代碼多在沒有二字母代碼的情況下作為補充使用。

常見的語言子標籤
(ISO 639-1二字母代碼和ISO 639-3三字母代碼)
語言 二字母代碼 三字母代碼
漢語(特指官話) zh zho
官話現代標準漢語 不適用 cmn
贛語 不適用 gan
客家語 不適用 hak
文言 不適用 lzh
閩南語 不適用 nan
吳語 不適用 wuu
粵語 不適用 yue
英語 en eng
壯語 za zha
藏語 bo tib
衛藏語 不適用 bod
康語 不適用 khg
kbg
蒙古語 mn mon
維吾爾語 ug uig
朝鮮語、韓語 ko kor
日語 ja jpn
泰語 th tha
越南語 vi vie
阿拉伯語 ar ara
印地語 hi hin
印度尼西亞語 id ind
俄語 ru rus
西班牙語 es spa
葡萄牙語 pt por
法語 fr fra
德語 de deu
意大利語 it ita
波蘭語 pl pol
烏克蘭語 uk ukr
土耳其語 tr tur
塞爾維亞語 sr srp
丹麥語 da dan
希臘語 el ell
古希臘語 不適用 grc
梵語 sa san
拉丁語 la lat
芬蘭語 fi fin
世界語 eo epo

擴展語言子標籤

擴展語言子標籤(英:extended language subtag,簡記extlang)在使用時緊跟主要語言子標籤,並位處其他任何子標籤之前。每一個「主要語言子標籤-擴展語言子標籤」組合都會有其對應的主要語言子標籤,且與擴展語言子標籤的名稱完全一致,故「主-擴」形式只是為了保證語言標籤在舊系統中的兼容性,如有可能請優先只用主要語言子標籤來標記語言,如標記粵語時使用yue而不是zh-yue

文字子標籤

文字子標籤(英:script subtag)可以使用ISO 15924所定義的四字母代碼,首字母大寫。

常見的文字子標籤
(ISO 15924四字母代碼)
文字 代碼
漢字 Hani
簡化字、簡體字 Hans
正體字、繁體字 Hant
希臘字母 Grek
拉丁字母 Latn
西里爾字母 Cyrl
朝鮮語字母、韓語字母 Jamo
注音符號 Bopo
諺文、韓字 Hang
韓漢混用文 Kore
悉曇文字 Sidd
天城文 Deva
平假名 Hira
片假名 Kana
假名 Hrkt
日文文字[2] Jpan

地區子標籤

地區子標籤(英:region subtag)可以使用ISO 3166-1 alpha-2所定義的二字母代碼,全大寫。

常見的地區子標籤
(ISO 3166-1二字母代碼)
地區 代碼
中國內地(或泛指中國) CN
香港特別行政區 HK
澳門特別行政區 MO
台灣地區 TW
朝鮮 KP
韓國 KR
馬來西亞 MY
新加坡 SG
美國 US
英國 GB

示例

  • 其他較常用的語言代碼(基本上可直接作為語言標籤使用)可以在#主要語言子標籤一節中的表格中找到。
  • 漢語一般情況下不用標記,僅供參考。
  • 請儘量使用最簡煉的語言標籤,僅在現有子標籤無法涵蓋必要的語言信息、無法有效區分各個語言時再進一步添加子標籤。
語言標籤 涵義 備註
zh 漢語 沒有任何其他標註,在中文萌娘百科這個以漢語為主的站點上不推薦使用
zh-Hans 漢語,簡體字 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了地區標註
zh-Hant 漢語,繁體字
zh-CN 漢語,中國內地 在中文萌娘百科使用的繁簡轉換處理系統中使用的記法,省略了簡繁標註
zh-HK 漢語,香港特別行政區
zh-TW 漢語,台灣地區
zh-Hans-CN 漢語,簡體字,中國內地 權衡了兼容性和完整標註的需要,但該記法實際應用不多
zh-Hant-HK 漢語,繁體字,香港特別行政區
zh-Hant-TW 漢語,繁體字,台灣地區
zho-Hans 漢語,簡體字 使用三字母語言代碼,但兼容性可能不佳
zho-Hant-HK 漢語,繁體字,香港特別行政區
cmn-Hans 官話,簡體字 zh在表示普通話、官話的時候可以使用cmn代替,但兼容性可能不佳
cmn-Hant-TW 官話,繁體字,台灣地區
zh-cmn-Hans 漢語,官話,簡體字 zhcmn重複,不推薦使用這種記法
zh-Latn 漢語,拉丁字母轉寫 可以用於標記漢語拼音(-pinyin)、威妥瑪拼音(-wadegile)、注音第二式等
yue 粵語 粵語沒有二字母代碼,故記為三字母代碼
zh-yue 漢語,粵語 添加zh以保證兼容性,有條件者應單用yue來與官話作區分
en 英語
ja 日語
ja-JP 日語,日本 日語絕大多數情況都無需區分地域,不推薦使用
ja-Jpan 日語,日文文字 日語即默認以日文文字書寫,無需區分,不推薦使用
ja-Hrkt 日語,假名書寫 可以用於標記假名注音,不常用
ja-Latn 日語,拉丁字母轉寫 可以用於標記各種日語羅馬字
ko 朝鮮語/韓語 在中文萌娘百科廣泛使用的記法,省略朝韓地區
ko-KP 朝鮮語,朝鮮 標明了地區,不常用
kor-KR 韓語,韓國
ko-Kore 朝鮮語/韓語,韓漢混用
ru 俄語
ru-Latn 俄語,拉丁字母轉寫
sa-Sidd 梵語,以悉曇文字書寫
art-x-xdi8[3] 人工語言,希頂語 使用了私用子標籤,其兼容性無從談起
省略了文字標註,無法從標籤中判斷標記的文本是希頂字母還是希頂漢字
以下代碼可能被錯誤使用
ch 查莫羅語 常被錯誤當作漢語,若確實需要的情況下應當使用zh標記之
cn
jp
jap
lj
常被錯誤當作日語,應當使用ja標記之
kr 卡努里語 常被錯誤當作朝鮮語/韓語,應當使用ko標記之
kp
gr
po
sp
cz
kz
dk
unicode Unicode(統一碼)是一套信息技術標準,不是可標記的語言
ipa IPA(國際音標,International Phonetic Alphabet)是一套標音系統
若確實需要標記應當使用fonipa

註釋

  1. 支持locl特性的OpenType字體可以在同一個碼位上儲存不同地區的各種變體字形,以方便使用中根據需求(如根據語言標籤)調用相應字形。表格當中的漢字用例參考了支持上述特性的思源黑體2.004版的自述文件,讀者如果因為技術問題而無法在表格中直接觀察到效果,也可以參看這篇文件的第1、2、16和17頁。
  2. 在現代日語中指漢字假名混寫文(日語:漢字仮名交じり文;日語假名:かんじかなまじりぶん)。
  3. 希頂維基的歷史版本中提到的一種標記方式。

參見