有些字元 (例如空格) 不能放進網址,另外有些字元在網址內則具有特殊意義。在 HTML 表單中,=
字元可用來區隔名稱和值。URI 一般語法會使用網址編碼來處理這個問題,HTML 表單則會進行額外的替代作業,而非對所有這類字元進行百分比編碼。
舉例來說,字串中的空格不是以 %20
編碼,就是以加號 (+
) 取而代之。如果您使用縱線字元 (|
) 做為分隔符,請務必將縱線編碼為 %7C
。字串中的半形逗號應編碼為 %2C
。
建議您使用平台的一般網址建構程式庫來自動編碼網址,確保平台網址能正確逸出。
建立有效網址
您可能認為網址是否「有效」一眼就能判斷,但實際情況不然。例如,在瀏覽器的網址列內輸入的網址可能包含特殊字元 (例如 "上海+中國"
);瀏覽器必須在內部將這些字元轉譯為不同的編碼方式才能傳送。同理可證,任何產生或接受 UTF-8 輸入值的程式碼可能會將含有 UTF-8 字元的網址視為「有效網址」,但也需要先轉譯這些字元,才能將其向外傳送至網路伺服器。這個過程稱為網址編碼或百分比編碼。
特殊字元
我們必須翻譯特殊字元,因為所有網址都必須符合統一資源 ID (URI) 規格指定的語法。事實上,這表示網址必須僅包含一個特殊的 ASCII 字元子集:慣用的英數字元符號,以及用做網址內控制字元的部分預留字元。下表摘要列出這些字元:
字元集 | 字元 | 網址使用情況 |
---|---|---|
英數字元 | a b c d e f g h i j k l m n o p q r s t u v w x y z A B C D E F G H I J K L M N O P Q R S T U V W X Y Z 0 1 2 3 4 5 6 7 8 9 | 文字字串、結構用途 (http )、連接埠 (8080 ) 等。 |
非預留 | - _ . ~ | 文字字串 |
預留 | ! * ' ( ) ; : @ & = + $ , / ? % # [ ] | 控制字元和 (或) 文字字串 |
建立有效網址時,您必須確認網址僅包含「有效網址字元摘要」表格中列出的字元。網址如果使用這個字元集,通常會導致遺漏及代換兩個問題:
- 您希望處理的字元不屬於上述字元集。舉例來說,外國語言的字元 (例如
上海+中國
) 就需要使用上述字元加以編碼。依照普遍慣例,空格 (網址內不允許使用) 通常也用加號'+'
字元來表示。 - 如果是上述字元集中預留字元的字元,仍需依照字面意思使用。舉例來說,網址內會使用
?
來表示查詢字串的開頭;如果您想使用「? and the Mysterions」這個字串,就必須對'?'
字元進行編碼。
所有遵守網址編碼原則的字元都會利用 '%'
字元以及對應至其 UTF-8 字元的雙字元十六進位值編碼。舉例來說,採用 UTF-8 編碼的 上海+中國
改用網址編碼時,會成為 %E4%B8%8A%E6%B5%B7%2B%E4%B8%AD%E5%9C%8B
。字串 ? and the Mysterians
會以網址編碼為 %3F+and+the+Mysterians
或 %3F%20and%20the%20Mysterians
。
需要編碼的常見字元
必須編碼的部分常見字元如下:
不安全的字元 | 經過編碼的值 |
---|---|
空格 | %20 |
" | %22 |
< | %3C |
> | %3E |
# | %23 |
% | %25 |
| | %7C |
轉換您從使用者輸入中取得的網址,有時並不容易處理。舉例來說,使用者輸入的地址可能是「5th&Main St.」。一般來說,您應該根據各組成部分來建立網址,並將任何使用者輸入內容當成常值字元來處理。
此外,所有 Google 地圖平台網路服務和靜態網路 API 的網址長度上限都是 8,192 個字元。對於大部分的服務而言,幾乎很少接近此字元限制的長度。但請注意,某些特定的服務具備幾個可能產生長網址的參數。