網址和雜湊

本文件適用於下列方法:Update API (v4)fullHashes.find

總覽

安全瀏覽清單由可變長度的 SHA256 雜湊組成 (請參閱「清單內容」)。如要根據安全瀏覽清單 (無論是在本機或伺服器上) 檢查網址,用戶端必須先計算該網址的雜湊前置字串。

如要計算網址的雜湊前置字串,請按照下列步驟操作:

  1. 將網址標準化 (請參閱標準化)。
  2. 建立網址的後置字串/前置字串運算式 (請參閱後置字串/前置字串運算式)。
  3. 計算每個後置字串/前置字串運算式的完整雜湊 (請參閱雜湊運算)。
  4. 計算每個完整雜湊的雜湊前置字串 (請參閱雜湊前置字串運算)。

請注意,以下步驟與安全瀏覽伺服器用來維護安全瀏覽清單的程序相同。

標準化

首先,我們假設用戶端已剖析網址,並根據 RFC 2396 規定將其有效。 如果網址使用國際化網域名稱 (IDN),用戶端應將網址轉換為 ASCII Punycode 表示法。網址必須包含路徑元件,也就是說,網址結尾必須包含斜線 (「http://google.com/」)。

首先,移除網址中的定位點 (0x09)、CR (0x0d) 和 LF (0x0a) 字元。請勿移除這些字元的逸出序列 (例如「%0a」)。

接著,如果網址結尾是片段,請移除片段。舉例來說,請將「http://google.com/#frag」縮短為「http://google.com/」。

第三,重複逸出百分比,直到沒有其他百分比逸出為止。

如何將主機名稱標準化:

請從網址中擷取主機名稱,然後:

  1. 移除所有開頭和結尾的點。
  2. 將連續點替換為單一點。
  3. 如果主機名稱可以剖析為 IP 位址,請將其正規化為以 4 個半形句點分隔的小數值。用戶端應處理任何合法的 IP 位址編碼,包括八進位、十六進位和少於四個元件。
  4. 全首字串。

將路徑標準化:

  1. 將「/./」替換為「/」,並在上述路徑元件中移除「/../」,藉此解析路徑中的序列「/../」和「/./」。
  2. 以單一斜線字元取代連續斜線執行次數。

請不要將這些路徑標準化套用至查詢參數。

網址中所有 <= ASCII 32、>= 127、「#」或「%」的逸出百分比都應採用百分比逸出字元。逸出應使用大寫的十六進位字元。

以下是有助於驗證標準化實作的測試。

Canonicalize("http://host/%25%32%35") = "http://host/%25";
Canonicalize("http://host/%25%32%35%25%32%35") = "http://host/%25%25";
Canonicalize("http://host/%2525252525252525") = "http://host/%25";
Canonicalize("http://host/asdf%25%32%35asd") = "http://host/asdf%25asd";
Canonicalize("http://host/%%%25%32%35asd%%") = "http://host/%25%25%25asd%25%25";
Canonicalize("http://www.google.com/") = "http://www.google.com/";
Canonicalize("http://%31%36%38%2e%31%38%38%2e%39%39%2e%32%36/%2E%73%65%63%75%72%65/%77%77%77%2E%65%62%61%79%2E%63%6F%6D/") = "http://168.188.99.26/.secure/www.ebay.com/";
Canonicalize("http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/") = "http://195.127.0.11/uploads/%20%20%20%20/.verify/.eBaysecure=updateuserdataxplimnbqmn-xplmvalidateinfoswqpcmlx=hgplmcx/";
Canonicalize("http://host%23.com/%257Ea%2521b%2540c%2523d%2524e%25f%255E00%252611%252A22%252833%252944_55%252B") = "http://host%23.com/~a!b@c%23d$e%25f^00&11*22(33)44_55+";
Canonicalize("http://3279880203/blah") = "http://195.127.0.11/blah";
Canonicalize("http://www.google.com/blah/..") = "http://www.google.com/";
Canonicalize("www.google.com/") = "http://www.google.com/";
Canonicalize("www.google.com") = "http://www.google.com/";
Canonicalize("http://www.evil.com/blah#frag") = "http://www.evil.com/blah";
Canonicalize("http://www.GOOgle.com/") = "http://www.google.com/";
Canonicalize("http://www.google.com.../") = "http://www.google.com/";
Canonicalize("http://www.google.com/foo\tbar\rbaz\n2") ="http://www.google.com/foobarbaz2";
Canonicalize("http://www.google.com/q?") = "http://www.google.com/q?";
Canonicalize("http://www.google.com/q?r?") = "http://www.google.com/q?r?";
Canonicalize("http://www.google.com/q?r?s") = "http://www.google.com/q?r?s";
Canonicalize("http://evil.com/foo#bar#baz") = "http://evil.com/foo";
Canonicalize("http://evil.com/foo;") = "http://evil.com/foo;";
Canonicalize("http://evil.com/foo?bar;") = "http://evil.com/foo?bar;";
Canonicalize("http://\x01\x80.com/") = "http://%01%80.com/";
Canonicalize("http://notrailingslash.com") = "http://notrailingslash.com/";
Canonicalize("http://www.gotaport.com:1234/") = "http://www.gotaport.com/";
Canonicalize("  http://www.google.com/  ") = "http://www.google.com/";
Canonicalize("http:// leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("http://%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("%20leadingspace.com/") = "http://%20leadingspace.com/";
Canonicalize("https://www.securesite.com/") = "https://www.securesite.com/";
Canonicalize("http://host.com/ab%23cd") = "http://host.com/ab%23cd";
Canonicalize("http://host.com//twoslashes?more//slashes") = "http://host.com/twoslashes?more//slashes";

後置字串/前置字元運算式

網址標準化後,下一步就是建立後置字串/前置字元運算式。每個後置字串/前置字串運算式都包含一個主機後置字串 (或完整主機) 和路徑前置字串 (或完整路徑),如這些範例所示。

後置字串/前置字串運算式對等規則運算式
a.b/mypath/
http\:\/\/.*\.a\.b\/mypath\/.*
c.d/full/path.html?myparam=a
http\:\/\/.*.c\.d\/full\/path\.html?myparam=a

用戶端最多會構成 30 種可能的主機後置字串和路徑前置字串組合。這些組合只會使用網址的主機和路徑元件。系統會捨棄配置、使用者名稱、密碼和通訊埠。如果網址包含查詢參數,則至少一個組合會納入完整路徑和查詢參數。

針對主機,用戶端最多會嘗試使用五個不同的字串。這些因素包括:

  • 網址中確切的主機名稱。
  • 從最近五個元件開始,並連續移除前置元件,最多形成四個主機名稱。您可以略過頂層網域。如果主機是 IP 位址,請勿檢查這些額外的主機名稱。

針對路徑,用戶端最多會嘗試嘗試六個不同的字串。這些 API 包括:

  • 網址的確切路徑,包括查詢參數。
  • 網址的確切路徑,不含查詢參數。
  • 四個路徑由根 (/) 開始,並連續附加路徑元件,包括結尾的斜線。

以下舉例說明檢查行為:

對於 http://a.b.c/1/2.html?param=1 網址,用戶端會嘗試下列可能的字串:

a.b.c/1/2.html?param=1
a.b.c/1/2.html
a.b.c/
a.b.c/1/
b.c/1/2.html?param=1
b.c/1/2.html
b.c/
b.c/1/

對於 http://a.b.c.d.e.f.g/1.html 網址,用戶端會嘗試下列可能的字串:

a.b.c.d.e.f.g/1.html
a.b.c.d.e.f.g/
(Note: skip b.c.d.e.f.g, since we'll take only the last five hostname components, and the full hostname)
c.d.e.f.g/1.html
c.d.e.f.g/
d.e.f.g/1.html
d.e.f.g/
e.f.g/1.html
e.f.g/
f.g/1.html
f.g/

對於 http://1.2.3.4/1/ 網址,用戶端會嘗試下列可能的字串:

1.2.3.4/1/
1.2.3.4/

雜湊運算

建立一組後置字串/前置字串運算式後,下一步就是計算每個運算式的完整 SHA256 雜湊。以下提供可用於驗證雜湊運算的單元測試 (虛擬 C 語言)。

FIPS-180-2 的範例:

Unit Test (in pseudo-C)

// Example B1 from FIPS-180-2
string input1 = "abc";
string output1 = TruncatedSha256Prefix(input1, 32);
int expected1[] = { 0xba, 0x78, 0x16, 0xbf };
assert(output1.size() == 4);  // 4 bytes == 32 bits
for (int i = 0; i < output1.size(); i++) assert(output1[i] == expected1[i]);

// Example B2 from FIPS-180-2
string input2 = "abcdbcdecdefdefgefghfghighijhijkijkljklmklmnlmnomnopnopq";
string output2 = TruncatedSha256Prefix(input2, 48);
int expected2[] = { 0x24, 0x8d, 0x6a, 0x61, 0xd2, 0x06 };
assert(output2.size() == 6);
for (int i = 0; i < output2.size(); i++) assert(output2[i] == expected2[i]);

// Example B3 from FIPS-180-2
string input3(1000000, 'a');  // 'a' repeated a million times
string output3 = TruncatedSha256Prefix(input3, 96);
int expected3[] = { 0xcd, 0xc7, 0x6e, 0x5c, 0x99, 0x14, 0xfb, 0x92,
                    0x81, 0xa1, 0xc7, 0xe2 };
assert(output3.size() == 12);
for (int i = 0; i < output3.size(); i++) assert(output3[i] == expected3[i]);

雜湊前置字串計算

最後,用戶端需要計算每個完整 SHA256 雜湊的雜湊前置字串。就安全瀏覽而言,雜湊前置字串是由 SHA256 雜湊最重要的 4-32 個位元組組成。

FIPS-180-2 的範例:

  • FIPS-180-2 中的 B1 範例
    • 輸入為「abc」。
    • SHA256 摘要是 ba7816bf 8f01cfea 414140de 5dae2223 b00361a3 96177a9c b410ff61 f20015ad。
    • 32 位元雜湊前置字元為 ba7816bf。
  • FIPS-180-2 的 B2 範例
    • 輸入內容為「abcdbcdecdefgefghfghighijhijkijkljklmklmnlmnomnopnopq」。
    • SHA256 摘要為 248d6a61 d20638b8 e5c02693 0c3e6039 a33ce459 64ff2167 f6ecedd4 19db06c1。
    • 48 位元雜湊前置字元為 248d6a61 d206。