繁體
  • 简体中文
  • 繁體中文

熱門資訊> 正文

Pinterest 利用內容指紋技術,在數百萬個域名中實現 URL 去重

2026-06-18 14:00

作者 | Leela Kumili

譯者 | 平川

Pinterest 工程師開發了 一套名為「最小重要查詢參數集」(MIQPS)的 URL 標準化系統,旨在優化其大規模數據採集管道中的內容去重處理。該系統用於判斷哪些 URL 查詢參數會影響頁面標識並且應該予以保留,哪些可以視為非必要參數並且可以安全地移除。其目標是在保持數據採集準確性的同時,減少數百萬個域名中重複內容的處理工作。

該系統部署於 Pinterest 的內容採集基礎設施中,負責處理來自各類商家和發佈商網站的 URL。其中許多 URL 指向同一底層頁面,但因為包含不同的跟蹤參數、活動標識符、會話令牌及其他查詢字符串變量而存在差異。儘管下游系統最終能夠檢測到重複內容,但每個 URL 變體仍然會產生獨立的抓取、渲染和索引成本,這在規模比較大時會增加基礎設施的開銷。

多個帶有不同查詢參數的 URL 均指向同一底層產品(圖片來源: Pinterest 博客) 多個帶有不同查詢參數的 URL 均指向同一底層產品(圖片來源: Pinterest 博客

在 LinkedIn 上的一篇 博文 中,Pinterest 軟件工程師 Shanhai Liao 着重說明了該問題的嚴重性:

這個問題看上去微不足道,但當你像 Pinterest 這樣運營在數百萬個商家域名上時,它們的 URL 規範千差萬別,問題就會變得十分棘手。靜態白名單隻適用於主流平臺,對於長尾場景,我們需要更智能的解決方案。

為解決這一問題,MIQPS 取代了傳統的基於規則的 URL 規範化方法。傳統方法依賴於人工維護的白名單、黑名單或特定於域的啓發式規則。對於 URL 結構不一致的異構長尾域名,這些方法難以實現規模化應用。相反,MIQPS 採用數據驅動的方法,通過評估移除查詢參數是否會改變頁面渲染內容來判斷。如果內容變化超過預設閾值,該參數將被歸類為重要參數並予以保留;否則便視為噪聲並在規範化過程中將其移除。

該系統的運作原理是:首先從 Pinterest 的數據採集管道中收集大量的 URL,並根據查詢參數的模式對其進行分組。隨后,該系統渲染頁面並生成內容指紋,比較移除單個參數所產生的影響。這使得該系統能夠基於觀察到的內容行為來推斷參數的重要性,而非依賴預定義的規則或規範標籤等元數據。Pinterest 指出,規範標籤往往缺失、不一致,或混入了跟蹤參數,因此無法作為大規模去重工作的可靠依據。

端到端系統架構 (圖片來源: Pinterest 博客) 端到端系統架構 (圖片來源: Pinterest 博客

MIQPS 使用一組可調參數來控制不匹配閾值和最小樣本量。爲了提高效率,它採用了早期退出邏輯:經過有限次測試后,如果不匹配率超過閾值,便停止評估,從而避免不必要的頁面渲染。此外,當數據不足時,它會採用保守的默認設置,將參數視為非中立參數。輸出結果是一個參數重要性映射,存儲在配置服務中,可以在運行時與靜態規則一同應用。MIQPS 通過異常檢測機制進行保護,它會拒絕導致重要參數降級的更新,同時可以安全地向非中立參數集添加新參數。

該架構將離線分析與運行時處理分離。耗時的內容渲染和參數評估在離線環境中進行,而運行時系統在處理 URL 時應用預先計算好的規則。Pinterest 指出,通常來説,URL 結構演變緩慢,因此,對於大規模數據攝取系統而言,離線計算是在數據時效性、成本和運維複雜性之間的一種務實的權衡。

責任編輯:宋雅芳

風險及免責提示:以上內容僅代表作者的個人立場和觀點,不代表華盛的任何立場,華盛亦無法證實上述內容的真實性、準確性和原創性。投資者在做出任何投資決定前,應結合自身情況,考慮投資產品的風險。必要時,請諮詢專業投資顧問的意見。華盛不提供任何投資建議,對此亦不做任何承諾和保證。