SynapseWire

馬斯克開源 X 平台推薦算法:從人工特徵到 Grok Transformer 的徹底重構

深入解析馬斯克開源的 X (原 Twitter) 推薦算法代碼,探討其基於 Grok Transformer 的零人工特徵工程架構,以及這場社交媒體透明化革命對行業的深遠影響。

作者: AI Tech Team 發布於:
X 平台推薦算法架構與 Grok Transformer 示意圖

社交媒體的黑盒子終於被打開了一角。就在剛剛,馬斯克正式兌現承諾,宣佈開源 X(原 Twitter)平台的推薦算法代碼。這不僅是技術圈的一次地震,更是社交媒體發展史上的一個里程碑。X 工程團隊確認,新版算法已完成底層重構,全面採用了與 xAI 的 Grok 模型相同的 Transformer 架構,徹底摒棄了傳統的人工特徵工程。

這一舉措標誌著 X 成為首個將核心流量分發邏輯完全透明化的主流社交平台。正如馬斯克所言:「我們知道這個算法很笨,需要大幅改進,但至少你可以看到我們實時且透明地努力讓它變得更好。」

關鍵摘要 (Key Takeaways)

  • 全面開源:X 平台正式公開推薦算法代碼,核心邏輯完全透明化。
  • 架構重構:底層架構全面轉向基於 Grok 的 Transformer 模型,實現「零人工特徵工程」。
  • 雙階段流程:推薦系統由「召回(Thunder/Phoenix Retrieval)」與「評分(Phoenix 評分器)」兩大核心階段組成。
  • 權重公開:用戶行為(點贊、轉發、拉黑)的具體權重計算公式被揭示。
  • 持續迭代:承諾每四週更新一次代碼,並根據社區反饋持續優化。

1. 告別人工特徵:推薦系統的範式轉移

傳統的推薦系統往往依賴於大量的人工編寫規則和啟發式算法。工程師們需要手動定義什麼是「好內容」,並為不同的特徵分配權重。然而,X 的新版算法徹底打破了這一傳統。

1.1 零人工特徵工程 (Zero Manual Feature Engineering)

根據開源文檔,新系統最核心的設計決策是「零人工特徵工程」。這意味著系統不再依賴工程師主觀定義的規則,而是完全依賴基於 Grok 的 Transformer 模型。

  • 數據驅動:模型通過學習用戶的歷史交互數據(點贊、回覆、轉發等),自動判斷內容的相關性。
  • 端到端學習:從原始數據輸入到最終推薦結果,中間不再有人工干預的特徵提取環節。

這種轉變使得系統能夠更靈活地適應用户行為的變化,而不是受限於過時的硬編碼規則。

1.2 基於 Grok 的 Transformer 架構

新算法的核心是基於 xAI 的 Grok-1 修改版的大模型。Grok-1 本身是一個擁有 3140 億參數的混合專家(MoE)模型,具備強大的文本理解和推理能力。

  • 注意力機制:利用 Transformer 的注意力機制,模型能夠直接預測用户對某條帖子做出特定動作的概率。
  • 多目標預測:模型不僅預測正向行為(點贊、回覆),也預測負向行為(拉黑、舉報),從而實現更精準的個性化推薦。

2. 解密 For You 時間線:從海量推文到個性化屏幕

當你打開 X 的「For You」時間線時,後台發生了一系列複雜的計算。整個流程主要分為兩個關鍵階段:「召回」與「評分」。

2.1 第一階段:召回 (Candidate Generation)

這一階段的目標是從數億條推文中篩選出幾千條候選內容。內容主要來自兩個源頭:

  1. 站內信源 (In-Network)

    • 由代號為「Thunder」的內部網絡系統負責。
    • 實現毫秒級檢索用户關注賬號的最新動態。
    • 使用邏輯回歸模型進行初步過濾。
  2. 站外信源 (Out-of-Network)

    • 由代號為「Phoenix Retrieval」的外部網絡系統負責。
    • 利用機器學習在全球語料庫中挖掘用户未關注但可能感興趣的潛在內容。
    • 社交圖譜分析:分析「你關注的人也關注了誰」來發現相關內容。
    • 嵌入空間 (Embedding Spaces):利用 SimClusters 技術將用户和推文劃分到不同的社區中,基於社區興趣進行推薦。

2.2 第二階段:評分 (Scoring)

經過初步篩選的海量候選帖子,會被送入核心的 Phoenix 評分器。這是一個基於 Grok 架構的深度學習模型。

  • 概率預測:模型不依賴預設標籤,而是直接計算用户對每條帖子產生交互的概率。
  • 加權計算:系統將預測出的各種動作概率乘以相應的權重,得出最終得分。
    • 正收益:點贊、轉發、回覆、點擊進入對話。
    • 負收益:拉黑、舉報、點擊「不感興趣」。

最終,得分最高的帖子將優先展示在用户的屏幕上。

3. 過濾與多樣性:保障用户體驗

為了防止算法走向極端,系統在評分前後都設有嚴密的過濾機制。

3.1 評分前過濾

  • 移除重複內容。
  • 過濾已讀推文。
  • 排除來自已拉黑賬號的內容。
  • 識別並過濾 NSFW(不適宜工作場所)內容。

3.2 評分後過濾與可見性控制

  • 已刪除內容過濾:確保推薦的帖子未被作者刪除。
  • 違規信息過濾:剔除違反平台政策的內容。
  • 作者多樣性 (Author Diversity):這是保證時間線豐富度的關鍵機制。系統會限制同一創作者的內容連續出現,防止刷屏現象,確保用户能看到來自不同聲音的觀點。

4. 行業影響與未來展望

馬斯克的這一開源舉措,無疑給社交媒體行業投下了一顆震撼彈。

4.1 透明化的力量

長期以來,社交媒體的推薦算法一直被視為商業機密,也是公眾質疑的焦點。X 的開源行為打破了這一黑盒,讓公眾、研究人員和開發者有機會審視代碼,監督平台的運作。這對於建立用户信任、緩解算法偏見具有重要意義。

4.2 開源社區的參與

目前的開源版本包含核心推薦邏輯、Rust 編寫的候選處理管道以及詳細的架構文檔。馬斯克承諾每四週進行一次開源更新,這意味著全球的開發者都可以參與到 X 算法的優化中來。這種「集體智慧」的模式,可能會加速算法的迭代與進化。

4.3 對競爭對手的壓力

X 的做法可能會給 Facebook、TikTok 等其他社交巨頭帶來壓力。在用户日益關注數據隱私和算法透明度的今天,是否跟進開源,將成為這些平台必須面對的問題。

總結與展望

X 平台推薦算法的開源,是 AI 和社交媒體領域的一次大膽嘗試。從摒棄人工特徵到全面擁抱 Transformer 架構,X 展示了其技術重構的決心。雖然目前的算法可能還不完美,正如馬斯克所承認的那樣「很笨」,但透明化本身就是一種巨大的進步。

隨著社區的參與和持續的迭代,我們有理由期待一個更加智能、透明且公平的社交媒體推薦系統的誕生。對於開發者而言,這也是一個研究大規模推薦系統和 Transformer 實際應用的寶貴資源。


免責聲明:本文基於公開的開源文檔和媒體報導撰寫,旨在進行技術分析與探討。算法細節可能會隨 X 平台的更新而發生變化,請以官方 GitHub 倉庫的最新代碼為準。

參考資源

  • GitHub - xai-org/x-algorithm: X 平台推薦算法官方開源倉庫。
  • 剛剛,馬斯克開源 𝕏 平台推薦算法: 微信公眾號文章,詳細報導了開源事件及核心架構。
  • xAI Grok-1 Model Card: 關於 Grok 模型架構的技術文檔。
  • Twitter’s Recommendation Algorithm: 早期 Twitter 關於推薦算法的技術博客(用於對比架構演進)。