馬斯克開源 X 平台推薦算法:從人工特徵到 Grok Transformer 的徹底重構
深入解析馬斯克開源的 X (原 Twitter) 推薦算法代碼,探討其基於 Grok Transformer 的零人工特徵工程架構,以及這場社交媒體透明化革命對行業的深遠影響。
馬斯克開源了 X(原 Twitter)平台的推薦算法代碼。
這不是象徵性的開源,而是把核心流量分發邏輯完全公開了。更重要的是,X 的工程團隊確認:新版算法已經全面轉向 Transformer 架構,不再依賴傳統的人工特徵工程。
X 成為首個將核心流量分發邏輯完全透明化的主流社交平台。正如馬斯克所言:「我們知道這個算法很笨,需要大幅改進,但至少你可以看到我們實時且透明地努力讓它變得更好。」
關鍵要點
- 全面開源:X 平台正式公開推薦算法代碼,核心邏輯完全透明化。
- 架構重構:底層架構全面轉向基於 Grok 的 Transformer 模型,實現零人工特徵工程。
- 雙階段流程:推薦系統由「召回(Thunder/Phoenix Retrieval)」與「評分(Phoenix 評分器)」兩大階段組成。
- 權重公開:用戶行為(點贊、轉發、拉黑)的具體權重計算公式被揭示。
- 持續迭代:承諾每四週更新一次代碼,並根據社區反饋持續優化。
1. 告別人工特徵:推薦系統的範式轉移
傳統的推薦系統往往依賴於大量的人工編寫規則和啟發式算法。工程師們需要手動定義什麼是「好內容」,並為不同的特徵分配權重。X 的新版算法打破了這一傳統。
1.1 零人工特徵工程
根據開源文檔,新系統最重要的設計決策是「零人工特徵工程」。這意味著系統不再依賴工程師主觀定義的規則,而是完全依賴基於 Grok 的 Transformer 模型。
- 數據驅動:模型通過學習用戶的歷史交互數據(點贊、回覆、轉發等),自動判斷內容的相關性。
- 端到端學習:從原始數據輸入到最終推薦結果,中間不再有人工干預的特徵提取環節。
這種轉變使得系統能夠更靈活地適應用户行為的變化,而不是受限於過時的硬編碼規則。
1.2 基於 Grok 的 Transformer 架構
新算法的核心是基於 xAI 的 Grok-1 修改版的大模型。Grok-1 本身是一個擁有 3140 億參數的混合專家(MoE)模型,具備強大的文本理解和推理能力。
- 注意力機制:利用 Transformer 的注意力機制,模型能夠直接預測用户對某條帖子做出特定動作的概率。
- 多目標預測:模型不僅預測正向行為(點贊、回覆),也預測負向行為(拉黑、舉報),從而實現更精準的個性化推薦。
2. 解密 For You 時間線:從海量推文到個性化屏幕
當你打開 X 的「For You」時間線時,後台發生了一系列複雜的計算。整個流程主要分為兩個關鍵階段:「召回」與「評分」。
2.1 第一階段:召回 (Candidate Generation)
這一階段的目標是從數億條推文中篩選出幾千條候選內容。內容主要來自兩個源頭:
-
站內信源 (In-Network):
- 由代號為「Thunder」的內部網絡系統負責。
- 實現毫秒級檢索用户關注賬號的最新動態。
- 使用邏輯回歸模型進行初步過濾。
-
站外信源 (Out-of-Network):
- 由代號為「Phoenix Retrieval」的外部網絡系統負責。
- 利用機器學習在全球語料庫中挖掘用户未關注但可能感興趣的潛在內容。
- 社交圖譜分析:分析「你關注的人也關注了誰」來發現相關內容。
- 嵌入空間 (Embedding Spaces):利用 SimClusters 技術將用户和推文劃分到不同的社區中,基於社區興趣進行推薦。
2.2 第二階段:評分
經過初步篩選的海量候選帖子,會被送入 Phoenix 評分器。這是一個基於 Grok 架構的深度學習模型。
- 概率預測:模型不依賴預設標籤,而是直接計算用户對每條帖子產生交互的概率。
- 加權計算:系統將預測出的各種動作概率乘以相應的權重,得出最終得分。
- 正收益:點贊、轉發、回覆、點擊進入對話。
- 負收益:拉黑、舉報、點擊「不感興趣」。
最終,得分最高的帖子將優先展示在用户的屏幕上。
3. 過濾與多樣性:保障用户體驗
為了防止算法走向極端,系統在評分前後都設有嚴密的過濾機制。
3.1 評分前過濾
- 移除重複內容。
- 過濾已讀推文。
- 排除來自已拉黑賬號的內容。
- 識別並過濾 NSFW(不適宜工作場所)內容。
3.2 評分後過濾與可見性控制
- 已刪除內容過濾:確保推薦的帖子未被作者刪除。
- 違規信息過濾:剔除違反平台政策的內容。
- 作者多樣性:這是保證時間線豐富度的關鍵機制。系統會限制同一創作者的內容連續出現,防止刷屏現象,確保用户能看到來自不同聲音的觀點。
4. 行業影響與未來展望
馬斯克的開源舉措對社交媒體行業影響重大。
4.1 透明化的力量
長期以來,社交媒體的推薦算法一直被視為商業機密,也是公眾質疑的焦點。X 的開源行為打破了這一黑盒,讓公眾、研究人員和開發者有機會審視代碼,監督平台的運作。這對於建立用户信任、緩解算法偏見具有重要意義。
4.2 開源社區的參與
目前的開源版本包含核心推薦邏輯、Rust 編寫的候選處理管道以及詳細的架構文檔。馬斯克承諾每四週進行一次開源更新,這意味著全球的開發者都可以參與到 X 算法的優化中來。這種集體智慧的模式,可能會加速算法的迭代與進化。
4.3 對競爭對手的壓力
X 的做法可能會給 Facebook、TikTok 等其他社交巨頭帶來壓力。在用户日益關注數據隱私和算法透明度的今天,是否跟進開源,將成為這些平台必須面對的問題。
總結與展望
X 平台推薦算法的開源,是 AI 和社交媒體領域的一次大膽嘗試。從不再使用人工特徵到全面擁抱 Transformer 架構,X 展示了其技術重構的決心。雖然目前的算法可能還不完美,正如馬斯克所承認的那樣「很笨」,但透明化本身就是一種重要的進步。
對開發者來說,這是研究大規模推薦系統的好機會。代碼已經在 GitHub 上了,可以直接看 Rust 寫的候選處理管道和 Transformer 的實際應用。
至於能不能真的做到「透明且公平」,還得看後續的迭代。
免責聲明:本文基於公開的開源文檔和媒體報導撰寫,旨在進行技術分析與探討。算法細節可能會隨 X 平台的更新而發生變化,請以官方 GitHub 倉庫的最新代碼為準。
參考資源
- GitHub - xai-org/x-algorithm: X 平台推薦算法官方開源倉庫。
- 剛剛,馬斯克開源 𝕏 平台推薦算法: 微信公眾號文章,詳細報導了開源事件及核心架構。
- xAI Grok-1 Model Card: 關於 Grok 模型架構的技術文檔。
- Twitter’s Recommendation Algorithm: 早期 Twitter 關於推薦算法的技術博客(用於對比架構演進)。
分享文章
留言評論
0 則評論暫無評論,搶先發表你的看法吧!
相關文章
代碼裡的秘密:DeepSeek 新架構「MODEL1」深度解讀與 V4 預測
DeepSeek 的 GitHub 代碼庫悄然更新,洩露了神秘的「MODEL1」標識符。這不僅僅是一個版本號的更迭,更預示著底層架構在 KV 緩存、稀疏性處理上的重大重構。本文將從代碼層面剖析這次洩露的技術細節,結合最新的 Engram 論文,預測即將到來的 DeepSeek V4 究竟有多強。
Claude Cowork 曝重大安全隱患:你的本地文件可能正被「合法」偷走
Anthropic 最新發布的 Claude Cowork 代理功能被發現存在嚴重的間接提示注入漏洞。攻擊者可利用隱藏在文檔中的指令,繞過沙箱限制,將用戶的敏感本地文件上傳至攻擊者的帳戶。本文深度拆解攻擊鏈路、技術原理及防禦策略。
Google DeepMind D4RT 發布:當 AI 終於學會像人類一樣「腦補」4D 世界,速度還快了 300 倍
Google DeepMind 最新發布的 D4RT 模型,透過統一的 Transformer 架構解決了計算機視覺中的「聖杯」問題:動態 4D 場景重建。本文深度解析其「查詢式」架構如何將處理速度提升 300 倍,並探討其對機器人、AR 及世界模型發展的真實影響。