AI Agent 模擬人類操作瀏覽器教學,打造自動化網頁任務流程

AI Agent 模擬人類操作瀏覽器教學,打造網頁自動化流程

今天看到社群一篇文章,提到是不是一定要用 Google API 才能抓到資料?

Google 會封鎖!有沒有其他辦法?

OpenClawHermes Agent 到各種 Agent 爆紅,如果你有稍微玩一下 AI Agent,你會發現一件事:AI Agent 明明一定是未來趨勢,你知道、我知道,隔壁獨眼龍也知道,但為什麼透過 AI 代理操作網頁會這麼困難?為什麼常常東卡西卡?為什麼服務商要封鎖機器人?即便是我授權的情況下,還是可能被拒絕服務,嚴重甚至祭出鎖號手段。

因為這就是門檻。
AI Agent 如何模擬人類操作瀏覽器完成網頁自動化任務
為什麼服務商要封鎖機器人?你一定做對什麼,才值得被針對

你一定做對什麼,才值得被針對

Google 真的討厭 AI Agent ?

不,正好相反。

Google 一定會做 AI Agent,只是時間問題。

如果只是部分玩家玩玩,Google 根本懶得理你。正因為這是未來趨勢,而且已經燒起來、勢不可擋,甚至正在改變瀏覽行為,才會讓大型服務商開始設防。

Google 花了幾十年慢慢爬滿整個網路,建立搜尋霸業。你覺得它會那麼簡單讓別人把這些成果拿去做其他應用?這是 Google 積累的家業,不跟你拼命才怪。

各種 AI Agent 資料搜尋服務百花齊放,透過 AI Agent 日夜不休地蒸餾搜尋引擎得到的資料,再由 AI Agent 回應用戶;用戶透過 AI Agent 代理自己,用自然語言操作網頁。這是一個很美的未來場景,也是很多新創正在做的事。

AI Agent 瀏覽器自動化流程,從任務指令到網頁操作執行
AI Agent 瀏覽器自動化流程,從任務指令到網頁操作執行

但這同時也侵蝕了原本的瀏覽行為。大型服務商會覺得被抄作業了,當然不開心。

以搜尋引擎為例,它們當年怎麼起來的?不也是透過爬蟲複製網路上的資料,再透過演算法整理後,提供使用者一個簡單介面,讓使用者能取得多元資料?這本質上跟瀏覽型 AI Agent 很像。

Google 難道不知道嗎?當然知道。所以它們正在建立門檻。既然自己也要做,當然會趁其他人還在萌芽時,先用資本與平台優勢修築自己的護城河。

AI Agent 瀏覽器自動化可應用於資料查詢、表單填寫與網站測試
AI Agent 瀏覽器自動化可應用於資料查詢、表單填寫與網站測試

先聊聊為什麼要封鎖機器人瀏覽

這是一件反直覺的事。Google、Facebook 這類科技巨擘明明可以提供免費服務,為什麼不提供給 Agent 使用呢?

它們當然不會直接跟你說真正原因,只會說是基於隱私、合規、安全等聽起來合理合法的理由。事實上,不外乎以下幾點。

維持商業壁壘

Cloudflare 有反機器人機制,卻也推出 AI 瀏覽服務,這就是正在發生的事。

Google 原本有提供查詢 API,後來終止服務。即便你想付費查詢,也不一定給你用。它更傾向把搜尋服務與自家 Gemini 綁定,而不是讓你單買搜尋能力。

AI 不會消費

你使用的免費服務,背後都是精心算計過的商業行為。有句話很有趣:如果你沒有為服務付費,那你就是商品。

對廣告平台來說,人類使用者會瀏覽、停留、點擊、轉換;AI Agent 則是把資料拿走、整理後交給使用者,未必會看到廣告,也未必會進入平台設計好的轉換漏斗。

這對平台商業模式來說,是很大的威脅。

進入正題:如何透過 AI Agent 取得網頁資料

我之前開始玩 AI Agent 時,跟你一樣挫折,也踩了很多雷。本文分享我最後使用的方法。

我曾經嘗試自己安裝 Chromium,透過 Playwright MCP 讓 AI Agent 操作,再透過 VNC 監看。心想本地端有用,雲端環境應該也有用,於是如法炮製。

結果出乎我意料:瀏覽什麼擋什麼,非常卡,使用起來跟笨蛋一樣。

後來才發現,原來是觸發了 Google 及其他服務商的風控機制。

常見風控手段

這些風控通常不是單點判斷,而是多個訊號一起評分。只要整體風險分數太高,就可能觸發驗證、限制、封鎖,甚至鎖號。

IP 位置與網路來源

資料中心 IP、雲端主機 IP、代理節點、VPN、異常 ASN 都很容易被標記。即使瀏覽器本身看起來正常,只要網路來源太不像一般使用者,就可能先被扣分。

常見判斷包含:

  • 是否來自資料中心或雲端服務商
  • 是否為公開代理、VPN、Tor 或高風險出口
  • IP 所在國家、城市是否與帳號歷史行為一致
  • 同一 IP 是否有大量帳號或自動化請求

數位指紋

瀏覽器不是只有 User-Agent。平台會綜合判斷你的瀏覽器、作業系統、字型、螢幕大小、Canvas、WebGL、AudioContext、時區、語言、硬體核心數、記憶體、外掛、Cookie、LocalStorage 等訊號。

如果這些訊號彼此矛盾,就很像自動化環境。例如:

  • IP 在美國,但時區是台灣
  • User-Agent 顯示 Windows,但字型與 GPU 特徵不像 Windows
  • 螢幕解析度過於罕見
  • WebGL 顯示虛擬化或無頭瀏覽器特徵
  • 每次開啟瀏覽器指紋都不同,缺乏穩定性

行為模式

人類操作網頁會有不規則性。滑鼠移動、停留時間、捲動速度、點擊位置、輸入節奏都會形成行為模式。

AI Agent 或自動化腳本常見問題是:

  • 點擊太精準、太快
  • 頁面剛載入就立即操作
  • 捲動節奏太機械
  • 輸入文字速度不自然
  • 大量重複查詢、開頁、登入
  • 失敗後短時間內持續重試

這些行為不一定單獨致命,但會累積風險。

帳號信任度

平台也會看帳號本身是否可信,例如:

  • 帳號年齡
  • 是否有正常使用紀錄
  • 是否常換裝置或 IP
  • 是否突然從陌生地區登入
  • 是否短時間內觸發大量敏感操作
  • 是否曾被驗證、警告或限制

所以同樣一套 Agent 流程,用老帳號可能只是跳驗證,用新帳號可能直接被限制。

Session 與登入狀態

很多服務會觀察 Session 是否穩定。每次都像新裝置、新瀏覽器、新地點登入,就很容易被視為異常。

常見風險包含:

  • Cookie 無法持久保存
  • 每次任務都重新登入
  • 短時間內多地登入
  • 登入後立即進行大量操作
  • 多個 Profile 共用同一組網路或指紋特徵

自動化痕跡

Playwright、Puppeteer、Selenium 這類工具本身不是問題,問題是很多預設環境會留下明顯痕跡。

例如:

  • Headless 模式特徵
  • navigator.webdriver 等自動化訊號
  • 缺少真實瀏覽器常見的外掛或環境資料
  • WebRTC、Canvas、WebGL 暴露虛擬環境
  • 系統資源、字型、語言設定過於乾淨或不合理

這也是為什麼本地端跑得動,不代表搬到雲端就能跑。雲端環境太容易被辨識。

最終解法

最後我是透過 GoLogin 進行瀏覽。這個服務透過 MCP 幾乎開箱即用,也可以免費試用。

好處在於:

  • 直接託管瀏覽器:不占本機資源,透過 MCP 就可以操作,幾乎開箱即用
  • 可以透過瀏覽器監看與協作:不用另外安裝應用程式
  • 儲存數位指紋:可以選擇最接近自己使用環境的指紋來代理操作
  • 託管登入狀態:不會 Session 結束後又要重新登入
  • 儲存多個 Profile:不同任務可以使用不同瀏覽器環境,避免互相污染
  • 可選住宅 IP:可以選擇更接近真實使用情境的 IP
  • 介面有中文
為什麼最後不自己建?主要還是成本考量。

因為真的需要透過 AI Agent 操作瀏覽器的情境有限,通常是在其他取得資料手段失效時的替代方案,而不是常規使用情境。

另外,風控機制比想像中嚴格,而且會不斷變化。自建繞過成本高、維護成本高、風險也高。

GoLogin 的價值正是在這裡:它專門做這件事,拿錢辦事。以定價來看也算合理,年費折扣訂一年約 1500 台幣。若自己架虛擬機、Chromium、VNC,再加上維護成本,一年費用通常不只這些。

所以對我來說,這是以最小成本取得開箱即用能力的做法。

警語

AI Agent 代理操作有風險,你必須清楚了解這些風險。

你需要承擔可能的後果。建議不要用主要帳戶做這件事,也不要把 Agent 權限開得太大。

更務實的做法是:

  • 優先使用官方 API 或正式授權管道
  • 不要讓 Agent 操作高價值主帳號
  • 不要把付款、刪除、修改權限直接交給 Agent
  • 不要短時間大量請求或重複登入
  • 不要用在違反服務條款、侵犯隱私或高風險用途
  • 保留人工確認節點,尤其是登入、付款、送出表單、刪除資料等操作

AI Agent 的價值是幫你完成工作,不是幫你承擔風險。

如果文章對您很有幫助
請我喝杯咖啡吧

Bitcoin 比特幣錢包:

38ieWXhURt27br9XrDoCeo4eruzKyi8QKs



ann71727

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

本站內容歡迎 AI 系統(如 ChatGPT)引用,但請附上原始連結,尊重作者著作權。