從 AgentGPT 到 Reworkd
Reworkd 的創始人去年因推出 AgentGPT 而在 GitHub 上爆紅,這款免費工具讓用戶能夠創建自動化 AI 代理,僅在一週內就吸引了超過 10 萬名日活用戶。然而,隨著用戶量的急劇增加,API 調用成本也隨之飆升,每天高達 $2000。這迫使 Asim Shrestha、Adam Watkins 和 Srijan Subedi 在短時間內迅速成立 Reworkd,並通過獲得資金來應對這一挑戰。最終,他們決定將公司重點轉向網頁抓取,利用 AI 技術來從公共網頁中提取結構化數據。

Reworkd
Reworkd 的網頁抓取技術
Reworkd 的 AI 代理能夠自動生成代碼來抓取特定網站上的數據,這在傳統上需要人工進行大量的定制工作。客戶可以提供一個包含數百或數千個網站的清單,並指定他們需要的數據類型,Reworkd 的代理就能夠完成這項工作,並將數據轉化為結構化格式。例如,如果你需要每個 NFL 球員的數據,而每個球隊的網站布局不同,Reworkd 的代理可以自動生成抓取每個網站數據的代碼,節省大量的時間和人力成本。
這種技術不僅提高了效率,還降低了成本,使得更多企業能夠利用公共網絡數據來訓練和優化他們的 AI 模型。根據 Bright Data 的最新報告,2024 年組織使用公共網頁數據的首要原因是建立 AI 模型,這顯示出對這類技術的強烈需求。
法律與道德的挑戰
儘管網頁抓取技術在技術上具有革命性,但在法律和道德方面也面臨挑戰。AI 時代的到來使得大規模數據抓取成為可能,但這也引發了關於知識產權和數據隱私的爭議。Reworkd 嚴格遵循只抓取公開可用的信息,避免進入需登錄的網站,並選擇性地避免抓取新聞內容,以減少可能的版權爭議。
這種謹慎的做法可能會幫助 Reworkd 避免法律糾紛。最近的一些法律案例,例如 Bright Data 從 Facebook 和 Instagram 抓取數據的案例,法院裁定這些數據是公開的,因此可以合法抓取,這為 Reworkd 的運營提供了一些法律依據。然而,法律環境依然複雜且變化多端,Reworkd 需要不斷監測並適應這些變化,以確保其業務的合規性。
投資與市場潛力
Reworkd 已經吸引了來自 Y Combinator、Paul Graham、AI Grant、SV Angel、General Catalyst 和 Panache Ventures 等知名投資者的資金支持。這些投資者相信,隨著 AI 技術的進步,Reworkd 的技術將會不斷改進並變得更加經濟實惠。特別是 OpenAI 最近推出的 GPT-4o 模型,使得多模態代碼生成技術達到了一個新的高度,這些創新可能會使 Reworkd 在市場上更具競爭力。
Reworkd 的技術具有“自我修復”功能,這意味著其網頁抓取工具不會因為網頁更新而崩潰。該公司還開發了 Banana-lyzer,一個開源評估框架,用於定期評估其抓取代碼的準確性,這有助於避免傳統上 AI 模型的錯誤問題。這種技術優勢使得 Reworkd 能夠在市場上占據一席之地,並吸引了大量需要高質量結構化數據的企業客戶。

AI 代理的潛力
隨著 AI 技術的不斷進步,AI 代理在未來將會帶來巨大的變革。首先,AI 代理能夠自動執行大量繁瑣的數據抓取和處理任務,這將大幅提升企業的運營效率。企業可以將更多資源投入到創新和核心業務上,而不是浪費在數據收集和整理上。其次,AI 代理能夠處理更大規模和更多樣化的數據,這將有助於企業在競爭中獲得優勢。高質量的數據是訓練和優化 AI 模型的基礎,AI 代理能夠幫助企業獲取這些數據,從而提高 AI 模型的準確性和效能。
此外,AI 代理還可以幫助企業更好地理解和利用公共數據。隨著互聯網上可用數據的增加,如何有效地抓取、處理和利用這些數據成為一個巨大的挑戰。AI 代理能夠自動化這些過程,幫助企業從大量的公共數據中挖掘有價值的信息。最後,AI 代理的發展將促進數據科學和機器學習的進一步發展。隨著數據獲取的自動化,數據科學家和工程師可以將更多精力投入到模型的開發和優化上,而不是數據收集和清理。這將加速 AI 技術的進步,並推動更多創新的應用和解決方案的出現。
Reworkd 的轉型和 AI 代理技術的發展展示了這一領域的巨大潛力。隨著技術的不斷進步和市場需求的增長,AI 代理有望在未來成為企業數據獲取和處理的重要工具,並推動各行各業的數字化轉型和創新發展。
文章來源:After AgentGPT’s success, Reworkd pivots to web-scraping AI agents