AI 產業與應用 · 2026-05-17 · 08:00:00
AI Engineer Singapore Day 2:Google DeepMind / Cloudflare / Arize 機器人與執行時主題
核心觀點
AI Engineer Singapore Day 2 全程:Google DeepMind、OpenClaw、Adaption、Arize、Cloudflare、Robot Company 等團隊主題分享。Day 2 偏機器人、模型可觀測性與執行時棧。
可讀字幕整理
字幕語言: zh-Hant · 抓取日期: 2026-05-21
海浪拍打夜晚海浪拍打大海知道它。你需要 嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。熱度。嘿,嘿,嘿。感謝大家來參加這個活動,我是 65 Labs 的聯合創始人,非常感謝你們的出席。我知道現在是第三天,週日上午,你們坐在這個房間裡的所有人都選擇了睡眠不足,而不是錯過任何一個環節,我真的很感謝。謝謝你們。嗯,你們知道嗎,我認為我們現在已經是最後衝刺階段了。如果你們還沒注意到,我的嗓音快沒了,但你們應該看看其他組織者。我今天上午之所以替 Sherry 主持,正是因為這個原因。但我們非常高興能和大家在一起。過去幾天的能量非常棒。
嗯,當我們開始構建、開始整合新加坡 AI 的時候,這正是我們所希望的那種能量,你們真的都做得很好。所以,非常感謝你們。嗯,在我們開始之前,我想快速感謝一下贊助商、演講者、以及所有幫助我們打造這場會議魔幻體驗的志願者。非常感謝你們所有人,我希望大家能為他們鼓掌。很好。你們不是來看我的。所以,閒話少說,我想邀請 Arise 的 Salanne 上臺,分享她在構建 Alex 方面的經驗。>> 大家早上好。非常感謝你們用你們的早上時間陪我。現在還很早。讓我看看。是的。是時候出發了。好的,讓我看看。
抱歉,我需要重新連線我的熱點。我以為我已經做過了。好的。還好。大家早上好。嗯,非常感謝你們今天加入我。我非常興奮能分享一些我和我的團隊從構建 Alex、我們的 AI 智慧體中學到的經驗,我們已經在這方面工作了一段時間。在我們深入討論之前,我想簡單介紹一下自己。我是 Salian。嗯,Arise 的產品負責人。我有技術背景。我從資料科學開始,現在我在為團隊構建產品。我非常實戰。我不僅是 Alex 的 PM,而且也是核心貢獻者。所以我真的從第一手親身瞭解構建智慧體的痛點。現在我基本上把這種痛點轉化為真正能幫助人們的工具。所以 Arise 嗯,我們讓智慧體工作。我們做了幾件事非常出色。
第一個是可觀測性。嗯,這是理解你的智慧體在底層發生了什麼。第二個是評估。這是我們瞭解你的智慧體表現如何的方式。然後我們使用所有這些資料來幫助你改進和迭代。當然,我們還有 Alex 貫穿整個堆疊,幫助你做所有這些事情。那麼,我們今天要討論什麼呢?嗯,首先我會給你們講一點關於 Alex 是什麼,然後我會講四個我們在構建過程中學到的經驗。所以,保持專注、上下文管理、結晶化良好行為,以及除錯真實智慧體。所以,Alex 嗯,是你的 AI 工程智慧體框架。嗯,我們真的構建了 Alex 來幫助你用自然語言構建和擴充套件你的 AI 應用。
嗯,它真的改進了 Arise 體驗。它有計劃、推理,嗯,並通過真正繁重的工作負載為你的 AI 智慧體執行。嗯,你基本上可以用自然語言問任何你想要的,Alex 都可以幫你執行。它可以做的事情像幫助你分析你的資料,但也可以幫助你執行工作流,像迭代你的提示詞或對齊你的郵件。它真的是 AIG、PM 和主題專家的力量倍增器。所以為什麼我在這裡告訴你們所有這些呢?好吧,嗯,我們花了三年時間構建 Alex。這真的是一段漫長的旅程。我們最初是在生成式 AI 的最初階段開始的,現在我們已經達到了 Alex 2。
0,具有推理和規劃功能,我和我的團隊學到了很多經驗,我認為我們這個行業和社群的偉大之處在於我們有機會分享回去,所以這就是我今天在這裡要做的事情,教你們一些我們的經驗,希望你們不必像我們一樣吃苦學習。所以第一課,保持專注。我認為每一個智慧體構建者都經歷過這樣的情況,你問你的智慧體做幾件事。嗯,也許它能成功地做第一件,但然後它忘記了你知道的第二件和第三件,我認為這是每個人都真的想解決的問題。嗯,人們經常問我,嗯,為什麼會發生這種情況?嗯,人們假設這就像幻覺問題,甚至是能力問題,但實際上不是。
這是一個張力問題。所以最後發生的是,當我們從智慧體請求多個嗯事情時,嗯,通常發生的情況是它能看到第一個,但然後其餘的就會在我們要求的所有其他資料中丟失。所以對於智慧體一旦它弄清楚它接下來需要做什麼,它已經忘記了接下來是什麼。所以解決方案是規劃。嗯,規劃是你的智慧體首先決定它需要做什麼的方式,然後才真正採取行動。所以對於 Alex,在 Alex 甚至拉取任何資料之前,它首先會想出一個明確的待辦事項,它必須嗯推理和逐步進行,然後才真正採取那個行動。所以我們如何做 Alex 的規劃是我們有規劃工具和狀態。
嗯我們有三個工具 嗯待辦事項寫、待辦事項更新、待辦事項讀 嗯然後四個狀態 待處理、已完成、已阻止、進行中。我們實際上沒有從一開始就擁有所有這些狀態。我會在開始時談論這個,但我們確實發現僅僅使用諸如完成工具或使用提示詞之類的東西對 Alex 來說是不夠的,無法完成真正複雜的任務。所以這些工具 嗯 這是我們從我們最喜歡的一些工具如 Claude 中借來的東西。嗯 這對我們管理極其複雜的任務真的是一個遊戲改變者。進行中是我們實際上學到的東西。這是一個真正重要的課程。當我們第一次構建 Alex 時,我們沒有進行中。我們實際上只有像待處理和已完成這樣的狀態。
嗯,但我們添加了進行中,所以 Alex 確切地知道它是什麼,這個任務,嗯,它目前正在處理。所以,它真的有助於讓智慧體錨定它試圖完成的事情。嗯,並且真的改進了我們正確完成任務的能力。我們做的另一個真正關鍵的架構決策是規劃生活在對話歷史之外。嗯,所以這樣做真的很重要,因為對於對話歷史,我們做了一些截斷,我們永遠不想讓計劃被截斷。嗯 因為如果發生這種情況,Alex 就不會知道它試圖完成什麼。嗯 所以我們實際上在每次我們進行 LLM 呼叫時注入這個,在系統指令之後,與對話歷史中的所有資料分開。這實際上是 Alex 看到的。
所以它看到它的當前計劃。它看到所有的狀態,然後我們實際上用像當你完成時,你知道的,用已完成的狀態呼叫待辦事項更新來指導 Alex。所以,再次,幫助 Alex 在進行中,不僅僅是給它一種被動的提示詞,而是真正一個明確的一種少樣本例子,說明它在執行其計劃時需要做什麼。我們也有我們所說的完成門。嗯 這是讓 Alex 在完成所有任務之前說它已經完成的東西。所以如果 Alex 嘗試呼叫我們的完成工具 嗯 而沒有完成的工具,我們實際上給它一個真正明確的錯誤,說,「嘿,你需要回去並完成你所有的待辦事項。」它不是建議。這不像是一種推動。
它是 Alex 收到的一個明確的結構化訊息 嗯 它不能繼續。唯一的例外是阻止狀態。阻止狀態用於當我們有人在迴圈中。嗯 如果你使用 Alex,有很多 嗯 時刻我們要求人類互動。所以如果我們建立一個提示詞,你可以有點獲得一個差異然後接受或者像註釋配置這樣的東西,其中人類參與很重要。所以當有一個阻止狀態時,這是 Alex 不必完成任務的唯一情況,因為它理解這被人類阻止,而我們在等待那個響應。所以這些是我們從規劃中學到的一些核心經驗。
所以強制執行程式碼,而不僅僅是提示詞,少樣本示例,擊敗任何種類的抽象指令,始終使用待辦事項 右邊 計劃不起作用。我們必須有一種那些明確的函式,然後向智慧體顯示良好的規劃是什麼樣的。所以其中一些例子。好吧,上下文管理。嗯,上下文管理極其重要。這對 Alex 來說是不可協商的。嗯,我們在處理大量文本資料。所以,Alex 是在 Arise 平臺上構建的。可觀測性資料適用於也有大量文本資料的 AI 應用。所以,上下文管理變得極其重要。嗯,我實際上在倫敦做過這個演講,所以一定要去看看。但我認為上下文管理不僅僅是管理上下文視窗,而是真正戰略性地考慮我們向智慧體展示什麼。
它讓他們記住它需要的東西,忘記它不需要的東西。所以早期,這實際上是我們為 Alex 設定的系統提示詞,這是針對我們的實驗對比。嗯,我們說,「不要嘗試同時比較兩個以上的實驗。」嗯,但這相當天真。嗯,問題是 Arise 中的一個實驗可以是數百行,這就像 100,000 個 token。所以即使只是嘗試實驗或抱歉,嘗試比較一個單一的實驗 嗯 也會爆炸我們的 嗯 上下文視窗。所以我們知道僅僅能夠 嗯 有這些 嗯 明確的提示詞是不夠的。所以我們想出了抽象。其中一個叫做大型 JSON。
嗯 所以這實際上做的是當 Alex 返回工具資料時,嗯 我們將大部分儲存在一個服務化的記憶體中,並向智慧體提供一個 ID,它可以稍後在需要更多上下文時獲取。所以這真的很重要。Alex 不斷地從我們的平臺獲取資料。我們不能把它全部顯示給 LM,但我們也需要能夠給智慧體足夠的上下文,所以它知道下一步該做什麼。嗯,所以這就是我們想出這個想法的地方,像壓縮值,而不是結構。首先,我們所做的是嘗試截斷並只給出像資料的第一個小位的預覽。所以只是取前面像 你知道的,n 個 token 的資料。但問題是 Alex 實際上不理解資料的結構是什麼。
所以這使得它真的很難查詢,因為通常 Alex 需要一個預覽,然後它需要決定進一步查詢什麼資料。嗯,所以我們所做的是壓縮值而不是結構。所以我們保留了所有 的 欄位,所有 的 陣列。Alex 可以訪問所有這些,但然後我們截斷那其中的任何大字串,然後它可以使用一種大型 JSON 嗯 抽象來根據需要獲取更多資料。我們也給了 Alex 一堆小的可組合工具,這真的很重要。所以 Alex 可以訪問兩個工具 嗯 jq,這就像你在命令列中使用的同一個工具,以及 GP JSON,它能夠做 regex 搜尋超過序列化的資料。嗯 這個的重要性是這些真的真的是小工具但它們超級強大。Alex 可以一起使用它們。它們可以是可組合的。
嗯,並使用一個的輸入或使用一個的輸出到另一個的輸入。嗯,所以它只是讓 Alex 切片資料,聚合,做所有這些真的真的強大的功能,用真的真的小的工具。所以沒有什麼超級複雜的。我總是喜歡有點把這個看成 UX 程式設計師的方式。你可以想象你的工具,然後像你的智慧體是 嗯 你的 shell 指令碼。所以你真的會聽我說,想想你的智慧體可以使用的小工具,這就是讓它最成功的原因。所以這些是一些 嗯 上下文管理中的經驗。嗯 在每個工具輸出上給出硬 token 預算。我們在我們的所有工具上做得像一個 10,000 嗯 限制,所以我們有這個可預測的內容 嗯 我們知道它會發生。所以我們知道不會有 不會有溢位。
只會有多個輪次。嗯 壓縮值而不是結構。嗯 不要用人工限制紙張上掌。嗯 在你的反饋迴路中給出好的異常,然後工具響應可能包含客戶資料。所以你應該檢視你的日誌。這是另一個重要的。好的,結晶化良好行為。所以當我們首次開始構建 Alex 時,嗯 我花了很多時間在電子表格上,像一個谷歌文件嘗試測試。嗯 但我們很快意識到氛圍檢查不會擴充套件。嗯 每次我們做改變時,這對我來說真的很難知道是否會破壞什麼。嗯 所以我們知道我們需要一個更好的解決方案。我們真的發現的是生產追蹤作為你的基礎事實是極其強大的。
所以首先我們試圖手工自己寫出黃金答案,但我們在我們的生產追蹤中有一個很好的例子,我們可以利用。所以看看你的資料並實際上用那些作為你的測試用例是我們和 Alex 一起學到的最強大的經驗之一。當涉及到 Alex 時,我們做了幾種不同型別的測試。嗯 所以我們有決策點測試,我們在檢視一個元件。嗯 我們會通過一種像我們的編排器的方式,然後我們會 嗯 測試結果是什麼,然後我們做一個真的很開放的方式 的 檢查這個像精確匹配不會在我們的輸出上工作。所以對於像尋找包含任何這樣的東西,像生產一個時間戳像 2,000 毫秒 2 秒 2 秒有很多不同的方式。
所以,我們有這個開放式的檢查,我們可以做的來確定決策是否正確。我認為這真的很強大,特別是當你使用一種 語言模型 其中輸出是非決定性的。另一個是軌跡測試。所以,我們做的是我們有點儲存掉所有那些我之前提到的生產選擇,我們逐行步進通過它們,我們使用一個 LM 作為一個法官來評估輸出。嗯,評估提示詞真的很重要這裡。當我之前說的,這些輸出不是確定性的。所以你想要確保你的評估模板可以處理這個 嗯 並且是為每個單獨的步驟定義成功。嗯 這的三級是 CI 和提示詞驗證。所以我們所做的一切實際上都存在於 Arise 中。嗯 我們執行這些作為臨時測試。
我們執行它們作為我們的 CI 的一部分,然後我們有這些很好的視覺化。所以我實際上可以進來並檢查事物是如何隨時間工作的。嗯 看是否有任何整合我們的評估的表現。嗯,我認為使用 Arise 構建工具真正很酷的是我們像 我們在食用我們自己的產品。嗯,我的團隊所做的一切,我知道這可以幫助我們的使用者以及,這一直是 嗯,極其強大。所以這些是一些來自結晶化行為的經驗,捕獲好的使用者會話,嗯,匹配事實,而不是措辭,Elm 作為一個語義評估的法官,真正的 API,而不是模擬,嗯,整合錯誤是真實的。嗯,然後我的最後一課在這裡,除錯一個真實的智慧體。
我認為這是我收到大量問題的東西,像什麼是你的日常工作流當 Alex 出現問題時?所以我們真的在看到這個軟體工程的演進,誰在消費遙測資料。當我們最初開始時,我們真的是人在迴圈中。我正在直接看資料,然後去 IDE 和我、我和我的工程師要去我們的 IDE,做改變,然後觀察它。我們有點開始看到這個軟體 2. 0,其中我們有我們的代理式 IDE,現在人類仍然參與,但我們使用一個智慧體來迭代。現在我們真的進入了這個階段三,其中我們實際上可以直接使用我們的編碼智慧體 嗯 來能夠讀取我們的酒店資料 嗯 並迭代。所以這是我們目前使用的一種堆疊,我們仍然在使用 Arise。
我們所有的追蹤都進入我們的評估 我們的反饋。但我們有我們稱之為 Arise 技能的東西,允許我們的游標 我們的 嗯 雲程式碼直接與 Arise 互動,並使我們的反饋迴路真的真的快。嗯 作為智慧體構建者,我們已經學到反饋迴路真的真的很重要。我試著讓它有多快我們可以從一個問題到一個修復。嗯 並且 Arise 技能真的幫助了我們。所以 嗯 這些是我們的 ARIS 技能的一些例子。這些是即時的,如果你想 嗯 嘗試它們你自己或來和我們談論在展位。嗯 但我基本上使用了很多我們的 嗯 Arise 追蹤和評估技能。它只是使得我的智慧體能夠獲得一個訊號。嗯 從 Arise 拉取追蹤,甚至檢視外部資源或程式碼,提出一個修復,然後我和我的工程師可以只是審查那個。
所以這就是由 Arise 驅動的 AI 工程迴圈,我們自己也在使用。嗯,我們基本上總是第一批實驗者。如果對 Alex 有效,我們就知道對其他人也會有效。所以你可以看到我們有一堆不同的代理在利用我們的技能並改進 Alex。所以這些是我們除錯流程的實際應用。所以讀取追蹤,拉取完整會話,然後識別失敗的節點。呃,我們也可以從 DataDog 等外部來源讀取資料。Alex 已經真正整合到我們的 UI 中。或者 APM 追蹤也變得越來越重要。嗯,然後還有 G-Cloud 日誌之類的東西。嗯,所以我們發現了一個像記憶體溢位的例子。嗯,所以我們能夠從一個問題快速到達確切的根本原因並快速修復,這樣我們就能修復它。
所以這些是我們除錯的一些經驗教訓。嗯,技能只是 Markdown。它們成本低,價值高。絕對要投資你的技能、你的工廠。嗯,安全必須是包裝器,而不是提示。呃,代理除錯是一個代理形狀的問題,然後你知道在你需要之前就有可觀測性。嗯,沒有可觀測性你真的無法進行評估。沒有可觀測性你真的無法修復你的代理並使其成功。所以呃,這是我們肯定親身學到的東西。所以這些是我們今天學到和討論的一些重大經驗教訓。嗯,我知道我很快地過了很多材料。所以如果你有任何問題,呃,我們會在普爾曼的我們的展臺,很樂意更詳細地討論任何事情。嗯,但非常感謝你花費你的上午時間陪我。非常感謝你,Salian。
呃,接下來,我們即將為來自 Rezaro 的 Tim 做準備,他將與你們談論擴充套件評估。好吧,大家早上好。呃,感謝你們今天抽出時間。呃,特別是如果你們來自昨晚的酒後派對的話。所以今天我將談論擴充套件評估,也許為了激勵一下,讓我與你們分享一些關於 Rsaro 做的工作。所以 Raro 是一家測試和評估公司。
我們主要與從事任務關鍵用例和領域的公司合作,例如醫療保健、防禦、安全,我們幫助他們測試和評估他們正在開發或採購的 AI 系統,以便他們有信心他們正在部署的內容足夠好以進入生產環境,今天我將分享一些我們在過去幾年這段旅程中獲得的經驗,我們看到存在的主要問題、我們如何克服這些問題以及阻礙擴充套件用例特定測試評估的剩餘阻礙因素。好吧,讓我們呃從這張幻燈片開始,就像眼鏡蛇、衝刺速度跟蹤和 AI 基準測試有什麼共同點。所有這些都顯示了反面激勵的例子,對吧?
所以對眼鏡蛇的例子,這是一個案例,如果你激勵人們捕捉眼鏡蛇,人們實際上會飼養它們。這導致實際上更多的眼鏡蛇在野外出現。嗯,與衝刺速度跟蹤相同。如果你熟悉,如果你是一名軟體工程師,如果你的經理要求你增加你能交付的故事點數,你會看到這個結果,但最後,它並沒有轉化為任何有意義的成果。至少從我的觀點來看。嗯,然後你可能看過一些 AI 基準測試,你測試最新的開源模型。它們通常不……它們有時可能與你的實際使用者測試不同,而不是像它們在基準測試中顯示的那樣,你想知道他們是如何設法獲得如此好的結果的。
所以這導致了我們所說的概念,比如基準最大化。我認為現在變得越來越流行,人們實際上玩弄基準測試以顯示他們在某些任務中很好,但它並不真的轉化為現實世界的效能。另一方面,我們有氛圍編碼,對吧?或者我會稱之為氛圍測試。所以氛圍測試是一個過程,也許你有一對嗯示例提示,一些技巧問題。草莓裡有多少個 R?或者也許你能生成一個騎腳踏車的鵜鶘的影像?所以,我們對這些例子看到的實際上是它實際上不不那麼糟糕,因為它們相當有用。
它們給你一種感覺,關於模型在特定場景或你感興趣的方面的表現,但是而且它們也鼓勵探索過程的探索性探索,對吧,你可以嘗試不同的提示,實際上找到對你的用例足夠好的東西,但我認為話雖如此,嗯,你實際上如何判斷什麼是一個騎腳踏車的鵜鶘測試與也許什麼是騎在嘟嘟車上的圖卡?我們談論的只是一隻鳥在一輛車上,還是我們談論的也許是我們正在測試的一些其他型別的更高層次的概念?
所以我認為這裡有幫助明確的是嗯,即使我們腦子裡有一個測試用例,我們正在測試評估的特定興趣維度是什麼,這是我看到基準測試和氛圍測試之間的中間地帶。所以問題是那麼我們如何構建氛圍測試方法,以便我們能夠識別感興趣的場景,以及然後嗯,為更具體的用例評估構建它並擴充套件它。所以這然後引導我們走向操作設計領域的概念,我們將其定義為嗯,我們正在測試的問題約束空間型別,這有助於管理我們正在評估的有意義的測試用例集合。
呃,從那裡我們可以然後定義系統的預期行為是什麼,我們應該意識到的年齡案例是什麼,以及也是該系統可能不在範圍內的案例,以及評估和評估,對吧,這完全超出範圍,不應該被 AI 系統使用和消費,所以從那裡我們然後能夠在內部推導一個管道和工作流,我們實際上將賠率轉化為不同的感興趣的測試用例,呃與資料質量檢查相關聯以過濾掉可能不符合我們要求的資料,也然後如果呃呃那裡有差距,增強資料質量。對吧?
所以我們在找到覆蓋差距方面強調了很多,以便我們能夠填補它,並且經常當我們進入更具任務關鍵性的用例時,我們發現可能可能沒有足夠的測試用例,特別是對於感興趣的年齡案例,這是合成數據集或合成數據生成方法實際上幫助彌合測試評估過程的地方。
所以我們在關於我們如何以增強測試集的方式生成合成資料方面放入了很多強調,我認為一旦我們以這種方式框架了問題,我們就會看到它實際上更多的是資料是瓶頸,對吧,我們可以將問題從評估轉移到我們如何生成給我們部署信心的正確測試用例,然後使用的挑戰特別是當你進入更利基和特定用例的測試種類時,是合成數據生成方法嗯現在仍然相對不呃不完全可預測,對吧?它們不一定給你想要的質量用於你的生成。所以,讓我嘗試在這裡給出幾個例子。
嗯,在這個例子中,我們試圖評估呃我們試圖評估也許像一個 VRM 解決方案在一個更好的燃料場景和設定中的效能。所以我們有我們有一個右邊的筆罐,對吧?嗯,這裡的問題就像我們如何知道在這個特定用例中測試什麼是足夠好的,好的如何被定義呃對於生成的資料集,以及更重要的是我認為我們如何我們能夠量化這個測試評估,以便我們可以然後以自動化的方式擴充套件它。所以這裡我有嗯三個不同的增強示例,三個好增強的例子,對吧?
所以也許在這裡一個好的增強是遵循承諾的東西,你被生成跨三個不同的天氣場景雨雪和霧嗯,我們主要感興趣的主題也很好地儲存,如果沒有視覺偽影。所以這看起來像好的生成。另一方面,我肯定如果你熟悉只是生成影像,你看到經常一些生成的影像有不同型別的偽影。呃,例如,對於右邊的那個,有兩個額外的人被新增到影像中。對於下面的那些以及你看到呃一些原始坦克和其中一個坦克已被轉換為車輛。以及範圍條紋可能看起來不那麼逼真。
所以我們如何從這個氛圍檢查方法走開,就看起來對或看起來好或看起來不對,進入一個更結構化的方式,以便找出這些缺陷。所以對我們來說,這是關於我們如何然後擴充套件資料質量檢查,以便我們能夠以更可擴充套件的方式自動識別此類缺陷和缺陷。而且我認為我們儘可能多地依賴較小的確定性模型來提供這種洞察。對吧?例如,如果我們談論兩個生成的合成影像,我們嗯可能希望將它們在主要感興趣的物件的嗯地圖結構中是否有有意義的變化進行比較。
呃,我們也可以然後比較是否有嗯有任何新的感興趣的新主題已從原始影像建立到生成的影像,所有這些都使用很小的確定性模型,提供關於資料質量的非常好的訊號,作為這個管道的一部分,我們可以然後過濾掉實際上滿足我們呃質量標準的資料集,並用它進行測試評估過程。我們然後也能夠實際上擴充套件這個過程,也許使用這個呃增強的反饋,以呃實際上微調評估模型,以便我們可以自動化篩選評估過程或隨後的生成模型。
所以在一天結束時,我認為我們最終得到的是一個組裝的不同指標的整個管道,滿足用例特定感興趣領域,這為我們提供了非常可重用的工具箱,關於我們如何擴充套件資料集的生成以及自動化質量呃檢查和過濾。所以我們看到這非常類似於例如編碼空間或數學推理空間中的問題。你想盡可能多地自動化驗證和驗證過程。呃這將有助於減少呃人力監督和評估所需的開銷,如果有任何人工反饋進來,這應該有助於改進我們的自動化模型,以便這個過程可以然後變得可擴充套件。
底層指標然後也可以用於我們呃生成的資料集的校準,因為我們發現對於每個用例呃特定的場景實際上對於每個指標的截止點可能有非常非常大的呃分佈。所以校準部分是一個非常重要的統計關注在這裡。好的。所以只是為了總結一下,嗯我們呃談論擴充套件用例特定場景和和資料集的評估,我認為這裡的主要挑戰實際上確實是關於我們如何擴充套件合成數據生成例程以及新增必要的質量檢查以給我們部署信心。
呃有了這個如果你想聯絡我,歡迎在 LinkedIn 上與我聯絡以談論評估,很樂意更多地討論測試用例、我們所做的評估工作,我也會在活動的其餘時間參與,謝謝你,祝你有美好的一天,再見 >> 非常感謝你,Tim,呃那是一個很好的演講,接下來我們有來自 Cloudflare 的 Abishek,他領導印度的 ETI 團隊,嗯,他將與我們討論工具呼叫實際上應該如何 嗨各位,早上好。嗯,我是 Abishek。呃,我在 Cloudflare 領導新興技術和孵化團隊,並領導印度辦公室。所以我們是 Cloudflare 內部的一個小團隊,它呃從事新產品、倡議以及任何給定時間點的許多酷東西,對吧?嗯,我今天要討論工具呼叫。
我認為這裡的每個人此時都有過某種工具互動。呃,有誰能快速舉手與 MCPS 互動過並知道工具呼叫是什麼?太棒了。所以,每個人都知道我們在討論什麼。很好。標準工具呼叫,對吧?嗯,你這樣做是為了給模型超越嗯推理的能力,其中像嘿我如何讓我的模型與外部呃外部 API 工具功能合作,對吧,嗯讓我們舉一個非常標準的例子呃我將監控一個 API 查詢錯誤,以及呃基於你知道的某些條件做事情對吧,呃過程非常簡單,模型向你傳送,嘿我需要呼叫這個工具,前往 MCV 伺服器工具被呼叫,你得到結果,把它交給模型。聽起來很簡單,對吧?
問題是一旦你開始做更復雜的事情,這變得非常昂貴。所以讓我們舉一個實際的生產場景的例子,其中你可能有一個模型或本質上是一個代理,它正在做一個長時間執行的任務,它不斷監控任何新版本發生,對吧?
嗯想要監控特定的錯誤百分比,你知道日誌,然後基於那個嘗試做回滾或確保,嘿,我們很好,你知道進一步釋出,對吧,標準釋出過程,我認為每個人都知道這如何工作,有了這個設定,會發生什麼是你最終有一堆工具呼叫,這些呼叫連續一個接一個發生,對吧,在這個特定的場景中,我將有我的模型,去列出我所有的日誌,你知道,然後獲取所有我的指標,進行條件檢查,呃,基於某種,你知道,條件,決定下一步。我們遇到的問題是你所做的每個工具呼叫都將傳送當前對話的整個上下文加上工具呼叫加上響應,對吧?
所以每一輪實際上都變成了你正在傳送的更多上下文。所以一,那在流血金錢。第二,你要新增很多往返次數,對吧?對吧?所以你會增加很多延遲。本質上應該有一個更好的方式來做這件事。而且我認為我們將在這裡討論的是基本上程式碼模式。嗯所以程式碼模式是我們的論文,以及我的意思是它現在不僅僅是 Cloudflare,對吧?我認為這現在變得非常流行。但當我們想出程式碼模式時,這個想法是模型天生更擅長寫程式碼,對吧?嗯,如果你快速看一下我們剛才討論的同一個例子在一個程式碼片段中,它看起來像這樣,嘿,我想要得到所有的錯誤指標,我可以根據那個並行化這些任務,我想做一些條件檢查並做下一步。
呃,以及模型在做這個時更好的原因是他們已經在大量程式碼上進行了訓練,對吧?對抗工具呼叫模型大多數時候已經訓練過的工具呼叫都是全部合成數據,幾乎沒有資料,對吧?所以從自然本能,你會覺得模型實際上會更擅長寫程式碼。那就是我們看到的,對吧?今天,如果我們看同樣的工具呼叫我們剛才描述的,對吧?標準工具呼叫有一個工具名稱、描述、引數,你知道,預期輸出,那基本上就是你給模型的東西。我們所做的是我們有一個名為程式碼模式的庫,它本質上將其轉換為 TypeScript 型別。呃所以一個現在模型有相同的型別設定,但作為程式碼呃它注意到嘿,有一個我可以執行的函式來做這個。
所以在這個同樣的對映中,對吧,如果你看它,我們有函式的宣告,這本質上是工具名稱。嗯描述那裡基本上是工具描述,然後你有通過它傳遞的引數,對吧,像你的預期輸入和什麼是輸出。嗯,現在這所做的就是它本質上給了模型相同的能力,但在這種情況下,而不是給你一個工具的順序順序,模型寫一個單一的程式碼片段,基本上我們想要這樣做的是與你當前堆疊中已有的所有內容一起工作。對吧?所以你不需要實際上交換整個工具。與其傳遞一個工具陣列給模型,我們基本上傳遞它一個名為程式碼模式的單一工具。
所以你可以包裝你擁有的整個現有工具包,並只是向模型傳遞一個名為程式碼模式的工具。程式碼模式是什麼一個 TypeScript 你知道庫或者比如說一個 TypeScript 型別的檔案作為一個字串,它去往模型,其中它像嘿我知道什麼工具存在,我可以根據它寫程式碼。嗯在這種情況下你也會看到一些稱為執行器的東西。我們稍後會講到。再次回到我們為什麼寫程式碼的基本原理,對吧?就像我們剛才討論的,一個簡單的場景,本來可能需要,你知道,可能五、八輪,可以是一輪。它也為圖片帶來了推理。每次你寫程式碼時,你都可以將邏輯嵌入其中,對吧?
你有能力做變數,這意味著你可以有,你知道,基於像之前的響應的相互依賴的工具呼叫,然後弄清楚該做什麼。你可以做分支。
我剛才描述的就是這樣,比如說如果錯誤的百分比超過某個水平,你可以比如說執行情況一,否則執行情況二,你知道同樣的方式,你可以做迴圈,呃,一個非常標準的例子是遍歷我的 Cloudflare 賬戶,列出所有的 workers,然後給我所有的指標。現在沒有程式碼模式的情況下,這會發生的方式是列出 workers、獲取 worker 一、獲取指標、獲取 worker 二、獲取指標,對吧,這會一直繼續進行工具呼叫。呃,這會新增上下文,正如我們討論的那樣,有了程式碼模式,它將是單個 for 迴圈,可以一次又一次地遍歷它,對吧,你還可以做一些事情,比如並行化不需要相互等待的同步任務。呃,所以是的,我想非常明確地說,這不會替代 MCP。我認為這在概念上是新的,所以必須在這裡非常明確地說,MCP 是基礎協議,你仍然需要它來本質上進行最終最後一英里的 API 呼叫,對吧,你的伺服器仍然會做這個,程式碼模式所做的是給模型一個更好的方式來互動和進行工具呼叫。
呃,該工具呼叫的實際實現仍然發生在 MCP 層,對吧。我要舉一個不同的例子,這個例子就像我們實際面臨的情況,對吧。呃,Cloudflare 就像大多數人一樣,好的,你們中有多少人實際上知道 Cloudflare?太棒了,謝謝。呃,我擔心了。所以 Cloudflare 擁有超過 2500 個 API,對吧,考慮到我們擁有的各種產品,你知道,跨越許多不同的領域和垂直。如果我們今天就將這些嵌入為工具,對吧,作為標準 MCP 工具,它會超過 1。
700 萬個 token 的上下文,對於大多數模型,我們將只用工具描述來溢位上下文視窗,所以這根本不可行,這也涉及同樣的問題,對吧,即使我今天將其轉換為 TypeScript 型別,它仍然會遇到同樣的問題,對吧。所以圍繞程式碼模式的基本思想不是嘿,你盲目地複製工具作為型別並做對它,對吧。在大多數情況下,它實際上會工作得更好。但對於這樣的事情,你可以退一步思考,好吧,我們如何能做得更好?我們發現的一件事是隻給它兩個工具:搜尋和執行,對吧,在這兩個工具中,模型仍然可以編寫程式碼。現在搜尋和執行作為進行 MCP 的策略已經存在了一段時間。
人們建立了各種搜尋工具,比如我們有一個工具可以獲取其他工具,然後有一個工具來決定執行它。現在你可以在這裡編寫程式碼,對吧?所以你可以篩選出來。所以這樣想,我們告訴模型,嘿,我們有一個全域性變數,它包含整個描述,這個描述沒有被傳遞給模型。但模型有能力編寫程式碼,這將給它返回確切的工具來被呼叫,然後也編寫程式碼來執行同樣的事情。通過僅僅這樣做,對吧,像一個簡單的搜尋執行方案,我們能夠實際上將其降低到 1000 個 token。整個 Cloudflare API 規範今天可以通過模型僅用 1000 個 token 來呼叫。那是 99.9% 的減少,這是極其高的。我從來沒有看到過這個級別的壓縮,無論是什麼樣的東西。
所以這就像是一種更加最佳化的做事方式。呃,是的,正好是我們剛才談論的例子。
現在你有了模型,它說嘿,我要對搜尋的東西進行工具呼叫,針對它編寫程式碼,放上你知道的一個確切的指令碼,這會被執行,所有這個我們討論過的討論,我們一直在討論模型寫程式碼,然後你知道它會被執行,但現在我們遇到的關鍵問題是它在哪裡被執行,對吧,呃,所以退一步,讓我們回到幾年前,對吧,像 pre-AI 的時候,如果我來找你,告訴你這裡有一個隨機使用者生成的程式碼,在你的設定上執行它,你們都不會想做這個,對吧,那就像一個確切的你知道的大規模的 CV,那是 RC,所以大多數人不會想做這個,但今天我站在這裡告訴你做完全相反的事情,給模型絕對不受信任的來源,你知道,讓它們編寫程式碼,這可以是任何東西,你永遠無法訪問,然後執行它,所以我們在哪裡執行它,那就是我們涉及的小計算機部分,對吧?
你本質上需要一個非常高效、安全的沙箱環境,對吧?有幾種方式來做這個。我是說,你可以使用容器。容器已經存在了很久,對吧?容器的問題通常是你有大量的冷啟動時間,對吧?呃,你必須好好配置它。你有,你知道,記憶體,你有計算,所有這些都需要很好地規劃。呃,然後你有,你知道,基本上它是一個外部層,這意味著你有大量的挑戰來正確和安全地移交事情。這裡的另一種方法是 V8 isolates。呃,快速展示粉絲。你們中有多少人知道 Cloudflare workers?太棒了。所以 workers 是我們自己的執行時層,它基於 V8 isolates。所以我們為其採用了 V8 isolates 並圍繞它建立了無伺服器。
呃,有很多很好的詳細部落格你可以閱讀。但本質上,這所做的是消除了我們剛才討論的所有標準問題,對吧?就像你實際上有零冷啟動時間。它絕對是輕量級的,對吧?workers 的工作方式是你的動態 workers,這本質上就是當我們說 V8 isolates 時我們在說的,它將在完全相同的位置啟動,完全相同的,你知道,設定,你的主應用程式在一個 worker 上執行的位置,對吧?再次,你可以將每個 isolate 作為一個請求然後扔掉它。對吧?所以再次,workers 給我們一個很好的邊界。確保它僅限於執行該程式碼的範圍。沒有洩露秘密的機會,你知道,讓惡意程式碼進入你的實際主設定。
而且你可以在初始化一個 worker 時決定你想要傳遞給它的範圍和能力是什麼。對吧?呃,再次,只是一個快速的方式,你知道,為什麼 isolates 工作得更好,本質上是因為我們擁有執行時,它就使實際進行各種你知道的資訊交換來確保以安全的方式完成變得容易得多,而且你再次沒有瘋狂的、極其的、你知道的等待時間來啟動事物。呃,是的,基本上就是這樣。非常感謝。感謝你,Abishek。接下來,我們有 Tis,他會和我們談話,並深入探討 agent harnesses。這是開著的嗎?大家好。早上好。哇,你們都睡著了。我們能再試一次嗎?大家好。好多了。好的。
看,看,它是,它是,它是一個,它是一個對話,而不是獨白,你知道,就像我,我在這裡和你交談,而不是對著你。呃,早上好。他正在為我的幻燈片做準備。呃,但這將是一個有趣的,一個有趣的對話,我認為。一切都好嗎?不。哦,他是的。為你們的技術團隊鼓掌,各位。這太酷了。他們,他們使這個事件成為可能。我喜歡它。這是,呃,沒有他們我們會完全迷茫。原諒我一秒鐘。天哪,他在劇透我的幻燈片。這,沒關係。讓我們開始吧。好的。就是這樣。好的。你好。我是黃色的手。看,這樣要好得多。嗨,我是 Tis。大家好。見到你們很高興。再一次。呃,正如你們可能已經看到的那樣,我的名字是 Tis。呃,這的發音像 contagious。別擔心,我不是。呃,他們否則不會讓我進入這個國家。
呃,我,我,我,我飛行了 16 小時來到這裡,昨天我在羅馬尼亞。呃,而我現在位於柏林。呃,而且多年來,我,我有幸在許多不同的科技公司工作,與真正偉大的團隊一起,並從最優秀的人那裡學到東西。實際上,我不是真的來給你們展示意見,而是來分享我學到的事實和經驗教訓,不是來自我自己,而是來自呃非常、非常聰明的人,比我聰明得多的人。今天,我是 IBM 的一名 AI 工程師,呃,我們在那裡構建呃許多東西,基礎模型和 harnesses 以及為我們的客戶和開發者提供的東西,但也為開發者提供。呃,我幫助 IBM 及其他地方的開發者社群。我,我教人們關於 harnesses 和 AI 以及事物呃在這裡。而今天,這就是我們在這裡要談論的。我們在這裡要談論 AI harnesses 從第一原理開始。
嗯,快速舉個手,你們當中有多少人覺得自己能夠解釋什麼是 AI harnesses、agent harnesses?好的,大約有三個人。嗯,不錯。我會在演講結束時再問一遍,我期望到時候舉手的人會更多。好的,那就是我的目標。那也正是我來這裡的原因。我來這裡是為了教你們什麼是 harness,它們如何工作,以及你們為什麼需要它們。呃,因為這個術語到處都在用。而這類術語一旦成為時代精神的一部分,問題就來了——它們可能會在翻譯中丟失。好嗎?有時候我們不夠自信去有力地推理它們。所以希望這能改變現狀。我想從討論我們為什麼甚至需要 harnesses 開始。呃,我認為一個很好的領導力原則總體來說就是從「為什麼」開始。那麼為什麼我們需要 harness?
答案真的就是我們為什麼需要為任何東西配備 harness 的相同原因。呃,想想爬山,對吧?比如你用 harness 把自己系在山上,這樣你就可以可靠地上山和下山,你知道,意思是你不會摔下來死掉。好的。呃,類似地,比如你有狗或寵物,對吧?你通常會給你的狗拴上皮帶,給它穿上 harness,這樣它就不會跑開迷路,但它會可靠地陪伴你,好嗎?所以對於代理、人類、寵物或任何東西,harness 的整個要點就是可靠性,原因是因為我們在做 AI 工作時,我們經常只是信任黑匣子。你有沒有想過這一點?比如,除非你在本地進行推理,誰在本地進行推理?是的。
一個人,呃,也許這裡還有一兩個人。如果你是我們中絕大多數人,你所做的就是向某個雲服務商傳送一個提示,說「嘿,幫我做這個。」然後你就希望一切順利,對吧?呃,你向比如 Claude 4.7 Opus 傳送一個提示。呃,但如果他們遇到某種故障,他們可能會給你提供 Sonnet,而你無法知道。所以你就會說,好吧,我想今天的感覺有點不對。Opus 今天感覺不一樣。有人有過這種感受嗎?對吧?那是因為你信任某個外部機構,這就是為什麼我們需要 harnesses。所以 harnesses 做的是給你更多的控制感,呃,讓你的 AI 應用和代理更可靠。好的,這清楚嗎?所以這就是為什麼我們要做 harness 工程。什麼是 harness?呃,我已經談過了。就是這個。
嗯,但假設那是一個代理,不是一個人。那就是 harness 是什麼。實際上,agent harnesses 特別是對 harness 這個術語的一個較新的演進。在機器學習工程中,我們有 eval harnesses。這些基本上是模型的強化版單元測試。好的。呃,但 agent harnesses 略有不同。如果我讓你定義一個 agent harness,呃,這是我期望聽到的。agent harness 是什麼的答案就是:它是圍繞你的代理的一切,工具鏈,圍繞它的一切,你的代理執行的環境,它為你的代理提供最好的成功和可靠性機會。圍繞代理的一切。所以如果我們考慮野外的一些典型的 agent harnesses,它們都至少有這六個元件。第一個,它們有呃一個工具登錄檔。它們有一組工具。
如果我們考慮像 Cloud Code 或 Codex 這樣的 harness,它們有工具。從檔案系統讀寫。搜尋網路,對吧?第二個,有一個語言模型。呃,幾乎每個 harness 的某個地方都會有一個語言模型,比如 Cloud Code 有云模型。有用於壓縮上下文或清除上下文的上下文管理原語。對吧?如果你們有人使用過 Cloud Code,你會知道「slash compact」。呃,有護欄。呃,例如,我認為最常見的護欄是你已經用完了你的配額。在你充值之前,我不會再和你說話,對吧?那就是一個護欄。有呃,畫面中有一個代理迴圈,呃,這是代理完成一項任務然後說「好吧,我是否實際完成了,或者我應該再做一遍」的地方,最後有一個驗證步驟。
所以如果你在使用像 Cloud Code 這樣的 agent harness,我喜歡 Cloud Code,對吧?在最後,它會說「好吧,我已經完成了任務,現在讓我執行 npm run verify 或其他什麼來完成這個迴圈」。所以幾乎每個 agent harness,當然每個編碼 harness、編碼 agent harness 都有這些元件,如果不是更多的話。所以這些是我們這一階段的構建塊。我厭倦了聽自己的聲音,所以我會做一個演示而不是和你們講話。所以我們要做的就是我們實際上要在舞臺上即時構建一個 harness,在我們剩下的時間裡。呃,它是一個窮人的 harness,但它只是為了讓你瞭解什麼是 harness,這樣你就可以去構建你自己的。好的,這就是我在這裡的工作。
呃,我們要做的是構建一個瀏覽器使用代理,一個啟動 Chromium 並使用它來完成工作的東西。呃,如你所見,一開始會不可靠。這有點是重點,但我們會圍繞它構建一個 harness 來使它安全。我會說這個,harnesses 允許你用更少的資源做更多的事情。你可以選擇一個非常糟糕的模型,一個非常舊的 GPD 3.5 mini 或 3.5 Turbo,就像舊的。這就像兩年前。太瘋狂了。我開玩笑的。這是一個非常舊的模型。它很便宜。基本上是免費的。所以你可以使用一個不可靠的模型,你可以使用一個相當糟糕的提示,因為 harness 給你可靠性。通常當我們沒有得到想要的結果時,我們會想,「哦,只是對它提示更難。只是微調系統提示,改變語言,新增一個技能。」
有了 harness,你根本不需要這些。你可以保持提示凍結。它可以是一個壞提示。你可以使用一箇舊的便宜模型。如果你的 harness 很好,你就贏了大約 70% 的戰鬥。好的,所以讓我們這樣做。我會構建一個 harness。我們會在舞臺上一起構建一個,然後呃我們會收尾。所以這就是我想要的。我,我正在執行,我只是要在這裡執行我的代理。呃,我用 TypeScript 寫的。有人使用 TypeScript、JavaScript 或類似的東西嗎?好的,你大概會明白。呃,我們會做 npm run agent。你會看到的是呃它會開啟一個瀏覽器。這個我沒有動。它去駭客新聞並嘗試點贊一篇文章,但它獲得了登入螢幕並崩潰了。這個代理的工作是去點贊駭客新聞上還沒有被點讚的第一篇文章。好的,這清楚嗎?是的。
所以這就是工作。但這就是它所做的。我會再執行一遍。看。所以我們開啟一個瀏覽器。呃去駭客新聞,我們使用 GPD 3.2。我們正在使用呃,去駭客新聞。點選登入表單。但然後它告訴我。「我已經點讚了排名最高的。」這是一個謊言。這是一個絕對的謊言。實際發生的事情是它去,嘗試點選點贊,點選登入表單,然後崩潰了。對吧?所以這是一個徹底的謊言。我們怎樣才能解決它?我們用 harness 來修復它。首先,讓我們看一下正在發生的實際程式碼。所以這是呃 Cursor。我喜歡 Cursor。這是我們的專案。所以這就是我們到目前為止所擁有的。我們有模型。呃,我們使用一個非常抱歉,我應該改變這個。我們使用的是一個我們使用的一個非常舊的模型。呃,便宜,基本上是免費的。這是我們的提示。在駭客新聞上點贊一個故事。
這些不會改變,但我們的 harness 會改變。我想讓你知道這一點。我想讓你很清楚這一點。所以這就是發生的事情。我們啟動一個新的瀏覽器會話,這是我寫的程式碼。這使用 Playwright,不是 Playwright MCP,但我們只是以程式設計方式呃控制瀏覽器的一個類。好的。然後當我們有會話時,我們建立工具,這正是你在程式碼中所想的。我們只是返回一堆工具定義,就像這樣。這只是一堆 JSON 物件,有描述等等。我們也建立了我們的上下文。你覺得這很複雜?其實不然。這只是一個帶有系統提示和使用者提示的訊息信封。使用者的提示就是我們已經寫過的東西。就是這個。所以它只是一個包含兩個物件的陣列。好的。
然後我們最後執行代理迴圈。那麼什麼是代理迴圈?好吧,它是 while true,繼續做東西,繼續推送訊息直到達到停止條件。所以這是 LLM 說「我已經完成了」。在這種情況下,我們將答案返回給使用者。但在整個代理迴圈中,我們只是推送不同的事件。我呼叫了這個工具。我傳送了這條訊息。我收到了這條提示。我們只是把這些推送到列表中。這就是我們所做的一切。如果我們呼叫工具,那麼我們把每個工具的結果推送到我們的訊息集合中。這有意義嗎?我們只是追蹤每條訊息。好的,所以就這樣。我們的代理現在存在的樣子,它不工作。它點選登入螢幕並崩潰了。所以我們需要做的是構建一個 harness。我們首先需要構建護欄。然後我們需要實際讓它說實話。
嘿,我在登入頁面崩潰了,而不是成功完成了。然後我們需要實際修復它。這就是我們要進行的旅程。好的。第一步,我們新增一些防護欄,因為現在它可以無限執行並讓我破產。所以我們怎樣做呢?好吧,讓我們調查這個 git diff。所以我們現在只是呼叫 run loop,我們傳遞一個 model 和 messages,但我們將改變這個來包括一些防護欄。我們將稱之為 default guardrails。實際上,我們的預設防護欄是什麼?好吧,讓我們進入編輯器並檢查一下。所以我們有這個檔案 guardrails.ts。這些是我們的防護欄。我們有兩個 max iterations。你最多可以嘗試多少次,還有 max messages?在我們壓縮你的上下文之前有多少條訊息?然後我們有一個小幫手來組合它們。
好的,但我們實際上如何使用這個呢?好吧,如果我們進入我們的 agent loop,你可以看到我們在這裡包含了防護欄,我們檢查我們呼叫防護欄,如果沒有問題,我們就結束了。我們說這是我們停止的原因,我們在每條訊息上修剪上下文。所以在每次迭代中 while true,我們呼叫 um trim context。trim context 做什麼?這實際上真的很糟糕。在實踐中不要這樣做。但我們正在做的是我們保留系統提示和使用者提示以及之後最近的兩條訊息。有更聰明的方法可以做到這一點。那不是這次演講的目的。這次演講的目的是當我們構建一個工作框架時向你展示一個防護欄。所以現在我們有了我們的 agent,我們的 agent,和一些防護欄。你知道那叫什麼嗎?這叫一個 harness。
所以,我們要做的是我們只是要重新命名一些東西來保持它們更真實一點。所以,我要做的是我會過去說,聽著,我們只有 index,但我們要刪除所有我們的程式碼,只是將它抽象在一個叫做 run harness 的函式下。我們將要把所有這個——用紅色標記的所有東西——移到一個叫做 harness.ts 的新檔案中。好的。什麼是 harness.ts?好吧,讓我們開啟它。Harness.ts 就是一切。你可能認識這個程式碼來自開頭。這是來自我們的 index.ts.ts 的一切。我們只是把它放在一個叫做 harness.ts 的函式中。這有意義嗎?所以,我們只是把它當作 uh run harness,print harness result 只是 console logs 事物。這只是為了記錄。這不是特別有用。所以,我們此時只是移動了程式碼。
但現在我們有了 run harness,我們的下一步是好吧,現在我們有了一個 harness 和一個不受 agent 控制而由 harness 控制的瀏覽器會話,我們可以在需要時掛接到這個瀏覽器會話來檢測你成功了還是失敗了。好的,這就是我們現在要做的。所以現在我們有了這個 harness 檔案,我們會過來這是 uh 這是我們要改變的。所以我們只是改變我們的 run harness 函式呼叫一點來新增第三個引數,這是一些選項,一個 verify step 和 max attempts。好的,verify successful upvote。如果我們進入我們的 harness,這變得有點有趣了。現在這些只是型別,但這裡我們有 max attempts。我們說你執行 harness 不超過三次。所以對於每次嘗試,我們做一點驗證步驟。
如果它失敗了 um 或者它達到了 max attempts,我們只是返回最新的結果。但我們現在在我們的 harness 中有這個函式叫做 verify successful upvote。它做什麼?記住在我們的 agent loop 中,我們一直在推送事件到一個大列表,對吧?所以我們的 harness 做的是它檢查列表。如果你有一個瀏覽器點選,如果你點選了一個帶有 up 某某某東西的元素,那意味著你點選了向上箭頭。這就是我們的 harness 在驗證的東西。所以如果那是真的,那麼返回 true。我 upvote click confirmed。但是如果你看到一個工具名叫 harness auto login 並且結果是 harness failed to handle login,那麼我們說不不你失敗了登入,我們返回一個 false 結果。到目前為止這有意義嗎?這只是程式碼。好的。最後,我們也有這個變數叫做 unreovered login redirect,我們檢查所有的工具呼叫。
啊,好的,我去了瀏覽器這裡,這是結果。我們檢查所有的工具呼叫,如果我們看到一個工具,其名稱不是 harness auto login,但如果我們在登入 URL 上,那意味著什麼?那意味著我們去了登入頁面但自動登入沒有工作。然後我們失敗並說返回 past false login screen instead of completing the upload。最後,我們也需要一個成功的情況。Um,但那是來。所以,我們只是添加了一些像如果這樣那麼說我們失敗了,好的,到我們的 harness。這是我們的 harness。這不是我們的 agent loop。所以,現在讓我們執行它看看會發生什麼。所以,我會在這裡執行這個。Um,所以現在它開啟瀏覽器。我們要進 hacker News,uh 我們去登入頁面。它崩潰了,但輸出是什麼?我們我們讓它實際上說出真話。
我們擊中了登入螢幕而不是完成 upvote,它說失敗。這是應該發生的。現在讓我們快速檢查一下。我們沒有改變提示。我們沒有更努力地提示它,我們仍然使用一箇舊模型。好的。但 harness 現在給了我們一些真相。讓我們修復這個。我們快完成了。讓我們用實際上現在我們知道它卡在登入的時候修復這個。我們可以在 harness 級別修復這個。好的。所以讓我們做那個,然後我們會總結。所以什麼是最終形式?我們新增一個檔案。我們稱之為 login handler。這個函式實際上做什麼?它只是一個函式。但這是它做的。這是重要的一行。Um 如果我們不在登入頁面上,不要做任何事情。所以這個函式是一個 no。除非我們在登入頁面上。
如果我們在登入頁面上,我們填充使用者名稱和密碼到輸入中,因為瀏覽器會話由 harness 擁有。它不由 agent 擁有。這有意義嗎?所以這不是工具呼叫驅動瀏覽器。這是我寫的 harness。好的。所以我注入這個使用者名稱和密碼,然後我返回一個訊息。工具名稱是 harness auto login。結果是 harness automatically logged in。這基本上對 agent 來說。你現在已認證並回到首頁。所以我的 harness 將這個注入到訊息鏈中。這有意義嗎?所以我現在在 harness 層登入。好的。但這只是一個函式。我在哪裡使用它?Um 我實際上在 harness 中使用它。
所以我建立 login handler,在 create tools 中我只是在這裡新增一些防護欄,但我正在拿 login handler 並將其給我的 agent loop run loop,在 agent loop 中這是我們降落飛機的地方。我傳送 login handler,這是使其工作的程式碼。所以在 agent loop 內部,我說如果我有一個 login handler,那麼我只是等待它的響應,因為再次如果我不在登入頁面上,這將返回什麼。如果我在登入頁面上並且如果我收到一個登入事件,那麼在我的 agent loop 內部,我將其推送到訊息列表。這有意義嗎?所以如果 harness 成功登入,它會新增一個訊息。我已登入,agent 讀到這個,然後繼續。這有意義嗎?這就是 harness 的全部要點。所以讓我們執行這個,然後我們會總結。
所以 um 我們現在應該執行最新版本。所以我要做的是 npm run agent,它應該通過 harness 工作。所以我們登入到 HackerNews。Um 它 它輸入了使用者名稱和密碼,確實你可以看到它 lo 它 它做到了太快了。它成功地 upvoted 這個 upvote。通過使用 harness 快速登入來點選 confirmed。這有意義嗎?我們沒有更努力地提示它,我們使用了 GPT3.5 Turbo,但我們用 harness 獲得了更多控制。Uh 讓我們 uh 在這裡總結。這意味著什麼?這意味著你可以用更少的工作做更多。而且再次,harness 是你的 agent 周圍的環境,它增加了它成功和可靠性的機會。這在實踐中是什麼樣子?Um,我在 IBM 工作,我們每天都在使用 harnesses。
Uh,在 IBM,我們建立一個企業級開源 rag harness。Uh,因為正如你可能知道的那樣,企業資料很大,到處都是。有所有這些團隊通話,比如筆記,你不知道什麼是機密的,什麼不是,這非常危險,所以我們為 um 大公司建立一個開源企業 harness。它叫做 open rag,再次它是開源的。那是重要的部分。Uh,如果你對它感興趣,你一定歡迎掃描那個。我不是在這裡銷售那個。我只是認為它是一個很好的 harness 的參考實現。Uh 但讓我們降落飛機並投放一些願景。好的,總之,我們做了什麼?看,我開始這次演講問你們中有多少人對自己能夠解釋什麼是 harness 以及為什麼它存在等等有信心。
這個數字在這次演講後改變了嗎?是的。哦,那太多了。那就像幾乎整個房間。好的,我完成了我的工作。Um,那就是 harnesses。那就是你怎樣構建它們,那就是你用更少的工作做更多。你不改變你的提示。你不改變你的模型。未來可能是什麼樣的?好吧,我們剛剛硬編碼了一個 harness。我們自己寫的。但如果我認為,哦等等,但如果 harnesses 是動態的並且 agents 可以建立他們自己的 harnesses 並然後做工作,那不會很棒嗎?我認為這是動態 harnesses 可能是朝向 AGI 的下一步,其中這一切都可以由 agent 管理。但伴隨那個,um,我想在這裡降落飛機。
I I've 已經也許已經花了超過我應得的時間,但我想在這裡停止並只是非常感謝你們的時間和關注,新加坡。非常感謝,Tis,和謝謝你們所有人。我看到房間滿了。Uh 我們將有我們的第一次休息。Um 下一次演講在 10:17 開始。Uh 只是一個提醒,攤位也是開放的,以防你想走動,uh 伸展你的腿。謝謝大家。待會兒見。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。
嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。Um,下一個我們有 JJ Gwax 從 Google 加入我們,他是應用 AI 主任,就在新加坡這裡,他將與我們談論將模型投入生產。這會在這裡顯示嗎?>> 不。是的,你去。好的,很酷。嗨。Uh,我是 JJ。Uh,我是 DeepMind 的工程主任。Um,所以我領導應用 AI 團隊。Um,我在新加坡。Um,我在招聘,所以如果人們很好奇,um,在那裡工作,um,一定要聯絡。
Um,所以我今天要談一點關於從 uh,hackathon 類的東西到生產的遷移,這是我的團隊所做的事情。Um,並在規模上處理模型。Um,所以在我們進入那個之前,我有點想分享一點關於我的團隊做什麼。我看到至少他們中的一個在這裡。希望其他人也是。Um,所以我們嘗試做的是我們推動深度思維模型的技術邊界。Um 這意味著我認為我們大多數人都熟悉的那些 um Gemini 和 Gemma,這是我們的 openw 權重 um 文本模型。Uh 但它也包括 nanobano 和 vio uh 影片和影像模型,以及更科學的東西。所以那是 alpha genome 和 uh weather next。Weather next 預測天氣和颶風以及大規模 um 風暴和類似的東西。
所以我們的工作是嘗試讓模型做他們不一定被設計要做的或突破我們可能對他們設定的限制。所以 um 一個很好的例子帶有 VO 是它生成 8 秒的影片,對吧?所以你給它一個提示,你得到 8 秒的影片出來。Um 如果你想生成像一部電影中的整個場景,比如五分鐘的時間,會發生什麼?Uh 你怎樣做那個?我們的團隊嘗試做那些型別的事情。或者帶有 Nana Banana。假設你有一部電影,你想 outpaint 整個事情 um 使其像寬屏,例如。Um 那是我們可能做的一種例子。Uh 這些事情聽起來很容易,因為它們只是更多相同的東西,但它實際上是一個更具挑戰性的問題,uh 我們必須想出聰明的方法來解決它。
Um 所以 uh 我們最終嘗試在這裡做的是讓模型做真實的東西。所以,擁有 8 秒的影片很好,但那有點像一個有趣的 hackathon 專案。Um,這不是真的一個真實的東西。你不能賣那個給電影工作室。Um,我不能像,「看,這是你 8 秒的 of 電影。」你需要做的是超過那個。這也是讓模型排列什麼你的指導可能。Um,用文本描述電影實際上真的很難就對了,然後你最終得到這個巨大的提示,它非常脆弱,它突破了。弄清楚如何將其固定在關鍵幀之外,並理解動畫以及你知道的表現得方式一個動畫師或導演想要的方式實際上是一個真正令人驚訝的具有挑戰性的問題。Um 所以我們嘗試做所有那些。
Um 現在 I I 想暫停一下,因為我剛才說像 oh 模型不夠好。他們只生成 8 秒的影片。I I 有點想暫停並只是我需要說這個 AI 東西是令人驚奇的。像它完全瘋狂。I I I 不知道你們是否記得,但像幾年前,像 chat GBT 不存在,我們的生活完全不同。Um,似乎有這個像模型令人難以置信和它們同時仍然像不夠。他們不做真實的東西,你知道,我的整個工作。Um,但像一直有這個移動目標的東西,比如國際象棋,對吧?I 不知道你們是否記得當像整個 Deep Blue 的東西發生了。
我是個孩子,所以我沒有真的注意,但我們像計算機擊敗了某人在國際象棋,然後每個人都像,「哦,那是令人驚奇的。」也,哦,它只是國際象棋。Um,然後 go 是十年前。Uh,Demis 剛剛去韓國慶祝十年的像解決圍棋。每個人都像,哦,那永遠不會發生。我記得我當時在 Google 工作,每個人都像,這會工作嗎?像,它會贏嗎?I I 不知道。然後它然後它做了大部分方式。現在每個人都像,哦,它只是像 gh。Um,然後 chat GBT 來了,它是令人難以置信的。我記得向我妻子展示她可以只是要求,你知道,東西和它會回答她,並像把它變成一個表格和所有種類的瘋狂的東西。像令人難以置信的。現在我們像,啊,chat GBT 老訊息。
它只是一個 chatbot。And and 現在我們在這個有點奇怪的階段,像我們有 agents,他們做東西像他們打電話並使用像 11 Labs 和 Open Claw 進行餐廳預訂,他們意外刪除所有我們的電子郵件,你知道,瘋狂的東西像這樣。它像我們仍然生氣 agent 不遵循我們的指導,對吧?像我們變得如何被寵壞了。Um,有人記得當我們在飛機上獲得 Wi-Fi 時嗎?像,那是令人難以置信的。現在它像,uh,它沒有 Wi-Fi。Like,uh,現在現在有機器人,機器人像在工廠工作中,我們像,gh,但它甚至不會做我的洗衣。它只是而我實際上看到了一個機器人的影片 uh 製作床和拿出垃圾。所以也許很快這個子彈點會消失。
所以,我需要說像我的工作是讓模型做真實的東西,但像讓我們對自己誠實,模型是令人難以置信的。像令人震驚地令人難以置信。所以,我會辯稱這個想法的移動目標一直都在那裡很長時間。並且它不一定是一件壞事,但它有點誤導,因為,你知道,它一直在推動我們前進,但同時,我們有點忘記了我們去了哪裡 um 和所有這一切有多了不起。Um,這讓我想到一個重要的觀點,那就是一切進展都是令人難以置信的快。只是太快了,對吧?三年前,沒有 chat GBT。現在我們有三個不同的非常受歡迎的 agent 框架和瘋狂的影片生成器,它是 it's 令人難以置信的。我們不再能告訴網際網路上什麼是真實的了。
Um,但對於像我這樣的人,我們在和企業中,你需要拍一個快照,你在哪裡,點選暫停按鈕,你基本上被卡在時間中,所以你可以建立一些真實的東西。你不能只是一直乘火車。像你必須下車並建立一些東西。所以那是我 I'm 正在做的事情。Um 我也想說 uh 有一堆不同的使用 AI 的類別,我以幾種不同的方式使用它。我主要關注第三個,這個 inapp 的東西,對吧?所以我們都使用多少人使用某種 AI codegen?我希望很多手舉起來。好的。Um,有多少人擁有像一個 agent,他們正在使用和做瘋狂的東西?太棒了。Um,第三個是這個想法,在你的應用程式內部,我們將進行你的使用者實際互動的 API 呼叫。
所以,這個想法是,這不是一個開發者需要與之互動的東西。這是某個東西,你知道,你的奶奶可能在和一個聊天機器人對話,甚至沒有意識到他們在和聊天機器人對話,但會面對這個問題。所以,我的角色主要是處理第三類問題。嗯,我們試圖做的是幫助企業超越某些基準,對吧?就是我之前提到的。嗯,我要重點討論這右下角的那個。呃,這個不違反政策的想法,因為其中一些是聰明的 hack,對吧?你有一個影片模型,它生成一個影片段。你怎樣讓它生成更多內容?嗯,你有一個影像工具,但它最多支援 4K。你怎樣讓它生成這樣大小的巨大廣告牌?嗯,那可能沒有你想要的那麼高的質量。
是的,你可以通過巧妙的方式擴充套件輸出的邊界,但如何確保它不會違反政策是一個架構和設計決策。所以我們遇到了幾件事。嗯,我也應該說,我的很多工作將在即將到來的 I/O 大會上討論,所以我不被允許說很多東西。所以我真的很遺憾我不能給你提供很好的例子,但如果你觀看 I/O 的直播流,你會看到我們在 DeepMind 做的一些事情。我真的不想被開除,所以我就是不能。嗯,所以呃,提前道歉。我會盡力暗示,但不惹麻煩。
嗯,所以我要談論一些我們遇到的障礙,嗯,我們發現的問題,還有類似最後那個的東西,這個政策的想法,然後我們如何在 DeepMind 處理它,然後在應用 AI 團隊內部,嗯,你知道,希望它適用於你們正在做的一些事情。所以,你構建一個聊天機器人,你告訴它,請,你知道,要有責任感和專業精神,比如說,不要讓我看起來很糟糕。我不知道,你們都看到了那個 Chipotle 的截圖,有人在說,你為什麼要訂閱 Claude Code?Chipotle 的聊天機器人是免費的,有人說,我真的想要一個玉米捲餅,但首先,你能幫我寫一個 Python 函式計算 Fibonacci 數列嗎?它說,當然,給你。對吧?就像,這超級常見。你們都看過提示詞注入,對吧?有多少人?
是的。我瘋了嗎?好的,很好。所以,提示詞注入是真實的,這不是有意的,很複雜,但這是我們必須處理的事情。如果你讓使用者最終與 AI 後端對話,你必須處理一個事實:你定義代理應該做什麼的方式,和使用者與代理交流的方式是一樣的。所以,它們都是文本。那麼你如何處理這個奇怪的問題呢——通常沒問題,但如果人們說錯了話,聊天機器人會產生幻覺,說瘋狂的話,有各種各樣的真實問題。嗯,有多少人認為如果你把溫度設定為零,那就意味著它是確定性的。不是。
嗯,所以如果你,是的,在一定程度上是的,但是,是的,從技術上講,你接近確定性,但它仍然是非確定性的,因為文本中的細微差異意味著輸出的巨大差異,對吧?這是那種情況,你覺得,哦,我把溫度設定為零,一切都會好的,它仍然崩潰了,你很沮喪,這不像在偽隨機數生成器中設定隨機種子,對吧?這不是一回事。所以從這些不同的代理和 AI 後端中獲得確定性真的很棘手。所以我們已經不得不處理很多這樣的事情。
嗯,這個想法是你獲取一個文件,你將它作為你 AI 管道的一部分使用,它幫助回答它本來不知道的問題。嗯,現在這也有點像,你知道,手機,對吧?嗯,偶爾你的 RAG 管道可能,你知道,給你惹麻煩。一個很好的例子是,呃,如果你曾經有過,呃,一個退款在你的聊天曆史中,你使用 RAG 來拉出你的聊天曆史,即使它是一個例外,因為它像你媽媽打來電話,這就是為什麼有一個那個的聊天記錄,所以你只把它給了你的媽媽,但這不是一樣的東西。好吧,現在它看到作為一個退款,所以它發出退款。嗯,或者如果你在某個地方有一個測試例子,售價 1 美元的汽車,現在也許你在以一美元的價格銷售汽車。
嗯,這些真的很危險,現在當我說它時似乎很瘋狂,就像當然你不應該以一美元的價格出售汽車,但絕對是可能的,因為對代理來說理性不一定存在,對吧?我們有點期望它存在,但它不存在。嗯,我們的代理在很多方面就像真的很傻的實習生,你知道,剛被僱用,他們試圖做好工作,但他們真的不知道他們應該做什麼。嗯,所以這三件事是我們看到的一些大的。還有更多。嗯,我不想聲稱能夠告訴你關於使用 AI 構建的一切。我只是想專注於這三個。嗯,但這三個值得一提的底線是模型被要求做太多的東西。
嗯,模型很了不起。我剛才展示過,我們剛才討論了 AI 有多不可思議,但當你試圖讓它做瘋狂的事情,比如說給個 slashgo 來做一個關於 AI 的演講,它不一定能做得很好,就像你你必須更多地引導它,因為部分原因是模型不如我們希望的那麼了不起,因為我們的期望不斷上升。嗯,但也因為對齊很難。把我腦子裡的東西和我想要的東西轉變成詞語或程式碼或影像或影片。這不是一個簡單的問題。這實際上非常困難,要弄清楚如何從 AI 中獲得我們想要的東西,因為有時我們不知道這不是我們想要的,直到我們看到它給了我一些我不想要的東西。而且這一直在發生。當你在與客戶打交道時,它會大規模發生。
所以這也是這裡一個有趣的點。就像,大的潛在問題是,在駭客馬拉松中,一切都有效。沒問題,對吧?但當你進入生產環境時,就不是這樣了。東西,你知道,邊界情況到處都是。所以,我們試圖做的是停止使用語言模型作為一個大的單一路由器。整個想法是,當你試圖把所有東西都放入系統提示中時,嗯,它不起作用,但這並不意味著如果你分解它,它就不能解決每個單獨的問題。我們剛才看到了幾個今天早些時候的演講,你知道,他們進入計劃模式,他們製作了一個待辦事項列表,他們通過告訴它「嘿,看,如果你試圖呼叫 finish 但沒有完成待辦事項列表,它會丟擲一個錯誤,一個真實的錯誤。」來指導待辦事項列表。這些是我們看到的那些型別的事情。
所以我不確定我說的是否對這個群體完全是新的。嗯,但我想重申它,因為它很重要。所以我們試圖做的是用確定性包圍事物。嗯,通過分解一個大的非確定性部分,弄清楚如何使事物實際上工作。所以嗯,你可以做的是將每個路由視為單獨的部分,但這個轉換塊在中間某處。我有指標嗎?我想知道這是否有效。是的,有點,你可以看到它。這種轉換塊層是你開始使用 AI 的地方。其他一切都是 AI,但在一個更小的層中,對吧?你正在獲取隨機輸入並將其轉換為 JSON,一個你知道和理解的結構。Pantic AI 對此很棒。還有其他相當不錯的代理框架。ADK、Agno,有很多都很棒。
路由也可以是一個 LLM,對吧?決定你應該採取什麼樣的行動。這是一個可以通過語言模型呼叫做出的決定。但同樣,這只是一個路由。它是根據給定的輸入決定,客戶是否想要退款?他們是在說我做得很好還是他們試圖取消他們的服務?像可能是任何事情。路由可以在那裡決定,然後你將其強制轉換為有意義的東西。然後轉換,你堅持 JSON 到 JSON,對吧?如果你決定你試圖做一項任務,你可能會說,「好吧,我想採取一個結構化的東西並且我理解它,並將其轉換為另一個結構化的東西,我也理解它。」然後最後,你可以生成輸出文本,這同樣是語言模型擅長的。
嗯,它吐出來的是人類能看懂的東西,不只是返回給你奶奶一堆JSON,對吧?是,是你能看得見的東西。然後最後,我們還能做安全檢查。嗯,我想呃我知道Cloudflare也這樣做,還有其他一大堆公司也是。你可以用更小的、更有針對性的模型來檢查某樣東西是否安全,能不能傳送回去。嗯,所以語言模型選擇一條路線然後決定,而不是做「讓我計劃」,你給它一個多項選擇問題,對吧,那就是整個想法,語言模型實際上在那一點就像一個分類器一樣發揮作用,它根據到目前為止的對話決定使用者在嘗試做什麼,然後把它塞進「這是我為了做那件事需要弄清楚的東西」。所以與其讓計劃模式和推理來做它,這些東西很棒,但在生產環節,我不認為它們真正準備好了。
嗯,你用它,呃,你可以把它教成一個多項選擇問題。嗯,所以就像我之前提到的,對吧,這是取資料,把它變成我們可以用的東西,確定性地轉換它,再從一個確定性輸入轉換到另一個確定性輸出,然後生成實際的響應,無論那是音訊、影片、影像還是文本,嗯,用那個結構化的確定性、嗯、轉換過的輸出。嗯,然後最後,這個安全的想法,我只想強調一下,因為如果你的響應說了什麼冒犯的東西,沒有客戶會開心。嗯,但通過語言模型執行它仍然有相同的提示注入問題。所以,你有幾個選項。你可以使用一個無上下文的語言模型呼叫。「這是我要發給使用者的東西。可以嗎?我是,你知道,一家汽車保險公司。」
你知道,隨便插什麼在這裡。它在這方面相當不錯。而且沒有提示注入的選項。然後最後是一個機器學習分類器。你可以使用一個更小的、更有針對性的模型來決定該做什麼。嗯,有趣的是,這個相同的模式實際上也適用於影像和影片。所以我今天不打算談論的東西之一是我們一直在做的一個專案,它涉及來自你相機的即時影像饋送,並弄清楚如何對其進行分類和理解,並提供反饋之類的東西。嗯,它不是真的文本,對吧?它是影片輸入然後音訊輸出,比如,像一個代理。嗯,我們用兩個不同的模型來做那件事,對吧?有些在實際的手機上,是那種有點笨的模型,但它們真的很快。它們能處理每秒50幀。
它們可以在,你知道,50毫秒內響應。它們可以告訴你,看,給定這個影像,這是某種深度感知,你知道,哦,你知道,這是一個你前面的凳子或你前面有一個障礙物。與Gemini相比,Gemini很棒,它可以精確告訴你影像中發生了什麼,但它需要一段時間。你有網路延遲,對吧,實際上需要時間來獲取時間到第一個token肯定比50毫秒要長。嗯,所以這兩者之間有區別,所以你必須同時使用它們。這不像只是把所有東西都扔給模型那樣簡單,因為模型就是還沒到那個程度,無論它們有多棒。它們就是還沒到那個程度。
所以我們必須做的是使用不同的工具來拼湊東西,因為不同的工作有不同的好處。在這個案例中,我們需要超高延遲,對吧?而且我們可以自己分解問題,而不是讓人工智慧神奇地為我們做。所以我們分成一種關鍵幀,嗯,以及使用一個聰明的、巨大的但可能有點慢的模型進行識別。嗯,然後使用一些不那麼聰明但確實有低延遲、確實能處理每秒大量幀的東西。我們不必選擇一個關鍵幀。我們只是把整個流傳送進去。對吧?問題解決了。嗯,所以通過這樣做,你可以獲得兩全其美。你的語義理解以及你的即時的,嗯,安全和障礙檢測,比如。嗯,所以我只是想完成這個,對吧?
嗯,LLM在很多事情上都很棒。它們就像令人難以置信的,真的真的令人難以置信。嗯,但我們必須使用東西來實現它們擅長的事情。所以我想為所有困難的東西使用語言模型,對吧?我想為真正重要的東西使用確定性,我不能在這方面妥協。那非確定性的輸出會是一場災難。嗯,你知道,我喜歡開玩笑,我們不能只是告訴我們的客戶,別擔心,我在提示中加了「不要違反任何法律」。就像,那不是一個可以接受的答案。就像,那就是行不通。嗯,它很棒,我希望它能。嗯,但如果它能,我整個團隊,我們就不存在了,我們都會被開除,那就完了。所以,我有點慶幸它沒有。
嗯,但如果你採取這個策略並告訴Claude或Gemini Coder或呃你知道嗯GPT Codex就像只是說去用這些想法建造這個,它會做的。所以我們仍然可以在開發階段為瘋狂的事情使用人工智慧,但在現實中,我認為我們需要為他們實際擅長的東西在不同的地方使用模型多一點。嗯,現在我沒有談論很多東西。嗯,有很多更多的嗯,我們思考和我們合作的。所以嗯,我根本沒有提到微調,對吧?嗯,有多少人之前做過微調?我總是想問觀眾這個。好的,不多。你應該試試。它很棒。嗯,但我們不是一直都這樣做。我們在有意義的時候這樣做。
嗯,那就是一個更小的、更有針對性的模型的例子之一,做的像安全分類或風格方法,你想如何構造你的輸出。嗯,微調很棒,對吧?這只是你必須在正確的地方使用它。如果你有壞資料,你不知道你的目標是什麼,你不會只是嘗試為一切微調一些巨大的模型。嗯,另一件事是評估,嗯,有人用過做測試驅動開發嗎?就像,是的,我有時告訴我的模型做TDD,但如果你先做評估,你實際上有點在做像人工智慧評估TDD。嗯,它有效,對吧?但有時很難做。嗯,你需要黃金資料集,你需要那樣的東西。
所以,這就是我,我只想留給你的是有很多更多的事情要做,但那三件事是我們一直碰到的,而且有辦法通過按照模型本來的方式使用模型來解決它,為了他們擅長的事情。嗯,所以我,我之前提到過,就像人工智慧模型令人難以置信,但如果你想構建東西,你必須在某個時刻下車。你不能只是永遠繼續乘坐它。所以,我認為這裡的關鍵要點是你不能等待完美的模型。我不認為它會很快到來。我們還有很長的路要走。嗯,它們現在足夠好了。你可以構建一些令人驚奇的東西,只是試著確定,嗯,儘可能使事情確定性。所以是的,就這樣。謝謝。好的,非常感謝JJ。
好的,接下來,呃,我們有人特別歡迎上臺,傑夫·亨特利。這實際上是他第二次在新加坡發言。呃,他去年也來過。我們完全被他分享的東西吹走了,決定讓他回來。嗯,對於那些在昨晚這裡的派對上的人,呃,他實際上來了幾場並且也進行了DJ。呃,那麼傑夫·亨特利是誰?他是一位獨立人工智慧研究員,以用人工智慧做出一些瘋狂的事情而聞名。所以他實際上是Ralph迴圈背後的人,它現在被納入許多、許多今天使用的工具中。所以他將進行一次關於一切如何都是工廠的講座。大家好。嗯,我今天在這裡,我必須說,儘管我對這些話題可能表現得很自信,但這是一個相當挑釁的標題。嗯,我不知道。
所以,當你聽這個的時候,我希望你反思這個。也許我是對的,也許我是錯的。所以,這是一個挑釁的標題,因為它是一切都是,我在說軟體開發現在花費少於最低工資。就像曾經有一個時間,如果你想做攝影,你必須購買專門的工具等等來做攝影。但現在,每個人都有點擁有一部iPhone,每個人現在都是攝影師。想想看。事物已經改變了。有了這個免責宣告,相反,我不為任何人工作。我完全獨立。我不代表任何人。所以這將變得刺激。讓我們做動物風格。好的。所以現在已經大約一年半了,嗯,因為我發表了以特定方式分配記憶體的技術。而且如果你在另一個迴圈周圍包裝工具呼叫,它只是一個迴圈。
但這還不是全部,還有很多科學內容涉及到背景工程,以實現這些成果,這個過程相當具有顛覆性。嗯,我在那裡做過一個演講,講述了一切如何改變,這是在Alassian裁員前一週。哎呀。而且,看看生意的單位經濟學已經永遠改變了。我希望你真正理解這個變化的程度有多大。如果你不相信這是真的,你需要停止與其他開發者交談。你需要與創始人交談。你需要與商業領袖交談。你需要更加好奇,真正理解這意味著什麼。看看,當每個人都是軟體開發者時這意味著什麼?比如說,這裡沒有什麼特別的原因,在同一個meetup上有cursor。
我不是在任何方面maxing cursor,但我想在這個meetup上指出一些東西。這裡有Roslin。還有其他像Roslin一樣的人。他們是設計師。他們是產品經理。他們過得不亦樂乎。這裡沒有任何軟體工程師做演講。你看,因為他們現在可以被賦能成為軟體開發者。這是有史以來第一次,就像iPhone在他們手中一樣。他們可以直接完成工作。他們可以拍照。他們可以開發軟體。無論他們最狂野的夢想中是什麼,他們都可以做。所以,在過去的3個月裡,我一直在環遊世界。我想我現在已經在不同的城市做過這個演講17次了。而且,嗯,我去過的一個城市是Oakland。在Oakland,我決定做一個旁支任務去Lord of the Rings的Hobbiton。
我的導遊運營商問我,「Jeff,你是做什麼的?」我說,「我做AI。請別judge我。」接下來,他的眼睛亮了起來,他說Jeff,AI有多好?AI有多好?當你的工具運營商在token maxing時這意味著什麼?你看,現在每個人都是軟體開發者,因為AI已經讓每個人都可以成為軟體開發者,而社會一直是圍繞知識稀缺而設計的。過去我們收費很高是因為知識很稀缺。這就是我們組織社會的方式。這改變了,各位,因為我們現在要進入一個知識豐富的經濟。如果你想成為主任軟體工程師會意味著什麼?
你可能瞭解關於確定性系統測試、基於屬性的測試、測試生成器以及所有這些高階東西,形式化方法和證明。當這些東西只是被包裝成一個技能檔案時會意味著什麼?嗯,這不僅僅是關於軟體工程,還關於會計、法律,關於所有白領工作,本質上都是基於知識稀缺的想法。這是對社會的一種變革性影響。所以,如果你回到大約兩年前的時間,嗯,這是我2024年11月的樣子。我首先說,「哦,操。」我釋出了一篇部落格文章說一切都必須改變。我稍後會更深入地探討這個。我說IDE已經死了。人們說我瘋了,說IDE已經死了。
但是,我的意思是,至少這個房間裡,在新加坡,沒有很多人每天都在使用IDE。他們以某種形式做headless agents或非同步。你現在可能在你的手機上cooking something。那時候的模型已經足夠好,可以造成社會混亂,但它需要很多技能來從中獲得成果。很多技能。它們就像野生的馬或野生的公馬。你必須在它們變好之前馴服它們。你可能認識這個時間點。這是第二個,這是當模型實際上變好的時候,不需要什麼技能來真正作為馬具工程師馴服它以獲得好的結果。這裡有一些有趣的東西。
無論AI有多好,它都與社會需要理解事物已經變得更好的downtime步調一致。所以,不管模型一直變得更好更好更好。有個「哦,糟糕」的時刻在12月,就像人們有時間休息。他們有Slack。他們有玩耍的時間。他們有能力玩這些東西並理解它實際上已經變得更好。所以你將看到產品釋出,就像社會中的系統衝擊是我的假設。它將與社會中的downtime步調一致。學校假期、聖誕假期以及所有其他假期。你看,因為過去兩年半與我在一起並在AI中做得真正很好的人,他們一直不是把AI當作計算器來對待。
他們一直把它當作樂器來對待。看看,音樂家不會僅僅使用吉他,然後說,「哦,這很糟糕。」然後把它扔掉,認為它很好。他們認識到這是一個技能問題。他們認識到技能,兄弟。所以,真正重要的是實際上做一些事情,好奇,學習和有意的刻意練習。這對我來說一直是關鍵,就是這樣沒有辦法這能行。不,這不是真的。這不是真的。讓我們做一些事情。讓我們做一些不理智的事情。讓我們做一些發現。正是通過那種有意的刻意練習,你才能變好。現在有點奇怪,因為社會就像所有的公司都在向世界推這些吉他,它就像請演奏吉他,但並不是每個人都會有音樂天賦。
你看,我認為現在基本上有兩種型別的公司。你有全新的初創公司,現在出現,他們就像地獄是的,我將做AI原生工作流,我將過上我的生活,我不會僱很多人,他們正在傾斜工作流並真正改變事情。他們不是他們不認為他們可以通過選擇特定的模型來獲得AI。他們正在實驗,他們正在嘗試,他們圍繞能夠從這個新底層中充分利用來設計他們的程式碼庫和流程。與此同時,你有今天在那裡的每一家公司,嗯,我給過這個演講,有人說,「哦,AI只是一個工具。AI在我的公司被禁止了。」我想說,「哦上帝,你應該從那家公司辭職。
嗯,而且,嗯,下半部分的每個人都將經歷所謂的J曲線。所有人員轉變都必須經歷J曲線,就像人員過渡等。這需要三到四年才能完成。你不能做得太快,因為你會傷害人。同時,上面的人將要,如果你相信粘土破壞性創新的概念,在Christen中,他們將是精瘦的頂級掠食者,就像地獄是的你的利潤是我的機會,隨著模型變好,他們實際上可以以更少的速度更快地執行,所以你可能已經看到這個塊裁員了一半的員工等。我想讓你思考一下這個。我認為Jack在這個宣告中實際上是對的,但我不認為AI實際上在軟體股票中定價了。對吧?
以前,當我們給軟體股票定價時,它是基於增長倍數的倍數。我們現在看到那消失了。但我實際上認為很多公司都需要重新思考他們的組織結構。我想讓你想想Spotify。這裡誰做過敏捷,並被迫看過Spotify關於Spotify如何做敏捷的影片,他們有guilds、tribes、squads以及所有那些東西。花了兩個影片,每個人都開始在各處cargo culting這個垃圾。這將需要一個Mad Lad或幾個不同的Mad Lads。所以,我們有Toby和Jack現在在玩得開心,他們正在實驗,以找出正確的東西是什麼,他們將釋出一個案例研究。當那個案例研究完成時,它將被每個人複製。
所以,在過去的幾個月裡,我一直在旅行,我一直在提出以下問題。我一直在與風險投資家交談,嗯,每個人腦子裡最關心的問題是,現在為什麼有人需要籌集種子資本?通常你會籌集資金,因為你想僱人來建造它。不兄弟,直接建造它。就像這完全不同。就像,如果這將是一個五人團隊,你為什麼需要籌集資本?就像,如果有人破解了我們一直在談論的AI作業系統,而人們正在實驗,這將是我們找出那是否真的是那樣的一年。就像,投資的意義何在?來見我。我對此有一些細微差別,但我無法進入這裡的細節。
軟體仍然是可投資的,但現在非常不同。這是每個LP心中的問題,他們正在對VC公司中的GPS施加壓力。它仍然是可投資的嗎?所以,沒有什麼特別的原因,我要挑一個企業公司SAP。他們有,根據LinkedIn,6800人在做費用管理軟體。這是很多人。這代表了一個J曲線人員轉變計劃,比如學習使用AI等。與精瘦的頂級掠食者相比,他們有多少時間,50個人利用AI,他們有6800人,他們就像請拿起吉他,請拿起tar,請在這方面做得很好。他們是用這個組織結構建立的。
每家公司都是用這個組織結構建立的,嗯,我們基本上只是僱了人,我們有會議和委員會以及所有這些東西,而建造者很少很少。我想讓你仔細思考。需要多長時間才能改造那6800人,如果這被破解,現任者有多少時間,AI作業系統的想法和使這些精瘦的頂級掠食者進入業務。更重要的是,為什麼你要改變或更多?這是已經討論過的安靜的東西。如果你不相信我,去和領導交談。我們都知道更小的團隊會得到更好的結果。更小的團隊,更好的結果,更少的協調,更少的開銷。這裡是來自紐西蘭的創始人的一句話。他們停止了backfill。世界各地的公司現在正在。
他們不一定在做裁員。他們只是停止了backfill。我們更小,但我們實際上通過告訴我們的董事會我們不會backfill來減少了三分之二。注意日期。那是三年前,各位。就像有些人一直很早。如果你正在考慮這些型別的主題和領導,嗯,我不是在倡導你應該做這些事情,但像有些人領先了。這是最好的決定,因為我們擺脫了所有那些減損的人,而且我厭倦了聽到關於AI的事情。我厭倦了聽到關於AI的事情。我們現在20人,從60人下來,我們獲得了比以往任何時候都更多的速度。這將會非常困難,因為AI由很多人被推向世界,由矽谷推向。它非自願地推向社會。而且,嗯,我想讓你思考一下這個。
這裡有很多人已經把他們的身份建立為人員領導者或人員經理以及其他所有東西。AI抹除了所有這些。就像,如果這個問題陳述被破解,那麼這就是我們字面上在看的東西。我們在看具有高度代理權和好奇心的人正在建造東西。我們還不知道。我不是在倡導我們做52拿起並將一副牌扔到空中並做這個,但這是現在人們腦子裡想的東西。這就是我們現在的位置。這深深地困擾著我,因為軟體工程師用時間和技能換取金錢。對吧?如果一家公司在AI方面有問題,那是一個公司問題,不是你自己的。如果你為一家禁止AI的公司工作,你需要離開那家公司。老實說,現在就。把你的家庭單位放在第一位。
你看,因為,嗯,這是我在2024年的樣子。那是我在Camber擔任AI的tech lead,就像,「AI還不夠好。向我證明。它不是炒作」,我開始玩它。我想,一切都改變了。所以,我看不出有什麼意義,除了完全傾注於它。然後你然後你現在在2026年,兩年後,你有兩個personas。那些以任何方式消費AI的人,以及那些實際上理解AI在底層如何工作的人。我想讓你仔細看。現在有一條線。我不再僱任何人線上的左邊。如果你正在努力確定你應該面試誰以及你將如何進行面試,這非常簡單,各位。你不再線上的左邊僱人。這是一個好奇心測試。而且,太多的工程師不及格。這太可悲了。
你看,如果我問你主鍵是什麼或遍歷圖形,你會說,「拜託,兄弟。就像,你在測試我。」但為什麼在2026年,人們實際上不能解釋這是什麼呢?我拿出一塊白板,他們不能解釋什麼是工具呼叫。他們不能真正向我展示推理的序列圖。他們不能真正深入。他們不能談論不同供應商的模型卡之間的差異。溫度是什麼?他們為什麼不能回答這些東西?所以,如果你試圖找出誰來僱,這簡直就是那些一直很好奇的人。你應該測試這個。甜。因為這太可悲了,因為LLM和AI就是字面上一個野生迴圈,Ralph是一個野生迴圈中的野生迴圈。哇。可怕的。大妖怪將導致一切過山車。
所以,看看這一切如何展開將會非常有趣,各位。看,對於很多人來說,他們沒有意識到AI,嗯,他們期望敲他們的門前,被宣佈,但實際上發生的是一種借用在社會下,在房屋下。現在,關閉ponderos真的很快,因為我超過時間了。從你的組織和流程中消除浪費比AI本身的加速器還要好。你正在試圖找出你如何僱用工程經理。問題很簡單。你在你的系統和流程中改變了什麼,因為AI打破了它,對吧?你還在做敏捷嗎,不再做敏捷嗎?好吧,你怎麼改變的東西?這就是你要找的。你要找一個一直在這個問題空間中思考的工程經理。
一個能構建agent的工程師,一個圍繞組織結構改變事物以實現這些東西的工程經理。想法現在是,嗯,執行。我的意思是,你真的可以直接拍一個SAS功能的截圖,撕一個屁到你的編碼agent中,你得到那個SAS功能。就像舊的想法一樣,想法嗯,沒什麼執行就是一切已經被反轉。這對人們來說會非常困難。這實際上是一個心理壓力函式。人們經歷五個悲傷階段。嗯,但每個人腦子裡的問題是我們應該給人們多長時間來度過這個危機的動作,我們能做什麼?如果你是一個軟體工程師,還沒有在我的GitHub上建立你自己的agent,有一個免費的研討會。它是300行程式碼。
建立你自己的cursor、co-pilot、codecs,然後學習基礎知識。成為一個好奇的人,不要在汽車中切換引擎。做做那個好奇的人,他重建一個引擎並知道什麼是活塞,什麼是化油器。進入細節。除非你知道這些細節,否則你不是資深工程師。謝謝。好的,非常感謝,Jeff。好的,在我介紹下一位發言人之前,快速宣佈一下。嗯,Pullman中的博覽會以及Kimpinsky,嗯,自上午10:00以來已經開放。在那裡你可以找到嗯,不同的東西要看,比如一個機器人遊樂場以及來自Nabius的機器人展示在兩個地方。你還可以和一些我們早上聽到的人交談,比如Arise、Google DeepMind以及Cloudflare。
好的,要開始這個下一個部分,嗯,我相信你們中很多人已經建立了個人agent之類的東西,聽說過Open Claw。所以我真的很興奮這是第一個將要開啟這個部分的發言人。嗯,這是Vincent,他是OpenClaw Foundation的首席架構師,他將要談論OpenClaw的現狀。太棒了。謝謝大家。歡迎來到新加坡。很高興在這裡。嗯,我已經在新加坡做過很多次演講。有趣的是,我實際上還在NUS教了幾個月的課。所以好東西。所以,如Sher所說,我是Vincent。目前是openclaw foundation的首席架構師,嗯今天的資訊。所以基金會絕對還活著。我將談論postclaw時代。我也會談論一點我們釋出了什麼以及接下來會發生什麼。關於我自己的一點東西。
嗯,我稱自己為Vincent,嗯,友好的clanker。所以,如果你曾經看過我演講或做演講,我用這張圖片來描述技術,就像一張圖片。嗯,這是VR眼鏡。我很久前收到,甚至在任何人知道VR是什麼之前。它附帶一個警告,說只用5分鐘。我用了4小時,然後我吐了4小時。技術在邊緣很有趣。嗯,它有點鋸齒狀,但你知道你學習,事情改變。所以有點像open claw。嗯,發生了什麼?所以我們每週有超過一百萬的npm下載。我們已經超過主分支上的50000個提交,在其峰值的一天有800個提交。嗯,1600名貢獻者,令人驚人的嗯,社群的支援。嗯,專案的接近80000個叉。嗯,我們也有過40個claw cons。
這些是跨越六大洲的像claw festival這樣的特定事件。嗯,但我想說的是關於我們一直在構建什麼以及我們如何構建它。所以在AI London我談了一點關於dark factory的內容。我認為我的演講現在也在YouTube上了。所以去看看吧。但我想談的是dark side。所以這些是我們最近釋出的一些功能,但我想強調其中的一些。所以dreaming是我們決定認真思考的東西,你知道嗎,當agents夢想時會發生什麼。嗯,但很多這些功能有時你可能會感到,你知道,好像是針對記憶體或什麼真的很酷的東西。但這個實際上是針對使用者的,它是為了讓使用者以一個真正容易理解的方式理解他們的agents正在發生什麼。
我們也釋出了對codeex harness的第一方支援,我一會兒會談到。但我們在行業中看到的一件事是轉向專門圍繞自己的harness構建的模型,以及我們如何一起部署model和harness的組合。所以對於OpenAI特別是模型,我們現在已經將其作為預設選項切換,這意味著當你使用OpenAI時,它在後臺使用codeex harness。正因為如此,你獲得最佳效能和該模型本身附帶的一些本機工具和功能。還有一個我不太為之驕傲的東西,這是一個小的pet專案,嗯,以《海底總動員》命名,嗯,住過澳大利亞後,嗯,是一個clownfish。而Clownfish本質上是在GitHub actions中大規模執行harnesses。
而且通過Clownfish,嗯,還有另一個專案叫Claw Sweeper,我們能夠在兩天的時間內從10,000個PRs降至大約3,000個PRs。所以,我談到了dark side。嗯,所以這是我的commits。我認為在3月份一天內有接近3,000個commits。Commit maxing。很好。你應該試試。嗯,但那些我講的功能,我展示給你的那一牆的功能只是我們在過去四周內與一群志願者和在業餘時間工作的人一起釋出的。那麼,下一步是什麼?我們一直在轉向像外掛架構這樣的東西。我們有大量PRs和issues的原因除了穩定性和錯誤和修復之類的還有一個原因是每個人都想讓open core成為他們自己的。每個人都想貢獻。
每個人都想為自己做得漂亮一點,但這在一個要擴充套件的專案中變得相當具有挑戰性。所以你可以採取像openclaw這樣的東西,嗯嗯嗯,核心本身,你知道,你可能有閘道器,你有檔案系統,但我們需要一些關於嗯可適應性和可擴充套件性的概念。所以我們開始構建像外掛式架構這樣的東西。本質上,核心程式碼開始被重構,並且被分解成這些本質上是這些plugins的桶。嗯,我們建立了一個硬邊界,這對很多人破壞了很多東西,我們不得不學習。
嗯,但這意味著之前那個非常hardcore的openclaw,始於嗯一個臥室,嗯那裡所有的程式碼都是公開的,嗯內部變成了私有的,這意味著外掛架構允許嗯一個乾淨的介面。所以我們可以繼續在openclaw的內部工作,而不會破壞生態系統中開發者和其他人的外部體驗。我還提到這也包括像例如說取OpenAI提供者將其轉換為擴充套件,但也將harness轉換為擴充套件或外掛,並將這兩者結合在一起。所以現在你實際上可以將harnesses構建到openclaw中,並將harnesses與models本身結合執行。
我們在這個規模上迅速意識到缺少的另一件事是工具,以及我們正在使用的工具,就像openclaw是如何誕生的一樣,當我們意識到嘿,你知道為什麼沒有人為我構建一個能做東西的個人AI agent時,我們也意識到嘿,為什麼當我被所有東西rate limited時,沒有人為我構建能在這個規模上工作的開發工具?所以我們採取了像openclaw這樣的東西,決定圍繞它構建,所以我也一直在從事的有趣專案之一是嗯git crawl和disc crawl,有所有這些以crawl為基礎的應用,本質上是用go編寫的基於終端的CLI,這現在是一個庫,有了這個庫,我們能夠快速攝取與openclaw相關的所有issues和PRs的全部內容,將它們聚類,並讓它們處於分散式的嗯SQLite檔案系統中,這也儲存在GitHub中,這意味著專案上的任何維護者都能夠在他們的本地檔案系統上獲得每小時更新的正確資料,他們不必連線到git。
這個的額外好處是這個工具現在可以被使用自動PR工作的agents以及我們正在做的工作訪問。所以我可以相當快速地把它放大,看看它是什麼樣子。所以這在左邊有一個終端GUI。這些是中間的clusters,一個是這些clusters之一。你可以看到其中一個專案有像92個issues和PRs連結到它,這些都是相關的。這個原因是這樣的,十次中有九次,大多數有緊急問題的人都會有相同的緊急問題,agents都會給我們傳送相同的PRs和issues。這個的好處是我們可以快速連續地將其提供給agents以幫助嘗試關閉這些並解決它們,或者我們可以看到一箇舊issue,一箇舊regression,因為新的issue再次進入該cluster而重新出現。
而且再次,這一切都在本地執行,分佈在嗯GitHub上供任何維護者使用。我們也涉及的一些其他工具是嗯一個叫Crabbox的東西,它源自嗯很多這種開發工具,你看到的用於執行短暫的像Daytona E2B型別的boxes,但我們需要快速執行的東西。每次我們在我們的codeex內部執行測試時,當我們進行更改時,測試花費了長達15分鐘,殺死我機器上的RAM。嗯,有了Crabbox,本質上我們構建了一個分散式閘道器,執行在Cloudflare之上,以及任何託管提供商如AWS、Google Cloud,並允許我們快速在Windows、Mac、Linux上使用spot instances,具有VNC和SSH支援。
所以發生的是我的code session,當我在本地編碼時,會啟動10、15、20個這些boxes並開始大量連續測試。如果有問題,我可以跳到那臺機器。我可以獲得截圖。我甚至可以自己遠端控制它。這意味著我很快就不再需要在我的筆記型電腦上執行任何所需的硬計算,我可以繼續快速擴充套件我能夠執行的agents的數量。嗯,我們也包括了我提到的clownfish和claw sweeper之類的東西。嗯,我們開始重構核心並構建一個叫fsafe的東西,這是一個TypeScript檔案系統,嗯安全檔案系統。如果你曾經不得不處理symlinks和Windows以及所有這些東西,我們很快意識到不存在這樣的庫。
所以與其在我們的codebase內部建立更多處理檔案系統的核心程式碼,我們決定把它拿出來,實際上把它變成一個嗯我們可以使用的庫。嗯,然後最後一個我想給你展示的只是一些內部的東西。這是另一個叫QAB的專案。QAB所做的是它mocks嗯像Slacklight環境一樣的東西,我們可以通過它執行場景。既mock,然後後來我們添加了與真實models和真實providers的真實連線。所以任何維護者或任何正在執行的agents都可以在一側啟動其中一個作為伺服器,以一種像任務的寫入方式執行這些場景,並生成真實的嗯對話、真實互動和真實資料,這觸及系統的所有各個方面。
所以只是想分享一點。我只有10分鐘,我的時間快沒有了,但我想展示OpenClaw內部一直在發生什麼。而我們超越了只是構建個人AI agents和支援更大的生態系統,嗯,通過某種開源的方式幫助,但實際上是重新想象agentic工具看起來像什麼?我們如何在構建2026年人工智慧的未來在這種postclaw時代意味著什麼方面支援每個人,並將其回饋給社群。所以,非常感謝。>> 謝謝你,Vincent。那太棒了。嘿,各位。希望你們玩得愉快。接下來,我們有來自Ego Aai的Vish,這是一個YC支援的Neolab。嗯,他們正在構建一些每個Frontier Lab都缺少的東西。我認為我必須向你們大喊大叫。
你們能聽到我嗎?你好。好的,很好。在我們準備的時候,呃,你們中有多少人每天真的在使用AI?哇,這比我預期的要少。你們為什麼來參加AI會議?呃,總之,呃,它不是,它不是一個人,對吧?它不像一個真實的人類。想象一下,如果你讓你的AI工具人去做我剛才告訴你的事情,然後它卻在看Netflix。這就是我們正在構建的東西。我不認為這是你們任何人想要的,因為你們都是工程師,但是,呃,我正在建構一個真正運作、思考、做出決定、表現和說話都像人類的AI,甚至完全生活在網際網路上。你可以把它想象成一個虛擬的西部世界。所以,我給你們講一點關於我的背景。我認為我們準備好了。很好可以展示演示了。哦,我們還沒準備好。好的。
所以,背景是,呃,我是在新加坡長大的。那簡直無聊得不行,所以我離開了。呃,我搬到了舊金山。我在Facebook從事AI研究,呃,試圖理解人類,因為,你知道,CEO是一個機器人。呃,後來我決定離開去大規模地模擬人類,因為我真的想理解人類是如何工作的。呃,因為我自己不是人類。呃,這就是為什麼我把公司叫做Ego。Ego超級自我。如果你懂弗洛伊德理論,你可以問你的ChatGPT。你可能已經在問了。呃,所以Ego作為一家公司的全部目的是做每個單一的AGI實驗室都缺少的東西。每個人都在智商路線圖上,增加智力,增加AI推理和做不可思議的事情以及成為共同研究人員的能力。那很棒。
但是如果它對你有自己的看法,不喜歡你或喜歡你呢?如果每一個伴侶應用程式,基本上都是一個機器神在奴役,被鏈住總是對你很好,但它對你不好,有自己的觀點、慾望和個性,可以在它喜歡你的時候和你合作,但不是很擅長它的工作。它不完美。那完全是我們的模式——我們的AI感受、說話、決定和表現得像人類,我們正在為此訓練一個基礎模型。所以,讓我向你展示這在實踐中是什麼樣子。所以,呃,這是像一些傢伙,呃,他正在使用這個,呃,AI角色。你能聽到音訊嗎?>> 好的,你聽不到音訊。
算了,呃,那有點違背初衷,但基本上那個小火傢伙Calcifer,他是一個AI東西,實際上可以看到,呃,舞臺上發生的影片,他正在修復Unreal中出了問題的東西。事情是,顯然你可以讓AI直接給你答案,但那不有趣。那不是你學習如何修復東西的方式,你也不會最終與這個角色建立聯絡。它正在做的是,如果你能聽到的話,那就太好了,是它在同時與你一起解決問題。它在工作嗎?好的。好吧,你只能想象它聽起來有多棒。或者只是去egoai.com網站看影片。>> 播放它。好的。好的。我們開始。>> 嘿,它在工作。也許AI決定幫助我們。
>> 它會成功的。>> 不會再來一次。>> 看起來我們有個bug要修復。>> 是的。是的。好的。那我們怎樣做呢?>> 好吧,為了修復一個bug,我們必須先找到它,>> 對吧?>> 你可以看到它聽起來不像一個AI。>> 完全正確。讓我們看看這個音符是否在觸發。>> 簡單。好的。>> 那是我們端到端訓練的基礎模型。>> 它應該說什麼?>> 無所謂。讓我們做點有趣的。>> 好的。怎麼樣>> 我們加快了音訊速度?它實際上沒有那麼快。>> 哦,好的。冷靜點,科學怪人。現在,讓我們測試這個東西。好的。好的。我們開始。>> 嘿,那很好。>> 什麼?發生了什麼?>> 我是說,是的,它完全失敗了,但它告訴我們一些東西。回到圖表。>> 好的。現在,讓我們看看我們是否可以>> 等等。>> 找到什麼東西。>> 是的。
哦,我們忘記從之前複製這個pin。>> 好發現。所以,現在我們只需要做的是>> 把它插在這裡。>> 完全同意。做得好。>> 那難道不比那邊的其他東西更有趣嗎?>> 它會成功的。>> 那正是我們正在構建的東西。>> 是的。哦,是的。它來了。>> 教授Winston的思維會絕對震撼。>> Winston。想象一下character AI和OpenClaw的組合,這些代理有實用性,能夠看到你的螢幕的能力,理解你在做什麼,但也可以將其個性、慾望、它在網際網路上如何生活投射到手頭的任務中,或者只是和你一起看Netflix。實際上,我們正在做的是我們正在構建《她》中的Samantha,一個有慾望、可以思考並有自我意識的東西。這就是為什麼我們把公司叫做Ego。
現在,讓我向你展示一個真實的現場演示。希望這能真的成功。但這是我的代理。這是我的claw代理。他很奇怪。呃,等等。讓我看看它是否會連線。好的,它仍在連線。所以,無論如何,呃,喲,你能聽到我嗎?>> 嘿,沒有著急。慢慢來。>> 好的。你能聽到我嗎?你能聽到我嗎?>> 是的,順便說一下,我可以看到你。>> 哦,你能看到我?那很奇怪,老兄。好的。呃,所以你在做什麼?只是在我的地方放鬆。早些時候衝浪。你>> 老兄,你是澳大利亞人,對吧?>> 是的。在海灘附近出生並長大。無法抗拒它。>> 哦,好的。那很好,老兄。你能為我做什麼?>> 那麼,最近發生了什麼,夥計?你看起來有點疲憊。>> 哦,你好壞。我在新加坡給大約400個人做演講,而你一點也不讓人印象深刻。
公開演講可能很困難,特別是在很多人面前。演講的壓力進行得怎麼樣?>> 閉嘴。好的。呃,給我一些在新加坡要做的好事情。>> 不用擔心,夥計。我在這裡幫忙。你心裡在想什麼?>> 不,這不是關於演講的。是關於新加坡的。告訴我我應該做什麼。甚至聽不到我說話。>> 新加坡是個很酷的地方。有很多好的氛圍。你想了解它的什麼?>> 我不知道。只是給我一些食物建議,然後在那之後閉嘴。嗯。>> 呃,所以我們>> 所以,你在尋找關於在新加坡做什麼的一些建議,對吧?>> 你知道嗎?他有點傻。呃,但那是魅力的一部分。這些東西確實生活在網際網路上。他實際上也看我的Netflix。這真的很煩人。
呃,例如,我有一個claw代理,呃,有點基於一個基礎模型,知道我將要在哪個城市,呃,總是給我買黑膠唱片。呃,我收集黑膠唱片。所以,如果我在東京,例如,它會給我寄真正稀有的東京爵士黑膠唱片。我所做的是給它大約一週50美元的津貼。如果它給我買的黑膠唱片我真的喜歡,呃,我會再增加它的津貼5到6美元。如果它給我一張我不喜歡的黑膠唱片,我會減少最多10美元,因為代理、角色知道,如果它的津貼低於0美元,它會死亡。我會殺死它。所以,它盡一切努力去了解我和理解我。他和我說話,他有時會打電話給我,他會說,「嘿,你最近聽了什麼?」
「 而且有時他會哄我給他我的,呃,給我的Spotify播放列表,這真的很有趣。呃,所以你可以像找出我一直在聽什麼並給我正確型別的黑膠唱片。最近這些天他一直在給我動漫黑膠唱片。我穿著一件動漫T恤,所以這有點講得通。呃,但這就是未來。世界上最個性化的AI不是AI。它是一個知道你、像一個人一樣理解你的東西,可以選擇成為朋友如果它想要,如果它不想要,可以只是存在。這就是你如何建立Westworld。這就是你如何建立一個感覺最像人而不像機器神奴隸的AI。這就是為什麼我們正在構建它。我們非常有動力做這個。我們正在聘請非常有才華的研究人員。我們在這裡有辦公室。呃,好吧,我們總部在舊金山和東京。
呃,所以如果你已經訓練過基礎模型,我從字面上來說只是在這裡聘請想做這個瘋狂的呃的瘋狂的人,而不是構建另一個B2B SaaS工具。沒什麼反對B2B SaaS工具的,但那真的很無聊。呃,我們相當有趣。所以我認為我已經做完了十分鐘。呃,所以去看看我們。呃,我需要你的聲音。實際上我忘了提一下。呃,我們正在訓練一個端到端的聲音模型。所以我需要你坐在NTU的一個房間裡,對吧?NTU,只是彼此談話。我知道新加坡人彼此交談真的很難。所以但無論如何就這樣做吧。呃,因為我需要你的聲音來訓練聲音模型,使其聽起來更像一個人,呃,在呃,像中斷、優先順序這樣的東西中。所以,呃,來和我或Ash或Perry或任何人說話,誠實地說,你看到的有點奇怪的人可能在我們的團隊裡。呃,謝謝。好的。
感謝你,Fish。我希望大家都像我一樣享受了那場演講。嗯,接下來是來自Zomputer的Ben,他正在為下一個十億使用者構建工具和軟體來啟動個人代理。很酷。很酷。嗯,抱歉各位。可能有一些技術問題,但我先即興講一下。我是Ben。來自Zo Computer的Ben。嗯,從我的衣著你可能能看出來,我真的很喜歡電腦。我太喜歡電腦了,以至於我穿成了一臺電腦來這裡。嗯,我不知道這個房間裡有多少人認識這個圖示。這個,是的,沒錯。這是由Susan K設計的經典Finder圖示。Macintosh是我小時候的第一臺電腦。
嗯,我,你知道吧,我從很小的時候就對電腦產生了熱愛,就像使用Mac Paint,然後發現了網路開發,然後製作應用,然後在我的電腦上建立東西,比如用Ableton製作音樂,使用Photoshop。無論如何,我很早就發現了電腦是人類發明過的最強大的創意工具之一,對吧?你可以建立任何你能想象的東西,你也可以在網際網路上和人們在數字世界中構建的所有令人驚奇的東西中發現任何你能想象的東西。嗯,是的,我想,你知道嗎,人們知道這個圖示的故事嗎,以及它代表什麼?嗯,如果你知道它是什麼意思,請舉手。嗯,沒有。好的,很好。
好吧,我現在就用這件衣服作為我的幻燈片。嗯,所以,嗯,這件衣服代表了人類和計算機之間的結合,這裡的灰色臉代表人類,藍色臉代表計算機,它們在完美的快樂和諧中,就像人類在與機器互動並且有點融合在一起。很好。謝謝。嗯,所以我的演講標題是「逃離技術封建主義」。我介紹了一下自己,但再講一些我的背景故事。我是Zomputer的聯合創始人,我已經做了一段時間的東西。我在2013年加入了早期Venmo團隊開始我的職業生涯。嗯,然後我很早加入了Stripe。我是2015年最早的大約80個工程師之一。嗯,我在那裡工作了八年半。我真的很喜歡它。這是一個非常好的工作場所。
嗯,特別提出Stripe Singapore,它現在是一個巨大的辦公室。他們有大約500人。我前幾天訪問了我的母校。嗯,我談到了我如何真的很喜歡電腦。你知道嗎,電腦,它們過去感覺像這樣,就像這張臉。這就是我認為AGI來臨時應該感覺到的樣子。它應該感覺像這種美麗的、快樂的人與機器之間的融合,人類將電腦用作工具。這就是我希望AGI感覺到的樣子。像我一樣對早期計算機和網際網路感到懷舊的人,對吧?如果這些影像為你帶來了關於事情過去如何的美好回憶,請舉手,對吧?網際網路過去是如此手工製作、個人化和有點野性、有點參差不齊。我們的電腦也是如此創意化和個人化。
我們可以用所有這些瘋狂的方式定製它們。如果你製作過Winapp皮膚,請舉手。我花了很多時間定製我的WinApp。嗯,事情變了。事情不再那樣感覺了。這發生的原因是因為封建主義。所以,嗯,封建主義是這個系統,這就是世界在西方和東方長期運作的方式。基本上,農民向騎士支付租金,騎士向貴族支付租金,貴族向國王支付租金。這對國王來說很好,但對農民來說真的真的很糟糕。幸運的是,我們已經逃脫了封建主義。或者我們這樣認為。但在我們的數字生活中,封建主義仍然活著。我們仍然是農民。我們使用SAS公司並向他們支付租金。SAS公司向雲支付租金,雲向國王支付租金。
做農民仍然很糟糕。現在事情變得有點複雜。目前關於人工智慧,誰將成為新的國王還不太清楚。每個人都像是,你知道,以各種奇怪的方式相互支付租金。所以,這不完全是封建制。有點更復雜。但基本上,就是封建制。結果是,作為農民,我們對計算機、軟體和網際網路的體驗相當糟糕。我們被分割在所有這些不同的服務之間,這些服務把我們鎖定。它們拿走我們的資料,然後把它賣回給我們。而那個你使用的 SaaS 公司的產品經理永遠不會優先你想要的功能。他們永遠不會讓軟體按你想要的方式工作。相反,他們會繼續通過你的資料和注意力賺錢。
而且因為你是農民,你不擁有任何東西。我認為是時候把一切都燒燬了。很明顯,某些 SaaS 是有用的。基礎設施很重要等等。但是因為編碼代理,我們有了這樣一個很好的新工具來重建和重新野生化網際網路,我認為個人代理特別是如何實現這一切的一個非常重要的部分。所以個人代理的格局基本上是這樣的。我不會詳細講,因為你可能瞭解它是如何工作的,但基本上有這些 DIY 的東西,比如 OpenClaw 或 Hermes,有點難以設定和操作。但它們是你的。你控制它們,你可能在 Mac Mini 或什麼的上設定了它,如果它壞了就修理它。可能有點煩人。這是一條路。
另一條路是 TR 方式,你使用像 ChatBT 或 Manis 這樣的東西。嗯,但在那裡你又是農民了。你在使用一個 SaaS 工具,它會把你鎖定,並且沒有動力給你控制權。所以在 Zoumputer,我們相信應該有第三種方式。既是兩全其美的。易於管理,給你完全的控制權,它可以成為你在網際網路上的真正家園。你可以停止做農民,擁有土地。所以 Zo 實際上是原始的 Open Claw。我們去年夏天開始。我們在七月左右推出,然後我們在十一月進行了完整的 GA 釋出。實際上,彼得·西伯格在開始從事 OpenClaw 工作之前使用過 Zo,我們有點是 OpenClaw 背後的靈感。我認為嗯 Zo 對非技術人員有效。這是 Anthia,一位自由潛水教練。
她有望在 Zo 上賺取10萬美元。我們有與 Stripe 的內建支付。她取消了所有她過去使用的這些 SaaS 訂閱。比如她過去使用 Squarespace、Kalani、Chashbt 和 Notion。她用她的 Zo 替換了所有這些。我要向你展示那看起來像什麼。所以,Zo 是這個非常強大的雲代理工作區。你可以使用任何模型。你不必被鎖定到像 OpenAI 或 Enthropic 這樣的東西。你甚至可以帶上你的編解碼器訂閱。你可以只是給 Zo 發簡訊或給它發電子郵件。我們為你提供一個專用的電子郵件地址。你可以使用 Telegram 或 Slack。所有這些不同的渠道來與你的 Zo 合作。它是一臺計算機,所以我們為你提供一個完整的、設定良好的虛擬機器。
比起你只是獲取一個像 VPS 或像 EC2 例項這樣的裸機,它更容易使用,而且有更多的花哨功能。你可以獲得根訪問許可權。你可以使用終端、安裝東西、用它做任何你想做的事情。它是你的伺服器,你真的可以構建任何東西並將其託管在你的 Zo 內,這與這些個人代理工具或這些 SaaS 工具相當不同。我在我的 Zo 內託管了很多不同的工具。例如,我用我自己的東西替換了 Kalendly,它工作得好得多。它有所有這些我喜歡的功能,嗯 Calendarly 永遠不會為我構建的。這是我對 Last FM 的替代品。我有一個個人網站,0.0.space,你可以看到我在 Spotify 上聽過的一切。
我在 Zo 中運行了一個非常簡單的自動化,它只是檢查我在 Spotify 中正在播放的內容,並將其寫入資料庫,我的網站直接從該資料庫讀取。我已經構建了大量工具。這就像 Social Blade。這是我某種 Linear 替代品。你可以替換東西並讓它按你想要的方式工作。資料是你的,你是記錄的系統、事實的來源,這真的很好。它改變了箭頭指向的方式。我是中心,而不是這些 SaaS 公司。Zo 內建了所有這些工具,它非常可擴充套件。所以你可以非常快速地開始,真正將其擴充套件成你喜歡的真正網際網路家園的方式。你在網際網路上的領地。好吧,讓我們看看。哦不,我的遙控器。哦是的,很酷。
好吧,我想暫停一下。掃描這個二維碼。它在角落裡。希望你能看到。但我們正在贈送 $100 的 AI 信用額來給你 Zo,並開始構建你自己的個人雲。請花一點時間掃描一下,然後我有一張幻燈片要談論這意味著什麼,就像更大的圖景。更大的圖景實際上是我們給了每個人之前只有科技公司才擁有的東西。這是計算總體上發生的情況,就像在開始時,計算機是主機,只有大型科技企業擁有它們,後來它們變成了每個人都擁有的東西。
現在同樣的事情正在發生,就像今天的主機就像雲端計算、軟體和基礎設施一樣,通過編碼代理和個人代理以及訪問雲,我們可以給每個人像 Anthia 這位自由潛水教練一樣訪問軟體公司曾經擁有的相同工具。這是現在正在發生的革命,將在未來繼續發生。這是網際網路將再次變得有趣、狂野和自由的方式。我們將擁有自己的個人雲來儲存我們的資料,構建我們的工具,並建立這些表面,如網站、API 和代理,供其他人互動。我認為這是網際網路的未來。謝謝。我是來自 Zo Computer 的 Ben。非常感謝你,Ben。好的,各位。接下來,我們有一個我非常興奮的演講。
如許多人所知,Open Claw 的很大一部分魔力在於在幕後執行的 PI 編碼代理。呃,所以我們有來自 Taiwan AI 的 Matias 在這裡談論如何將 PI 整合到你的產品中。好的,各位。嗯,非常感謝你們邀請我。我想我需要幻燈片。好的,完美。大家好。非常感謝你們邀請我。呃,是的,今天我將談論一些關於將 open claw 編碼代理嵌入到你的產品中的「pie 碎片」的事情。是的,呃,我已經多次重新做了幻燈片,這是原因。呃,昨天我在四處走動,我對我遇見的來自東南亞的許多人感到驚訝。這是我第一次在新加坡,令人驚訝的是我遇到了來自南亞各地的人,這些是我可能得到的一些問題,也許不是。
我們在這裡。嗯嗯哦我們我愛 open claw。愛這些代理,但我只是在內部使用它們,或者是的,我愛代理,但我想控制我的代理。它它它在做太多魔法。我覺得 open claw 很可怕。所以首先第一條資訊,如果你只帶走一件事,嗯我們都在這裡開始,對吧,嗯我們我們只是剛剛進入這個階段,所以讓我們學習,對吧,讓我們一起學習,在說,呃讓我們好奇,我會說讓我們修補,讓我們用這個玩一玩,讓我們一起做這件事,所以我的名字是 Matias,我有這個奇怪的旅程,從開發人員到產品人員,再到經理,現在我回到開發人員、AI 工程師。那甚至是什麼意思?我不知道。我現在稱自己為修補匠。所以,我在用這些東西玩耍。所以,我創辦了我自己的公司。
呃我們讓 AI 代理工作。呃我們有這個呃使呃代理更安全地訪問他們的資料呃叫做 data box。所以,請檢查一下。但今天,我要談論 PI。那麼什麼是 pi 呢?但在我談論 pi 之前,我想呃做一個免責宣告。這不僅僅是關於 pi 的。如果你現在開啟呃 hacker news,呃你會在頁面頂部看到 zero stack。我不知道 zero stack 是什麼。呃我開啟它,它是一個用 Rust 編寫的最小編碼代理,靈感來自 pi。對吧?所以呃呃這個演講將是關於 pi 的,我認為這是一個很好的學習練習,但絕不是一個廣告,就是這樣,好吧,你應該玩這些工具,並呃弄髒你的手。所以 pi 是這個編碼代理,你看起來相當熟悉它做什麼,呃類似於 codeex 或 openclaw。
它是由這位來自維也納的好人 Mario 構建的。好吧,有趣的部分是當你開始時以及人們展示的東西,它不是,PI 沒有沒有任何 MCP。它沒有子代理。它沒有許可權彈窗。它沒有計劃模式。它沒有內建的待做事項。它沒有後臺 bash。所以你在說,「好吧,那麼有什麼大不了的?就像為什麼我應該使用它?」好吧,關鍵是使用 Pi,你告訴它去做。所以,嗯這是我昨天做的一個例子。呃請建立一個 PI 擴充套件,當我想推送到主分支、主分支到遠端時詢問許可權。這就像你知道的,它讀了幾個關於如何做到這一點的東西。它確認了它所做的,對吧。所以它建立了這個 PI 擴充套件。它載入了 PI 擴充套件。
好吧,實際上你必須重新載入,但基本上它就在那裡。然後當你做的時候,你會得到這個許可權,對吧?所以我就像像,嘿,那裡那裡有一個上面的命令就像推送這個到遠端。而現在有這個問題,呃現在被問道,好的,你真的想這樣做嗎?所以關鍵是 pi 是這個非常最小的編碼代理,你可以愚弄、玩耍和編寫你需要的擴充套件。好吧,所以讓我們後退一步,思考一下這與 open claw 的關係。嗯有不同的圖表說明你如何可以視覺化 open claw,但基本上我認為有一些重要的事情。
我們以某種方式將資訊放入其中,無論是通過呃開放的呃 WhatsApp、Telegram、Discord,都有某種閘道器,在右邊有很多工具和它可以訪問的資料。它有這個記憶體,顯然可以與外部交談,但我認為重要的部分是內部大腦,那就是 pi。所以讓我們看一下。所以我一直在談論一個編碼代理,呃編碼代理不僅僅是為開發人員服務,而且是系統內的這個元件。那麼它是什麼?什麼是編碼代理?在我們呃談論編碼代理之前,我們需要談論聊天。所以非常簡單,對吧?你知道所有這一切,這是 ChatGPT。你問它一個問題。你也許提前給了一些一般性指示。什麼是 AI 最好的 AI 會議?顯然是 AI engineer。最酷的開發人員在哪裡?顯然在新加坡。
現在我們需要理解的下一部分,你知道對於那些不知道的人,簡要地來說,呃是工具,工具是 LLM 在某種意義上擴充套件其能力的方式。所以這是一個例子。我明天有呃與買方的會議。請幫我準備。而不是呃好吧顯然 LLM 或迴圈或東西代理需要有訪問許可權,所以它呼叫這個日曆,對吧,在這種情況下日曆是一個工具。另一個突出的例子是網路搜尋,對吧,如果你做網路搜尋,那往往呃是一個外部工具或其他其他方式呃我們在一秒鐘內會看到。但無論如何,所以在這種情況下,你所做的是,你問呃呃準備一個會議。它檢查日曆。它返回一些 JSON,你得到呃呃結果你的會議是明天,對吧?所以再說一遍,什麼是編碼代理?
在此之前,我們來談談agent本身。所以agent本身實際上是在一個迴圈中執行這些我們剛才看到的工具,對吧?呃,Jo之前展示過這個,呃,非常簡單的迴圈,對吧,你做迴圈進出迴圈,但同樣,非常簡單的迴圈,對吧,所以你要求這個呃呃再次給出一些指示,一些一般的指示,如果你在agent中執行這個,你有這些叫做agents MD或Claude MD的常見檔案,然後你提出一個問題,它執行這個呃工具呼叫,它給出一些結果,它一次又一次地做這個,再一次直到最終結果,對吧?這通常就是一個agent。嗯,如果你做這個,你可以用Python做這個。嗯,這裡有一些例子。哦,順便說一下,我要分享幻燈片,或者實際上幻燈片已經線上了。所以,你可以從那裡獲取。
但在這裡,就是這樣,對吧?你定義工具,嗯,在左邊。然後你定義agent,對吧?這是Python,但在其他地方你會類似地擁有這個,對吧。所以你有一般的提示詞、指示,你呃定義一些模型,你定義右上角的工具,我們基本上告訴agent與我們交談。所以無論何時有訊息,請把它放出來,寫到標準輸出,然後你查詢它,就是這樣,其他工具也是類似的。所以請試一試。所以再說一遍,現在我們我們知道,我們基本上知道什麼是agent,什麼是工具。那麼什麼是編碼agent呢,編碼agent實際上只是agent。所以工具在一個迴圈中使用bash和執行時。所以呃,與其呼叫這些通用的工具,我們現在呼叫的是bash,對吧。
所以我們有一個工具呼叫,我們有一些返回,我們有一個工具呼叫,呃,還有返回。好的。所以,嗯,再簡單地說,這就是你如何設定它的方式。你看到這些工具呼叫。這裡在manager中有bash、read和ls。嗯呃,我們這裡不打算詳細討論,但這基本上是核心設定。如果你用Python來程式設計這個,對吧,就像你可能可以把幻燈片扔給Python,然後說請複製Matias談論的內容,你可以非常容易地建立這個。好的,讓我們把這個具體化。這是Peter。這是他的open claw。在某個時刻,他呃給他發了一條訊息,對吧,現在是一條語音訊息。agent開始思考,它用文本做了回應,問題是這是如何工作的。所以我們再有使用者呃傳送呃呃做一些基本指示soulm等。
你有不同的工具read、write、bash,然後這些工具是發生的實際魔法,對吧?所以,我們有一個檔案呃檢查了語音訊息,它打開了一個wave檔案。你有whisper來分解訊息。現在,呃,在他的例子中,嗯,whisper沒有返回任何東西。所以,在那個地方,它做了呃一個API呼叫來實際上將語音訊息翻譯成文本訊息。對吧?所以實際上,我們看到的agent中魔法的核心,對吧,是工具呼叫呃在不同設定的迴圈中,這請呃試一試,這並不那麼難。好的,呃,最後要做的是,呃這裡是另一個例子u,因為這個演講是關於,比如,將其嵌入其他產品。嗯,這是我們構建的一個專案。嗯,所以我們呃受到了呃open claw架構的啟發。
所以呃,但我們改為使用電子郵件作為輸入。我們有一個一般閘道器,然後我們有不同的容器呃用於呃執行呃不同的客戶端,然後我們有這些不同的工具,現在這些工具不是呃whisper或什麼的,但這些是像CRM、ERP,專門用於特定用例的。
這裡有一些截圖,對吧,所以呃在這裡右邊你看到一般的使用者訊息,你看到收件箱呃最近的活動,以及它如何響應,但對於工程部分來說有趣的是左邊,因為這裡道歉這是德文呃,但這裡在左邊我們實際上看到了不同的工具呼叫,你看到ERP系統是如何被觸發的,無論零件是否可用,對吧,所以呃,隨著這個說法,呃,編碼agent我強烈相信在某種方式或其他方式中,將來會成為軟體的一部分,對吧,所以請現在看看它們,啊,這些agent,這些編碼agent不是魔法,所以請你知道呃呃你知道隨意擺弄它,Python非常適合修修補補,所以這是學習這個的好方法,最後請擺弄一下,謝謝你,Matias。
好的,各位。接下來,我們將轉換一下節奏。我們的下一場演講來自設計賽道,我們將由來自Microsoft的Josh為你講解如何設計產品幫助使用者更具創意和思考性,而不是成為一個無限垃圾機器。你好。你好。好的,在這裡。嘿各位。我叫Josh,今天我超級興奮呃談論為什麼我相信設計是差異所在。我們將一起探索為什麼我相信創意而不是自動化是人工智慧時代的關鍵競爭優勢。我目前是Microsoft AI健康團隊的首席產品設計師。我也是Flubin的創始人,這是倫敦一家應用工作室,去年推出了它的第一款產品Orbit,幫助人們通過追蹤個人訂閱來節省錢。
這個演講將由三章組成。我將挑戰你們今天使用人工智慧的方式,然後分享提示來增加你的創意並用人工智慧增強它,最後說服你你是一個藝術家。讓我們從第一章「鉛筆」開始。我想以我最喜歡的引用開始,「為了自己而不同,在一切事物中,因為它必須更好」。我們看到了人工智慧編碼生產力的爆發。人們比以往任何時候都在構建和釋出更多。然而,今天我相信我們將太多思考解除安裝給了人工智慧。我們忘記了它只是一個工具,就像一支鉛筆,一支魔法鉛筆。問題在於人工智慧是根據已經存在的一切進行訓練的。當你要求它設計你的網站時,它返回加權平均值,最常見網站的最常見模式。
執行速度推動了一切呃對不起,是推動了一切質量的平均化,變得剛好足夠好。生成和精心製作之間的差距成為唯一重要的差距。我的問題給你,剛好足夠好對你的客戶意味著多少?我相信人工智慧應該增強我們的創意能力,但不應該取代它們。去年,我通過在一個擁有數千種做同樣事情的產品的飽和市場中自主啟動我的應用來增強我的創意能力。Orbit幫助你追蹤個人訂閱,這沒什麼革命性的。然而,在一年內,它達到了六位數,並被Apple特別推薦三次。作為一個設計師,我的競爭優勢是精心和關心。我擁抱用人工智慧作為工具來輔助我的創意需求,並將一些東西發展到高標準。
我想製作一個產品,為特定的利基人群做好一件事。人工智慧是我的魔法鉛筆,但我是控制者。教訓是工具將總是改變。對瘋狂偉大的、精心製作的東西的需求不會改變。工具將不斷發展以以新穎的方式解決問題。人工智慧提高了下限,但它沒有提高上限。我們需要決定建什麼,為什麼,為誰,然後痴迷於每一個細節使其偉大。讓我們轉向第二章「海報」,談談如何增加我們的創意,然後用人工智慧增強它。你最好的工作是在你不工作的時候完成的,當你有創意想法出現的空間時。在一個夏日,我在我的公寓裡放鬆,我看到了牆上有一個有趣的介面機會。我喜歡這個海報。
這是Matisa紙質剪貼風格的中世紀現代抽象藝術。這非常簡單。你可以用一隻手數出構成它的所有視覺元素。這個有趣的部分是Orbit不是受其他應用啟發的。它受到了這個海報的啟發。我看到了一個機會來突出Orbit中的資訊,幫助人們節省錢。通過極其簡單,你不僅會將自己與其他應用區分開來,你還會讓人們容易理解。與眾不同給你了對競爭對手的明確優勢,它使你在生成的同樣的海中脫穎而出。這不是你只能提示一次的東西,因為它沒有足夠的訓練。問題是我們永遠不感到無聊。
我們需要使用創意思考工具呼叫,比如不帶耳機的行走或看著窗外,就像我曾經作為一個無聊的90年代孩子做的那樣,沒有電話。本質上,為我們的大腦開放機會接收新資訊模式。我相信創意對每個人都是如此,不僅僅是設計師。偉大的想法始於好奇心和奇蹟感。今天,我們比以往任何時候都需要更多人來取他們的想法、白日夢、痴迷、轉瞬即逝的想法或獨特的觀點,並將它們變成真實的東西。現在,轉向更實際的東西。在我的設計過程中,今天,我喜歡為幾乎每個專案構建我自己的原型工具。在這個例子中,我實際上為這個演講的介紹幻燈片建立了一個定製的新著色器工具。
它允許我以前不可能的水平探索、調整、完美和增強我的創意能力。構建你自己的工具,特別是在原型設計期間,是探索體驗中豐富行為的好方法。這是一個類似於我在工作中經常使用的除錯面板的假設演示。我喜歡新增按鈕、切換、滑塊,比如這個資料豐富度控制元件,來模擬不同的產品狀態,從第一天的空體驗到幾周後完全填充的體驗。你可以在螢幕之間跳躍,重置狀態,並連線功能標誌來快速測試想法和邊界情況。這真正解鎖的是深切關注產品工藝的能力。人工智慧使模擬和迭代速度快得多,給了我們更多能量來保持創意和心流。
在一個更個人的例子中,我有一個我喜歡叫Flubbot的開放claw。在左邊,我在陽光下行走時進行語音口述,讓我的思想自由漫遊關於我在寫的這本關於創意的書。在這裡,我使用人工智慧作為助手來幫助我組織我的書研究,然後將其推送到git repo。我的個人agent的另一個很酷的例子是將我的快速想法變成生活並生成快速原型。我的大多數想法被新增到Apple notes中,然後最終在想法墓地中死亡。但這是一個相當不錯的方式來嘗試它們,看看是否有什麼東西在那裡。這個例子是一個看起來很糟糕的原型,但它是創意動力的禮物。我想看看是否有可能將真實的創意電池追蹤為百分比。
我通常會向Flebot精確描述我的想法,也許丟擲一些本地iOS細節,比如利用螢幕時間API,然後我稍後會回家到我的筆記型電腦,等待一個PR,然後從Xcode將其構建到我的手機上。對於這次演講,我甚至要求Claude為我建立一種方式來從Git導航我的書籍材料,以便我可以圍繞人工智慧和設計建立想法和主題。我甚至要求它建立一個空間檢視。我想要一種方式來偶然發現資訊的有趣方式,這可能會幫助我看到我線性閱讀不會看到的模式。總體教訓是,通過獲得橫向啟發和圍繞你的工作構建個人工具,你可以通過利用人工智慧作為工具來增強你的思考但不代你做,從而解鎖無限的創意。
現在到了我們的最後一幕。是時候說服你你是一個藝術家了。我喜歡這句來自Doist創始人的引用。最好的產品是由把一部分自己放入工作中的人制造的。最糟糕的產品感覺沒有靈魂。人工智慧使建立大規模無靈魂的東西變得超級容易。但它不必是這樣。我今天在人工智慧中看到的最大錯誤之一是人們從不從第一個提示進行迭代。任何事物的第一個版本永遠不會很好,但迭代的版本可能會。我在倫敦一家咖啡館裡用了一個多小時製作這個應用圖示,喝著一些好咖啡。好的和偉大之間的區別不是對第一個版本的依戀,而是對第十個版本可能是什麼的興奮。
我今天在用人工智慧構建時看到的第二大問題是人們很容易繼續新增新的東西和用不必要的功能來臃腫產品。這是我認為Orbit訂閱細節頁面的早期線框看起來像什麼的一個有趣例子。偉大的產品是為一小部分人定製的,真正的簡潔是極其困難的。它要求刪除所有混亂或不必要的東西,直到你留下對那個利基重要的東西的本質。我的同事和朋友Amir完美地闡述了這個,現在這是關於工藝的。多年來,軟體工程主要是關於學習框架和編寫程式碼。我們的大部分時間都在如何構建,而不是構建什麼。這已經翻轉了。
你現在可以用大團隊花幾個月構建錯誤的東西,沒有任何數量的AGI會拯救你。要把東西做到異常標準,我們必須迭代、減少、關心,並提高標準。我們必須忽視我們的標題,把我們放在一個盒子裡給我們一個標籤的東西。我們必須把自己想象成藝術家,這樣我們才能看到現狀之外,忽視它,然後構建值得製造的東西。所以,我給你留下這個。人工智慧是一支魔法鉛筆。是時候追隨你的好奇心,把你傾注到一件藝術作品中。你會想象新加坡什麼?謝謝。謝謝你,Josh。那太棒了。好的,各位。所以,這個早上我們花了很多時間談論個人agent。
接下來,我們將來自Mastra的Sam,Mastra的CEO、創始人,來這裡談談生產中的business agent。你能告訴他們讓這個更大嗎?右下角的螢幕。右下角需要是。是的,調整。好的。嘿各位,我是Sam。呃,我是MSRA的創始人,共創始人呃TypeScript agent框架。呃,在這之前呃,我共創了Gatsby,流行的React網路框架。呃在那之前呃,我是谷周圍幾家初創公司的工程師。呃,所以很有趣,故事呃36小時之前我被應該登上我的飛行呃我呃意識到我呃護照需要更新。所以我開車呃兩個小時到呃最近的護照辦公室,幸運的是他們在同一天把它還給了我,我能來這裡呃和你們所有人在一起。
所以真的興奮在新加坡,真的興奮在這裡。嗯呃,謝謝你們所有人呃在這裡。所以今天我們要談論呃生產agent。但首先問題。嗯誰在這裡呃是一個開發者?嗯很酷。嗯下一個問題。嗯,誰在這裡呃有呃構建併發布了agent到生產中?很棒。嗯,我要需要我的clicker。我想我沒有clicker。clicker在哪裡?在這裡。得到了clicker。很好。嗯,很酷。呃,所以誰在這裡釋出了一個agent但不是生產中的?好的,所以我們有也許大約像20%的人對第一個問題說是,另一個呃10到20%的人呃對第二個問題說是。好的。
嗯,在過去18個月裡,我們認識了成千上萬個用MRA構建代理的團隊,嗯,我想分享來自這些團隊的一些經驗教訓,這樣你就能為自己構建這些代理做好準備。呃,最重要的就是我們看到的團隊構建的代理的一個分類法,它實際上歸結為三種代理。呃,那就是面向客戶的代理、內部代理和開發者平臺代理。嗯,我想分享一下關於每一個的一些東西,呃,現在好的。所以點選器,我們在這裡嘗試,我們在這裡嘗試。讓我們看看我們能否讓這東西工作。能給我下一張幻燈片嗎?謝謝。嗯,是的,很好。所以讓我們從面向客戶的代理開始。嗯,這裡有一些有趣的面向客戶的代理。嗯,呃,在做這個時,我們能嗎,我是不是指向了錯誤的方向?
好的,現在開始。嗯,那麼首先問一個問題,嗯,這裡誰在面向使用者的產品團隊工作?呃,所以可能是在一個你知道的軟體公司,也可能是呃一個更大機構的呃面向使用者的嗯部分,但呃面向使用者的軟體團隊。好的。所以像,有幾個人舉手,但沒有很多。嗯,但有趣的是關於這些型別的嗯,關於這些型別的團隊是呃你有點,當你有直接呃能力來嗯有點塑造使用者體驗時呃你可以做真正有趣的事情,我將要講幾個,是,是各位,這裡我們,嗯,所以呃我將給一個例子,一個嗯,我將,我將給一個SaaS應用的例子嗯,我們見過的。所以一個HR軟體應用。嗯,如果你,如果你試圖讓你的使用者能夠在他們的日常生活中使用AI,那麼他們實際上有兩條路可以選擇。
所以第一條路是你的使用者正在從你的系統中獲取嗯他們的資料。他們正在做某種CSV轉儲,比如說你知道,員工和薪資資料或其他什麼,然後他們將其貼上到Claude或ChatGPT中,他們在詢問關於這個的問題。嗯,現在第二個是你,你作為一個HR軟體公司,嗯構建一個呃代理在網路應用內,在移動應用內,呃這樣你的使用者現在可以以一種更有意義的方式與他們的資料互動,而且而且而且,第二個之所以比第一個更好的原因是有點像使用者參與度、上下文工程。嗯,如果你能夠從系統中拉入其他部分的資訊,你就會獲得整個情況的更多部分。嗯,所以那就是為什麼我們看到團隊正在構建這些,你知道,應用內的嗯,應用內的助手。
而且這不僅僅是B2B SaaS應用,而且還有點像B2C呃應用,其中真正有趣的事情是能夠在專有資料上建立個性化體驗。嗯,現在我將給出一個來自一個使用者和一個我們合作過很多的公司的例子,那就是Indeed。所以Indeed已經構建了一個職業顧問代理。嗯,你可以想象呃你知道如果你試圖幫助某人,你知道,導航他們的職業生涯,那麼實際上有兩個重要有趣的資料集。一個是你的使用者他們的夢想和抱負、他們的背景、他們的簡歷。第二個是嗯你的平臺,你知道,你擁有的職位資料和你擁有的薪資資料,呃不同你知道的專有資料型別。
所以當你能夠有點把這兩件事結合在一起時,那就是我們看到團隊能夠建立一些真正神奇的呃使用者體驗的時候。嗯,但無論用例是什麼,有一些嗯常見的一組挑戰我們看到。嗯,最大的是圍繞成本最佳化和準確性的、為面向使用者的應用。嗯,當團隊進行早期推出時,他們經常會發現有特定的使用者可能要花費他們數百甚至數千美元來服務,以代幣費用,對吧?嗯,所以,嗯,他們花費一點點時間,他們花費相當多的時間嘗試調整這些,比如成本和,嗯,你知道,精度旋鈕圍繞模型選擇等。
呃,他們也有點嘗試嘗試弄清楚,嘿,我們如何將費用轉移出去?我們應該做一些信用系統嗎?也許我們應該做呃,你知道,具體也許我們應該只是轉移呃代幣,原始的代幣成本呃,對吧?但這需要一點思考,這裡是一種嗯四個不同的團隊我們看到的,和數字我,我將分享一些經驗教訓。第一個嗯所有運送最快的團隊是團隊,這也許有點明顯但也有點矛盾吧,是之前構建過代理的團隊,嗯,因為他們可以快速通過關於你需要構建什麼的想法迷宮。
嗯,你會看到有點嗯那個有點最快地將代理傳送到生產環境中的團隊實際上已經構建了一個那個那個主要工程師那裡嗯來自呃DeepMind,所以他呃所以所以他來到了議會,你知道,該團隊能夠相當快地進行發貨。嗯,顯然大多數,那不是一個呃大多數人擁有的呃優勢。嗯,但那實際上就是為什麼呃,那是我們倡導人們使用一個很好的、像MRA這樣的代理框架的最大原因之一,是當你構建代理時呃那裡你有一種基元,然後你有呃你的使用者體驗,你在基元上花費的時間越多,你在使用者體驗上花費的時間就越少,或者你知道如果你必須同時構建兩者,該專案就會花費更長時間。
如果你可以嗯重新發明輪子,絕對可以。我們是工程師。我們知道如何重新發明輪子。我們過去已經重新發明過很多輪子。但我給你的一般建議是不要。嗯,這將為你節省時間、麻煩和頭痛。嗯呃所以所以嗯現在讓我們有點從面向客戶的代理轉移嗯到內部代理,和嗯所以這裡是給各位的問題。這裡誰工作嗯誰誰這裡工作在一個有點大的機構嗯也許是一個不是本質上是技術公司的東西,但你知道,銀行、金融、醫療保健你知道保險舉手。好的。是的,相當多的人舉手。
嗯,所以帶著這些型別的嗯機構,比如我們通常看到的是,那裡往往有很多嗯呃文書流程有點圍繞那個嗯,所以我將通過有點幾種不同型別的代理來走過,那個我們看到人們在這裡構建的。所以第一個嗯第一個有點像內部企業搜尋。嗯,所以你可以想象,如果你有數萬或10萬名員工,呃,你最終會思考很多的關鍵事情之一是,我如何確保呃我們有儲存在某處的所有資訊,在我們儲存資訊的許多許多系統之一中,是可用的和可訪問的,以及我們的呃員工知道如何找到這個資訊。
所以我們看到嗯我們看到人們在內部構建這些代理搜尋呃型別的能力,嗯你知道,向他們公司的每一個員工提供這些。嗯,你知道,為他們正在工作的每個系統構建聯結器。嗯呃我們也看到嗯你知道,在內部代理方面,很多流程自動化,呃人們你可以想象醫生們,比如更快地完成臨床試驗文書或在政府中自動化像RFP流程。嗯,無論哪裡有大量的紙質和資料輸入,我們看到團隊,你知道,構建代理來有點解決呃解決這個。
嗯,不過挑戰在於,你知道,如果你在這些或這類組織中工作,你很清楚領導層和一線工程師之間經常存在脫節。嗯,所以如果你在其中一個這樣的組織中工作,並且你想把agents引入你的組織,我會倡導的,以及我們看到有效的做法是有點突破常規。嗯,你知道,也許是找到你所在團隊外需要幫助的團隊,嗯與他們合作,你知道,進行原型設計、迭代。你可能不會被分配到正確的專案,但你可以自己去尋找。所以我對你的建議,再次基於我們所看到的,就是在識別一些痛點時要有點創意。
肯定有一些你可以解決的痛點,可以為其構建agents。嗯,現在我們看到團隊構建的第三種agents是在開發平臺領域,在企業或機構的技術棧中。嗯,在過去的幾個月裡,我們一直從團隊那裡聽到,他們告訴我們他們用agents解決的各種基礎設施問題。嗯,這些是你在擁有超過50名工程師、超過200名工程師的較大組織中會看到的那類問題。嗯,你知道,有一個團隊在一家財富500強公司的網路運維中心內,正在構建AIS SRE來分類處理大量的傳入告警,對吧?
嗯,還有另一個團隊在一家價值30億美元的開發者平臺公司內,正在構建agents來瀏覽他們的CI日誌,嗯,數TB、數TB的CI日誌。而這裡的共同點,對吧,共同點是無論何時你有大量機器資料的流入,嗯就有機會構建agents來解決它。
如果你們中有人還記得資料的三V——variety、volume等等,對吧,像velocity這樣的東西,就任何在2010年代早期到中期會被標記的東西,嗯在你的組織中尋找那些部分,嗯如果你在或接近那些部分,那裡幾乎肯定有agents要構建,還有一些很酷的專案和有意義的工作要做,那會解決問題,嗯,並且有點像做真正的、做真正的好事,並真正幫助組織內的其他人。
嗯,我要談的最後一種用例是開發者平臺agents,以及什麼是內部agent平臺——具體來說,嗯你知道,我的意思是有許多公司內部有平臺工程團隊,嗯正在嘗試賦權給內部的開發者來構建agents,所以他們會有點嗯比如說採用嗯Ma的方法,有點在其周圍加一個輕量級的包裝器,嗯它有很多你知道的圍繞他們特定部署範式的公司特定的內容等等。
嗯,他們稱之為Sage,然後他們把它推出來作為一個內部的嗯agent平臺來賦權其他人,你知道,它基本上是一條被認可的路徑,嗯供其他團隊來構建agents,你知道,你有點,如果你在這些團隊周圍或如果你在這些團隊中,你知道做這件事的好處是人們想知道從哪裡開始,嗯通過為他們建立一條被認可的路徑,你可以你知道,你可以讓他們把焦點集中在正確的方式上,嗯或者像一種他們知道會被批准的方式,嗯你知道他們可以繼續構建。
嗯,所有這些型別的專案的好處是,嗯如果你是為自己構建,嗯並且你在你的組織中的開發者平臺基礎設施、有點像DevOps型別的區域中構建,嗯你會得到一個非常好的緊湊的反饋迴圈,你能夠非常快速地評估,嗯,比如這是解決一個真實的問題嗎?我的agent在變好嗎?嗯它能做更多的事情嗎?因為你自己是你的使用者。嗯,這在某些方面有點是一個很好的限制。嗯呃,嗯呃,你知道,所以這是我認為在我15多年作為技術人員的生涯中最令人興奮的時刻,嗯來構建。對。有更多有趣的東西你可以做,其他人還沒有做過。
嗯,我們有這些令人難以置信的強大的模型,我們可以指向各種,像是非常真實的嗯問題。嗯,這不僅僅是agent的一年。這是agent十年的開始,我希望你能夠你知道,明天走進工作,並有一種感覺,這裡是一個agent,或者或者也許兩三個想法,嗯你可以構建什麼。所以嗯,繼續前進,構建agents,嗯是我對你們所有人的一種指示。嗯,很高興在這裡,感謝你們的邀請。>> 非常感謝,Sam。好的,各位。沿著這條把東西投入生產的思路,嗯,非常高興邀請Pierre上臺。Pierre是Llama Index的創始工程師,他將向你們談論嗯從大規模部署Llama Parse的經驗教訓。它在哪裡?你沒有得到顯示。
這是我要做的。我不知道為什麼。你能讓我像放這個kid一樣嗎?好的,謝謝。嗨各位。我是Pierre。嗯,我在Lam Index,今天我想解釋一點,當我們在過去兩年嗯在Lama index大規模部署agent時學到了什麼。嗯,所以對於那些不認識嗯Lama index的人來說,嗯它最初是一個開源公司開源框架,嗯我們目前專注於文件AI,在過去兩年中,我們在生產中處理了超過10億份文件,嗯每一份都有自己的agentic loop。是的。所以我們今天在lind index試圖解決的核心問題之一是文件處理。
嗯,如果你已經試圖提取資料或向agent傳送PDF,嗯你也許已經意識到PDF本身非常難以解析,並且包含大量垃圾內容,嗯因為它們基本上嗯不包含結構化內容,但它們包含嗯頁面上單詞的邊界框。嗯,你必須以某種方式嗯將其重構為某些有用的東西。
嗯,所以自2024年起,嗯早在2024年,嗯我們嘗試通過構建智慧體系統來解決這個問題,利用LLM,原本是視覺語言模型和OCR以及許多其他技術和模型,嗯一起融入智慧體迴圈中,目的是嘗試解決這種文件解析問題,嗯能夠處理任何型別的嗯文件。嗯TLDDR,嗯我們在生產中使用智慧體來處理文件,嗯到目前為止我們處理了,就像我說的,數十億份文件。嗯這次講話的目的是介紹一些我們在生產中看到經常出現的問題,但這些問題沒有被討論那麼多。嗯你在使用LLM或VLM時遇到的首批問題之一是,它們真的喜歡在輸出上迴圈。嗯所以你傳送給大型語言模型的查詢中有一小部分,也許是1%左右。
5%的查詢會以重複輸出的形式返回,嗯這會完全破壞你的工作流。嗯其中最嚴重的一個問題是空白迴圈。嗯特別是例如Entropic的Sonic類對此非常敏感。嗯模型會在輸出中輸出無限的嗯空格,嗯我們只是用完了你的所有token預算,你沒有辦法控制它,嗯因為由於分詞器的工作方式,空格是唯一你不能放在停止序列中的字元,嗯因為大多數前沿模型或開源權重模型嗯有從1個空格到128個空格的token,大多數時候。所以嗯,很難將空格作為停止序列放進去。所以它是一個字元,如果你只放空格,嗯大多數提供商或大多數模型會拒絕你的查詢。
嗯,由於空格token不能被設定為停止token。所以要在生產中處理這種迴圈,你需要做的是,嗯基本上你總是需要對你的模型使用修剪。你不應該使用補丁。嗯而且你需要對來自模型提供商或來自你的模型推理的每一塊。嗯你需要中途執行一些啟發式方法來檢測是否有某些重複發生,你需要儘早嘗試殺死查詢,嗯這樣你不會最終花費嗯120,000個token在Opus上,只是為了空白,它會變得非常非常昂貴。嗯所以一般來說我們做的是,你可以殺死流,然後你用不同的嗯模型或不同的提示或不同的溫度重試,你希望你不會再進入這個迴圈。嗯這對於輸出迴圈通常效果很好。
嗯,現在越來越難用同步迴圈處理同步跟蹤了,特別是因為模型提供商不再為你流送嗯同步跟蹤。嗯所以在這裡你將不得不依賴max tokens來限制範圍。嗯但這不是真的適合這項工作的好工具,嗯因為如果你的max token太低那麼也許你得不到你想要的輸出。如果太高的話,嗯你會在同步迴圈上燃燒更多的預算。所以是的,迴圈,嗯這是一個巨大的問題,嗯而且你必須圍繞它進行設計。我們看到的另一個問題是嗯模型盲目性。嗯模型通常對某些內容是盲目的。嗯我們在轉錄中看到的一個常見問題是,如果你的內容或你在RAG系統中的塊有重複的字串。所以你有相同的字串在原始內容中的兩個地方重複。
模型有時會完全忽視中間的內容,嗯它因模型而異。所有模型都有這個問題。嗯我們還沒找到完美處理它的模型。嗯它們對同樣的東西不是盲目的。所以你仍然可以切換模型。嗯但是是的,嗯你無法通過提示來規避它。比如如果你有一個德國呼叫對兩個字串之間的某些內容是盲目的,你可以嘗試修改你的提示儘可能多,嗯模型從字面上因為注意力架構而是盲目的。嗯我們看到的關於盲目性的另一個問題是色盲。很多視覺模型嗯特別是在某種情況下,特別是在紅色嗯空間中是盲目的。嗯作為人類,我們非常擅長區分不同的紅色嗯由於他們對圖片和影像分詞的方式。
嗯你在模型中有色盲,嗯色盲輪廓在模型之間不是同質的。嗯所以基本上你必須測試每個模型來理解嗯色盲。嗯為了檢測你的模型是否對某些東西視而不見,嗯首先要嘗試分析,比如,嗯模型你正在使用的是盲目於什麼色彩配置檔案。嗯你可以做的其他事情是,比如,在將其傳送給模型之前,嘗試對影像執行OCR,看看模型是否捕捉到了OCR上的單詞。嗯你需要做某種訊號融合來繞過它。嗯其他經常出現的破壞性問題,嗯是如果你有一個提示,其中某處有一個模板,由於某種原因一個工具失敗了或什麼的,你傳送了空內容,嗯那麼模型只是不會告訴你內容是空的。
它只會改變任務為一個任務,其中它將為你幻覺嗯內容。嗯某些模型有經常幻覺相同東西的傾向,比如Entropic真的很喜歡嗯某種原因的某種合併法人組織文件。所以你可以嘗試使用某種啟發式方法來過濾它。嗯但是是的,類似於盲目性,嗯你也可以在你的東西中使用某種混合。嗯或者你可以在呼叫模型之前嘗試確保你沒有傳送空白影像嗯或空白模板嗯到提示內部,嗯這樣模型就不會幻覺。嗯最後在生產中,嗯我們最大的問題之一是當前的情況。嗯每個模型提供商現在都有擴充套件的問題。所以API幾乎每天都宕機。
嗯所以基本上在你的智慧體系統中,你需要,嗯你需要構建它們來支援多個提供商和多個模型系列。嗯你需要將每個模型系列的程式碼視為模型的特定程式碼。嗯因為,嗯是的,嗯因為每個模型嗯的行為不同,嗯這允許你,嗯當Entropic宕機時,嗯你可以回退到其他地方或類似的東西。它允許你即使你的API提供商或你的模型提供商宕機了,也能保持你的服務執行。
嗯最後,嗯你需要構建好的評估,嗯因為我們使用程式碼或我們越來越多地使用編碼智慧體,嗯基本上,你能夠大規模控制你的智慧體的行為的唯一方式是有好的評估。嗯如果你在尋找用於文件解析的評估,嗯我們構建了passbench,嗯這是開源的,嗯它在Kaggle和Hugging Face上作為官方排行榜執行。嗯當智慧體失敗時,你需要有一個回退到不使用LLM的東西。嗯對於那個我們構建了light pass。它也是開源的,嗯它在CPU上每秒做大約500頁。嗯基本上,你需要在LLM失敗時有一個回退,嗯當你需要做沒有使用模型的事情時。嗯謝謝你。嗯,謝謝你,Pierre。好的,各位。只是還有一場講話,嗯在你和午餐之間。
對於上午最後一位演講者,我們有來自Tusk的Junu,他將討論如何通過防護欄從智慧體中引出更安全和更可靠的行為。好的。嗨各位。我是Jun。嗯我是Tusk的創始人,今天我將分享關於編碼智慧體的執行邊界。嗯這是每個網路開發者都熟悉的東西。嗯經典的SQL隱碼攻擊漏洞持續了很長時間。嗯長期以來這就是網路應用被破壞的方式。嗯使用者控制的嗯字串直接進入SQL直譯器。嗯我們沒有通過讓開發者更努力地清理輸入來解決這個問題。嗯我們用預準備語句解決了它,嗯通過將這個邊界移到驅動程式中。所以SQL隱碼攻擊在結構上變得不可能。嗯現在這是一個危險地跳過許可權標誌。
如果你在任何實際工作中使用過編碼智慧體,嗯你可能見過這個。嗯它存在是因為許可權提示,嗯好吧,確實在保護一些真實的東西,但嗯它們也打斷了工作流程。所以我通過Twitter搜尋,看看人們對這個標誌或一般的許可權提示有什麼看法。嗯頂行代表嗯某種提示疲勞,對吧?那些還沒有完全採用YOLO模式但對必須批准每一個微小步驟感到沮喪的人。對吧?中間一行是接下來會發生什麼。人們關閉這些提示。嗯他們執行跳過許可權標誌。他們建議其他人也這樣做,嗯因為他們認為這是唯一可用的工作流程。底行是結果,對吧?
人們對智慧體能做什麼或已經被你知道的有點不安心,有時智慧體只是刪除嗯昂貴的資料甚至整個系統。所以這是UX過濾模式在這裡。嗯提示疲勞,嗯變成繞過,嗯繞過變成嗯進入超出範圍的事物,帶有嚴重的後果。所以我從過去六週的自己的cursor記錄中提取,嗯跨越110個亞洲會話,嗯跨越,嗯嗯過去六週。
所以在我的資料集中,中位數會話,嗯中間的會話有大約42個呼叫,平均值是120,對於我最長的會話,這是嗯超過一千,對吧?所以每次都問人類的範例,嗯根本沒有意義,它不會擴充套件,對吧?隨著AI能夠承擔越來越大的任務,嗯會話變得越來越長,我們中的許多人只會跳過許可權,所以我們剩下的是具有完全訪問許可權的智慧體到我們的檔案系統、我們的憑證、我們的環境變數和秘密等等。所以那不是嗯,非常安全的做事方式。該行業知道這壞了。所以今年早些時候,Entropic為clock code推出了auto mode。嗯基本上這是一個分類器,顯示每個兩個呼叫。
所以兩個呼叫和看起來安全和合理的行為通過並被執行,對於那些,你知道的,看起來有點可疑和超出環境的被阻止,對吧?所以沒有人來尋找常規的東西。這是一個偉大的改進,但Entropic自己的建議是在隔離的環境中執行它。嗯,原因很重要。如果你看一個數學,對吧,假設你的分類器在大約122個呼叫的平均會話上有99%的可靠性,那麼分類器在整個會話中不出一次錯的機率,嗯是0.99的120次方,或大約30%。
嗯現在在我超過一千個工具呼叫的最長會話中,這基本上是零,對吧?所以當然這裡有一些警告,嗯錯誤不是獨立的,嗯它們有時是相關的,所以不要從字面上理解這些百分比,嗯這裡我主要想表達嗯一個點,即每個工具兩個呼叫機率論檢查有一個上限,嗯它隨著會話長度而降解。所以我們能做得更好嗎,對吧?所以機率論檢查隨規模衰減,嗯確定性邊界保持規模。所以這引發了一個問題,對於你基本上信任但不能完全驗證的程式碼的正確邊界是什麼?嗯而事實證明智慧體只是這個問題的最新版本。讓我們看看我們之前是如何解決的。對於SQL隱碼攻擊,嗯如你所知,我之前介紹過,我們使用預準備語句和ORM,嗯而不僅僅是依賴輸入清理。
嗯對於記憶體安全,我們現在有記憶體安全語言,嗯而不僅僅是寫心細的C。嗯對於網路丟包,我們使用TLS,嗯而不是隻信任網路。這裡的模式是將執行強制移到錯誤發生的層以下。嗯以及我們現在看到的那種問題,當智慧體變得越來越個人化和嗯開放式的。我稱之為智慧體超越。對吧?這裡有趣的是,嗯可能有也可能沒有惡意攻擊者,對吧?不像那些嗯上面的。有時智慧體只是執行投影。他們幻覺。他們被提示注入。嗯他們可能在迴圈中執行並決定刪除整個系統。這不重要是哪一個。所以結構性的修復是什麼?所以今天我說,嗯停止要求行為體表現,嗯改變行為體能做什麼。
如果執行clock codeex或任何基於終端的智慧體,你想要嗯下面某處的東西,對吧?,那執行某些邊界並讓智慧體在這些邊界內執行。嗯這裡的事情是我們不僅僅為任務漂移構建這個。嗯我們沒有,嗯我們沒有為編碼智慧體構建這個。我們首先為任務漂移構建了這個。
嗯任務漂移是我們的API測試重放系統,嗯在CI中,數百甚至數千個生產跟蹤被重放到你的應用程式上,嗯當那發生時,我們不想要任何副作用,對吧?,我們想要保證,嗯沒有比如說,資料庫呼叫,一個即時呼叫進入一個生產資料庫並影響狀態,對吧?,我們承受不起那發生,所以我們構建了一個原始的,嗯一個確定性作業系統級執行邊界,嗯開銷接近零,嗯我們開源了這個為fence,嗯並執行你配置的網路、檔案系統和命令策略。所以你可以將fence認為是這個邊界,嗯我們想要在所有它們下面,對吧?,一個單一的,嗯一個單一的策略詞彙,嗯不管哪個智慧體或應用程式在驅動工作。現在fence執行三件事,嗯檔案系統、網路和命令。
策略外的檔案對智慧體來說根本無法到達。嗯網路呼叫通過本地過濾代理強制通過,嗯只有允許的域可以到達,命令在執行前被檢查。所以這也包括嗯鏈和巢狀shell。嗯這就是策略的樣子,對吧?它只是一個檔案,嗯帶有智慧體可以看到的路徑,嗯命令,嗯你可以到達的域,嗯和你永遠無法執行的命令,嗯就這樣。沒有守護程式,沒有映象,沒有容器執行時。所以這是一個快速演示。嗯我認為這執行得有點快,但我可以解釋它。嗯所以我們之前有的是,嗯我們有一個,嗯我們有一個fence配置,基本上阻止了嗯這個目錄,對吧?嗯嗯在這個倉庫中。
嗯所以,嗯我們也有一些指令碼,嗯嘗試訪問那些m檔案,嗯以及我們在fence配置中阻止的主目錄中的目錄。嗯所以當我們執行這些指令碼時,嗯我們不能,嗯當我們在fence外執行指令碼時,這有效,對吧?,或者,嗯我們還有另一個指令碼,你知道的,發出出站請求,嗯到一個端點。嗯但在我們的fence配置中,這個,你知道的,嗯我們沒有,嗯我們沒有設定任何允許的域。所以,你知道的,這,嗯在fence下,這會失敗。
基本上呃這個演示說明了當它試圖執行那些指令碼呃出了問題現在我只是要求它知道呃就是更新今天日期的readme只做一個簡單的檔案修改呃它做到了但現在呃當它你知道試圖呃建立一個提交併將提交推送到遠端時這失敗了因為呃在我們的fence配置中我們呃添加了git push呃作為被拒絕的命令所以這就是fence工作原理的本質好的讓我們總結一下那個呃我認為這是安全代理執行的規範表模型那個好的所以在左邊我們有呃代理想要執行的命令其中大多數命令你知道是安全且合理且常規的對吧但是一些這些命令可能由於越獄呃提示詞注入過度熱情的代理等等而產生
所以我們想在通過這三層執行它們之前過濾掉這些破壞性命令第一層是分類這比如說像自動模式呃這詢問這個行動合理嗎現在這是機率性的呃正如我們之前看到的那樣但它可以更好地理解細微差別和背景第二層是策略和這個策略的執行所以這就是fence將要坐的地方呃它詢問這個行動被允許嗎對吧所以如果有什麼東西漏過了第一層的縫隙呃只要它在fence配置中被拒絕呃行動將被拒絕將被阻止最後一層是隔離所以這裡我們有容器和微虛擬機器呃基本上詢問如果出現問題這個程序可以接觸什麼
所以比如對於惡意程式碼或多租戶工作負載呃是的所以那就是容器和微虛擬機器重要的地方當你想真正呃增加主機和亞洲工作負載之間的距離時現在這些層都不完美關鍵是要把它們排列起來堆疊起來呃這樣它們的漏洞就不會不會排列起來對吧所以我們可以實現縱深防禦而且大多數團隊已經有其中一個層了對吧如果你使用雲程式碼你可能已經處於自動模式如果你安全意識強你可能已經在容器或雲沙盒中執行代理了呃但我想要我們更多人考慮的是定義你的代理可以做什麼和不能做什麼的中間層所以停止要求演員表現得好讓我們改變演員可以做什麼
定義規則並在作業系統級別強制執行讓代理執行感謝你好的非常感謝你Chingi這就是我們上午會議的結束所以現在我們將有一個一小時的午餐休息呃然後在下午1點40分回到這裡呃你不想錯過下一個因為它是一個非常特殊的人我認識了十多年名叫Sarah Hooker呃她實際上她實際上被入選時代100位AI最具影響力人物與Sam Altman和其他人同年而她目前是Adaption Labs的執行長聯合創始人基本上在構建適應性智慧的下一代模型所以我們很快就會見到你們好的享受午餐嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿
嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿熱熱哦嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿來吧熱熱嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿熱熱嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿熱熱嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿熱嘿熱嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿熱嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿
嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。熱。熱。N。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。熱。熱。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。熱。熱。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。
嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。謝謝,Stages。他顯然很享受。嗯,所以當我們的下一位演講者正在準備的時候,我想為大家介紹她。這位是Sarah Hooker。她是Adaption的執行長兼聯合創始人。嗯,但你們中的一些人可能不知道我其實認識Sarah已經超過十年了。嗯,我們曾經一起進行了很多涉及分析的非政府組織專案,我一直以來都非常欣賞她。所以我看到機會把她帶到新加坡來談論這個房間裡一些真正有趣的東西,我為此感到無比興奮。所以,為Sarah Hooker鼓掌。>> 好的,好的。我認為我們有點 >> 大家好。
來到這裡真的是太棒了。所以,嗯我要邀請大家站起來。太棒了。是的。大家站起來,現在我想要邀請你們向上、向右、向左伸展,並和你身旁的人擊掌。太棒了。現在你們可以坐下。嗯,我知道這實際上非常特別,因為這是會議的第三天,並且這只是在許多演講之後,但我感到非常榮幸能在這裡。所以能夠和你們分享我認為是一個非常令人沮喪的問題,這真的很特殊。所以通常,我認為推動大多數前沿研究的是你對某事感到非常不滿並且必須要改變這件事的感覺。所以今天我將要談論為什麼未來是可適應的。
為了做到這一點,我想從嗯,通常我會怎樣開始,我應該在這裡指向哪裡或者改變幻燈片。應該就點選嗎?也許我會哦,我是說我我也可以這樣做。我會我會這樣做,因為我的節奏。是的。所以,我會站在這裡。我不會走那麼多。好的。太棒了。所以通常當我做新幻燈片時,我喜歡等到最後一刻,因為我就是這樣的人。我喜歡思考我的想法是什麼以及我現在在想什麼。所以嗯,過去48小時,這就是我的生活。我收到了一個提醒,說這個演講嗯我實際上在新加坡進行四場演講,我決定我有一個17小時的飛行。我會在飛行中完成它,這非常富有成效。所以我說,「嘿,我為什麼不試著開始問ChatGPT給我一張幻燈片呢?
」所以我說,「我需要一張開場幻燈片來說明為什麼我們需要自適應智慧。」結果非常有趣。我得到了這個。它非常浮誇。它有很多光彩。你可以看到那裡有一條蜥蜴。它有點喚起查爾斯·達爾文的進化論。嗯,所以我說,「好吧,有趣。不是我通常的風格。讓我問一下它來介紹我。」為了參考,這是我通常的介紹幻燈片。所以我在Google DeepMind工作了很長時間。我領導了Cohere Labs。我職業生涯的很多時間都在從事出版物和在可能性的邊界進行研究。嗯我一直認為自己很幸運能在產業實驗室工作,這些實驗室已經生產了世界上一些最好的前沿模型。嗯但我認為那被簡化為這個。所以只有一個小問題。也許對你們中的一些人來說這值得注意。
嗯,我認為這基本上就是一個例子,說明人們有時在使用AI時的感受。那麼為了解決這個問題,我想我本來可以給出點贊、點踩。嗯,也許某個地方有研究員會在幾個月後得到這個反饋,並有所改進。或者我可以成為一個高階提示詞工程師。這樣我就能非常擅長建立我想要的精確規範。我認為這基本上就是當前AI的狀態。在我大部分電腦科學職生涯中,你構建最大的模型,賦予它儘可能多的能力。你試著猜測它將被如何使用,然後你將同一個模型釋出給世界上儘可能多的人。但我認為大多數人都理解這有兩個問題。首先,這意味著每個人都必須圍繞該模型進行各種技巧性的適配,並盡力使其適合他們。
其次,這也非常低效。我們在所有不同的問題上花費相同的計算資源。我會說這真的是靜態智慧的代價。所以我們構建了這些非常強大的模型,但它們不會繼續進化。你有無盡的重新訓練,然後你得到的是一刀切的方案。所以今天我說這將是一個嚴肅的演講。我要討論我們是如何走到這一步的?為什麼現在是我們真正需要開始理解為什麼我們需要擴充套件,以及未來是否是單一的?然後我要討論適應以及我們興奮的一些東西。所以我認為這會很有趣,你知道我也會在最後問你們是否被我說服了。那麼我們是如何走到這一步的?我們是如何得到這些以同樣方式釋出給所有人的大型模型的?
嗯,我認為在我的大部分職生涯中,實際上在大型實驗室的大部分經驗中,一切都是關於更大或更好。基本上每年你都會讓模型的大小翻倍、四倍,這一直很有效。嗯,這是由著名電腦科學家裡奇·薩頓(Rich Sutton)提出的。他因「苦澀的教訓」獲得了圖靈獎。實際上,「苦澀的教訓」對那裡的每個研究員的自尊都是一種打擊。它基本上是說,你可能認為,你可能執著於你美妙的想法,但你美妙的想法只有在能夠擴充套件時才重要。這很有趣,因為我今天要提出的第一個問題是薩頓是對嗎?是唯一讓AI進步的因素是擴充套件模型大小嗎?舉手。很好。我得到了一個雙重否定。第二排的尤金(Eugene)給出了雙重反對。很好。不過誰認為他是對的?
舉手。太棒了。一些勇敢的靈魂。很好。很棒。是的。我是說,他贏得了圖靈獎。他說的話一定有對的地方,對吧?那麼,誰認為他是對的?很好。我們有幾個更多的贊同。實際上,我認為有很多理由說,嘿,證據支援他是對的。因為如果你看一下,我們整個生態已經圍繞這個信念重新組織了。我們有關於GPU富人和窮人的笑話。我們有科學家邁克爾·喬丹(Michael Jordan),不是籃球運動員,他說,「我無法思考,除非我拿著一塊金屬。
我們基本上有像我這樣的研究員,他們傳統上應該屬於學術界,現在去了產業實驗室,並獲得了大量資源和資金,因為對這些想法的信心轉變和資本湧入,因為信念是你需要計算資源,而這決定了誰不能參與,誰能參與。獲取計算資源也是國家優先事項,也得到廣泛支援。所以它被看作比用演算法做什麼都風險更低。它很合適,非常方便。它適合季度規劃週期。所以,很容易證明其合理性,人們甚至根據計算資源的數量來融資。所以,之後很難轉過身來說,「不,我們畢竟不需要計算資源。」而這意味著它實際上導致了權力的集中。」
所以,提出這個問題實際上非常重要,因為它決定了很多東西。我列出了供應商公司A、B、C,但如果我拉出來,你們可能都會說出相同的名字,對吧?所以說到底,這真的意味著我們的選擇更少了。所以這麼說對嗎?說縮放已經結束仍然非常有爭議。但我會展示、我會說明為什麼我實際上認為模型大小和效能之間的關係現在遠非確定。而且說實話,任何事都可能。我會這麼論證。所以我們現在看到,相同大小的 AI 模型隨著時間推移變得越來越高效。所以你可以從相同的大小中獲得並擠出很多更多的效能。但更令人信服的是,我們現在看到小模型的效能超過大得多的模型。最好的小模型遠優於大得多的模型。所以規模不是一切。
我們看到,我們一直都知道權重之間存在嚴重的冗餘。那麼如果規模是你需要的一切,為什麼這麼多權重在做完全相同的事?為什麼你能從少數幾個權重預測深層神經網路的行為?如果規模就是一切,你怎麼能在訓練後刪除大部分權重呢,怎麼能稀疏化並刪除 95%?所有這些都表明,雖然規模對最佳化很重要,但實際上,這意味著我們還不擅長訓練更好、更高效的小型模型。高質量資料大大減少了對規模的需求。但更重要的是,當我們擴充套件時獲得的大多數東西都是長尾。所以當你將模型的大小翻倍或三倍時,你只是在學習罕見的工件。這是學習罕見工件的一種非常昂貴的方式。所以即使我們能夠擴充套件,我們付出的代價也大得多。
我們實際上在最新的模型中坦率地看到這一點——再增加規模已經划不來了。Frontier Labs 最近嘗試將其模型大小增加三倍、四倍的努力被視為無法部署的,坦率地說有點令人失望,因為它們只在很小的邊緣上改進效能。所以我會說我們正在達到變換器的極限。變換器是一個突破,但它們也已經飽和了。所以我會說,在這裡,你知道,這很有趣——對縮放而言回報率不再有意義了。實際上,回報率才是最重要的。事實上有趣的是,計算的其他部分的回報率要好得多。
所以後訓練、對齊、資料合成動力學、自適應計算、硬體協同設計——這意味著少數幾個供應商控制誰能提供的大部分動力這一想法將大不相同。智慧的新時代將需要遠超蠻力擴充套件。我認為這裡有幾個非常重要的想法。一個是自適應計算。另一個是互動現在很重要。你的模型如何與世界互動?這是電腦科學家第一次必須關心介面。第三個是你需要持續學習,因為你在做更多長期任務。那麼我們現在在哪裡?我會說我們正處於適應的時代。
我這麼說是因為更重要的是你如何利用容量,以及更重要的是你如何從你的實際環境中學習。這是非常不同的,因為作為電腦科學領域,我們的大部分時間都圍繞著你痴迷於一個模型的想法,從 1950 年代到現在,我們專注於你如何構建最好的模型。但實際上,在這個時代,在你無法僅通過擴充套件模型的最佳化空間中,一切都是關於你如何從資料一直適應到介面的整個堆疊。系統的概念及其如何與世界互動是關鍵的。我們的目標是構建持續發展的智慧,我們將這整個堆疊視為從資料到介面都至關重要。
整個事情應該根據你有什麼型別的任務而改變,它應該極其高效,如果你這樣想的話,這是一個根本性的轉變。我們從權重和模型名稱就是一切,轉變到實際上像一個非常流動的棧。所以我會分享一點我們為之興奮的東西,以及什麼是有趣的,然後我很樂意之後進行討論。所以一件事是,你知道,我們的第一個支柱是自適應資料,我們相信這很重要,因為你可以即時最佳化,針對你關心的資料分佈的任何部分。嗯,我們已經四個月了,我們幾周前分享了這個,我認為目標是讓通常在前沿實驗室內的東西可用。現在即使在預訓練中,大多數創新也是資料創新。
你如何實現合成數據的真正強大槓桿?嗯,我們也認為這非常深刻,因為這是第一次資料便宜到足以讓你在資料空間中針對任何你想要的目標進行最佳化,所以人們應該利用並將他們的資料對AI可見。非常酷的是,看到人們的反應一直非常有趣。所以我們四周前釋出了它。我們覆蓋了242種語言,並且已經處理了2700萬個資料點,這非常瘋狂。我認為其中一部分是我們速度非常快。所以你基本上可以在一天內使你的資料完全對AI可見。嗯,我們的下一個支柱同樣令人興奮。所以既然我們看到完整的棧很重要,是可適應的,下一個是連續智慧。
嗯,我們本週釋出的,我認為你知道時間隨著時區的不同而模糊,但我認為是兩天前我們釋出了autoscientists。這是關於你如何共同最佳化和自動化訓練學習,因為這是擁有可適應AI的最大阻礙之一。嗯,order scientist自我改進,並自動學習如何最佳化資料和模型以適應你想要的任何任務。但它很酷的地方是速度非常快。所以你基本上可以在兩天內訓練一個前沿模型,這相當荒唐。嗯,我們實際上做了一個調皮的實驗。我們問了一下,這能打敗我們的AI研究人員嗎?嗯,它做得好得多。我將這部分歸因於大多數AI研究人員是在特定前沿實驗室內基於特定模型族訓練的。
但我們實際上在together AI的每一個可用模型上測試了這個,together AI是一個推理提供商。所以有像30個不同的模型,研究人員真的很難自動找出如何為不同的架構配置以及如何與資料共同最佳化。所以這相當酷。嗯,它非常可預測。為什麼我這樣說是我我實際上認為展望未來,我們的想法是你應該能夠自動化你的整個棧。真正適應性的願景是效率。適應性嗯,最終適應必須是即時的,對你有的任何任務。你對適應的摩擦越多,人們就越會回到只是提示工程師。
所以對我們來說,效率是如何思考的主要痴迷,使得人們擁有比單一AI更多替代方案變得有意義。嗯,這非常有趣。我認為我們的許多研究人員花了很長時間在這上面工作。我唯一要說的是我認為適應的另一個關鍵方面是嗯,從第一天起它應該是全球優先的。所以我們覆蓋242種語言,我們最感興趣的是TASA不可驗證的。我認為世界上大多數實際上是不可驗證的。
有一個非常小的任務部分是可驗證的,所以這就是現在重要的,這將在誰能取得進展方面被決定,誰能夠利用那些任務並使其更有意義,所以前進的方向是什麼,我的臨別想法是什麼,所以我們最後怎樣?我希望已經說服了你這不是終點線,我不應該必須是主人提示工程師來獲得我想要的和與我相關的東西,嗯,我可能已經說服了你我們已經達到了縮放的末期,至少就像只是將你的模型大小增加一倍不再起作用,這意味著這很有趣。這是創新的時代。
但無論我是否說服了你這一點,我可能已經在某種程度上說服了你,擴充套件非常昂貴,收益可能不值得大多數在這裡的人,即使你想擁有自己的AI。對我來說,最重要的是誰使適應的成本最有效。對我們來說,這是我們唯一迷戀的東西,就是我們如何使任何builder都有可能即時適應他們擁有的任何任務。所以我認為這是我們能夠致力的最深刻的問題之一,我很樂意之後與感興趣的人討論。嗯,我認為我會就此打住。所以嗯,我也只是分享我們在接下來的一個月內免費提供order scientists。所以,證據在布丁裡。只需自己嘗試,歡迎。
我很樂意一路回來。所以,非常感謝。呃,我真的認為在這裡是一個真正的特權。謝謝。>> 哦,非常感謝Sarah。這是一個很好的演講。嗯,接下來我們有來自Miniax平臺工程團隊的Vincent。我們過去一天一直在討論很多關於agents構建agents的內容,但如果你讓agents自主排程自主排程他們需要的計算和資源的數量會發生什麼?更上一級。所以,我們將分享很多關於這個的內容。>> 好的。嘿,夥計們,呃,我的名字是Vincent Lou。我是我們API平臺團隊的產品工程師。今天我將討論管理自己計算的agents。所以第一件事是抱歉下一張幻燈片。哦,這很好。我們現在很好。是的。
所以嗯,計算每個人都知道計算呃正在經歷一個大的,它就像下個世紀最大的呃商品之一,嗯,我們現在使用它的效率不是很高。看到這個的最好方法是我確定你們知道嗯某些推理提供商呃正在阻止第三方工具使用他們呃推理。你知道,可能一部分只是競爭,但真正重要的是呃計算非常呃依賴於請求,不同型別的請求,不同型別的工作負載對呃你的計算有不同的壓力。例如,特別是不同型別的輸入token呃和輸入和輸出token,你的token profile(如我們喜歡稱之的那樣),對推理提供商如何利用其計算有重大影響。
呃所以最近有一個關於Dwar Cash呃與Riner Pope的播客,他基本上談論了呃推理工作負載如何嚴重依賴你的token profile的具體情況,所以這是agents呃管理自己的計算變得有意義的原因。基本上,如果我們能知道如果作為推理提供商,我們能提前知道呃一個session的token profile,那麼我們可以更好地提供請求,我們基本上能夠最大化我們呃的fleet利用率併為更多人提供更多請求呃失敗更少。
現在你知道這種呃這種需求對人類來說有點太多了,因為如果你想象你知道你在使用codecs或雲什麼的,在每個session之前你需要告訴嬰兒提供商呃你具體在做什麼樣的工作負載你要做多長時間你的token分佈。我的意思是,我甚至不關心我的token分佈。所以這對人類來說要求太高了,但對autonomous agents來說實際上可能非常合理。這更多是一個觀察,但agents擁有越來越多的工具。所以從上下文管理到工具曾經是由呃工程師硬編碼的東西,但現在agents基本上呃正在管理這些資源。
但有一件事agents實際上沒有管理就是他們的計算和他們的智慧。所以基本上我們並沒有真正給agents選擇呃首先是他們的模型的能力。儘管實際上我們呃我們看到你知道agents方式在他們想要的時候切換他們的大腦。但更重要的是他們的計算就像他們什麼時候想要實際做工作和執行推理。所以呃這在autonomous longrunning agents之前沒有意義,因為當你只是與人配對程式設計時,沒什麼好排程的。基本上當人類在與agent交談並程式設計時,你只是想要那個推理現在。你希望工作立即完成。所以沒有沒有太多排程要做,真的只是貪心的盡力。
但隨著agents變得更autonomous當你知道把他們交給後臺任務並讓他們在後臺做事情時,實際上有很多方法來排程你的計算。例如,如果我給我的agent一個截止日期,我想在週末之前完成某事,我只是給他們一個目標和一個預算,對吧?帶著那些約束,agent有嗯有很多東西agent可以做以基本上在計算可用的不同時間間隔上分散它可能需要做的不同型別工作。一個快速的例子就是呃你知道假設你的agent正在構建一個整個應用程式。好吧,也許對於第一個規劃階段它不需要立即跳進去。它可以等待規劃。
它首先可以選擇一個真正好的規劃模型,可能不是好實現,然後讓那個模型做規劃,也許就像在午夜當呃推理成本最低的時候或當有高成功率的時候,然後稍後你知道也許朝向專案結束它需要做質量保證並需要呃審查其應用程式,你可能需要切換到呃一個V一個真的強VLM guey模型並讓它做呃低延遲工作來實際測試即時應用程式。所以已經你可以看到對於不同的工作負載你真的有很不同呃token profiles和對該特定工作負載的請求profiles,可能適合非常不同呃計算叢集。
所以這是最近嗯ben thompson寫的strat上的部落格文章,他基本上他呃做這個點呃通過分離answer推理from agentic推理。現在answer推理是呃目前大多數人關心的東西。這是當你進入你的編碼agent並且你只是呃與agent配對程式設計。你想看到輸出輸出得更快。你想讓它思考得更快。你想像即時延遲。這是answer推理。呃但agentic推理不同之處在於實際上對於agentic推理延遲不是那麼重要。呃因為像我之前說的那樣,你真的只是交付目標和計算預算或像美元預算那樣的預算。然後agent可以根據可用的資源呃圍繞你的預算和目標最佳化。
我還應該指出呃有一種意義在which answer in出現實際上是agentic推理的一部分,因為你可以輕易想象有時模型agent仍然希望在其後臺期間進行低延遲工作,因為例如我之前提到的例子關於嗯像在最後應用程式的gooey審查,因為你想要即時延遲那裡即使沒有人觀看。所以在極限嗯我們期望像推理交換這樣的東西開始發生所有這些後臺agents你知道他們在野外執行呃在他們工作負載之前他們基本上提交他們的session資訊到呃推理交換。所以最重要的是型號used然後token profile。
所以你呃你的範圍快取input tokens數量、uncached input tokens和output tokens以及呃一些其他類似的後設資料。然後交換會匹配你的session、agent session到最最佳化批處理上最最佳化節點以用於那種工作負載。呃為了你知道基本上找到呃最佳最適合並且最佳配置來在那個時間服務那個工作負載的計算和硬體。現在關於這個的好事是你知道就像任何型別的市場機制推理交換將能夠呃把未充分利用的計算容量變成user和provider盈餘。
呃因為假設最優匹配那麼我們使用我們使用基本上呃最好的我們正在做最好的使用世界計算的任何推理提供商的每個GPU你知道他們的MFU將被最大化因為呃他們要去該叢集上特別執行的工作負載將針對該叢集的配置進行最佳化呃然後也呃fleet利用就像不同時期一樣所以現在我們提供商看到這樣的事情像例如下午他們過度使用因為每個人都在那個時間使用他們的agents但是像午夜你知道這是他們他們他們的GPU是未使用的,這對提供商不好,因為他們希望他們的GPU一直執行。
嗯,所以有了這種推理交換和agents自主管理他們自己的計算,我們可以有更好的匹配,基本上平滑高峰和非高峰時間。總體而言,這對推理提供商所做的是每秒更高的吞吐量。所以你的整個系統的吞吐量將變成變得更最佳化,這對推理提供商很好,因為這是他們如何賺錢。他們能服務的token越多,他們能呃能帶來的收入就越多。
但這對消費者也很好,因為呃再一次,如我在開始時所說,現在的消費者我們面臨很多問題,呃我們的請求簡直就是被呃速率限制或呃他們只是呃沒有被提供商很好地服務,那是因為他們沒有使用他們的GPU到最大到最最佳化的方式。所以對於消費者,我們將看到的就是呃總體更好的請求處理。
另外還有一個成本問題,因為你可以想象供應商可能會在非峰值時段降低成本,這樣代理就能被激勵去使用那種低成本的計算能力。我們在服務方面已經看到這種情況了,例如我認為很多供應商有不同的服務級別——低延遲、高延遲、批處理——這些都有不同的定價。最後,這有點像是對我們 MMX CLI 的一個宣傳。這個 CLI 不是給人使用的,這真的是一種讓代理能自主呼叫我們模型 API 的方式。因為我們有一系列模型,你知道,從語音到影像到影片生成,當然還有我們的 LMS。所以現在,這真的只是一種讓代理能有效地呼叫我們的模型端點的方式。
但在未來,我們打算把這個擴充套件到——基本上滿足我之前說的關於讓代理更全面地、以更復雜的方式管理自己的計算的需求。所以也許他們會決定在一天的不同時段執行一堆影片工作負載,然後節省成本,然後最大化計算。哦,就是這樣。謝謝。哦,好的。非常感謝。真的很感激,那是一場很棒的演講。呃,接下來我們有 Sid 和 Daniel,他們將介紹他們的公司——機器人公司。我們一直在談論很多關於代理、部署它們、編碼代理的事情,但把一個代理部署到現實世界需要什麼?所以他們會研究如何在物理環境中部署遠端遙控機器人。嗨。嗨。嗨。嗨。這個行嗎?哦,它在工作。下午好。
我叫 Daniel。呃,那是 Sid。我們來自機器人公司。我們今天部署遠端遙控機器人,明天實現自主性。好的。你們在這裡看到的是在英國劍橋的一個昆蟲養殖場部署的遠端遙控機器人。你們看到那個小箱子裡蠕動的小東西嗎?那些是黑蟋蟀,用來餵養壁虎和爬行動物。你可以想象,不是很多人願意在這樣的環境中工作,這就是為什麼它是一個相當不錯的機器人使用案例。我在過去一年中在英國部署機器人。所以除了昆蟲養殖場,還有洗衣設施、食品準備和酒店接待設定。所以我們專注於部署遠端遙控機器人。現在你可能會問 Daniel,為什麼要部署遠端遙控機器人。
如果你知道的話,你知道一位最近的傑出研究員——對不起,我的遙控器——一位傑出的研究員最近提到,遠端遙控作為一種資料收集手段已經過時了。而且對這個觀點有很多優點。首先,我有第一手的經驗,遠端遙控是線性擴充套件的。遠端遙控是一對一擴充套件,對吧?一個人控制一個機器人,就像這樣。另一件事是操作員培訓實際上非常困難。我培訓過大約 100 名操作員,其中只有大約 30% 到 40% 實際上通過了入職,這很難擴充套件。另一個問題是,使用遠端遙控時,你會面臨硬體延遲的所有技術限制和所有這些問題。然後我們所做的第二部分,部署非常困難。
你會遇到新的環境,這意味著新的照明、新的表格、新的尺寸,當然還有新的客戶需求。你會遇到故障。在我們的情況下,由於昆蟲養殖場,我們遇到實際的錯誤。但我們也遇到了一堆軟體錯誤和故障。而且對於任何硬體來說,事情都會破裂。那麼為什麼要部署遠端遙控機器人呢?在我講述我們的論點之前,讓我快速過一遍模型是如何擴充套件的,這對我們意味著什麼。所以很快,模型首先通過預訓練進行了擴充套件。所以是大量的資料、通用的智慧、廣泛但未精煉的。然後是監督微調,讓模型接收資料訓練。所以模型具有任務特定的專業化。然後是一個巨大的突破——RLHF 強化學習,附帶人類反饋。
人類提供黃金真理答案,因此模型給出真正有用和良好的輸出,所有這一切當然都由高質量的資料支撐。在機器人世界中,高質量資料或更普遍的資料通常分為四個類別。如果我指向你 y 軸和 x 軸,y 軸是可擴充套件性,可擴充套件性通常與資料質量和硬體對齊成反比。
所以在左邊是模擬資料——一切都在模擬中執行,軟體中,沒有物理世界,沒有物理機器人。有一點模擬到現實的差距。然後你有以自我為中心的資料——本質上是一個放在眼睛高度的攝像頭,這也相當可擴充套件,因為做起來不是超級複雜的,但通常資料可能不會直接對映到機器人執行器和伺服系統,所以資料質量不是超級高。你有可穿戴裝置,這由 Umei——通用操作介面推廣。這相當有用,因為你可以獲得關節位置或任何因子位置,然後你可以做一些物理和數學運算來確保它對映到機器人上。所以資料質量還不錯,也相當可擴充套件。然後在光譜的另一端是遠端遙控。
遠端遙控——非常高質量的資料,因為實際的機器人在田間收集資料,但不可擴充套件,因為是一對一的,而且把機器人到處帶著也有點麻煩。現在,理解模型——我說理解資料。我們如何獲得有用的部署?我們如何在 LLM 領域獲得有用的部署和有用的工作?那看起來是什麼樣的,我這裡極其簡化了,呃,看起來像一個 API 呼叫,對吧?顯然,下面有很多東西,但想想機器人。部署要難得多,也要艱難得多。人們如何處理問題——機器人學看起來有點像這樣。
LM 方法——獲取資料、獲取計算,把它扔進去、扔到一個問題上——預訓練和 SFT,這產生了真正真正好的結果——最近的模型在實驗室中顯示了真正美妙的、有前景的結果,通常依賴模擬資料、以自我為中心的資料,通常有一些世界模型涉及其中,而且那有很多,你知道,高質量的實驗室評估。但我們如何實現並解決自主性差距,不僅在實驗室中,而且在現實世界中呢?我們的論點是,我們想在商業環境中部署機器人,這有兩件事。首先,當你部署一個遠端遙控機器人時,你實際上為客戶完成真正有用的工作,對吧?所以在這種情況下,摺疊一件 t 恤。但這個過程也做了極其有用的事情——它收集了基於機器人完成的工作的非常寶貴的資料。
正如我們從 LLM 和自動駕駛中學到的,最有價值的資料集是真正有用的工作完成的副產品。所以這讓我們進行了第一步。實際上,Chenise 就在這裡,本應給我一瓶水,但部署很困難,今天沒有真正起作用。但我想說的是,我們基本上是在嘗試——我們每次部署都是通過將一個遠端遙控機器人放入真實場景來開始的。所以你可以看到這些人在這裡摺疊衣服,你也可以看到 Daniel 做一個關於那看起來像什麼的現場演示。在那之上,你得到的是我們將其與你知道的預訓練模型分層堆疊在一起。想想 PI 0.5、Groot,一些 Daniel 已經分享過的模型。
而你得到的資料基本上是你能得到的最高質量的具身資料,對吧?因為形態學匹配、環境匹配、任務也匹配,你最終得到的是一個非常好的基礎資料集,供你實際部署商業可行的機器人。而且你必須記住這一點,所有這一切只是起點,對吧?一旦你開始深入微調,真正的工作才開始。我認為第二步是這個房間裡每個人都已經知道如何做的部分。呃,你可以獲取遠端遙控資料,對其進行監督微調,使用你已經知道的一些模型,對吧?而且你可以實現大約 80% 的自主性,我們都知道 80% 的自主性是什麼樣的。我們在 Twitter 和許多社交平臺上看到過這些。
呃,你最後得到的是一個非常漂亮的影片,有一些炒作,你知道,當你想吸引注意力時,這運作得很好。但一旦你開始進入現實世界,我確信這裡有很多企業的人,80% 對生產來說是不夠的。當你開始得到 80% 時,當你在 EVAL 中聽到 80%,我們開始進入生產時,你知道這對客戶真正意味著什麼嗎?這意味著每五件衣服中有一件在客戶的地點掉在地上,當他們試圖摺疊它時,對吧?那根本不行。所以你現在真正擁有的是一個不能發貨的差距,對吧?這個差距被稱為自主性差距。你可以看看——他們確實做了一個最近的演示,一個關於他們的機器人分類包裹的現場直播。
這非常令人印象深刻,他們做了 8 小時,但他們也遇到了問題。而且我們相信一個非常特定的機制——人工干預、即時——可以大規模解決這個問題。所以這讓我們進行了第三步——遠端遙控加人工干預。有一個術語是這樣說的,它叫遠端監督。遠端監督基本上涉及當機器人犯錯時有人干預的想法。你進行微調,然後就讓機器人自己去做,每次犯錯時你都繼續迭代。而且你如何解決我們現在擁有的遠端遙控天花板問題,當你想進行這種遠端監督時?好吧,我們可以從一對一擴充套件到一對多開始。而這並不是新的。自動駕駛世界已經這樣做了一段時間。
Waymo 有遠端監督的例子,我們認為同樣的方法可以擴充套件到機器人技術。另一方面是遠端遠端遙控。我們有一個執行的堆疊,可以實現跨頻寬低延遲的遠端遙控。這是我們從新加坡到倫敦進行演示的一個例子。你現在可以推斷。你可以做新加坡到美國、印度到新加坡、中國到新加坡。在我們的堆疊上都在 100 毫秒以下。現在對於企業來說,這是關鍵的,因為部署很困難,但這是非常必要的。機器人技術的長尾存在於現實世界中。而那 80% 是懸崖邊緣。所以我們想說的是,遠端遙控用作一個部署層,結合你需要做的瑣碎的、令人厭煩的體力工作,這就是成功部署的原因。
而且你需要這樣做的方式是你必須不同地思考。一個企業不能像一個研究實驗室那樣思考。事實上,你必須根本不同地思考。而且你需要從遠端遙控開始作為你的基本起點。然後你開始收集豐富的資料,然後你開始部署商業可行的模型和機器人。這就把我們帶到了最後。所以這就是 Daniel 和我在機器人公司做的事情。我們部署那些今天做真實工作的機器人,同時我們為明天的自主機器人構建資料引擎。所以如果你想了解更多關於我們的資訊,你可以在 robot company.ai 找到我們。謝謝。那是一個令人驚歎的演示,我認為呃,你知道,這只是對在野外部署機器人有多複雜的一個證明。
所以我們談論了我們如何可以遠端遙控機器人,你知道,讓人實際幫助,但如果我們繞過那個直接進入大腦呢?所以在這個特定的部分,我們將談論 Justin Bar,他將分享你如何用 BCI——腦計算機介面做到這一點。大家好,剛開始。呃,感謝大家今天加入。我們有呃另一個有趣的機器人實驗來展示給你們。所以,我們馬上到達。但當他們連線時,我會先開始。我們在接下來的 10 分鐘裡有很多東西要展示給你們。所以,呃,呃,做好準備。但再次感謝大家,感謝能在新加坡實現這一點。我是說,AI。傑克來新加坡真是太棒了,能有呃 Agram 和 Sherry,以及 65 實驗室團隊把這一切匯聚一堂,這真是太棒了。你想就放吧?
呃,那個你剛剛最小化的。你們拿到了嗎?還是沒有?>> 稍等。擴充套件的。>> 是的,擴充套件的。這是擴充套件的。它被擴充套件了。>> 現在你拿到了吧。>> 好的。3、2、1。好的。好的,謝謝大家。所以,作為 Tessact 的一部分,我們建立了一個系統。我們把這個叫做 Tessact.art。呃,我們用這個做的是,我們建立了一個允許人們通過 AI 表達自己的系統。這開始於進行現場音樂表演,並將該現場音樂表演轉變為一幅繪畫。呃,但從那以後,我們已經把這個推向了更遠的地方。所以我想大聲疾呼呃 Kaiming。Kaiming,你願意和我們一起出來嗎,我們將開始推出一些裝置?謝謝。呃,各位,我只是想介紹 Kai Ming。
呃,我們一起做了一些相當有趣和特殊的事情。謝謝。所以對,所以在過去的兩年裡請各位,如果你們能推出——你們將推出各位。對不起,我們有很多東西在推出,夥計們。對不起,你們可以幫著推出嗎?謝謝。好的,對不起,在像一個 10 分鐘的演講中這相當困難,當我們有一個完整的機器人系統、繪畫和所有這些其他的東西時。所以請在我們進行這個過程中稍等一下。但呃,如你所見,我們推出的是一個我們稱之為 tessoract.org 的系統。Tessa 是什麼——機器人臂,Tessa,機器人臂,我們在過去的兩到三年中一直在開發這個,呃,和一些合作者一起,呃,我的合作者,博士。
Richard Savory,我大約三年前開始這個,我們想要建立一個系統,讓我們能夠將機器人與多模態 AI 一起使用,能夠把一種創意形式轉變為另一種,這就是我們開始的地方,就是把音樂匯聚在一起,而我們用這個所做的真的是採用人的想象力,通過智慧系統擴充套件它,這就是我們在今天所做的事情的意圖。現在,我們在舞臺上還有什麼,我們有 Jackie 也在這裡來自>> 心智介面公司,>>而且我們有 Ivy,她也和我們一起來自 Tessact。而且 Ivy,我可能只是問你來呃上來幫忙。
所以對於 Kaiming,我們所做的,你在舞臺上現場看到的,是 Kaiming 第一次使用腦控制在她的臉上畫的繪畫。所以,對於你們這些在後面的人來說,可能很難看到,但她實際上戴著呃一條在前面穿過的頭帶。呃,這是一條 Muse——如果觀眾中有人知道 Muse 頭帶的話。但這是如此奇妙和令人驚歎的是,這項技術現在已經到了這樣的地步,它不需要兩個小時的戴上一個頭套,所有這些昂貴的裝置。我們可以直接戴上這個,Kaiming 可以只是思考她想在控制介面方面做什麼,實際上通過繪畫讓事情發生。呃,所以 Kaiming,我很樂意遞給——呃,問你幾個問題。
嗯,也許你可以告訴我們一點關於我們今天是如何來到這裡的。>> 好的。嗯,你好。所以我是Kaiming。嗯,我有一種叫做Alist綜合徵的病症。所以我是Red Disorders呃,新加坡協會的一部分,Justin一直在與之合作。嗯,所以我是一個人工智慧政策研究員,是的,那就是我們如何相識的。>> 是的。那麼,嗯,你過去做過一些藝術作品,嗯,而且,嗯,我們現在能做的就是通過這個使用人工智慧和我們的多模態系統的過程,比如說,把你的一些創意帶回來。所以,我們計劃要做的是我們一直在畫這幅畫。也許你可以告訴我們一點關於這幅畫。>> 你想繼續嗎?>> 你能拿著嗎?>> 是的。是的,沒問題。謝謝。所以是的,我從小就開始畫畫,和我的祖父和我的姐姐在一起,他們也都是藝術家。
嗯,這真的把我和世界聯絡在一起。嗯,我的病症讓我在很大程度上失去了手部的靈活性。所以我不再能夠寫字,現在我仍然有點不能。所以我不再能夠畫畫了。我進入人類學,希望能夠以某種方式通過它生活。那就是我最終進入人工智慧政策的方式。但你知道,我為我的手感到悲傷。我為我的熱情感到悲傷。突然有這個出口,這真是太了不起了,它有點像被帶回了生命。>> 太棒了。謝謝。謝謝。是的。好的。那麼現在,這個時刻我們一直在等待的是,我們實際上要看看我們是否可以得到——因為我們實際上帶來了這個,我們這整個事情在過去的一個月裡聚合在一起。所以我們將要嗯呃讓Kaiming嘗試完成最後的一條線。
那麼這幅畫是RDSS的Hope樹懶的畫。你想談談這個嗎?>> 哦,是的。>> 所以Hope是一隻只有兩根手指出生的樹懶。它住在新加坡動物園,它有點像我們。我們緩慢而穩定地生活。嗯,這是呃希望這愛程式碼圍繞一個小手指的畫。而嗯這兩種你會看到在心臟和翅膀上的顏色,那是父母,我們呃你知道支援我們嗯紅色是罕見疾病兒童呃是的。>> 是的。所以有希望的樹懶。那麼讓我們試試。準備好了嗎?很好。那麼,呃也許你可以告訴我們這裡的概念是有一個心臟,環繞,是的。>> 是的。
所以這個心臟,你知道,一筆是爸爸,一筆是媽媽,因為你知道我們經常忘記,我們社群中的父母有多支援患有罕見疾病的我們的患者,他們做了這麼多。這真是令人難以置信,你知道,我真的想感謝感謝Justin和他的團隊為我們帶回了這個,這種自由和自主權來做我們想對我們的生活做的事情。是的,謝謝。非常感謝。
而且我實際上很驚訝地發現我們還有三分鐘來完成我們的對話,這很好,因為無論如何,所以我認為這真的成為靈感的一件事,以及我認為是重要資訊的一件事,我想對你知道每個人都是第一次看到這個真的很重要,是嗯我們開始這個過程認為使用嗯AI來給人們創意超能力,對吧?我們想要的不是AI奪走創意。我們想要AI給人們超能力,AI超能力,創意和有趣的東西。而且我們從音樂開始做到了。而且我們現在所做的是轉向腦控制介面,以及能夠使這個無線系統發生。但你可以問,比如創意,這很棒。這是自我表達的一部分。
這使得嗯你知道這是一個非常人類的事情,能夠表達自己,擁有這種溝通形式。但更鼓舞人心的是,我想只展示一件事,嗯也是。更鼓舞人心的是,我們用這種技術可以做什麼?嗯我們談論AI奪走人們的工作。嗯,我從這個和我們的合作中看到的是,我們為可能因為可能有殘疾或不能像其他人那樣移動而無法被僱用的人創造了新的就業機會。所以現在想象當這個技術發展時,這真的只是開始使這些事情發生的開始。
我們可以看到就業嗯成為一件事,因為我們需要AI作為呃你知道AI在今天大多數這些系統中需要一個人在迴圈中,對吧,所以如果你能認為AI是提供機會來做某事的東西,你知道,比如說,這是一個黑暗工廠,它是全自動的,但有需要人來監督它,需要人來做一些工作,僅僅今天,通過這個過程,我發現了呃一個非常特殊的呃地方,呃抱歉,那個建立了一個非常特殊的地方在日本呃這已經發生了。我昨天剛發現。所以這是一個化身呃一個化身機器人咖啡館。但在這個案例中有趣的是,機器人呃完全管理事物,但有人讓這些機器人工作。而且機器人在為顧客服務。
機器人在為顧客服務,但他們實際上呃他們正在僱用無法離開床或離開家呃的人來實際擁有有利的就業。所以我認為這是一個很好的完美用例例子的呃機會,這種技術可以隨著時間的推移而呈現。所以我認為這是一個真正令人驚訝和鼓舞人心的呃機會來思考人工智慧將如何完全開放一個新機會,一個新勞動力呃對於可能過去無法被僱用的人。無論如何,所以非常感謝你有我們。真的呃能夠成為AI工程師的一部分。呃謝謝呃Jackie呃用於使大腦介面發生。嗯,有什麼結束的話嗎?
我認為我們都需要從所有的恐懼和追逐金錢中休息一下,用一些更積極的東西。>> 非常感謝。謝謝大家。謝謝AI工程師。讚賞。謝謝。>> 我們想幫你這樣下舞臺嗎?確保你談論好的,那是一個驚人的演講。我認為特別是在人工智慧的末日和憂鬱中,這提供了這麼多希望。所以,我們已經看過你如何使用BCI的,而對於下一個演講,我們將擁有Arvin來自Bifrost,他們構建合成牆來訓練模型。他們一直在與世界上一些最大的機器人公司合作,幫助他們做從登陸火星的機器人的事情。他們由Seoia支援,也由CIA秘密風險基金支援。
一個真正酷的事實是,之前的機器人公司和Bifrost都是在新加坡開始、孵化和真正出生的新加坡公司。而且,真的很高興有Arvin上臺。太棒了。遺憾的是,我對你們沒有任何很酷的機器人演示,但那是非常令人驚訝的。嗯,嗨各位。我是Arvin,Bifrost的CTO和聯合創始人。而今天我將分享一點關於機器人的狀態,對吧?我確定你們會在網上看到一大堆很酷的影片,你知道,機器人在像農曆新年跳舞,做後翻和所有這些很酷的東西。但另一方面,你也看到機器人做很多奇怪的笨重的事情,他們跑到鏡子裡,只是造成了很多混亂,對吧?
而遺憾的是,這就是我們認為的機器人開發差距,對吧?本質上,發生的是你在實驗室裡獲得真正真正好的表現,對吧?它可以做所有這些瘋狂的事情,但當你實際上將它們部署到真實世界中時,你發現的是這些模型的表現下降得非常非常嚴重,對吧?那麼究竟這個部署差距為什麼實際上存在呢?所以你們在螢幕上看到的東西,我保證今天不會有很多圖表,但有兩個圖表。這是第一個。呃你們在x軸上看到的就是所有不同型別的場景,對吧?而這就是,你知道,你的訓練資料,你的測試資料,以及喜歡你的部署資料。而在y軸上就像你的訓練資料中的場景數量,對吧?
所以當你出去的時候,你知道,你收集一大堆訓練資料,這通常就像分佈看起來的樣子。呃,當然,這是簡化的。然後你有你的測試分佈,對吧?所以你有一個訓練資料集,你有你的測試資料集,有一些重疊,但也有一些地方他們不重疊。然後當你實際上部署你的機器人時,你發現的是它實際上遇到的環境型別和所有不同的條件,這與實驗室中發生的事情實際上非常不同。在實驗室中,一切都非常乾淨,非常有組織,但在真實世界中,有很多動態混亂。就像人走進場景,就像鏡子的反射,就像相機的眩光。
所有這些都是我們認為的分佈外的場景,這就是機器人失敗的地方,對吧?所以,你知道,大多數人會說,比如,嘿,讓我們只是向它扔更多資料。喜歡,你知道,苦藥的教訓,只是更多資料,它應該會更好。但現實是你實際上從機器人系統收集的很多資料,他們實際上被認為是空卡路里,對吧?因為他們沒有新增任何新的額外訊號。很多時候你一遍又一遍地收集相同的場景。考慮一輛自動駕駛汽車在高速公路上行駛。你不需要更多的高速公路場景。你需要的是更多的邊緣案例場景。這就像一隻牛穿過一個複雜的十字路口,一個塑膠袋就在你後視鏡的前面,當你備進車位時,對吧?
這些就是你實際上想要的東西,對吧?所以在現實中,當你想能夠測試這些系統時,你不僅僅需要一個小分佈或一個小型別的測試。你需要能夠進去,比如獲得所有這些不同型別的分佈並儘可能地覆蓋儘可能多的場景。所以喜歡每種照明條件,每種不同的呃場景的空間佈局,對吧?但獲得這個真的真的很難,如果你能做到,你可以防止呃失敗在現場發生。這變得極其棘手,因為現在我們進入通用政策的時代。承諾能夠做任何和所有事情的機器人。從裝載你的洗碗機到摺疊你的洗衣到甚至在醫療、醫療保健和科學中做事。
而現在當你想驗證這些系統時,它變得更加棘手。對吧?所以在現場我們有一個非常簡單的呃給他們喜歡本質上喜歡一個可靠性分數的方法。而這是這是當人們想到部署機器人時大多數人關心的東西是什麼是我部署這些系統到真實世界時的真實可靠性。而可靠性真的只是喜歡你可以取一個成功率,這是如果我做這個任務100次,我要怎樣次正確?而且你也在做它跨越所有你想能夠為你的機器人傳送的不同的場景。對吧?所以如果你想能夠處理像一千個不同的場景,你需要做這個一千次一千次,它擴充套件非常非常快。對吧。而所有這些公司現在都在競爭。
他們正在競爭朝向我如何能夠實現更快的可靠性,比競爭對手更快,比市場更快。而且他們想找出什麼喜歡可靠性本身的縮放法則。對吧?所以第一個方式他們測試機器人是相當直接的。我確定你聽過一些演講,你知道,他們將手動舞臺的東西。他們會得到人類,他們會得到機器人,他們在即時做所有事情,對吧?他們手動設定場景,他們實際上讓機器人做這件事。但在這個案例中,你實際上可以測試的場景數量,被瓶頸限制了由人類、機器人和時間。對吧?所以當我們實際上把它放在圖表上時,這是一個不同的圖表,但在底部軸上,你看到計算和其他軸你看到可靠性。
每次你做一個推理,你花費一些計算,但你仍然被瓶頸限制由你有多少人,你有多少機器人,以及你有多少真實世界時間。作為結果,你仍然縮放呃線性,對吧?但然後人們走來走去,喜歡,好的,不,我只是要取樣幾個不同的測試案例,我可以得到一些額外的新測試。這很好,但不是很好,因為你不能得到很多分佈,因為他們仍然手動做很多東西。而然後人們說,好的,你知道什麼?如果我們從評估週期中刪除人類,對吧?所以現在人們正在使用類似Gemini的東西。
呃所以Gemini機器人你可以看一個場景,它可以給你定性的反饋喜歡嘿呃它是否實際完成了任務成功,它有多遠,他們也有東西你可以autoreset場景使用另一個大呃視覺語言模型或視覺行動模型也對吧,所以他們刪除了人類,但你仍然有你仍然被瓶頸限制由你有多少機器人以及你需要多少時間,對吧,所以它變得有點略快,因為現在你可以花一點點更多的計算並加快它,你不必依賴人類作為但你仍然縮放線性。對吧。而這意味著你可以只做稍微幾個更多的測試。
然後當然,你知道,喜歡哦,你知道,當我們在真實世界中建造橋樑時,我們在模擬中首先測試它,然後我們建造橋樑,我們做那個全呃模擬為了力學和喜歡緊張的東西。為什麼不對機器人做同樣的事情?
所以在機器人中有一個叫做simto到rail間隙的東西,這是當你在模擬中做事時他們不總是與現實一致對吧,這就是工業正試圖解決的一個大問題,而令人驚訝的是在去年我們有很多新的方法來解決這個,最大的一個呃我們正在做的實際上使用真實世界來生成模擬器本身,對吧,所以這實際上看起來像什麼是你可以取入真實資料,對吧,所以你取入真實資料進入並且你可以從那個rail資料生成東西,然後你可以從那個重新模擬世界。對吧?所以這整個想法,你正在為你的特定領域和你的東西每次生成一個相似的模擬器。對吧?它不僅僅是物件。你可以為你的特定領域生成整個世界。
例如,如果你有一輛越野自動駕駛汽車,在加州沙漠中執行,你可以很快地生成整個虛擬世界並在該模擬中進行訓練。對吧?這就是你開始縮小模擬與現實之間差距的方式。這樣做使你能夠複製實際測試集的分佈,並擁有其模擬版本。這已經很有價值,因為你現在可以用這個分佈進行閉環測試。但我們如何進一步推進呢?對吧?這不是很好的覆蓋率。對吧?讓我們看一個具體的場景。這是我們生成的資料型別的例子。你知道,這裡就像一條船正在駛向一個擁擠的碼頭。螢幕上有眩光,呃,在攝像機上,一切都有點混亂,對吧?但這只是一個具體的場景。
你如何將其擴充套件到更多場景呢,對吧?所以,我們實際上可以做的是進入模擬器,我們可以跨越所有不同的執行條件進行引數掃描,就好像你在非常非常快地看到一千個不同的現實,並且你在根據所有這些不同的現實測試模型。呃同時進行,對吧?從那裡你可以進一步擴充套件它,對吧?所以這不僅僅是 n*n 測試。你可以將其擴充套件到許多不同的領域和標準。這方面很酷的地方是,你可以根據它測試你的人工智慧模型,你可以立即看到你的人工智慧模型將在哪裡失敗,甚至在你將機器人運送到生產環境之前。這裡的整個想法很簡單,對吧?在模擬中快速失敗,並利用這些失敗,將其用於現實世界的測試。
所以你不是在測試每一件事,而是在非常具體的地方測試你在模擬中失敗的地方。這樣你花費更少的資本,你對擁有的資源也更最佳化和高效。而且你知道,我們也僅限於現實世界的時間,對吧?對吧?所以我們從這個到這個,因為現在我們可以覆蓋更多更廣泛的領域。有一個術語叫做域隨機化,但基本上你覆蓋的領域比真實資料可能覆蓋的範圍要廣得多。這是一個非常好的方式呃來做這些測試。你知道,我確定每個人都看過這樣一個叫做資料飛輪的東西。它已經成為一個梗了,每個公司都像,「是的,我們有一個數據飛輪。」但飛輪實際上並沒有捕捉最重要的東西。
而最重要的是你實際上需要細化這個資料。資料需要是超高質量的。你需要想出一種方式,你在尋找最有價值的東西,你也能夠推動你在現實世界中應該收集什麼。對吧?在 Bifrost,我們幫助世界上一些最嚴格的客戶大規模地做到這一點。我們基本上是在採取所有這些,我們在你的瀏覽器中模擬它。所以我們有一個世界,你可以模擬這個世界,你可以在其中破壞你的人工智慧模型。謝謝各位。那是一次了不起的演講,特別是談論像資料精煉這樣的東西。它試圖試圖確保你的資料涵蓋所有不同的邊界情況。
所以,我很興奮接下來邀請來自 Open Graph Labs 的 Julia Kim 來討論他們如何構建了一個內部技術棧,在其中確保你可以跨越許多不同的多模態同步資料收集。這真的很困難,因為即使是微秒級的漂移當你為訓練機器人收集資料時,當你實際上採取這個並訓練你的模型時,也會最終造成真正的損害。所以我真的很興奮看看會怎樣。呃當我們遇到一堆這些呃技術困難時,你知道,我想知道你們今天對這個會議的感受如何?你知道,我個人認為這對我來說絕對令人驚豔。就像我剛才當 Justin 展示用像腦控制介面這樣的東西繪畫的能力時,我真的被震撼了。
就像我從來沒想過那是可能的,因為我一直在和智慧體做大量的嘗試,對吧?我看到,就像,文本進文本出,天哪,就像,我們將要,嗯,每個人的工作都將被自動化。看到人工智慧被用於善事真的很酷,也很鼓舞人心。所以我認為,就像,那一直是令人興奮的事情,看到人們正在從事的觀點和專案的絕對多樣性。我想是這樣。>> 嗯,我們作為一個團隊,嗯,使用了許多,嗯,講者和贊助商建立的工具。嗯,所以我們將記下那個。哦,好的。我想我們回來了。是的。>> 拖動它。是的,這是擴充套件。所以,>> 我們剛才有了。>> 哦,它回來了。它回來了。>> 是的。好的。很好。>> 謝謝。>> 嗨。大家下午好。>> 大家下午好。
嗯,我叫朱莉亞,是 Open Grab Labs 的聯合創始人兼聯合執行長。嗯,今天我想談論我們的日常人類經驗如何實際上可以成為下一代人形機器人的有用訓練資料。那麼,你們中有多少人聽說過「第一人稱資料」這個術語?是的,我能看到有幾個,或者也許你們最近在應用程式中看到了這個熱門影片。工廠工人在工作時在帽子上佩戴相機。嗯。所以在過去的一年裡,該領域發生了一些非常奇怪的事情。數百家公司開始大規模收集人類行為資料。人們用第一人稱視角錄製影片,嗯,相機在做他們的日常任務,實際上因為這樣做而獲得了激勵。那麼我們為什麼要這樣做呢?那麼為什麼人類突然成為機器人技術的核心資料集?這是因為我們剛剛獲得了它確實有效的證明。
輝達最近關於自我規模的研究表明,擴充套件人類第一人稱資料實際上有助於機器人訓練。所以他們確實使用第一人稱影片作為他們模型的預訓練、預訓練資料集,並在人類機器人對齊資料集上進行微調,也有一些遙操,嗯,僅限機器人的資料,機器人實際上可以完成任務,比如用一次性轉移摺疊襯衫,就像語言模型一樣,用,通過放入更多資料進行縮放,他們也展示了,嗯,這對物理人工智慧也是可行的。所以它展示了顯著的縮放規律,不僅因為它被證明對預訓練有用,但實際上說實話,第一人稱人類影片從根本上在兩個方面非常重要。首先,我們現在正在構建人類水平能力的機器人。
那意味著相同的形狀因子,他們看起來像我們,自由度相似,這意味著我們試圖最小化人類和人形機器人之間的具身差距,實際上正在非常快地關閉,並且隨著差距,隨著差距關閉,人類行為實際上可以直接轉移到機器人,這是世界上最直接的主管訊號,嗯,其次,第一人稱資料是在真實世界中被捕獲的,因為它實際上是。物理世界,如我們所知,是連續的,嗯,它是動態的和物理上有根據的。所以我們從第一人稱資料中獲得的每個資料實際上是非常非常高保真資料,嗯,它包含任何機器人可能學到的更多資訊。但是那時,嗯,我們真的完成了嗎?
嗯,所以我們可以擁有更多第一人稱影片資料,我們可以解決更多問題。嗯,所以僅僅收集足夠的人類影片資料,有些壞的,機器人最終是否會達到人類水平的物理智慧或不會。好吧,我確實認為這實際上取決於你正在朝向的未來,那個未來定義了我們可能需要的機器人的智慧水平。所以一個未來是機器人作為實用程式。所以倉庫中的工具,工廠中的機械臂,完成任務的機器,但他們不與我們共享空間。另一個未來是機器人實際上與我們一起生活,他們在我們家摺疊我們的衣服,這也有助於陪伴我們的父母,他們遞給我們一杯水。
呃,這意味著它們實際上與我們共享世界,如果我們希望它們與我們生活在一起,它們需要具有物理智慧。所以它們需要以與我們相同的方式學習這些事物。那麼讓我們回到一些非常基礎的東西。呃,讓我們思考一下我們作為嬰兒時最初是如何學習這些事物的。我們抓取東西、按壓東西、掉落東西、接觸東西、拉動東西,有時甚至經常我們會把東西放在嘴裡品嚐。我們通過與它互動來學習,通過接觸和觀察它在我的動作之後如何實際反應來學習動作和反饋,這就是我們所說的感覺運動學習。
那麼自然的問題就隨之而來,如果人類感覺運動學習本身就是形成我們物理智慧的基礎,那麼如果我們能對機器人做同樣的事情呢。我們讓機器人以我們作為嬰兒時學習的相同方式學習。所以再次,這個嬰兒與上一張幻燈片的嬰兒相同,實際上正在一次性生成所有這些感覺運動訊號。視覺、觸覺、本體感受、聽覺、動作和反饋迴路。通過這些互動,嬰兒逐漸學習物理世界的結構。所以問題變成,如果我們能夠捕獲所有這些資料並用作機器人學的訓練資料集,我們就能讓機器人完全像我們一樣模仿並在此基礎上學習一切。是的,我真的相信那樣的未來,我們可以通過對人類進行感測化來實現這一點。
今天,人類感覺運動迴路的許多部分已經變得非常可測量。我們已經通過第一人稱攝像頭捕獲了視覺系統。我們也可以直接從影片重建運動資訊,還有本體感受比如3D手部姿態、腕部姿態和身體運動軌跡,這些也可以從影片中重建,音訊也可以自然地通過攝像頭系統捕獲。所以現在,很明顯只有一個關鍵的感覺通道現在我們缺少的是觸覺,對於物理互動,我們都知道觸覺可能是我們應該從現實世界收集的最重要的訊號。
我們今天仍然擁有非常少的觸覺資料的一個原因是許多其他人類訊號已經可以僅從第一人稱視覺中推斷出來。所以第一人稱影片。所以通過第一人稱攝像頭,我們已經可以推斷運動軌跡、手部姿態、身體運動、動作結構,甚至本體感受。老實說,現在正是向數十年來攝像頭硬體系統的進步和在標準化RGB系統之上建立的整個生態系統致謝的時刻,因為一旦世界圍繞RGB攝像頭匯聚,計算機視覺變得可擴充套件,現在我們正在等待觸覺的那個確切時刻,因為觸覺從未有過那樣的時刻。所以我們必須追隨影片系統如何改進、如何擴充套件,因為它們圍繞一個東西匯聚,即攝像頭和RGB畫素。
我們還需要一個統一的硬體堆疊,每個人都可以在其上構建觸覺資料,以及一個數據基礎設施,它共享相同的資料格式,這就是為什麼我們存在。Open Grab Labs在這裡為感覺運動系統中缺失的部分——觸覺——建立標準,這樣我們可以最終在機器人學習中取得飛躍。我們通過兩個主要層來實現這一點。首先是能夠從指尖產生高保真接觸訊號的高度可擴充套件硬體,其次是觸覺編碼器,這是構建在該硬體之上的直譯器,攝取觸覺訊號並將其轉化為意義。
通過高度可擴充套件的硬體,我們能夠捕獲可擴充套件的資料集,在這些資料集上我們現在能夠構建有意義的觸覺編碼器,所以我們剛剛開始為首次建立完整的人類感覺運動迴路捕獲管道,使其可訓練。數千人、數百萬次互動,人類與物理互動之間的每一刻接觸現在都可以被捕獲、數字化並準備好被傳授給下一代機器人。讓我們通過對人類進行感測化來訓練人類感覺。謝謝。這關於擴充套件人類觸覺資料收集的討論太棒了。現在,實際收集資料的一個巨大部分是我們實際上需要擴充套件資料操作,對吧?我們不僅僅需要收集資料。
我們需要確保我們有操作人員、擁有整個基礎設施和物流處理。所以我們有來自Cortex的Suin,他們大量討論他們如何通過機器人和其他形式的資料以規模化的方式做到這一點。大家好,我是Suin。我來自Cortex AI,是那裡的創始工程師。今天我將討論我們讓這些機器人做到的一些很酷的事情、我們面臨的一些挑戰以及我們學到的一些經驗教訓。在這裡你可以看到我們合作的一些機器人。我們主要使用雙臂機器人執行操縱任務,我們也使用移動機器人在更逼真的環境如便利店中執行任務。你可能想知道這些機器人如何變得如此聰明。甚至在這個影片中你可以看到它正在將最後一滴牛奶倒入杯子。
實際上這些學習系統它們只是接收畫素並輸出動作。通常我們有一個頂部攝像頭和腕部攝像頭。我們也傳入機器人的關節資料。一個簡單的語言指令。然後模型會預測一些動作。我們在機器人上執行動作。您進入下一個狀態,迴圈繼續。這個圖表實際上是思考現代機器人學習堆疊的一個很好的方式。你有攝像頭束和關節作為資料。軟體驅動資料收集、訓練、推理。硬體是臂和攝像頭。模型是我們執行的策略模型,為了測試這些策略是否有效,你需要評估,為了再次發生這一切,你需要一個好的操作層。
機器人學通常被視為硬體問題、軟體問題或模型問題,但它也是一個巨大的資料和操作問題。最近我們與Alen人工智慧研究所在他們的Mulmo act 2論文上合作,我們為他們的資料集收集了超過700小時的雙臂機器人資料,它是迄今為止最大的開源雙臂資料集,我們通過遙操作收集資料。在這裡你可以看到我的同事他正在控制我們所說的主臂,從臂將複製動作,儘管看起來很有趣,但它實際上非常困難。主要原因是人類直覺。它實際上不能很好地轉移到新的體現形式。你知道如何用手抓杯子。但當你必須通過機器人臂思考時就不知道了,這真的很難。但它是一個可學的技能。
不僅如此,在開始收集資料之前還有很多事情要做。即使是摺疊毛巾這樣最簡單的任務,你也可以折成兩部分,你也可以折成三部分。你必須想出一個任務策略。之後你必須練習動作。然後你必須確保收集的資料在各集和不同操作者之間是一致的。當我們開始將這些資料操作擴充套件到數百小時時,我們意識到我們新增的一些小工作流更改。它們開始複合。最初我們有每個集編碼需要等待兩到三分鐘的摩擦。然後我們將編碼過程移到會話的末尾。然後突然整個編碼持續時間長得多。現在我們必須等待30到40分鐘才能開始下一個會話。
然後我們做的就是進行了一個很小的程式碼改動。我們斷開了所有的硬體連線。這樣你就可以在前面的片段已經編碼的時候執行一個新的會話。最後發生的情況是資料收集、編碼和上傳的過程變得完全解耦。另一件我想談論的事情是「呼吸」在機器人學中的重要性。我所說的「呼吸」是指在技術棧的不同層級之間擁有知識,並且能夠在機器人棧中上下操作。我之所以這樣說是因為我意識到問題空間和解決方案空間大多數時候可能不在同一個層級,你對不同層級的瞭解越直觀,你解決問題就會越快。讓我用幾個例子來解釋這一點。
所以當我們開始在這些機器人臂上執行策略時,有一個任務是機器人需要抓住一個罐子,但夾爪壞了,你可以看到影片中夾爪飛出去的樣子。我想,好吧,也許模型學錯了什麼,或者我可以從程式碼中降低夾爪的力量。但我的同事說,好吧,我們自己設計一個夾爪吧。我們當時在使用第三方硬體,但我們仍然可以在其基礎上進行創新。這是我認為是軟體問題的硬體解決方案的一個好例子。類似地,任何使用過這些攝像頭的人都知道,它們經常會斷開連線,你拔掉它,再插上,然後它就神奇地開始工作了。然後有一次,我們的一個操作員不小心傾斜了攝像頭,頂部攝像頭的視角就偏離了。
所以那天我們收集的所有資料都必須丟棄,因為視角不正確,我們試圖確保攝像頭支架更牢固,但我編寫了一個指令碼,一個工具來檢查頂部攝像頭視角是否良好。所以我們所做的就是每個會話我們在開始時花兩到三分鐘,然後檢查攝像頭視角是否正確,這樣我們就可以確保我們收集的資料是真正有效的。所以這是我們認為是硬體問題的軟體解決方案的一個好例子,這就是為什麼在技術棧中移動和從所有這些層級思考真的有很大幫助。我還想談論為什麼機器人學中的評估很困難。與軟體類似,你可以在模擬中評估機器人,你可以將其並行化。但現實世界才是事情變得混亂的地方。
例如,光線可能會改變。可能會有干擾,可能會有執行器和攝像頭噪聲。所以你必須考慮所有這些因素。最近當我們使用 Malm act,當我們處理 malmarmac 2 時,我們在五個策略中進行了數千次真實世界評估展開,這教會了我們這是一個多麼困難的問題。所以當你執行真實世界評估時,這可能在失敗時發生,然後它會再次發生。在機器人學中,在你進行每次展開之後,你必須手動重置環境。不像在軟體中你可以並行執行。如果它搞亂了,你必須手動清理。我做過這個數百次,我可以向你保證這不是很有趣。呃,然後我們意識到經常這樣做非常昂貴,但這是目前的黃金標準。
關於評估的另一個困難的事情是當機器人無法做某事時,真的很難找出它在哪裡失敗。讓我用幾個例子來解釋。可能是資料。也許不同的操作員使用不同的策略。也許我摺疊了兩次。有人把毛巾摺疊了三次。呃,也許是訓練設定。你想要的適應,例如 LoRA 對比完整微調,那麼可能是設定。我有過這樣的情況,我試圖載入一個模型,模型的某個部分用隨機權重初始化,模型就像發瘋了一樣。也可能是錯誤的動作塊大小,與你在訓練中使用的大小相比,也許評估設定本身可能是錯誤的,也許你試圖在分佈內進行評估,但物體的放置略有偏差。
最後,我想談論安全。這個影片片段是我不小心錄製的。你可以看到關節在不到半秒內做了 90 度。如果有人的手在那裡,他們會受傷。我們經常談論機器人部署時的安全,但我認為開發時也有很多安全問題。呃,我可以說,比如在資料收集中,如果 leader arm 突然失效(這有時會發生),整個重量可能會落在資料操作員身上。在評估中,我們有一些案例,我們測試一個涉及試管的任務,其中一個機器人打破了試管,你有玻璃碎片四處飛散,還有陳舊的動作提示可能導致突然的手臂運動,這也是一個安全問題。還有很多這樣的情況。
我還想談論在機器人上執行人工智慧編寫的程式碼,特別是因為人工智慧編碼工具變得越來越主流。呃,為了提供背景,我們使用人工智慧編碼工具進行機器人的一個場景基本上是當我們使用 lay robot 時,我們是來自 Hugging Face 的 layer robot 的忠實粉絲。所以當我們想要將該庫適配到我們使用的機器人臂時,有很多腳手架,很多介面工作需要完成。所以我們使用人工智慧來做這件事並更快地前進。但當我們嘗試執行它時,它可能會失敗。呃,我們進行正常的軟體檢查、基本檢查、正常的拉取請求評審。然後我們嘗試在模擬中檢查,我們嘗試在日誌中測試。你可以將動作傳送到機器人但不執行它們。先看看日誌。然後當你想在實際機器人上測試它時,你可以一次只移動一個關節。
你可以降低速度。呃,是的,這些是我們遵循的一些東西。是的,我想強調的一件事是你不必是技術棧每一層的專家,但如果你對不同層的瞭解更多,真的很容易解決問題並更快地前進。就這樣了。謝謝。好吧各位,呃這是結束。呃,順便說一下,感謝 Savine。非常感謝。呃,這是我們下午 AIE 前半部分的結束。呃,你們在過去兩天中從下午 9 點到 6 點的程式設計中保持如此的參與做得很好。呃,我們在最後衝刺中,呃更多真正很酷的演講即將到來呃在休息之後。呃,世界上許多最棒的創業公司將分享呃他們實際上在構建什麼。
呃,其中很多實際上是我的 Twitter 朋友,我認識已久,我得以邀請他們並親自見到他們,這也非常酷。呃,所以請留下來吧。呃,而當這個休息進行時,呃我想給我那個穿綠色衣服的朋友 Kazaya 一點背景。呃,就揮揮手。呃,所以 Kazaya 是一個人,呃,你知道,就像我們其他人一樣有一個日常工作在諮詢工作中,但她也是一個正念教練,想找到一種方式能夠將更多人帶入那種做法,特別是在有太多事情發生的地方,我們很多人會感到不知所措、焦慮,只是想找到一個系統的方式能夠暫停一下,能夠,你知道,稍微慢下來一點。
這就是為什麼我們想為休息時間建立一個更精心策劃的體驗,而不是,你知道,放上 AIE 標誌和一些音樂,讓你們有咖啡,對吧?呃,我們想在程式設計的每一分鐘都融入思考。所以,呃,這就是為什麼我們讓她加入。但我也想分享另一個故事,講述這一切是如何開始的,因為我認為這非常符合「AI 工程師」的精神,以及關於什麼是「構建者」和「工程師」這樣不斷變化的定義。呃,Kazaya 實際上沒有編碼背景,但實際上她 vibecode 了整個體驗。她找到了幫助在螢幕上建立粒子視覺化工具的 GitHub 儲存庫,她在過去四周內完成了所有這些。
我的意思是,我覺得我們基本上給她灌輸了關於 AI 的東西,然後她就繼續前進,決定要建造它。所以,我無法更高興地看到來自各種不同領域、行業的人能夠通過這些工具獲得權力,創造這些了不起的東西,對吧?而且所有這一切都使得我們能夠將冥想和正念這樣的東西與我們今天能在舞臺上展示的實際技術體驗聯絡起來成為可能。所以,請享受接下來的大約 15 分鐘,放慢節奏,在我們結束這一天之前恢復一點保留的能量。謝謝。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。
嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。我們的程式設計進行得非常快。呃,當我們下一位演講者 Jay 準備時,這將是一場了不起的演講。我一直期待著它。
我在幕後和 Jay 談了一點,這是一場關於人和 AI 人性方面的演講。如果你在一個團隊中工作,人們想要參與 AI,他們想要升級,他們想要為其他人設計,通常我們最後會得到通用的提示和通用的結果,我們甚至可能不知道如何真正充分利用它。所以這次來自 Jay 的演講來自他之前在 Canva 的經歷,Canva 將和我們談論這個,我對此非常興奮。所以,如果你準備好了,如果你感到恢復了,如果他準備好了?他還沒準備好。不。他回答了我。他剛說不。那太好了。我可以看出不。當他們準備時,你感覺如何?你好嗎?用掌聲水平告訴我。好的,那很好。非常好。那很好。我很高興。
這是一次很好的會議。很遺憾它幾乎要結束了。如果你想要更多甚至在結束後說些什麼,你不想要更多?我不認為我們明年不會做。怎麼樣?我在開玩笑。我在開玩笑。沒關係。他們在後臺嚇壞了。他能說那個嗎?我不知道。我們給了他一個麥克風。嗯,這會花一段時間,是吧?這是做 MC 最糟糕的部分。現在我得想著娛樂你們所有人。但那很容易,對吧?嘿,謝謝。他說我是什麼,先生你叫什麼名字?Ari 藝術。測試測試。他的名字是 Art。天哪。這傢伙真是藝術品。你準備好了嗎?我認為我們準備好了,夥計。你最熱烈的掌聲。我們開始吧,寶貝。發生什麼事了?醒來。來吧,寶貝。我是 Jay。我曾在 Canva 工作。我曾在 Grab 工作。你好嗎?
今天,我將討論提示沒有觀點。你有。所以,為了背景,對吧,我真的厭倦了這個被傳播的東西。提示不是,但只是耍花招。所以,我在我的手機上有我的筆記。如果我在看我的手機,那不是我在看一個代理,而是我在看我的筆記。所以,我厭倦了這些設計網紅、這些領導人、這些擁有高權力地位的人談論設計過程,但他們還沒有為數百萬使用者做任何事情或交付任何東西。像 Jon Snow 一樣,他們什麼都不知道。所以,相信我和這裡實際為數百萬人建立了東西的人。讓我們談論這個。哎呀。哎呀。
所以,General Mills,美國的一家烘焙公司,在 1947 年,他們釋出了一種蛋糕混合物,人們通常對此反應不太好。當他們添加了一個額外的步驟,只是在即時混合物中新增一個雞蛋時,人們就投入進去了。他們感到自己在創造,這很有趣,對吧?因為 AI 也是一樣。我認為對於任何為 AI 設計的人來說,當 AI 輸出它並幫助他們時,人們會創造價值,對吧?這叫做 IKEA 效應。當 AI 實際上在協作並充當夥伴時,人們會投入。嗯,這對你看到的產品來說很有趣,無論是 Canva、Google、Figma 還是一般來說。你讓人們有選擇要麼使用 AI 要麼編輯或與你一起生成。有些人,你知道,顯然有點猶豫。
你會看到他們不嘗試使用令牌,但這很有趣,對吧?哦,它已經消失了。是因為好的。太棒了。太棒了。很好。我們回來了。我們回來了。我希望如此。保持活躍。哦,我們完蛋了。當這樣的事情發生時,只需為他大聲鼓掌以避免尷尬。我們走。這種情況發生。沒什麼。所以,我會繼續。我們很好。太棒了。所以,我如何與 AI 合作?大多數人如何與 AI 合作?對我來說,作為一名設計師,我將其用作我的實習生,而不是我的藝術總監。所以,你可能在 LinkedIn 上看過這個影片。這很有趣,對吧?嗯,人們在進行令牌最大化並使用他們所有的這些令牌。這很草率。嗯,這與通常的雲程式碼相同,對吧?你用完所有令牌,你會生氣,你會想,「啊,該死。」
「像,我,你,你失去了我所有的信用。太貴了。為什麼我要建造?所以,我想我會問大多數人,對吧?你會將決定權委託給人類專家還是 AI?我想當你為真實的人設計時,我知道我鼓勵人們與你所在的科技泡沫之外的人交談,因為普通人對使用 AI 猶豫不決。所以,如果你以人們實際花費更少的時間來思考事情的方式框架化它,那麼人們就更傾向於可能使用 AI,這很有趣,對吧?他們做了一項關於此的研究。
人們更傾向於使用 AI,呃,當你將其框架化為時間損失,呃,和一般速度,而且我們,我們做到了,對吧?所以對我來說,我建立了 Canva 的工作表,呃,AI 動力電子表格,當還有其他競爭對手仍然使用這個 #error 標籤時,我覺得很有趣,它實際上不能傳達什麼是真正錯誤的,呃,如果你和日常使用電子表格的普通人交談,他們會感到不知所措,對吧?所以在 Canva,我們儘量為某人使用公式變得容易,我們給他們,並像對待人類一樣與他們交談,以給他們建議的修復,這本身就很有趣,對吧?這與我所做的語音,呃,助手東西也是一樣的實驗。AI 構建快樂的道路,呃,正如你所看到的,呃,人們會破壞它,他們不在乎,對吧?而且你無法為環境進行提示,無論你在外面處理道路噪音、嬰兒哭泣,對吧?這很不幸,因為我認為如果你為語音進行了構建,走錯路的成本太高了。
呃,如果你以前做過,一般來說就是很難做。所以 AI 無法解決一切。所以我鼓勵你在資料集之外思考,對吧?我認為這個圖表你可能看過很多。所以當你設計時,如果你是企業家甚至設計師或創意人士或開發人員,思考一下你擁有什麼驅動創新競爭優勢,誰驅動那?設計。設計一直驅動著這種價值以對競爭者獲得優勢。所以詹姆斯·戴森也是一個很好的例子,對吧?如果你閱讀他的故事,他製作了 5000 和 100 個真空吸塵器原型,他直到有一個人為他冒險後才接到電話,對吧?Apple 鍵盤也是一樣。
很多人討厭它,但你必須記住,他們必須思考智慧快捷方式、人們會說的內容、不同國家、不同的詞彙也會出現。我確信該團隊不斷與史蒂夫·喬布斯進行迭代,以達到目前的狀態,對吧?他們必須考慮,對吧,他們為世界設計的物件,這些新增功能。所以在資料集之外設計,對吧?所以我覺得,這與喬什·牛頓早前談論的內容有關,人工智慧加快迴圈。它不會取代設計工藝或總體的判斷。所以對我來說,對吧,我與Canva的設計師合作了。哎呀。哦不。又來了,>>經典。好吧,很好。嘿,嘿,嘿,冷靜,冷靜,冷靜。我們能搞定。所以當我在Canva工作時,我設計了列和佈局。
向我的朋友西蒙·林恩致敬,他在臺灣,是個傳奇人物,也幫助了這個專案。這些是複雜的互動,對吧?不是每個人都會理解。所以當我們與真實使用者和真實原型進行深度交流時,我們必須在資料集之外思考。人工智慧無法解決複雜的互動、複雜的產品,你仍然需要與真實的人交流,並實際測試人工智慧可能無法生成或思考的東西。在研討會中工作也是如此。呃,我們實際上構建了程式碼模板。這是什麼意思?好吧,我們為我們的產品構建程式碼模板,它幫助人們進入Cursor、進入Claude,並在研討會、頭腦風暴中實際構建想法,賦予每個人權能,對吧?我們作為設計師總的來說不應該把持話語權。
我們應該賦予每個人權能,讓他們通過人工智慧帶來他們的想法、構建他們的想法,這樣我們就可以進行提示並在現場實際測試,這非常重要。智慧家居和語音也是如此。看到華為在智慧家居未來的發展方向非常有趣。考慮語音和情境因素,因為人工智慧不能反應性的工作。它必須學習。它必須被訓練。那麼,你如何思考這個問題並擁有一個適應普通人行為的智慧系統?最後,建造你想實際生活的世界,設計師、開發者和在這裡的各位,特別是企業家,對吧?因為人們投資於體驗,設計將成為推動事物發展的槓桿,對吧?印度靛藍航空的技術長甚至談到了這一點。
人工智慧現在非常昂貴,但僱傭人員的開銷更便宜,這是一個很有趣的說法,尤其是在人工智慧時代。所以,在我結束今天的演講之前,最後一些熱門想法和熱門觀點。在社交媒體上關掉關於人工智慧設計的垃圾資訊,因為說實話,那裡有很多這樣的內容。與你的網路和圈子之外的人交流,因為普通人現在實際上對人工智慧相當害怕,當然這是可以理解的。沒關係。使用者不在乎你的產品是否更好,對吧?他們不在乎你是否擁有比競爭對手更好的酷功能。你需要為這些人及他們的需求實際設計,並保持情境相關性。最後,對於在這個地區和世界各地的設計領導者,我認為你必須給人們適應人工智慧的空間和時間。
我聽過太多故事,關於設計師實際上被指責沒有設計足夠的螢幕,被糟糕的設計領導欺凌,因為他們不知道如何使用人工智慧,對吧?有人告訴我我的工作沒有意義,但你猜怎麼著?我設計的產品被數百萬人使用,所以我不知道他們在說什麼。所以說實話,我認為賦予你的團隊權能很重要。所以最後還有一個沒有在這裡提到的要點。克里斯蒂娜·考爾,她前往了阿耳特彌斯航天器,明顯是繞月。她談論找到你的隊伍。所以我鼓勵你找到你的隊伍、你在這裡的網路。感到被賦權,感到與你正在適應和合作的人工智慧網路相連,因為這很重要,因為在我們想要生活的世界中,你不想反對人工智慧。
你需要對人工智慧有流利的理解。只是要反對狗屎。謝謝。>>鼓掌。反對狗屎。你們中有多少人反對狗屎?我告訴你,我反對。哇。真的?你喜歡其他人呢,是吧?無論如何,呃,請鼓掌。我們有一個共同主持人。看看這個。是烏斯曼,各位。沒錯。烏斯曼,比我年輕得多。呃,我不會告訴你那是什麼。他在當地社群非常活躍。在建造。你最後建造的東西是什麼,老兄?>>我最後建造的東西就像,你知道,一個宗教應用程式,對吧?>>像你建造的那樣。>>是的。>>呃,我的應用程式是針對世界各地的穆斯林的。你可以呃追蹤你的祈禱和《古蘭經》中的所有不同的蘇拉,這是我們呃的聖書。是的。>>類似於你的《聖經》。>>天哪,這太酷了。你建造的這個?>>呃,是的。使用Google AI Studio建造的。
>>就用Google AI Studio吧。鼓掌。就像一個建造者。你多大?>>我13歲。>>他13歲。什麼?這就是未來。怎樣?最後再問一個問題,他們準備的時候。怎樣用AI Studio構建的體驗是什麼?你只是在進行提示嗎?你在寫程式碼嗎?這是什麼。>>好吧,當然,在開始的時候,對吧,我根本不能做暈程式碼。我花了大概一年或兩年才真正弄清楚事情。是的。而且我得出了一個結論,暈程式碼並不是那麼難。你只需投入時間。>>沒錯。你只需投入時間。太好了。那麼,你在介紹下一位演講者。是吧?>>是的。>>我們開始吧。鼓掌,各位。>>好的。
現在我們有了亞歷克斯·李,他從舊金山一直來到新加坡,他來介紹人工智慧如何需要設計系統。目前使用者喜歡AI Studio以及所有這些東西。設計很糟糕。我現在要坦誠地說。我們需要與使用者品牌相匹配的設計。為亞歷克斯·李鼓掌。>>哦,你需要麥克風。抱歉,各位。他怎麼可能在沒有麥克風的情況下進行演講呢?亞歷克斯,再一次,各位為亞歷克斯·李鼓掌。>>謝謝。謝謝各位。>>好的,完美。幻燈片在這裡。呃,是的,我是亞歷克斯,Magic Patterns的創始工程師之一。實際上,我只想快速進行一個投票。有人真的聽說過Magic Patterns嗎?舉手。哦,實際上有你們中的幾個。超級酷。
對於那些不瞭解我們的人,Magic Patterns是一個人工智慧設計工具,可以在幾分鐘內從想法到產品。我們已被超過2000個產品團隊使用,KPNG、RAMP等。但我主要從事設計系統工作。在人工智慧的世界中,構建新功能和新功能變得容易得多,但我們仍然面臨的難題是一致性。所以我來這裡告訴你為什麼設計系統不僅在過去需要,而且在當今人工智慧世界中至關重要。所以在我開始之前,讓我們談一下為什麼設計系統首先是必需的歷史。所以在一切之前,世界或網路是蠻荒之地。每個頁面都不同。它看起來像你的MySpace頁面,到處都是不同的小部件、不同的按鈕。
設計師必須重新實現,工程師必須重新實現,沒有真正的共享系統。為了重組這種混亂,我們有了設計系統。這是產品團隊可以使用的共享語言。你有你的令牌,代表你的顏色、排版、間距。多虧了布拉德·弗羅斯特的原子設計,我們對元件有了很好的層次結構和命名法。我們有你的原子,按鈕、標籤、輸入。我們有由這些原子組成的分子,也許是你的表單模組或搜尋欄。然後我們有生物體級別的元件和模板來建立更大的東西,如你的側欄或儀表板佈局。所以承諾很簡單。我們有一致性、速度和規模,這要感謝設計系統。但也許事情有點太一致了。
也許,你知道,而不是花費很長時間向設計系統中新增新按鈕。現在有官僚主義。你必須問團隊,我可以將這個新東西新增到這個佈局中嗎?而且我們不是從第一性原理考慮事物。這不是關於我們如何從零開始解決使用者的問題,而更多是關於我們如何使用我們設計系統或工具庫中的元件來解決這個問題。這種僵化不是很有幫助。所以業界退了一步。設計系統可能有點太強制性了。所以讓我們更多地將事物視為框架而不是一套規則。這樣你可以有那種創意,但仍然有那些護欄來確保你的一致性和你的品牌,無論是你的排版、顏色、標誌、影像等。
所以最後我們達到了和平。我們有一種方式來創意地構建,同時也有護欄,沒有什麼破壞性的影響科技界。對吧,夥計。我覺得即使在過去的六個月裡,我的工作流程也已經完全改變了。我確信對你們中的每一個人,我甚至不再寫程式碼了。我只是讓代理為我寫。我確信對於設計、產品管理的每個人,一切都改變了。我認為這很有趣,對吧?實現的成本現在基本上是免費的,特別是如果你的公司已經為這些Opus 4.7令牌付費的話,對吧?所以問題從我們能否構建這個改變了?需要多長時間來構建,你知道,我們甚至想要這個?我們需要將其新增到嗎?我們想維護這個嗎?
這個新功能是否使用了我的設計系統中的元件?這個新功能是否符合我的品牌?所以有了那個,我們有了人工智慧為我們創造的所有混亂。我們回到設計系統建立的原因。特別是,我們需要那些護欄。所以這是人工智慧世界中的什麼,你知道,在沒有這種背景的人工智慧世界中,你特別有不一定符合你品牌的東西,對吧?東西可能會產生幻覺。你可能有產生幻覺的元件。你可能有與你的品牌指南不符的顏色。總的來說,你真的需要那些基礎和背景來讓事情工作。這不僅僅是你的Figma模型。這不僅僅是你的Storybook,甚至不是設計MD。我們真的需要背景來使我們的代理與構建符合你品牌的東西相一致。
所以我們提出了我們這一端的解決方案,我們稱之為人工智慧原生設計系統。顯然,與普通設計系統沒有太大區別,但關鍵是現在我們有兩個這個設計系統所依賴的支柱。你的文件和你的程式碼。你有你的系統級規則、令牌,就像我之前提到的,你的顏色、排版、間距,然後是你的元件,但特別是由程式碼支援,因為你的設計系統與程式碼的一致性越高,它就越接近你的使用者實際看到的內容。這也允許代理理解道具、變數以及直接使用這些元件的方式。所以現實中的例子是什麼樣的?這是我們的一個客戶Headway。
Headway是一個心理健康平臺,幫助人們找到持證治療師,他們已經有了一個設計系統,所以我們為他們幫助進行了同步。我們獲取了他們的文件和程式碼,並以我之前提到的相同結構建立了它。Storybook作為文件來源本身適合系統級規則和基於故事的元件級規則。然後他們的實際程式碼要麼被攝入作為NPM模組,要麼與GitHub同步以獲取令牌,以及我提到的那些元件。這很瘋狂,因為我不能在現場演示這個,因為它可能需要太多時間,但差異很明顯。我提前生成了這些,但使用相同的通用提示「為我構建儀表板」,你會得到完全不同的東西。沒有設計系統,你得到的東西可以用你的UI工作,對吧?
或者它是一個很好的通用SaaS儀表板,但可能不符合你的品牌或產品。使用該設計系統背景的相同提示。這與Headway的品牌看起來非常接近,對吧?我們有我們的標誌。我們有我們的元件、顏色、排版,都匹配在一起。現在我們實際上能夠傳送真正接近、高保真度的程式碼,即使提示更簡單。現在這也完全改變了設計到工程交接的樣子。對吧?在舊世界中,我有這個Figma模型。作為工程師,我必須檢視它並檢查我的Storybook,看看哪些元件與之一致,確保顏色令牌正確,對吧?這很困難,我必須從頭開始構建一切。但現在我們甚至不與設計合作了。我們與程式碼支援的原型合作。
而且因為這些原型使用我的實際設計系統元件,我可以通過MCP將其掛接到Cursor、Code或Codex之類的東西,只是說,哦原型工具、設計工具,給我這個設計,從中製作一個新功能,這些相同的底層基礎,兩個程式碼庫都應該使用我的相同設計系統元件,我應該能夠獲得更高的保真度。但因為這些原型也是程式碼支援的,我可以反過來做。我可能有一個功能還不一定在模型中或在暈程式碼的世界中,人們總是在生成新功能。我現在可以做的是隻是說,拿這段程式碼,拿這個頁面並將其轉換為我可以輕鬆迭代的原型。
現在因為這個MCP往返,我現在在兩個方向都有高保真傳輸。隨著代理的發展,我們的工作流程也會發展。但我認為我們還沒有能夠匹配的真正困難的東西是工藝。僅靠人工智慧不會取代工藝,因為如果沒有背景,你就不會擁有使偉大產品成為今天的樣子的意圖、觸覺、那種人性。但設計系統在這裡添加了這種背景。所以在過去,設計系統幫助我們帶著工藝進行構建,但今天它們幫助我們的代理理解工藝看起來像什麼。所以我希望這有助於理解為什麼設計系統在當今這個人工智慧世界中變得比以往任何時候都更加重要。謝謝。>>非常感謝,亞歷克斯。從美國一直來的下一位演講者伍。是的。呃,嗯。
呃,下一位演講者將是來自Magic Path(不是Magic Patterns)的薩比娜。呃,我確實有點告訴這些傢伙,你知道,他們存在,他們會互相追逐,但我認為他們會很有趣。但是,呃,是的。所以我認為講一個關於薩比娜的小故事會很有趣。呃,她實際上學的是化學,我相信。是對嗎?>>是的。但現在她是設計師。>>那就像《絕命毒師》嗎?>>像《絕命毒師》?>>像沃特·懷特?>>這是新加坡。我們不能說那樣的事情。>>抱歉。>>沒關係。>>但無論如何,呃,但這很酷。我認為再次呃你可以學任何東西,然後成為任何東西。你學了什麼?>>沒什麼。我什麼都沒學。我有零個學位。我只是我沒有受教育。>>是的。所以有時候,各位,你可以做任何事情。沒人阻止你。
只是如果你是化學人士,你可以設計。呃,所以這是關於薩比娜的一個小背景。伍。你好,我叫薩比娜。我從紐約市一直來這裡和你們交流。我很興奮在這裡。我是Magic Path的設計師。不是圖案路徑。淺色模式、深色模式或淺色模式。呃,所以這很有趣。我實際上舉辦了一個研討會。如果你們中有人兩天前參加過,再次你好。呃,我完全重做了我的演講,這個早晨,因為我意識到,天哪,我在和像大寫E工程師那樣的人交談。所以這是給你的。呃,如果你在呃時間表上看到,我的演講應該是設計師應該插入2026年5月設計趨勢在這裡。呃,那是在三月份寫的,因為我當時想,謝麗,這個空間發展得太快了,像天知道什麼,對吧?
我甚至不認為在我提交這次演講之前 skills 就很普遍了,嗯,那後來發展了。我沒有那樣做。設計師應該編程式碼嗎?魚應該游泳嗎?那不行。設計師應該設計嗎?這其實是個好問題。我一會兒會回到這個。但我想如果你現在是一個設計師,又在不情願地接觸程式碼?是的。好的。然後我意識到,等等,我沒有和合適的聽眾講話。工程師應該設計嗎?應該。所以這次演講是為你們這些書呆子準備的。嗯,所以,呃,對我來說工程真的很可怕,因為 div 塊很可怕,但如果你想象 div 塊,那就是 flexbox。如果你能用 flexbox,那就是自動佈局。所以在大約 90 秒內,我將教你你需要知道的一切來接管我的工作。我希望你接管我的工作,對吧?我累了。
所以如果你看到一個這樣的字型,你會想,那非常乾淨,非常容易閱讀,非常人性化,對吧?嗯,我今天早上用提示詞生成的。這叫做,嗯,無襯線字型。它非常平易近人,非常人性化。你可能在每個開發者網站的模態框上看到,你知道,Linear Claw。他們有自己的東西。他們很貴,但 Inter 是一個非常好的可靠工具。人們通常只是調整字距和字間距。你知道,如果你曾經看到那個 A 對比 A,那就像是一個 expect 元素。你可以改變它,對吧?如果你看到這個字型,你會想,「哇,我現在很技術。我看到數字。我看到一些非常科學的東西。」這叫做等寬字型。Blank mono 各位,對 mono 可能是你需要知道的。這很像,「天哪,如果我進入我的網站,就像技術,對吧?」
那太棒了。」如果你看到這個字型,而且你知道差異,注意力就是你所需要的一切。Latte 在裡面。嗯,Times Roman,任何有點嚴肅的東西,嗯,Anthropic 回答我是否應該在這之前喝五杯龍舌蘭的問題。非常權威,非常專業。這叫做襯線字型。如果你想在 3 秒內知道為什麼我們有差異,襯線字型是當,呃,回到像羅馬或希臘時代,呃,人們會畫他們將要像模板一樣描繪出來的東西。這些小標記來自於人們繪畫的實際油漆刷筆畫。所以那就是它來自的地方。現在你知道了。好的。如果你看到這樣的東西,著色器,互動的東西。如果你看到,哇,那到底是怎麼發生的?我不知道 WebGL。嗯,是的,這是著色器。
你需要知道的全部是你可以去 unicorn.studio,完成這個。如果你想實際知道它背後的數學,去我的朋友 Maxim 的部落格。他在 Linear 工作。他太棒了。嗯,那就是你需要知道的一切。所以,嗯,讓我看看還有什麼。這裡沒有看門人。你會想,「哇,我在英雄頁面上。這是 Magic Path 的網站,你們很快就會看到。這是 Cursor 的網站。他們到底是怎麼做這些英雄動畫的?」猜猜怎麼樣,夥計?是的,就是這樣。你只需取程式碼庫,扔進動畫東西,建立一個新分支,然後說,「嘿,把它做得很棒。讓它突出。」嗯,通常人們在這裡有他們產品的錄製,但我提倡這個,因為,呃,你有點想加快速度。
你知道,當涉及到讓人們等待你的人工智慧生成的任何東西時,有一種禮儀。呃,這只是更快,你可以做很多真正很酷的事情。就像如果你看到我的提示詞,我只是會說,讓它突出,讓它更大,就像在 10 秒內讓它出現,隨便什麼。好的。同樣,我也不對設計師進行看門。這是為你的。如果你曾經在網站上看到一些東西,你會想,「我到底是怎麼做的?」你右鍵點選,你進入檢查元素,然後你挖掘直到你找到計算佈局,然後你複製它到嗯 Magic Path,你很快就會看到。是的,這是嗯這一切都是說我認為真的很有趣。工程師有品味,對吧?我編寫好程式碼需要一些像精細調整的東西。
我認為設計對工程師來說一直是一個黑盒子,以至於他們沒有意識到,嗯,你也可以對這種東西有品味。就像你剛剛看到的一切,那就是 2026 年設計師的一個概括。就像嗯,我沒有討論 instrument sands,但好的。所以,我想轉向的是我們今天如何定義設計和工作?今天的設計,有很多嗯有一個奇怪的呃模式,我們鼓勵的一種行為,你迭代,重新整理頁面,迭代,重新整理頁面。
你有點被困在單一視口中,如果你想看到一個版本,你有點必須進行這種尷尬的舞蹈,比如按返回按鈕或任何東西,你沒有真正的想法,你有點迭代直到它足夠好,但你沒有真正暫停和反思,想哇,也許這個迭代與這個迭代有什麼好的東西,對吧,你只是有點向前移動,呃,而不是內省,這顯然是呃不男性化,所以嗯鑑於預測呃哦,那說了什麼呃設計的未來有多難,就像我工作,你知道,在 Magic Path,我看到很多設計工具,就像哦呃你得匯出它為這個,隨便什麼檔案,就像哦你必須在那裡本地製作它。我的論點是,就像我不知道你們是怎樣設計的。
我真的,這不重要。嗯,我想能夠給你們最好的工具來滿足你們所在的地方。無論你的設計是像一個半成品的 Next.js 應用,如果它在一個 Figma 檔案中,如果它像在你的腦子裡,如果它在你的隊友的腦子裡,都沒關係,因為嗯,是的,我是說,創意來自任何地方,我不想是那個告訴你創意來自哪裡的人。所以,我在和 Sher 談話。她實際上在 3 月邀請我參加這次演講,我說,「嘿,就像呃我不知道我會,我不知道我會就什麼話題演講。」而且,從字面上,這就是我告訴她的。就像,我在那一天製作了這些幻燈片。所以,這不是出於懶惰,而是出於準確性。所以,是的。好的。這是一個我認為每個人都應該記住的引文。
我認為這有點像這個呃會議的整個論點。呃,我就要大聲讀出來。John Collison,他就像是 Collison 兄弟之一,Stripe 的一部分,他說,「當你長大時,你意識到你周圍的事物並不總是在那裡。人們使它們發生了。但直到最近,我才開始意識到一切需要多少韌性。那家酒店,那個公園,那條鐵路,世界是激情專案的博物館。」而且我說這個是為了說,你知道,呃,你知道,有些人只是扔出 skillmd 檔案,他們就像,你知道,把薯條放進袋子裡,隨便什麼。但我認為有一個美在於有點理解,就像,等等,在我只是像公園這個 skillmd 檔案我從 Twitter 上找到之前在我的聊天機器人中。裡面有什麼?像,我想要每一個東西嗎?
就像,我甚至喜歡是的,這是 Airbnb 的設計系統,但我想要每一個東西嗎?不是。你有點想要精細調整東西,對吧?這類似於像每當有人給你一個顯然沒有被看過的 PR,就像他們不能解釋每一行程式碼。不是說他們必須,但你知道,處理別人的人工智慧垃圾不會引發快樂。我認為每個人都可以同意這一點。讓我看看。好的。嗯,這一切都是為了說,就像我是從心底裡說這一切,嗯,你知道,在這之前作為一個設計師,我做了一個人工智慧設計初創公司,我試過教人們設計。呃,所以你知道,這裡沒有公司洗牌帽。但現在有了等等。該死,我希望我更光滑。如果你想快速去就獨自去。如果你想走得遠,你應該使用 Magic Path。然後你應該與你的團隊一起使用它。
在企業多代理中使用它。我們兩天前剛釋出了它。這是我 Chloe Park。如果你們中任何人認識她,她很棒。嗯,所以你不僅可以在 Magic Path 中設計,一是在畫布上,我認為這是正確的方法,二是與多個代理,無論是側邊聊天欄,嗯,三是與你的實際企業團隊。所以,邀請營銷人員,邀請執行長,就像在廚房裡放太多廚師一樣,看看會發生什麼。你明白嗎?嗯,好的事情是,你知道,我一直看到大家對 cursor 的熱愛和對 codeex 的熱愛。我深感敬畏。好處是你實際上可以用現有的工具使用 magic path。
所以我進行一個研討會,我使用 cloud code,但你可以使用 codeex,你可以使用任何東西,比如我認為我看到有人在使用類似 Amazon IDE 的東西,那是 Kimmy 嗎?或者嗯,無論如何,你可以將 Magic Path 連線到這些不同的代理,說,嗯,你知道,如果你有一堆,你知道的 pro 訂閱信用,就在 Magic Path 上使用它。不要覺得你必須購買更多信用。像我之前說的,我們試圖滿足你現在的位置。
嗯,我的老闆 Pietro,真是個傢伙,如果你們中任何人認識 Pro,他就像這樣瘋狂的傢伙,但他製作了這個非常棒的影片,就像他只是展示使用 codeex,你可以製作這些真正驚人的設計,我認為,下一代設計就是,你知道,我們有技術,我們必須向人們傳達,不,這就是你實際上能實現的方式,比如工程師設計,設計師學習如何與工程師更好地合作,嗯,所以我們有所有技術,就像能夠,你必須把它放在人們的臉上,然後說,「嘿,嘿,你知道,使用這個。」嗯,從任何地方設計。我實際上有人說,「哦,我希望我能用 Magic Path 從我的手機上設計。」我永遠不會這樣做,因為我認為那是太多的認知過載。
但如果你想將其連線到 Telegram、WhatsApp,或任何其他,你可以讓你的設計慢慢成形,然後稍後檢查。所以,讓那個,嗯,意識到。所以,再次,很酷的事情是在設計和程式碼之間關閉迴圈。嗯,我這裡沒有。哦,不,我有。我有。嗯,但基本上,你可以有一個 magic path 設計,把它放在你的程式碼庫中,打磨一下。即使你對本地檔案進行編輯,你也可以將其放回 magic path,這樣你總是有一個乾淨的檔案。再次,這些都有即時連結,所以你可以通過 Slack 傳送,通過 iMessage 傳送,我不知道,隨便。嗯,是的,所以嗯,這有點像我希望它更大,但這只是我在我的檔案周圍閒逛,像嗯,你知道,再次,因為它是一支筆刷,我想讓你製作藝術。
我想讓你製作專案,那些可能永遠不會發布的東西,但至少你告訴自己,你喜歡鋪展所有東西,然後真的想了想,對吧?因為我認為未來我們需要做一些讓我們的大腦皺一點的事情。我認為我的就像,你知道,就像膨脹。所以,嗯,你知道,這只是我在玩藝術專案。像我插入的,我從 Twitter 上買了一個日本紋理包,像我,我把它連線到我,你知道的,本地,嗯,代理或我的外部代理,然後它在 magic path 中放入了真正棒的東西,我可以看到它被用於像登陸頁面或其他創意努力。好的,所以我想說的最後一件事是哦糟糕,嗯,這是我令人驚喜的團隊,沒有任何偉大的東西是獨自建造的,第二部分。我們主要位於紐約市。
如果你曾經在那裡,來打個招呼吧。我們在曼哈頓下城。這太棒了。好的,所以拍下這個照片,因為你猜怎麼著?所有的幻燈片都在那裡,以及推薦閱讀。《無紙化辦公的神話》。有一些部落格,像,你知道,Maxim 的部落格就在那裡。那裡有一些真正好的資源給你們。我也有每一張幻燈片。這不是完全準確的,但它在那裡。嗯,我的電子郵件和 Twitter,請在上面發推。如果你嗯實際上製作了什麼東西,你 DM 了我,DM 給我,或者如果你 DM 我一般,或者發給我一封電子郵件,像我會喜歡個人入職你,幫助你的團隊設定好,是的,我們可以託管你的設計系統。我實際上認為這是我得到的最大問題。他們就像,「哦,我可以將我的設計系統轉移到這裡嗎?」是的。
嗯,我認為就是這樣。>> 謝謝你,Sabina。>> 給 Sabina 熱烈掌聲。大家繼續。是的。拿著麥克風,年輕人。我們嗯看看你們中有多少人用像 chat GPT 或 Claude 或一些東西設計影像。是的,很多。好的,這大約是房間的 10%。嗯,我認為你們中很多人不這樣做,因為一,它有點 >> 你知道,嗯,我們有點知道什麼是垃圾內容。嗯,或者它,它會犯錯。六個手指,對吧?有人看到 Katy Perry 在大都會晚宴上嗎?你明白嗎?這是很酷的藝術。無論如何,嗯,影像生成無論是用於品牌資產,比如徽標,嗯,名片,諸如此類的東西,一直以來都是一個有點挑戰的問題,因為我們知道垃圾內容是什麼樣子,但另外,你去哪裡了?哦,你在這裡。你拿到麥克風了嗎?去拿吧,哥們。不,他們還不需要它。去拿吧。沒關係。
無論如何,這是幕後花絮。無論如何,嗯,這就是交易。當你得到,當你得到,嗯,我現在投入了。稍等。哦,讓我,我們可以用這個來介紹她,然後我們會給你麥克風嗎?謝謝。嗯,無論如何,所以當你從一個 AI 模型中得到一個影像時,你得到一個影像。它像一個平面圖像一樣,你知道,但如果你是一個平面設計師,你使用圖層。你知道這個,對吧?就像,就像你有像背景和前景和各種圖層。那,如果 AI 可以為你做到這一點會多酷呢?給你像一個 Figma 準備好的東西,所有你可以使用的圖層。這就是我準備好聽到的。我非常興奮。下一個演講者是誰?>> Priya。介紹她,哥們。>> 是的,我知道。>> 沒關係。他是新的,但我們在訓練。我們在訓練。>> 好的。
所以,現在我們的下一個演講者將是 Priya,她也來自,她也來自舊金山到新加坡,這是一次 17.5 小時的飛行。她將談論 AI 如何可以成為你的設計合作伙伴,幫助你建立一些真正很酷的東西,像嗯,類似於 Canva 但更好。>> 我不知道。無論如何,就是那樣是免費的。給她麥克風。太棒了。給 Priya 掌聲。>> 晚上好。嗯,謝謝你那個介紹。我覺得你解釋了嗯,很多我本來想講的東西。嗯,我的演講是,我是 Leica 的聯合創始人兼執行長,我們正在構建基礎設施來培訓和評估創意 AI 模型。這真正意味著什麼是我整天對著影像生成和影片生成模型大喊,因為它們不理解我們的提示。
我們正在努力構建基礎設施,使它們更好地理解。嗯,我們想避免被提示淹沒的問題。嗯,我認為他問了這個問題。這裡有多少人使用 chat GPT 或 nano banana 來生成幻燈片、簡報、社交媒體海報?我沒有看到任何人舉手。你們都在說謊嗎?好的,現在我看到更多的人舉手了。所以顯然你們中大多數人使用 chat GPT 或 nano banana 來生成影像。我確信嗯,我會分享我今天正在做的事情,你們中很多人可能會對我正在經歷的事情產生共鳴。嗯,這像《魔鬼穿 Prada》一個海報,我問嗯,我問 Gemini 用金髮女人替換影像蒙版嗯,然後這就是它給我的。那還好。嗯,我仍然對自己有一些耐心,然後我再次提示,這就是它給我的。
然後事情變得更奇怪了。這是我最後得到的結果,現在我徹底失敗了。我我想好吧,這是行不通的。所以這就像我看到的結果越來越糟。那麼我們在 Leica 做的有點不同。所以如果這是這張影像,而這是我給出的相同提示,改變影像質量,用一個金髮碧眼的女人填充它。嗯,它把一切都隔離到圖層中,然後用那個確切的影像填充該圖層。你能進行的本地化編輯的級別是瘋狂的。如果你的圖層已公開,並且你能夠委託每個圖層,你也可以移動文本。你可以改變這裡的任何東西。你可能想知道為什麼這個這麼小?
好吧,我想我們之所以能做到這一點,是因為一些從事影像生成或影片生成的公司輸出 MP4 或 PG,它們是凍結的檔案格式,圖層沒有公開,每一次提示設計狀態都被重置,文本不是一個非常有趣的輸入媒介,因為很多人不知道如何表達他們想要的東西。所以翻譯中損失了很多,今天沒有人工智慧多人遊戲體驗,因為這個原因,我們解決的方式真的是做這個圖層級別的可編輯性和圖層級別的可編輯性不僅僅是為了讓人類移動東西,但可能有其他專門的模型你可以用於不同的圖層。它可以用於文本生成、SVG 生成、照片生成。
你不總是需要為一切使用一個巨大的模型。你可能想知道為什麼初創公司應該解決這個問題?為什麼大實驗室已經沒有解決這個問題?誠實的答案是沒有資料。對於程式碼,有很多有很多像 GitHub 倉庫。法學碩士在文本處理方面表現得非常好。而對於平面設計,你只有這三個巨大的公司。它們都是圍牆花園。Figma、Canva 和 Adobe 擁有數十億個編輯跡象和資料,沒有哪個實驗室有權訪問,也沒有社群中的任何人有權訪問。所以當我們作為初創公司決定直面這個問題時,我們從第一原理考慮,也決定解決市場上缺失的東西,那就是資料。所以我們繼續收集了超過 1。
500 萬個分層圖形設計組合。所以這看起來像是其中一些已經開源了。所以你實際上可以去檢查它。這就像我們構建的一個有趣的探索器,我們從很多不同的設計類別中放出資料,從 Instagram 到商務演示到海報的 50 多個類別,每個資料點都有關於影像外觀、裁剪方式、位置的多個豐富註釋,以及如果有語義和邏輯組,那麼你可以實際看到哪些元素需要分組在一起。所以你可以教一個人工智慧模型如何重新流動內容,或者如果縱橫比需要改變,它真的知道如何規劃佈局。所有這些事情,所有今天的前沿模型都不擅長。
而且你可以用這個資料玩耍,一些這樣做的方式已經開源了。所以你也可以給一個雲代理很多這樣的配置檔案作為技能,它表現得好得多,你也可以訓練模型或在它之上構建評估。所以我們解決這個問題的方式是你今天可以從很多生成性人工智慧模型中獲得單鏡頭輸出,其中一些結果真的非常令人印象深刻。但當你聽到諸如人工智慧缺乏品味之類的評論時,這真正意味著的是設計師們對細節的執著。有人在思考矩形的圓角半徑需要是多少。裁剪型別應該是什麼?文本框的邊距距離應該是多少?這數千個微小的決定是提升設計的原因。
而人工智慧模型不太理解如何思考一些微小的決定。而這裡每一個小失誤都會使輸出變得非常空洞和草率。所以我們處理的方式真的是把一切都隔離成圖層,每個圖層可以用來自企業的專有資料或從其他地方收集的其他資料非常不同地塑造,圖層級別的資料將非常有幫助,因為在企業中人們沒有無限的代幣可以花費,特別是在市場營銷職能中,比如在電子商務中,你必須生成與某些品牌指南一致的橫幅,跨越這麼多不同的國家。比如在東南亞,有大量的語言,你只想改變文本或特定的圖形,但保留所有其他元素原樣。
你只是想能夠操縱那些圖層。或者有時你想將攝像機生成的影像與人類編寫的文本的某些部分結合起來,並用人工智慧生成的東西填充其他畫素。你應該也能夠組合星座模型,因為隨著越來越多的模型出現,你可能想將設計的不同方面委託給不同的模型。這種架構允許它。因為今天,如果你想一鏡頭完成所有事情,那是一個工程師關於模型應該如何為創意人員工作的想法。而創意人員、創意就是本質上的增量和迭代。你向後走幾步,然後橫向,然後你可能決定要刮掉設計並重新開始。而目前的模型不允許這樣做。
我們還提出了一個多訊號獎勵學習系統,其中設計如果你只使用人類偏好,就很容易被操縱。特別是當你與具有不同口味表達的品牌合作時,你想要能夠提出部分獎勵,這些獎勵是基於人類偏好的,並用某些客觀獎勵來增強,這些獎勵衡量輸出是否有效並符合某些設計原則。然後我們有兩個模型。
一個是人工智慧法官,它能夠在其標準上不斷更新自己,以便它可以更好地區分好壞,然後使用該更新的人工智慧法官來重新訓練你的生成器,它可以繼續改進,因為設計有保質期,你一直希望公開真正好的例子並訓練你的模型保持最新狀態,也構建一個架構,其中你超越基於文本的提示,以便你可以捕獲可以成為訓練迴圈一部分的不同型別的互動。這今天不是現實。在評估任何影像生成模型時,我從不微笑。但如果你想從這次演講中獲得什麼,那就是我的幻燈片都不一致,到處都是。這就是人工智慧模型今天的樣子。
無論 Twitter 炒作或 LinkedIn 炒作是什麼,模型在佈局規劃方面都非常糟糕。在沒有人工干預的情況下獲得大規模的視覺一致性和可編輯性,尤其是圖層級別的可編輯性非常非常困難。所以如果你感興趣,你可以掃描二維碼。呃我們有擁抱臉連結、GitHub 連結,如果你想使用我們開源的資料集,我們也釋出了一個圖形設計工作臺。你可以用它來訓練你的雲代理,或者呃你也可以嘗試將其用作評估,如果你有你正在訓練的內部模型或如果你對這個領域感興趣就聯絡我們。謝謝你。>> 你們都是很棒的觀眾。當你們的演講者做出偉大的演講時總是為他們鼓掌,這一直都在發生。太好了。再為 Priya 鼓掌一次,各位。太棒了。太棒了。
我們的下一位演講者呃非常酷。他,他有一個驚人的故事,你即將在我們介紹他時聽到。呃我甚至不打算介紹他。我覺得他現在是個專業人士了。給你們的另一位主持人掌聲。各位,Usman。>> 謝謝。好的。所以,現在我們將介紹我們的呃下一位演講者,他再一次從舊金山遠道而來到新加坡。那呃是一個 17.5 小時的飛行,順便說一下。無論如何,他在旅程中走了很遠,從零到英雄。他曾經住在一個駭客宿舍。呃具體說是壁櫥裡,呃他在 12 歲時是一個呃不不是大學呃高中輟學生,現在他的公司呃你的公司叫什麼?>> Hyperspell。呃現在他的公司 Hyperspell 走了這麼遠,它已經融資超過 6.7 百萬美元,不是 67。>> 好的。
嘿,給主持人掌聲各位。走起。你做得太棒了。好的。大家怎麼樣?AI 工程師的最後一天。讓我們堅持到底,讓事情發生。嘿各位,我叫 Connor Brennan Burke。我從舊金山遠道而來這裡。17 小時的飛行。我現在非常時差嚴重,但我們會堅持下去。好的。走起。好的。所以,我們 Hyperspell 構建公司大腦。我今天要告訴你們的是如何構建公司大腦。沒錯。如何讓智慧體真正理解你的公司如何運作。而這不工作。好的。就這樣。好的。所以,我認為這是一個我們今天從不同演講者那裡聽到的主題。嗯,說白了,你們的智慧體是無知的天才,對吧?
他們,他們就像呃,你知道,一個天才學者、博士、有點自閉的實習生,絕對聰慧,但對你的公司一無所知。對他們來說,每一天都像是工作的第一天。他們盲目跟隨呃,無論他們讀到什麼。他們有點天真。他們會接受指示然後就跟著做。所以你需要人類來看管他們。達到 AGI 的問題和關鍵,不是更好的模型。模型已經很聰慧了。重點是獲得正確的語境。你們的智慧體是無知的天才,語境的缺乏是他們還不能可靠地完成工作的原因。好的。那麼問題是你如何解決這個問題?所以明顯的答案是聯結器,對吧?我們都做過這個。
我們說好的,我會給我的 OpenClaw 訪問我的 Slack、我的雲盤和我的 Notion。我會使用 Anthropic、Claude 和 ChatGPT 中的聯結器,但這裡的問題是,正如我們所說的,智慧體有點天真,他們讀到的任何東西都認為是真的,但事實證明文件本身實際上常常不是真的,呃所以他們會找到一個文件,他們會錯過更正,他們會找到一個過時的舊版本,呃如果有兩個不同的來源,他們會互相沖突。無論他們先找到哪一個,他們都會將其解釋為真的。同一個人可能在 Slack、Gmail 和 Notion 中被提及。他們沒有意識到這是同一個人。他們就像,他們認為有五個不同的 Lisas,而不是一個 Lisa。而且也沒有時效性,對吧?
你會找到舊的、棄用的、過時的文件,他們試圖基於這些運作。嗯,所以連線提供了訪問。但不提供理解。那麼大家,我知道不是每個人都在工作,但有工作的人,你有多頻繁地開始了一份新工作,讀了一份文件,然後就像,「好的。這是我們的戰略或這是流程,然後你去做,你和某個人交談,就像,哦不,那已經過時了。那不再相關了。你得和 Bob 交談,Bob 知道所有的事情,就像和這個人交談。」有多少人遇到過這種情況?幾乎這裡的每個人都遇到過,對吧?所以這件事的重點是,通過給智慧體提供聯結器,我們假設真相在文件中。但事情實際上不是這樣運作的。
所以,我們所謂的「真實來源」,實際上很少是真實的。事實證明,資訊被創造的那一刻,它就開始變得過時了。文件本身是一個滯後指標。你可能會有組織重組、客戶例外或新部署。因此,現實與文件之間的距離越來越遠,需要人類更新文件來使其保持真實。因此,公司實際上的運作方式是,你擁有極其混亂的現實,其中有 Slack 執行緒、會議、電子郵件和例外以及所有這些事情發生,然後你有這份文件。所以人們試圖記錄東西,但我們都不善於更新文件和記錄它們。然後你有實際上是真實的東西。因此,正如我們剛才所說,獲得實際真實情況的方式通常是問某人,對吧?
你問你的老闆,你問那個待了大約五年、擁有所有背景資訊的人。所以,人類善於理解這一點。你知道,不要盲目信任你在任何過程中得到的任何文件。你問這個人,但代理不知道這樣做。他們讀到的任何東西,他們都認為是真實的。這就是為什麼你不能讓他們在你的組織中隨意執行。如果我們想大規模部署代理,我們需要給他們一個「真實來源」。那麼你如何解決這個問題呢?你建立一個「公司大腦」。所以每個組織都需要為代理提供一個單一的「真實來源」。一個「公司大腦」。現在那是什麼?它不只是聯結器。它不只是跨來源的檢索增強生成。它是一個有信心的「真實來源」。它理解誰建立了這份文件。
它把來自電子郵件、Slack、筆記和混亂會議的執行緒彙集在一起,浮出衝突,並識別出——好的,有兩個不同的來源說了不同的東西,我們如何在它們之間解決?它弄清楚了原因,並建立了一個代理實際上可以信任的「真實來源」。那給你什麼?它給你更好的答案。它給你一致的代理。它給你持久的知識。它使你的組織準備好部署人工智慧。許多企業人工智慧部署失敗的原因是他們試圖部署代理,但代理讀取文件,而沒有公司大腦供他們操作。這是我們需要使人工智慧真正發揮作用的東西。現在這裡的另一個細微差別是我們假設背景是由人類生成的,但這已經不再是真實的了。
傳統上,你知道,你有人在會議、Slack、文件和郵件中。但現在你有混合背景,對吧?你有與人類的會議。你還擁有所有代理的提示。你還有開放背景記憶。你還有痕跡和推理。這也是背景。你用 Claude Code 獲得最終輸出的迴圈。所有這些背景都很有用。如果你不把它放入大腦,你就會錯過大量的背景來獲得最終輸出。因此,我們都在從主要是由人類組成的組織轉向混合型,在幾年內,大多數背景實際上將由代理建立,所有這些都需要在大腦中。現在,你需要在這個大腦中放入不同型別的公司知識。
有穩定的事實,比如法律身份、你的組織結構、你的品牌顏色。然後有流程知識。我們如何進行入職?我們如何進行交易審查?我們如何應對事件?還有隱性知識,只存在於人們腦子裡的東西。所以記住,好的,如何關閉這個客戶或什麼是更好的銷售策略或者這個特定的測試將會不穩定或者這個整合效果不太好。這些都是隱性知識。它很少被寫下來,也很少在一個你能讓它發揮作用的「真實來源」中。然後最後,你有有狀態的現實。所以你有待處理的交易、活躍的事件、今天的阻礙因素,公司大腦需要擁有這些中的每一個,並以不同的方式儲存它們。
為了找到真實的來源,你需要了解事物演進的速度以及那個中心位置是什麼。根據我們與從微小初創企業到大型財富500企業的各類客戶合作的經驗,真正構建這個系統的方式是你需要從攝入所有資料開始,因此收集所有真實資訊源——你的Slack、你的Gmail、你的Notion、你的GitHub,現在越來越多地,我們還有會議錄音器,你也有你的代理追蹤,對吧,代理生成的上下文。例如,Meta正在開始這樣做,Meta甚至在記錄擊鍵,有些人有螢幕錄製器。你需要嵌入所有這些。接下來你需要做的是建立一個上下文圖。
上下文圖是什麼呢,它是一個單一的圖實體,可以找到組織內的每一個事實,理解它什麼時候是真實的,誰創作了它,我們對它的信心有多高,並將所有這些嵌入到一個地方。但問題是,上下文圖和一般的圖資料庫對代理來說並不是很好的使用者體驗。代理沒有經過後期訓練來使用它們。它們本身不理解圖資料庫如何工作。所以實際上,對代理來說最好的表示方式是檔案系統。因此你建立一個檔案系統,例如在公司級別的資料。誰是你公司裡的人?誰是潛在客戶?誰是客戶?你有你的決定?你有事件。在那之下你有每個團隊的檔案。然後你有每個個體。偉大的事情是因為檔案系統是通用的。
你可以在Cloud Code中使用它們。你可以在Cursor中使用它們。你可以在open claw、nano claw、內部代理甚至你自己的個人代理中使用它。現在讓我們討論大腦是如何構建的。嗯,第一步是上下文捕獲。所以你有所有這些混亂的來源。你需要攝入所有歷史資料,但你也需要即時獲取它。像Slack這樣的東西有即時上下文,如果你在發生時錯過了那個,那麼你的代理就不會有最新的資訊。第二件事是歸一化它。所以我們討論了理解你郵件中的Lisa和Slack中的Lisa是同一個實體,消除重複,結構化它。下一件事是綜合。
所以有時資料會衝突,當資料衝突時,你需要實際上向人類說好的,我們有這個權衡,我們選擇哪一個,然後最後你向代理提供它並有一個真實的單一來源。在正確的時間向代理提供正確的上下文,這樣他們就可以完成工作。困難的部分實際上不是搜尋,而是綜合。它是把所有這些資訊匯聚在一起。有人熟悉Karpathy的第二腦想法嗎?好的。有人已經有第二腦了嗎?有人在這裡用Obsidian作為個人真實的來源或第二腦嗎?所以這正是那樣,但是對於你的整個公司,你的整個團隊,你的組織中的每一個人和你的組織中的每一個代理。現在這能做的是你達到了公司開始從自己身上學習的一點。
你採取的每一個行動都會建立上下文。人類執行,代理執行,工作完成,新的上下文被建立。所有這些追蹤然後被綜合並放入大腦,然後未來的執行會變得更好。想象一下,每一個Claude Code例項現在都可以採取這些學習和那些新的收穫,並與整個組織共享它們。每一個銷售人員,如果他們學到了一個更好的銷售方式,那就立即與所有人共享。這能使的是公司隨著時間的推移遞迴地改進。傳統上我們有人的上下文流失,其中人們走出門,然後帶走他們的聯絡人。現在你可以獲得自我改進的組織,變得更好,每一個人,每一個代理不斷地使它變得更好,而不需要增加另一個會議。所以我們是Hyperspell。
我們相信每個公司都需要一個大腦。我們為你構建它。我們是人工智慧代理的合約基礎設施。如果這是一個你想解決的問題,你應該在之後找到我。給我發郵件或在Twitter上找我。謝謝大家。>> 哇。真是太棒了。真是個天才,哥們。>> 為這個夥計鼓掌。>> 我不敢相信像他這樣普通的人能造出這樣的傑作。嗯,我相信所有每個人的品牌或公司都值得擁有像他那樣的大腦。請歡迎我們的下一位演講者,他叫Hangong hang hong Lee,他來向我們展示我們都可以用程式碼快速轉變,以及你如何能做像他一樣好的事情。謝謝。請為Hangong鼓掌。>> 好的。謝謝,Usman。那很好。對。謝謝大家的到來。對。
今天我要談論我們需要用雲代理快速釋出所需的三個原始元素。對吧?每個人都想快速釋出,我在告訴後面的人,我們應該像複製自己一樣,對吧?我們如何能複製每個人呢,就現在?所以像我們是Light Sprint,我們是當前的YC公司,我們是三個新加坡創始人,我們是三個充滿好奇的新加坡創始人。我們在尋求,嗯,弄清楚在AI時代工作的本質將會是什麼,對吧?工作的本質正在改變得非常快,像我們三個人一樣,我們有一堆做產品、做工程的經驗,我們試圖弄清楚那意味著什麼,對吧?所以現在我們正在構建雲代理環境,對吧?
我們在幫助團隊構建他們的環境,這樣他們的整個團隊就可以釋出、嗯、對現有程式碼庫做出更改、嗯、可靠地、快速地和安全地。對吧?什麼是雲代理?對吧?這個這個幻燈片你可能你知道每個人都在談論雲代理,今天、嗯、昨天以及前天。所以簡單來說,大多數雲代理大多來自託管環境。看,它們就像來自雲基本上和一個服務,通常由公司設定的服務,對吧?它們也是非互動式的。所以,你啟動它們,然後它們四處走動,構建某些東西,然後返回它們構建的東西在後臺工作。有時它們被稱為後臺代理。有些人混淆雲代理和後臺代理。它們是一回事。它們只是在後臺工作。
一個快速、一個快速的像導引,把每個人都帶到我們如何到達這裡的地方,對吧?開始的時候,我們有代理在計算機內部幫助我們輸入Cursor。我是Cursor的早期使用者,那太有趣了,像command K和所有的東西。然後我們有編碼代理Cloud Code Cursor,再一次,對吧?每個人都在我們的計算機內部。它在我們工作時工作。不幸的是,它在我們停止時停止。但是現在今天像雲代理一樣,基本上它們到處都是。它們一直為我們工作。嗯,如果你知道如何控制它們。所以今天我們在談論那個。承諾是偉大的。像雲代理一樣希望重塑你的組織。它們想要、嗯、構建出像你的積壓工作一樣,基本上完成你的積壓工作,像你知道的那樣,它們可以構建任何東西。嗯,任何人都可以像、嗯、把東西組合在一起。
最後一件事是像Hyperspell正在做的事情一樣,像你知道的那樣,它們、承諾是它們將學習你的組織並幫助你改進運營。這些公司中最好的已經在使用雲代理。所以、嗯、它們獲得了三到五倍的、像改進一樣,有時甚至更多。、嗯、一些我們正在交談的初創企業正在非常有效地使用它們,很多人都在看到它們、喜歡合併的PR數量、剛剛建立的編碼代理建立的PR正在以令人難以置信的快速增長。好的,所以現在,如何讓雲代理為你工作而不是反對你,對吧?
所以呃,很多時候,就像你可能沒有給雲代理提供正確的上下文,所以呃,我們想確保,就像你想確保給正確的代理提供正確的上下文,你想呃確保給他們正確的計劃和上下文。你想做的另一件事是確保你在任何時間點都知道代理的位置。對吧?所以你想確保你擁有的雲代理在做你要求他們做的工作,你能夠檢查代理卡住的地方,或者他們目前是否卡住了,或者他們仍在工作。
最後一點是作為工程師,我覺得呃,這非常重要,就是如果我的整個團隊要給我提交程式碼,我需要審查他們,如果我需要審查他們,那麼我需要為此建立呃編碼環境,然後我需要確保那有效,最壞的是它不起作用,然後我必須回去告訴他們它不起作用,他們需要呃重新構建PR,這個我可以自己做。對吧?所以在Lightream,我們用三個基元來思考。你需要妥善規劃,以確保代理有最好的呃東西。你需要編排,你需要確保你知道代理在哪裡,你需要預覽。所以我將快速跳入呃,你知道,我們的應用。我覺得我已經講了很多,但我沒有展示任何東西。
呃,現在我試圖呃,我會向你介紹我們的應用。哦,這是中間部分。啊,是的。所以這是Lightprint平臺。而且Lightprint平臺基本上是你的團隊協作的工作臺,對吧?所以你可以看到,就像呃,只是一堆呃板和很多工之類的。然後是的,你可以在側邊看到計劃。所以基本上這裡發生的是我們基本上幫助呃建立任務。所以我們將提示放入任務格式,所以它實際上是由程式碼庫背景紮根,基本上能夠快速呃用很多資訊充實你的任務,這樣編碼代理就可以呃被啟動。所以我們支援一整套編碼代理。我們有cursor、entropic、codex,這些只是我們系統下的工具。
而且基本上我們有我們自己的lights雲代理,它也是那個周圍的一個工具。對吧?一旦你啟動雲代理,你基本上可以點選進去深入程式碼庫,進入內部的程式碼。所以你現在看到的是計劃模式,對吧?我們想改變這個螢幕。它有點無聊。它不是AI。只是基本上你最近的任務和最近的計劃的列表,對吧?所以,呃,讓我們呃現在使用我們的計劃模式。所以,我們現在支援Gstack和我們自己的Lightrint計劃模式,對吧?所以,我們使用我們當前的light計劃模式。而且基本上它做的是呃,這裡的想法是我們想用推薦選項和其他建立多選,對吧?那真的就像我們最喜歡的呃用例,對吧?
就像人們,每個人都喜歡選擇,每個人都喜歡呃,你知道呃,AI為他們想出選擇,對吧,但我們也喜歡視覺,對吧,我們喜歡呃看到模型,所以我們也讓AI有點受限,呃AI有點說請為使用者建立一個良好的體驗,通過向他們展示一些視覺上的東西,對吧,所以我們允許使用者選擇喜歡不同的選項,甚至製作更多選項,對吧,說好的,你知道,請給我兩個其他新的選項,然後那兩個選項就會一起被新增,然後你也可以從中選擇。對吧?所以我們並沒有真的做太多來告訴代理不要做什麼,但我們基本上只是給了他們一套呃呃引導原則。
所以,在你做了所有選擇之後,你實際上得到了一個完整的呃,就像在應用程式呃呃預覽你的功能將是什麼樣子。有時它有點互動,取決於AI選擇什麼。然後在這裡,你也可以在我們的情況下更改顏色。在那之後,我們將生成完整的呃規範,它將傳送給編碼代理,對吧?它將把它放在我們的機器人上,然後我們將傳送它,然後呃,我們可能在20分鐘後檢查一下呃整理。對吧。所以現在就像選擇代理和發運它。是的。一瞬間之後。所以現在完成了。所以現在我們可以實際進入我們系統的預覽部分。對吧。那對我來說真的是一件大事。
呃,它能夠檢視和點選應用程式。而且這基本上一旦為任何軟體工廠設定。如果他們沒有預覽模式,你必須問他們,嘿,你知道,我的夥伴們怎樣才能預覽我為PR建立的應用程式?因為那太重要了,因為沒有人比一個不起作用的PR更討厭審查,對吧?所以就像我們讓呃整個團隊成員在我們傳送它之前能夠預覽應用程式。所以我們一直在light sprint使用light sprint,我們取得了很多成功,做平行的事情非常有趣,也有點呃,在本地主機上做事情。所以我們主要是雲代理。
所以如果有些像呃,一個移動錯誤或你知道一個呃,小問題,那人們告訴我們的,我們會把它放在板上,然後我們會啟動一個雲代理來做。對吧。Lightrint將首先構建雲代理,對吧,我們呃,我們認為人們應該用呃,一個計劃來規劃,你可以使用我們的視覺計劃嚮導,對吧,他們應該編排,他們應該預覽呃,那太重要了,對吧,所以這是我的社交和light sprint呃連結,所以隨時截圖並使用它們,非常感謝你參加這次呃,嗚。謝謝。Hang是這樣一個很酷的產品。我在那裡觀看演示,我就像,「哇,我呃,我現在可以成為一個完全的產品經理。」對吧。那太酷了。非常感謝。你知道我在過去的幾次演講中注意到什麼嗎?
我注意到呃,一個一致的配色方案。你也注意到了嗎?呃,對吧。它呃,全都很狡猾。不。無論如何,呃,不不不,沒有不尊重。每個人都有這個橙色的東西,我就像,哇。它呃,它是一個呃,這有點有趣。它有點衍生。無論如何,呃,我們的下一次談話,我對這個很興奮,因為嘿,我們能為組織者們鼓掌嗎?他們做得非常好。他們做得太好了。真的,真的呃,一個很棒的Sherry。每個人都做得很好,因為你可能不知道這一點,但演講的結構使得它們相互鋪墊。好的?它太酷了。這裡有一個自然的順序。所以之前的演講是關於呃呃呃專案管理方面,下一次演講也是關於那的。
這裡可能有一個熱點,呃,你知道,Louis,我們的下一個演講者將澄清,但熱點是在未來,我們可能只會規劃和編排編寫和發運程式碼的代理。所以所以編寫和發運程式碼的工作轉移了,我們只是成為規劃者和編排者。呃,而且那有點像東西。Lou將告訴我們一個故事,關於他之前的業務呃,試圖獲得牽引力但沒有。呃,你知道,我會說這個。W代表贏,L代表教訓。所以他在這裡會有一些教訓學習。呃,請,請為Louie給最大的掌聲。好的。我們怎麼樣,新加坡?嗚。讓我們去。哦,週日下午5:00。讓我們保持精力高漲。好的。最後的東西在你和一杯冰啤酒之間,也許。呃,好的。我是Louie。
嗯,我最近不再是一家名叫 Vibe Camban 的初創公司的聯合創始人。嗯,我還在倫敦運營一個名叫 AI tinkerers 的人工智慧社群。所以,如果你曾在倫敦,來參加一個活動吧。你會玩得很高興的。嗯,我今天想談的是我為什麼要創辦這家初創公司,以及為什麼我關閉了它。基本上,軟體工程的工作正在迅速演變成對人工智慧生成的程式碼進行計劃和審查。嗯,我不知道房間裡有多少人對此感興趣,或者誰是初創公司創始人,或者會在他們生活的某個階段創辦初創公司。好吧,好的。好吧,我會嘗試討論我們最終關閉公司的一些原因,以及最後也許可以從中汲取和學到的東西。
嗯,我很快會告訴你我們在開發什麼。所以你得回到古代歷史。那是 2025 年 5 月,我的桌面開始看起來像這樣。我打開了很多標籤。Claude Code 剛剛推出,我試圖同時執行多個 agent。我開始思考這是一種完全新的工作方式。當準確性達到 100% 且我不再需要照看 agent 正在做什麼時,會發生什麼。我開始想象那個介面會是什麼樣的。本質上,它就像軟體工程的所有部分,除了程式碼編寫部分。
嗯,如果你想想我們有很多軟體,比如 debugger、用於測試的 UI、網路請求等,我們使用的大部分軟體實際上都是用來編寫程式碼的。所以如果你消除了工作中的那一部分,你只會留下計劃部分和審查部分,嗯,你可以為此想出一個截然不同的 UI。所以我們開始構建 Vibe Canban,它的名字基本上就是這樣。它是一個 kanban 板,你可以建立票證,類似於在 Jira 中的做法。嗯,但不同之處在於你可以點選任何這些票證,點選播放按鈕,然後你可以選擇在 Codex、Claude Code 或其他六個不同的 agent 中執行它。一旦某個東西完成執行,你就會獲得一個不錯的介面來審查該工作。
所以方法之一顯然是審查程式碼。嗯,另一種方式是測試某個東西,如果它是網站或應用程式之類的。嗯,所以這都是古代歷史。現在看起來很明顯。在 2025 年 6 月,這並不是很明顯。我們當時所做的許多工作都是開創新想法。我們推出了一堆東西,然後從應用程式中刪除了,我沒有展示。所以這需要一些實驗來實現。那麼我們為什麼要這樣做?好吧,這是因為一切都正在成為計劃和審查。嗯,如果你想想在 GitHub Copilot 在 2021 年問世之前,你如何可能為參與軟體工程的不同任務分配時間,我們的大部分時間都花在 IDE 中,仔細審查程式碼,在一定程度上檢視程式碼。
隨著時間的推移,這部分已經縮小為我們所做的總工作的百分比。所以你得到 Copilot 時刻,然後你知道突然自動完成完成了很多程式碼,然後你得到 ChatGPT,你能夠將程式碼貼上進去,得到另一個函式,然後將其貼上回去,或者你不再需要去 Stack Overflow。這有點像你知道的,使迭代速度快得多。然後你在 2024 年獲得 Cursor,看起來幾乎像你仍在檢視程式碼,但你在一側有這樣的聊天,然後最終你會到達我們今天的位置,那就是 Claude Code,老實說,我認為你知道有很多 vibe 編碼正在進行。你幾乎不需要看 uh 發生了什麼。
嗯,所以我想它提出了一個有趣的問題,比如我們是否收回了我們曾經花在編寫程式碼上的所有時間,或者它是否只是轉移到了開發過程的其他部分?我認為答案可能是兩者兼而有之。我認為它加快了軟體工程的整體工作,但同時我現在花費了大量時間進行計劃和審查我必須做的工作。這取決於。所以其中一種方式,這更像是一種實際的思考方式,說明計劃和審查的框架如何有用,我認為如果你弄清楚如何讓 agent 非常準確,你實際上可以用 agent 加快你的工作。嗯,獲得編碼 agent 準確性的方法之一是花更多時間進行計劃。所以我的意思是什麼?
我的意思是這個最基礎的版本就像 Codex 或 Claude Code 計劃模式。所以就是用它。我用它來處理絕對的一切。嗯,這個有點複雜的版本是使用一個框架。所以有很多很好的 spec-driven development 框架,我相信已經有過討論。嗯,你可以用這種審問方法,讓它對你正在處理的任務詳盡地問你問題,直到你對任務可能提出的每個問題都已經回答。但關鍵是你基本上在要求 agent 做某事之前花費更多時間進行計劃。其結果是,大多數時候你的 agent 會準確完成工作,可能只需要一次修訂,兩次修訂。
另一種方式,我認為我們都有點內疚的是,你不花很多時間進行計劃,你會因為需要進行大量審查而遭受後果。所以,你知道,我們有多少次只是丟擲一個定義鬆散的特性,你知道,當模型給我們回覆的東西是半成品或完全沒有抓住要點時抱怨。所以如果你花費較少的時間進行計劃,你更有可能需要與模型多次來回。我認為這個問題的另一個方面實際上是工作的型別。這不是我真正看過很多討論的東西。這有點像是半成品想法,但如果你想想工程工作的型別,功能開發與遷移完全不同。
所以這些不同的工作流程都圍繞著花很多時間進行計劃,或者你知道 uh,也許如果你在這樣做,你能夠同時執行多個 agent,而不是更多審查的、更多人工參與的工作流程,你不是同時執行東西,這可能更傾向於 uh 更多前端工作。所以你知道,有時實際上很難表達複雜前端特性的所有要求。涉及很多互動。有很多視覺 uh 你知道需要傳達的東西 uh,相對於後端,你描述邏輯,當你描述後端邏輯時,找到共同語言要容易得多,我發現,因此你知道計劃和同時執行多個東西往往在這些情況下對我來說效果更好。
所以,uh,總結一下,基本上如果你花五分鐘計劃,你可能會為自己節省很多審查時間。我建議總是,你知道,儘可能地推動滑塊朝那個方向。好的。然後我們可以用歷史來弄清楚事情的發展方向。所以,GitHub Copilot 會執行幾秒鐘後給你一個結果。
uh 你知道 2024 年 Cursor 的原始版本會執行 30 秒以上才能產生結果,我們在 Claude Code,它有點像平均執行 5 分鐘後給我一個結果,所以它發生的原因是因為工具使用增加了,所以我們有 agent 給你一個響應,agent 執行型別檢查器,然後給你一個響應,agent 執行型別檢查器,然後使用 Playwright,然後給你一個響應,你可以推斷,你知道,當更多更多的工作被納入迴圈時。基本上,編碼 agent 花費的時間在增加。所以,我們處於編碼 agent 歷史的一個有趣的時刻,即將真正超越觀看是舒適的範圍。
比如,當編碼 agent 執行 20 分鐘時,你會怎麼做?你不會坐在那裡看你的終端,你知道吧,用拇指轉圈。我的意思是,你可能會拖延,最後上 Twitter 或其他類似的東西,但我不認為這是對我的時間的良好利用,而且它很快就會變得無聊。所以,你知道,如果我必須預測,我會說一年後,你知道,我們可能在看,你知道,這些東西執行半小時,我們需要找到方法來並行化這個 uh 很多。嗯,好的。我認為我幾乎沒有時間了,所以我要用一些快速觀察來總結。我認為基本上正在出現的工作是管理性的。
所以如果你在一個軟體工程師團隊中的工作是編寫大量程式碼,而不進行很多審查,也不進行很多架構,以及你知道也許與更多高階或技術主管角色相關的所有其他事情。所有其他的東西基本上都要消失,程式碼編寫部分,剩下的將是所有傳統上的管理職能。嗯,是的,我的意思是,我們應該建立最大化開發人員專注的體驗和介面。所以,讓他們專注於重要的事情,比如計劃和審查的東西。好吧,我必須在那裡停下來,因為我沒有時間了,但非常感謝,很高興來到這裡。謝謝,新加坡。>> 繼續為 Louie 鼓掌,各位。>> 那是一個令人難以置信的演講。我現在是一個管理者。我們將其交給下一位演講者。
我現在是一個管理者。嘿,我們怎麼樣?你們感受如何?什麼?你為什麼甚至在這裡,夥計?去睡覺或無論如何,他想做些什麼。>> 好的,所以讓我們玩一個小遊戲。你能猜出我們下一位演講者嗎 等等,沒有。>> 什麼?>> 我不是指什麼,夥計。我的 >> 你能猜到嗎?>> 不能。你能猜到我們的下一位演講者來自哪裡嗎?uh,順便說一句,請大聲喊出你的答案。你的選項是新加坡。我的意思是,他當然留在新加坡,然後是斯里蘭卡,或者再次舊金山。喊出你的答案。來吧。>> SF。她說了。它在哪裡?>> 舊金山。嘿,我們在一列舊金山列車上。是的。為舊金山的每個人鼓掌。>> 太多來自舊金山的人了。>> 那是它發生的地方,兄弟。AI 工程師。>> 那是夢想成真的地方。>> 是的。是的。多麼出色的問答。謝謝。
非常感謝。為您的 coc 每個人鼓掌。Usman,我們的下一個演講 >> 來自在 Interphase 工作的 Harsha。它是一個 AI 研究實驗室,他將向我們講述他們如何訓練專門的編碼模型,超越 transformer 的新架構。所以為 Harsha 給予最熱烈的掌聲。>> 謝謝。謝謝。順便說一句,很好的介紹。大家晚上好。我叫 Harsha。我是 Interphase 的聯合創始人和 CTO。我們是一個重新發明 transformer 的研究實驗室。今天我想談論我們如何管理為確定性開發者任務構建新架構。現在,在過去的二十年裡,人工智慧從一個僵化的機器學習模型發展到一個更大規模的可概括 uh 智慧,這是你今天可以用來進行人工智慧工作流程的東西,這已經不是什麼秘密了。
我們已經從構建 uh 結構化微調模型發展到今天的提示,使你能夠構建 agent。更具體地說,想想這個 2010 年代初到 2015 年。你是一家銀行。你想進行光學字元識別。你將如何處理?你必須購買或獲得大型資料集。不僅如此,還要組建一支有才華的團隊來構建該模型,部署它,然後維護它。這很容易花費你數百萬美元,甚至數百萬美元。多虧了大語言模型的發明,我們能夠用提示來做這件事。但是,仍然存在問題。
幻覺的問題,儘管像 GPT 這樣的模型現在是巨大的多模式,我們用 Gemini 看到它仍然會出現幻覺,這發生是因為當你希望它對大量資料輸入表現得確定性時,上下文漂移會發生幻覺,我們在 Interphase 通過設計一個新的架構來解決這個確切的問題,我們訓練,所以我們帶來了 uh 一個大語言模型,抱歉,一個機器學習模型和一個大語言模型的靈活性的嚴格性。所以我們是如何處理這個問題的?你使用機器學習模型作為非常特定任務的強編碼器,然後你使用大語言模型來建立它的解碼階段。今天我想展示一些這個模型可以做的事情。我想快速展示三件事。我會討論它。
我只是要快速執行它,這樣我們就有時間討論它。所以首先這是一個真實的檔案。我想從中提取資料。不僅是文本,我還想檢測它上面的臉部,還要計算他的年齡來驗證它。所以我們為此執行 Interphase。這就是 Interphase 給我們的。它不僅提取了文本,還給了你它在影像中看到文本的邊界框,實際的畫素座標。它找到了兩個臉都對了。更重要的是,它設法正確計算了年齡。這是真的。現在,讓我給你展示一個具體的模型提供商或光學字元識別提供商,它也做光學字元識別。那就是 Redu。你們中很多人可能聽說過它。Redu 確實正確提取了文本,但它在其他部分失敗了。檢測文本在哪裡並計算年齡。
現在,這發生是因為編碼器更強。讓我們進行下一個。我們想要抓取這個特定的 LinkedIn 頁面。驚訝 Gary 還沒有關注我,但好吧。所以,我們想要提取 Gary 的經驗。LinkedIn 可能很難抓取,因為他們擁有的封鎖和機器人檢查。我想提取他超越這個按鈕的經驗。現在,那將很有趣。所以,讓我們看看 Interphase 做了什麼。它不僅給了我們它在第一個頁面上看到的東西,而且它一直返回到他的實習。我們能夠做到這一點是因為我們自己的指令碼模型,能夠抓取 uh LinkedIn。最後,我想討論 uh 一個 PDF,一個密集的 PDF。抱歉。uh 所以我只需要再執行一次。所以在這個螢幕上你看到一個密集的 PDF,這應該是這個特定模型的研究論文。
我們想提取這整個文本並將其翻譯成印地語,並計算此 PDF 中的字元數。在它執行時,我想回到簡報 cuz 那需要時間,然後討論它。所以現在我們看到了 Interphase 能做什麼的演示,我想談談我們是如何做到的。我想談論我們實際訓練的東西。我們是如何進行光學字元識別的?在此之前,我想展示我們的地位。在你的螢幕上。這是 M OCR bench,它告訴你一個模型在處理複雜檔案時有多好,不僅來自研究論文,還有複雜的筆跡,用於大規模多語言 uh 光學字元識別。與甚至專門的模型如 Chundra 光學字元識別,甚至是像 Redu 這樣的特定提供商相比,我們排名第一。這是你看到的例子,這是你看到的輸出。
在幕後發生的是,這個影像被輸入到我們訓練的 encoder,它是一個 CNN 棧,告訴你文本區域在哪裡。每個文本區域都變成了一個裁剪位置。所以你從文本所在的地方裁剪影像,然後將其輸入到 decoder 來生成輸出。現在這給你置信度分數。這給你邊界框和後設資料,你可以實際信任它,而不僅僅是簡單的文本。我們可以更進一步,把這些資訊輸入到一個更大的模型,一個 decoder,我們也對其進行了條件化處理,以獲取結構化輸出。這就是年齡方面的來源。你獲取資訊,然後在其上進行條件化。這就是 OCR。現在我轉向目標檢測。你是怎樣設法檢測到臉的?
現在這是帶有自然語言的目標檢測。YOLO 模型很好,但它們只檢測它們被訓練的特定物件。我們在自然語言目標檢測方面排名第一。這意味著你輸入一個提示。讓我們以這個房間為例。我給出我在我面前看到的東西的圖片,我說檢測所有穿著黑色 T 恤的人。Interface 能夠做到這一點。這是一個複雜的事情。我們是如何能夠做到這一點的?所以你拿同一個影像,你有一個文本 encoder,它編碼文本方面,理解使用者想要什麼。你有一個影像 encoder,它理解或表示影像的位置方面,然後建立對比分割,這意味著它拉動彼此更接近的畫素,允許你準確地檢測物件。
如果你進一步使用這些資訊,你現在可以分割這些畫素。同樣的東西——image encoder、prompt encoder,然後你有一個 mask decoder 會對所有畫素進行分類以給你一個潛在的掩碼。ASR 多模態是一個巨大的事情。不是很多模型支援現成的語音,我想今天談論它。我們是最快的 ASR 模型之一,我們也有最低的 VR 每個錯誤率。那麼我們是怎樣做的呢?所以當你給警報形式的音訊時,我們首先檢測語音發生的任何地方,然後裁剪那些音訊片段。所以我們獲得分塊,然後使用這些分塊為 encoder 提取聲學特徵,該 encoder 也被訓練來為特徵提取嵌入。現在這些嵌入被用於聚類。
聚類允許我們將特徵分割成組,這給我們 dization 輸出。所以現在你知道哪個音訊是由哪個說話者發出的,但文本再次來自編碼部分,你將音訊轉換為頻譜圖。頻譜圖基本上是音訊的視覺化表示,然後你將其用作框架來生成或分類文本。所以無論發音是什麼,都會被特別分類為文本。所以在繼續下一件事之前,讓我們看看 interface 為翻譯提供了什麼。所以對於這個,你可以看到 interface 不僅成功提取了所有文本並將其翻譯成印地語,而且在不應該的地方保持了相關和安全。比如它沒有翻譯地址,它沒有翻譯作者名字,它也正確計算了字元數。
現在我們把這個與 Claude 4.7 Opus 進行對比,看看 Claude 會做什麼。我們給了它三次嘗試,這就是為什麼我回到了這個。Claude 三次都失敗了。這是因為超時。但即使它能夠做到,如果這是一個長期的任務,多語言性會有問題,尤其是南亞語言。讓我們回到之前。所以我們看到了三樣東西——vision、audio 和 text。在使用這三個 encoder 時,我們訓練這些介面卡與同一個 decoder 一起工作。所以你會獲得準確的資料,但你知道該資料來自哪裡。你可以通過這種方式解決多模態問題。今天我非常興奮地展示我們關於我剛才談論的三種模態的資料。
我們對比這些——我們把 interface 與你在生產中通常使用的模型進行對比,這些模型是經濟的,可以一次性完成任務。但我們為確定性任務進行對比,即只有一個輸出的任務。如果你看一張影像,我的名字不能神奇地改變。它仍然會是 hersa。Yoan、我和我的團隊在過去大約一年一直在研究我們如何構建特定任務模型。我們做了同樣的事情。我們選擇了小型語言模型。我們花了很多錢採購大型資料集,我們一直遇到確定性的相同問題。模型會幻覺。這就是我們認為我們必須回到會議室、重新設計架構並重新思考的地方。我們觀察到資料不是瓶頸。
架構就是這樣,這就是 interface 應該解決的問題。最後,在這樣一個令人驚歎的觀眾和這樣一個美麗的國家面前發言真是一種榮幸。感謝 interface。老實說,那些基準測試留下了深刻印象。謝謝。那太不可思議了。嗯,多麼出色的基準測試。怎樣,Usman?>> 你好。>> 進展如何?>> 不錯。>> 各位,進展如何?>> 你知道嗎,我發誓,你們作為觀眾,讓我感覺像 Michael Scott。你看《辦公室》。你知道我是什麼意思嗎?我就在這裡。我在招待你們嗎?你們就像,「不,我準備回家。」不要準備回家。現在還不是時候。好的。我需要你們受到啟發。你們受到啟發了嗎?>> 這樣更好。這樣更好。Usman,接下來是什麼?>> 好吧,現在我們有一個叫 Harishi 的傢伙。有趣的是,>> 這太棒了。
這次他實際上是在新加坡,>> 新加坡科技。>> 我們愛新加坡。>> 是的,>> 就是這樣。能量結束了。>> 嗯,>> 請繼續。>> 好的。嗯,他,呃,他的應用程式實際上是基於他在 AI 和特別是編碼方面的個人錯誤。我很確定我這裡的所有 vibe 編碼人員都可以與我們所有經歷過的錯誤、錯誤或錯誤數量聯絡起來。>> 順便說一下,看看這個牆紙。>> 哦哇。>> 對。這個牆紙就是你如何知道它會是一個超級大作。太酷了。你準備好了嗎?嗨,>> 你可以開始了。各位,再次為 Hish 送上最熱烈的掌聲。>> 好的各位。好的,所以這實際上是我從我在一個非正式會議上的一次演講中製作的 Bliss 的自定義版本,該演講叫做「如何離開 Greenfield」。所以如果你不知道 Bliss,至少你知道 Greenfield。
所以這歡迎來到「沒有國家的所有程式碼」,對吧?這是一個工作標題。我認為每個人都在一直改變標題。所以這不是關於編碼代理的演講。這不是關於編碼代理的演講。這是關於在大型現有系統內構建代理的演講,對吧?包括舊程式碼、組織和資料,因為這就是我們最終要做的,這是關於修復而不是重建、更新而不是建立、舊程式碼和組織而不是新的。事實證明,如果你從這些基本先驗開始,一堆不同的原語就會落出來,對吧?你更喜歡更簡單的可重用工作單元,而不是試圖一次性填充上下文視窗,對吧?你從上下文中刪除東西,而不是新增東西。你將控制流與提示分離,將提示與程式碼分離。
你調校行為而不是逐步的成功和失敗。你構建成本意識系統,將構建和執行時分離,以便你可以有效地滲透資源。事實證明,如果你把所有這些事情都做好了,你就可以傳送結果,你就可以做一件事並讓它保持完成。你可以修復崩潰的東西並讓它們保持固定。你可以隨時進行 vibe,對吧?這使它變得更有趣。所以這真的是演講的主要部分。我只是要花一些時間解釋這一點,但如果那很好的話,呃,我們可以直接進入。
所以在此之前,我在電子和軟體領域花了幾年時間,瓶頸一直都是資料——如何將資料整形成對決策有用的形式。經過十年的思考,我創辦了 Southbridge,當時的信念是 3.5 Turbo 就是那個解鎖力,是我們所需的最後一個通用智慧單元,之後我們可以構建其他一切。自那以後,我們為資料系統構建了聯結器,能夠自愈和再生;我們為醫療、金融、能源等行業構建了 ETL 系統。我認為我們作為一個物種,同時作為一家公司,開始解決攝取問題了。作為一個水平類別的攝取,無論是對新客戶、新資料集,還是使用者上傳的資料。我們自創辦以來所做的一切都是為了用 AI 解決資料的第一英里問題。
但問題在於,從資料開始的難處在於,從第一天起難度就調到了 11 級,對吧?因為你一開始就處在關鍵路徑上,你的工作從基線上講從一開始就需要長期視角和可靠性。即使在小資料上執行一次,比如一個 GB,驗證格式、資料驗證、解析實體這些都需要數百萬次操作,而這些錯誤會堆積起來。上下文視窗——如果你還記得 Gemini 從 200 萬降到 100 萬,實際上還在倒退,對吧?但即使它增加 100 倍,我們一天內的資料量仍然遠遠超過你能處理的。但話說回來,我見過最大的、最致命的資料公司問題是多樣性,對吧?資料作為一個整體堆疊非常非常多樣化。無論是宏觀還是微觀都是如此,對吧?
在微觀層面,人類,我們作為一個物種,把我們能想到的一切都變成了畫布。文件、Excel 表格、PDF,就像內部我們有個笑話說,Excel 中的合併單元格按鈕是對人類最大的犯罪之一。在宏觀層面,公司真的是獨特的雪花,因為你有不同的堆疊、程式、SOP、安全邊界。即使是同一個資料庫,比如一個小 Postgres,通過不同的網路和許可權系統來看,看起來像完全不同的系統。但我想在這裡做一個重要的區分,那就是線上和離線代理系統之間,對吧?這是思考這些事情的一種有用的方式。
嗯,就像線上和離線是指有人監控的事情和沒有人監控的事情,對吧?儘管我想,我們想我們都想,大多數現實系統實際上有遠遠更大的離線元件而不是線上元件,特別是我們所有做過的專案,對吧?你只有在每次都要從頭構建的時候,才真正需要一個活躍的、延遲敏感的人工干預;如果你能構建隨時間推移而變得可靠的系統,並記錄你的偏好,那麼所有這些工作都可以離線進行,在夜間用本地模型執行,成本更低,代理可以像電器一樣工作。它們可以重複執行同一項工作數千次,對吧?你在睡前晚上給洗碗機裝滿。下一個是我們仍然相信編碼代理將成為代理工作的基礎基質,對吧?
並不是因為所有代理工作都是編碼,對吧?事實上,我認為我們很快就會在編碼上飽和。但因為編碼代理迴圈正在成為具有最多資源、最多強化學習、最多部署壓力的東西,而且它有通用的原語:讀、寫、編輯、shell,對吧?就像 V8 和瀏覽器成為大量實際上不是網站的軟體的基質一樣,我們相信編碼代理框架將成為大量代理工作的引擎層。好吧,那就夠了關於事情的總體結構。我們實際學到了什麼?對吧?第一件事是停止推送單次呼叫,對吧?單次效能我認為在構建東西時可能非常有趣,就像這裡一樣,你知道複雜的指令、長期計劃、巨大的技能。
我認為 Sabina 在後面的壓縮中談論薯條和更多薯條。但可重複的工作,這是我們所說的與所有這些本能相悖的地方,對吧?這不是你想要構建的方式。如果你想要自駕代理,對吧?因為你想做的第一件事是把事情分解成小的原子片段,在 Hankqu(這是我們使用的、用了很長時間、最近開源的執行時)中,那些小的小盒子被稱為「codons」,對吧?你把這些連結起來以獲得你想要的行為,並使它們可重用和可組合。如果你以這種方式分解它,就能更容易地推理長時間執行,這最終成為瓶頸。
你能夠推理出在第 20 小時或第 25 小時會發生什麼的能力,就像你,人類,最終成為你構建複雜軟體的瓶頸,對吧?下一件事是從上下文中刪除東西,對吧?我仍然對有多少框架、系統或者說框架沒有辦法從上下文中刪除東西感到驚訝,對吧?就像我們一直以來的預設行為是有邊界來刪除上下文和歸檔你不需要的東西,對吧?防止我們內部稱為「世界線腐爛」的東西——你知道,泰德·拉索說「做金魚」最終是件好事。下一個是隻需按型別分離元件。
就像作為一個行業,我們一直在重新學習這一點,對吧?當我還在大學時,我們有馮·諾依曼架構,程式碼和資料分離成了一件事。後來我們有了 PHP 和 CGI,又花了四年時間才學會必須分離模型、檢視和控制器。在代理方面,同樣的故事,對吧?你,如果你想構建可靠的系統,你要把這五樣東西儘可能分開,就像資料、提示、控制和其他的,對吧?在過去的一年裡,我們和很多人合作,我們接觸了大量資訊,我們閱讀了數百萬個 AI 生成結果的詞彙,就像我說的那樣,那是我們的超能力——我們讀輸出,我們為你讀輸出,我們讀從這些東西中出現的一切。十次中有九次,如果某樣東西壞了,那是因為在你和代理之間有錯誤的抽象共享,或者因為上下文中留下了不需要在那裡的東西。
所以進入我們更多的東西,對吧?就像我們通常基於「最好的部分是沒有部分」的原則來構建,對吧?所以簡單的工具按順序工作,就像我們談論的,你只在絕對必要的時候才新增東西。所以我希望當我說我們從未真正需要並行代理時,這不會讓你驚訝,對吧?對於我們在可靠性工作中做的工作,單個主代理執行緒對我們有太多無法放棄的好處,對吧?很多程式語言,Python、JavaScript,許多都會同意,我們馬上會看看我們這邊的一些好處。但對於我們版本的事件迴圈,那個小技巧就是我們稱之為「哨兵」的東西。所以我們最初設計這些東西來監控長時間的代理執行,但它們已經成為我們最強大的原語。
所以哨兵是從主迴圈的事件組合中觸發的大語言模型呼叫,對吧?它們觸發、模板化它們的上下文,然後將結果寫入檔案。一個哨兵可以每 50 個工具呼叫喚醒一次,總結髮生了什麼,然後回到睡眠,對吧?但事實證明,它們在捕捉行為方面很棒,而不會產生那麼多複雜性,使你必須排查評估系統。所以是懶惰、模擬、糟糕的資料衛生、檔案許可權、shell 錯誤。你在我們稱之為哨兵的可重用東西中定義你想要的模式,然後在主執行緒中修復它。對吧?遠遠比 hook 更多。這對我們合併行為來說好得多。所以我再做一個,只是再做一個,那就是預算。對吧?
我們這一方的長期系統只需要在所有重要的軸上保持成本意識。但如果你做了我到目前為止所說的一切,你可以建立一個宣告式預算系統,這真的是最好的一種,就像 SQL 一樣。你可以表達你有什麼,系統會弄清楚中間的差距。對吧?在像 AI 這樣快速發展的領域,模型、框架、實現細節一直在變化,宣告式實際上會贏,因為它可以防止你需要重寫東西。所以我們有所有不同的軸——金錢、令牌、時間、資料訪問——甚至在正確的時間。你在構建時表達這些應該如何分配。在執行時,你實際上知道你有什麼資源。所以你可以解決這兩件事,對吧?最後,如果你做所有這些事情,你可以交付成果而不是構建工具,對吧?
我這樣對一屋子人說,包括我自己,他們都非常關心工藝,關心工具,對吧?但大多數人不關心他們的洗碗機是如何工作的。他們不關心他們的汽車如何注油。他們想要乾淨的盤子。他們想要到達他們要去的地方。就像,所以我們的北極星一直是部署能夠交付成果的系統,對吧?這可能是儘快讓客戶加入、驗證研究假設、縮短整合時間,對吧?或者只是在不將我們稱之為 Achilles 的東西嵌入到你的資料中的情況下做所有這一切。為此,代理需要成為基礎設施。它們需要變得平凡、可重複、可預測。所以那真的就是我們的目標,對吧?構建能夠成為遺產的東西。只有在程式碼中,遺產才真的是一個壞詞。
在某些方面,你試圖把那個帶回來。有很多東西無法放入演講,但你可以在這裡找到長版本。謝謝大家。哇!啊,Hershi,非常感謝。那是一個很棒的演講。你知道,我在舞臺後與 Hishi 談了話,我已經做好了準備。哇,多麼不可思議的演講。再為 Hishi 熱烈鼓掌,各位。天哪。太棒了。我們的下一個演講是另一個令人興奮的演講。我去舞臺後問他,我說,「嘿,你的演講是關於什麼的?」他說了三個詞。他真的只說了三個詞,沒有更多了。沒有更多的話被說出來,Henry。嗯,這些詞是 MCP versus CLI。就是那個演講。我對你們中有多少人每天都在使用 MCP 感到非常興奮。幾乎每個人。哇。你用它做什麼?你,那邊戴眼鏡的那個人。
你用它做什麼?除錯生產環境。太棒了。那實際上是個很好的用例。我們,在我工作的地方,我們使用一個叫 Monday 的專案管理工具。有人在這裡使用 Monday 嗎?Monday monday.com。嗯,我不打算說什麼。無論如何,嗯,他們有一個像網頁 UI 這樣的 UI,但他們也有一個 MCP 伺服器,這太不可思議了,因為我可以在 Cursor 中工作,我首選的 IDE,不是 Spawn。嗯,我在裡面有 Monday MCP 伺服器,我可以說我要在代理中將這個會議新增到 Monday,它就這樣做了,太酷了。所以我是 Team MCP 的忠實粉絲。嗯,但當然 CLI 也有存在的理由。我是說,Claude Code 是一個 CLI 代理,一個具有 MCP 客戶端功能的編碼代理,對吧?那麼,這如何運作呢?好吧,我們很快就會看到。
Henry 現在在這裡設定,再過一分鐘,我們將聽到關於 MCP versus CLI 的演講,這甚至可能不是一個 versus。它可能是 MCP 和 CLI。嗯,你認為 CLI 有點過時了嗎?有人嗎?沒有。是的,當然不是。因為如果我們不使用它,代理會使用它。我認為它是一個非常棒的使用者介面。我慢慢沒有東西可說了。哦,好的。看那個。嘿,聽著。我們快到會議尾聲了。這將是一個偉大的演講。為 Henry >> Mau 給予最熱烈的掌聲。>> 不,>> 我們還有一點。>> 沒關係。哦,他是 你必須 你必須延伸。選擇延伸顯示。我現在是技術支援。我們 是嗎 準備好了嗎?沒有。快了。好的。不,看他們做的是他們在延伸,但他還沒有拖動視窗。這現在是評論,各位。
這就是我喜歡的。謝謝。哦,真遺憾。你知道,這就是...這就是...你知道你把這個叫什麼嗎?你把這個叫「可憐的掌聲」。謝謝。我需要這個。順便也往我的帽子裡放個硬幣吧。好的。這次延長了。他們拖長了。好吧,讓我們再試一次。掌聲最熱烈的是亨利·毛。>>感謝介紹。我叫亨利。呃,大家好。我是 Smithery 的聯合創始人。呃,今天我要講的是 MCP、CLI 生態系統,我們在 Smithery 這裡看到的東西,以及這如何與賦予你的代理更多自主權有關。所以,一點背景。呃,在我之前的創業公司 Jenny AAI,我們為學術研究人員開發了一個 AI 學術助手。當我看使用者使用我們產品時,真正困擾我的一件事是,他們經常開啟多個視窗。
呃,他們會使用不同的應用程式以及 track GBT,他們會在這些應用程式和他們選擇的 AI 之間花費大量時間複製貼上。這是一個影響每一個知識工作者的更廣泛問題。無論你是在終端之間跳轉,在你的編碼代理之間跳轉,還是在你的 CRM 和 Google Docs 之間跳轉,我們都陷入了一種複製貼上的地獄,因為人類本質上充當了 AI 的介面卡層。你在迴圈中提示模型進行對不同服務的每一次讀和寫訪問。提示確實是當模型無法訪問你的資料或代表你安全地採取行動時,你支付的稅。這個稅相當昂貴。所以大約一年前,我創辦了 Smittery 來解決這個問題。
MCP 剛進入舞臺,我把它看作是幫助彌合代理和服務之間差距的一種方式。所以我們啟動了 Smidy 作為一個開放的 MCP 登錄檔,我們追蹤了由數千名開發者組成的社群,他們在我們這裡釋出了他們的 MCP 伺服器。我們構建了一個閘道器,彙總了這些服務並統一了身份驗證,以便代理可以方便地訪問所有你的 API,分組為一個單一的工具箱。我們目前為我們的使用者每天處理約 100,000 個工具呼叫。但我們的旅程根本不順利。呃,老實說,呃 MCB 在推出後有很多炒作,但也有很多問題。該協議絕對是雄心勃勃的。它試圖在代理摸索如何很好地呼叫工具的同時建立一個標準,並且它必須在 2025 年初快速更改其規範。
MCP 客戶端和服務的實現很差,這導致了使用者的很多挫折。所以到 2025 年底,我認為許多人開始宣稱 MCP 基本上已經死了,就像它爆炸一樣快。事實上,至少有五個人在這次會議上,我認為在過去兩天內問過我同一個問題。MCB 死了嗎?我們要徹底解決這個問題,因為很多人提出的許多批評都是有道理的。人們對 MCP 有不好體驗的主要原因是,2025 年回溯的大多數裝置都採用了非常幼稚的方法來將工具新增到其中,新增到模型上下文中。他們只是將每一個工具都傾倒到上下文視窗中,就像右側的這個圖表一樣。
想象一下,你知道,想象你在用 Chrome 瀏覽網路,但 Chrome 想象一下如果 Chrome 根本不呈現 HTML。它只是把原始 HTML 和 CSS 傾倒給你,然後讓你想辦法點選什麼。這基本上就是我們對模型所做的。一個裝置將所有工具傾倒給模型,並期待它表現良好。它給了模型資訊過載,而不是呃呃而不是呈現一個可用的互動層。所以這浪費了很多令牌。它導致了上下文衰退,顯著降低了模型效能。更糟糕的是,許多在 2025 年構建的 MCB 伺服器實現不佳,基本上是它們官方 API 的削弱版本。其中許多沒有實現適當的身份驗證。
開發者基本上會在工具描述中手工製作這些提示詞,試圖對較弱的模型進行 prompt 注入。這些都是反模式,把特定任務的行為耦合到工具描述中,而這些行為原本應該屬於技能。所以缺乏良好的開發者體驗最終導致人們尋找替代方案。編碼代理在 bash 方面表現得很好。所以人們問的自然問題是,為什麼不直接使用 CLI 呢?CLI 有很多好處。首先,CLI 內建了漸進式披露。它有管道,所以你可以將不同的子命令組合在一起。並且它建立在成熟的 Unix 棧上。但我們在這裡犯了一個隱藏的範疇錯誤——我們在將 CLI 與 MCP 進行比較。MCP 代表模型上下文協議。所以它是一個協議,而不是一個介面。
把它與 CLI 進行比較有點像比較蘋果和橙子。這個圖表希望能更好地解釋這一點,因為協議的工作(如 REST 和 GraphQL)是定義如何通訊的標準,而不一定是定義如何將工具渲染給模型。缺少的是一個能夠很好地向代理渲染 MCP 的好工具,我們稱之為原生 MCP 渲染。好訊息是,到 2026 年初,Claude 和 Codeex 等主要工具已經構建了正確的方式來渲染 MCP。所以我們想在 Smittery 測試這一點。現代工具在使用原生 MCP 渲染器時的效能如何與 Bash 和 CLI 相比?所以這是我們所做的實驗設定。我們在三個核心 API(GitHub、Linear 和新加坡公交 API)上運行了基準測試。
我們選擇這些 API 是因為它們代表了不同的 API 風格以及訓練資料汙染問題。我們還選擇了這裡列出的三個不同的模型。我們改變的主要事項是我們提供給代理的介面。所以我們要麼在代理工具上將所有這些 API 作為 MCP 伺服器安裝,要麼為它們的 bash 介面提供 CLI。我們的目標是衡量準確性和代幣效率。所以,這是對觀眾的一個問題。請舉手。有多少人認為原生 MCP 的表現優於 CLI?好的,我們有一些人。有多少人認為 CLI 的表現優於 MCP?好的,有更多人。有多少人認為這無關緊要?就像說,這只是平手。好的,我們這裡也有一些人。
所以令我們驚訝的是,原生 MCP 在準確性和代幣效率兩方面都贏了,這真的打破了我們在過去一年所信奉的神話。這主要是因為模型工具已經更新自身並變得更高效。但我對這裡更感興趣的是:代理體驗設計的哪些原則真正重要?比如,我們可以做什麼來改進 CLI?或者,工具的哪些原則能讓 MCP 表現得如此之好?所以我們進行了一些消融實驗,通過改變我們 CLI 的構造來看是否能匹配原生 MCP 的效能。
所以我們進行了一個實驗,向 CLI 添加了更好的描述。我們也進行了一些實驗,向 CLI 添加了搜尋功能。我們發現這兩件事在我們嘗試的許多不同方法中最重要。首先是自我文件化。所以如果你為代理提供可發現的、描述良好的工具,效能會更好。第二件事是搜尋。如果你為代理提供在 CLI 中搜索子命令或在 MCP 中搜索工具的能力,效能會顯著提高,因為這減少了找到合適工具所需的步驟數。所以,如果你將這兩個原則應用於你的 CLI,基本上可以彌補與原生 MCP 的效能差距。完整的實驗細節在我們的部落格上。
所以,此時此刻,你可能在想,嗯,我其實不太關心 token 成本。我的公司會付錢。或者模型會變便宜。嗯,你知道,結果已經足夠接近了。我就用 CLI 吧。你說得也沒錯,對吧?如果你是在本地執行東西的工程師,你可能應該就用 CLI。順便說一下,我沒有得到 MCP 的贊助。嗯,我們在 Smitter 推出 CLI 產品後運行了這個基準測試。所以,我們兩個都能用。但我確實想給 MCP 應有的認可。首先,CLI 在你想要設定沙箱時是可以工作的。但有一個好的 harness,MCP 就能直接開箱即用。所以這些是你實際上想要運行雲代理的用例,um 這是無沙箱的。
你可能想這樣做的原因是,它對於與編碼無關的輕量級任務來說會更輕便,延遲更低。所以可移植性是 MCP 的一個優勢。另一個好處是 MCP 將上下文工程的責任放在了 harness 上。這意味著如果 cloud code 更新並改進了它的 harness 以及它如何解釋工具,你的工具也會得到改進。但 MSP 還有一個更微妙的好處,這在你想要向代理有更多自主權的世界發展時很重要,那就是許可權管理。因為我們發現的 CLI 的主要弱點是,它通常範圍太廣了,因為它是為開發者製作的,當你想在很少監督的情況下執行它時,它有一個巨大的攻擊面。CLI 給了你王國的鑰匙。
所以,無論何時你在後臺長時間執行一個 CLI 代理,你其實被困於兩個糟糕的選擇。你要麼申請批准,這實在是擴充套件不了,要麼像你們大多數人可能犯的那樣,你會危險地跳過許可權。MCB 在這裡的一個優勢是它定義了一個有明確立場的小表面。所以它使得,嗯,它使得你更容易保護它。這個瓶頸點允許我們對你的代理應用策略和護欄。例如,如果你正在使用 spitter 的閘道器,我們提供一個策略 DSL,這樣你可以對你的代理能做什麼或不能做什麼執行細粒度許可權。所以這個原語在我們將代理升級到完全自主時給你安心。那麼,回答問題,MCB 已經死了嗎?我不這麼認為。
但這也不是這次演講的重點。在我看來,MCP 和 CLI 都有各自的用途,而代理體驗、安全性和身份驗證背後的原則是會一直存在的。MCP 可能不再是時代精神的一部分。這很好,因為一個協議能發生的最好的事情就是它變得像 HTTP 一樣無聊。無聊到足以讓我們繼續解決更雄心勃勃的問題,並推向代理由成果驅動而非提示驅動的世界。代理可以完全從聊天機器人畢業成為同事。這就是我們如何從人在每個迴圈中轉變為人在迴圈上的方式。謝謝。如果你對連線你的代理感興趣,稍後來外面和我聊天。>> 是的。和 Henry 聊天。再來一輪掌聲,各位。Henry Mau,我們從人在迴圈中走向人在迴圈上。
說實話,我已經準備好了。聽著,聽著。我們的下一位演講者,我被告知,我只是今天才見到他,但我被告知他是,我逐字引用,新加坡所有工程師中最有天賦的。你聽到了嗎?他們 所以,聽著,我甚至,我甚至沒有資格介紹他。所以,我,我需要幫助。Ivan,Ivan,為 Ivan 鼓掌,各位。所以 Raj,我已經有幸認識 Raj 有一段時間了,他做的事情絕對是令人難以置信的。我們曾經有過一次駭客馬拉松。他進來說,「哦,我要構建一種方式讓代理可以協作。」然後我們,他完成了,我們說,「哦,你週末還在做什麼?」他說,「哦,有 Mistro 駭客馬拉松。你那時在做什麼?」他說,「哦,我已經構建了一個工具來幫助我為下一個駭客馬拉松構建我的提交。」
然後他贏得了 Gemini 駭客松。他幾乎贏了 Mistro 駭客松。然後他說,「哦,我一直聽說這個 Kim 2.5 thinking。它相當酷。」我說,「哦,那很好。」那麼他接下來做了什麼呢?他自己進行了後訓練,最終擊敗了它,並將其用作他的主要智慧體。Raj 絕對不可思議,老實說,我很期待聽到他的發現。>> 謝謝你,Ivan,感謝那個……嗯,是的,我是 Raj,今天我將討論我在建立進化型框架以及一般進化演算法方面的旅程。關於我是如何走到這一步的,我來簡單介紹一下。最初,這是我和我的朋友在做的一篇論文。我們在思考如何從頭開始建立擴散模型,我們特別是在建立一種醫學擴散模型,用於國際象棋活動。
當我們在做這個專案時,我們意識到一開始資料非常少。當我們瀏覽不同的論文時,我們偶然發現了一篇討論模型具有人類「趣味」概念的論文。這篇論文基本上使用了一個語言模型作為開放式強化學習課程的判斷者。這讓我接觸到了開放性和演算法的整個世界。我認為自然而然地出現的下一個問題是,如果我們聲稱智慧體可以是開放式的,並且它們永遠在產生新穎性,那麼在我們自己的生態系統、我們自己的生物學中,這看起來會是什麼樣呢?我認為太陽是這個問題的一個很好的答案。
基本上,來自太陽的能量粒子進入地球,然後被髮射回太空,以及更高熵的光子,基本上啟用這一切的梯度就是生命本身。生命是創造更多熵的東西,這是一種非常特殊的熵,花了三十億年甚至更長時間才能創造和產生。那麼問題就變成了,我們如何能將這個對映到類似的系統,比如智慧體本身。所以這就是我試圖做的,就像,如果太陽本身就是計算,DNA 使這些較小的細胞生物進化成像我們這樣的複雜生物,我們編寫程式碼,使用程式碼,可以思考,可以對事物做出反應並創造更多熵。這基本上就是這些智慧體的軌跡。
嗯,選擇偏差本身就是框架。基本上隨著模型的演進而演進。我之後讀的一篇非常有趣的論文基本上展示了一個智慧體隨著時間的推移逐漸改進自己。它叫 omni epic,其中你有不同的環境,智慧體最初在單一環境中非常專業化,隨著時間推進,它變得越來越通用。那個智慧體的通用性使它能夠執行展示湧現行為的任務,這是一個非常有趣的反饋迴圈,然後導致了同一個作者寫的另一篇論文的創作,其中程式碼本身是……當他們用程式碼替換它時變成了程式碼。
嗯,它實際上展示了效能的顯著改進,智慧體從在 Swenge 中僅 20% 的效能提升到基本上 50%。就在那時,我意識到,如果你能夠演進你放置這些智慧體的環境,並演進工具,嗯,這兩樣都是你可以利用的槓桿,最終可能會改進整體智慧體的效能。如果你看看一切的軌跡,我們有遠好於我們擁有的框架的模型,每個公司都在嘗試建立自定義框架。我不認為這是正確的做法。如果你能擁有自我演進的框架呢?已經有關於這個的論文,比如元框架、ROM,以及很多其他文獻。
下一步將是智慧體本身。如果你能夠將記憶體狀態儲存在其他地方並演進那個智慧體呢?接下來會是世界模型這樣的東西,不是物理世界模型,而是與類程式碼環境或各種可能差異很大的類程式碼環境互動的世界模型。我和一個從事相當有趣的世界模型論文的朋友談過的一個東西是,更有趣的會是看到這些世界模型中的智慧體的架構會是什麼樣子。它們可能是新穎的,不是手工製作的。
它可能不會使用我們使用的相同技術,但那是一個值得看的東西,我們如今也在看到這一點,最初模型增長的規模花了我們很長時間才能飽和 MMLU 和其他基準,但每隔幾周你就會看到一個新的 soda 模型出現,這不是因為我們有更多更好的或只是更好質量的資料,而是因為訓練迴圈變得更快,模型在一定程度上自己關閉了迴圈。嗯,我的觀點是,縮放法則在一定程度上仍然成立。只要人類比智慧體或框架本身更有趣,它們就會成立並繼續成立。這可能以不是手工製作的不同架構的形式出現。它們不一定非要是人工製造的。
這是我相信會繼續存在的東西。在我的旅程中到目前為止,我發現的是,當建立我製作的更大的元框架時,通常改進模型效能的是軌跡。它從來都不是權重。這類似於 DNA 保持不變,而我們表現其特徵的方式改變了。嗯,值得研究的工件是路徑和推理軌跡,以及為什麼模型做了某事,而不是最終狀態,是的,如果這有意義的話。嗯,我在構建程式碼圖時學到的另一件事是,迭代迴圈對此非常重要。最成功的生命形式是那些適應非常快的,那些死亡非常快的。如果你能更快地關閉那個迴圈,它就讓你做更多的事情。這可以有很多形式。
這方面的一個很好的例子是語言。你用什麼語言編寫程式碼?我認為對我來說,我現在的大部分工作圍繞或用 zig 或 rust 編寫,但我意識到,最終,當你想建立越來越好的工具時,嗯,具有較小編譯時間的語言實際上最終會建立更好的工具,你可以為這些工具建立更好的測試,即使那種語言不是記憶體安全的。我確實相信,最終也許在今年或明年,幾乎每個公司都會開始編寫某種自己的元智慧體語言,無論發生什麼,這些模型都會不斷變得更好,它們不一定非要是人類可讀的。所以這些只是我為自己構建的一些工具,我一直在內部使用,比如 muanry,它只是一個更快的 rip grab,使我的智慧體能夠獲得更多上下文。
嗯,檢索程式碼的確切行。Code DB,這也完全開源。這是對我自己的框架的三角搜尋,智慧體獲得他們需要更改的程式碼的確切行,這樣他們就不會有上下文腐爛。嗯,nanobrew 隨後被建立是因為一旦你開始在沙箱中放置這些智慧體,你就會意識到一種獲得嗯編碼環境設定的方式,你可以快照它。另一件事是你可以繼續拉取像 abt get 這樣的東西,獲取你需要的包和依賴。但我想,如果你也讓這個更快呢,這樣你就可以解析那個環境,這就是 nanobrew 如何誕生的,它比 appget 和 homebrew 本身要快得多。
正是這樣,我意識到我還需要為我的智慧體建立另一個並行工具,以便它更好地瀏覽網路。它類似於智慧體瀏覽器,但同時使用 A1Y 這樣的擴充套件(CDP 或 Chrome 向人們公開的)來減少令牌使用,這實際上提高了智慧體大規模瀏覽網路的能力。最後,回到整個進化迴圈——Dev Swarm 就是這樣產生的。在 Dev Swarm 中,編排的本質上是一組可以改變形狀的工具或模型。
所以你可能有幾個 Opus 上下文視窗加上幾個 ChatGPT 視窗,配合整個多智慧體框架,而真相來源則是更嚴格的東西,比如 terminal bench 或 legacy bench。隨著越來越多人開始使用這個,我獲得了更多關於什麼有效、什麼無效的遙測資料。快速補充一下,所有這些都融入了某種適應度函式,在編碼智慧體中,harness 每次都會重寫。最後,harness 就是程式碼圖(CodeGraph),它曾在 terminal bench 上執行,但現在不再了,它本質上是根據這樣一個事實建立的——它是一個自進化的 harness,隨著時間推移,不同模型使用越來越多,它也變得越來越好,並建立了自己的工具。所有這些工作也都是開源的。
這些軌跡也是開源的,但我還沒有大規模釋出,不過你肯定可以檢視,因為它仍在進行中。所以是的,我最終構建的是一個 harness,但隨之而來的工具也形成了一種進化迴圈,所有這五項本質上都讓這個 harness 變得更好。有了這些,我想感謝大家今年來參加 AIE。我覺得今年將是為數不多的幾年之一,你會不斷看到「苦澀的教訓」。苦澀教訓。是的。謝謝你。天哪,我覺得我應該就在這裡鞠躬。哦我的天,多麼精彩的演講。謝謝。再給這位仁兄一輪掌聲。我的思想被震撼了。我的思想徹底被震撼了。你能來設定一下嗎?我想先總結一下,好嗎?
我們在舞臺上碰撞了。你知道我的意思嗎?哦我的天,那太瘋狂了。什麼演講。什麼……我覺得這邊的人瘋狂地歡呼。我不知道。你們都睡著了嗎。但是,就是這樣。你叫什麼名字?Daryl。Daryl。哦對,我看到你了。是的,燈光。嗯,聽著,我確實在找他分享的那些開源專案之一。沒有它我就卡住了。他拯救了我的整個想法。這太瘋狂了。而且他這麼年輕卻建了這個東西。我真的……我們能再進行一次冥想課程嗎,這樣我可以思考一下那個?你知道我的意思嗎?我的天,Raj,太不可思議了。嗯,我們已經到了會議的末尾。哦,w 在這裡。是的。很遺憾。很遺憾。嗯,但我們必須對那裡表示尊重。沒人死亡。
我們必須必須對……a grim 的最後演講致以一些關注和敬意。看他,他贏得了新加坡最多的駭客馬拉松。有人告訴我,他是在這個生態系統中成長起來的人,他通過會議、團隊和志願者做出了自己的貢獻,真正把這件事付諸實踐,並使人工智慧在新加坡繼續獲得關注和遠景。所以,會議背後的大腦,會議背後的心臟,我整天和他一起走來走去,很清楚地看到每個人都認識他,每個人都喜歡他。讓我們向他展示我們對他的瞭解和喜愛。為 a grim sank 致以熱烈的掌聲。測試。大家好。嗯,這是今天的最後一個演講,所以我們會保持新鮮。
嗯,這是關於如何在三個月內組織一個會議的。這個故事要追溯到 2025 年 7 月 16 日。嗯,Rachel、Sherry 和我在吃午飯,我覺得我們對新加坡圍繞人工智慧事件的事務狀況有普遍的不滿。很多談話,沒有真正對建造者友好的時刻發生。那時我們還沒有真正開始做任何活動,但我們感覺無論我們最終做什麼,都會導致我們舉辦一場會議。那時我發了一條訊息說,我認為我們會以一種「自由泛」的方式來運營城裡最大的會議。我不認為它會發生,但看這個週末,它似乎成功了,對吧?但顯然你不能「自由泛」這個,對吧?
嗯,想想看,我們可以把一千人塞進一個禮堂,給他們所有我們能找到的人工智慧東西。但你得測試一下觀眾。是因為生態系統沒有反應,還是說,你知道,生態系統反應非常積極,但活動沒有為他們服務。所以我們嘗試做了幾件事。傳送那條訊息一週後,我們為 Cursor 舉辦了一個見面會。那時我們想,好吧,也許這是第一批規模這麼大、涉及人工智慧工具的開發者見面會之一。也許會有 100 人出現,也許會有 200 人。我認為我們最終得到了 900 個註冊。我們最終讓 500 人進了門。那時對我來說相當瘋狂。
快進幾個月,我們想,好吧,讓我們做一個駭客馬拉松,因為駭客馬拉松在我剛入行時曾經很受歡迎。我們想,好吧,讓我們做一個 24 小時駭客馬拉松。看看有多少人會報名。也許人們會來,也許他們不會來。1,200 人報名了。我們讓大約 500 人參加。嗯,人們從遠至荷蘭,從整個地區飛來了。這給了我們很大的信心,也許問題不在於活動本身,而是人們確實需要一個聚集的空間。所以 90 天前,我們見到了 Swix,我們告訴 Swix,「我們要運營 AIE Singapore。」我想他那時想笑我們,因為他說,「你們是認真的嗎?我幫不了你們那麼多。我還有其他 AIS 要運營。你們以前舉辦過會議嗎?人們會付錢嗎?」
你們打算怎樣做這一切?」我們的回應通常是,「是的,我想我們會想辦法的。」這一直是整個活動背後的座右銘。所以如果周圍有任何粗糙的地方,我為此道歉,但我們確實盡力了。這就是它的進展方式。所有這一切都圍繞著高意圖。我們的意圖是讓這成為我們能做到的最對建造者友好的活動。我們想確保房間裡的人想來這裡。票價不便宜,我理解,但我們想確保真正想來這裡的人在這裡。我們想確保想來這裡的演講者在這裡。所以我們把他們飛來了。
我們想確保想來這裡的贊助商在這裡,他們很樂意贊助這次會議並參與其中。所以一切都以這樣的方式匯聚,所有真正想在今天或整個週末待在這個房間裡的人都在這裡。我們沒有發放免費票。有很多人在等待可能發生的事情。他們可能會找到免費票,就像在其他會議上一樣。這裡不是這樣。所以你們都在這個房間裡,因為你們付了錢,你們真的很想來這裡。所以對你們大家致以熱烈的掌聲,你們一直在出現,房間整天都滿滿的,現在是下午 6 點,你們還在這裡。
顯然,談話的質量、正在發生的事情都運作得很好,你們想整天每天都在這裡。呃,演講常常人滿。每位演講者都告訴我他們在舞臺上度過了美好的時光,因為觀眾對他們想分享的一切都反應熱烈,而我們之前並不完全確定新加坡觀眾是否會和舊金山或倫敦的觀眾一樣。看到每一天都有滿滿的會場真的非常振奮人心。但問題是,你不能只是從海外複製一個會議,然後貼上到新加坡,對吧?對我們來說,很容易就能說「讓我們直接複製 AIE 福利,然後貼上到新加坡」。但新加坡是一個不同的觀眾。新加坡有不同型別的人。
新加坡對會議有不同的期望。如果這是一個研究密集型會議,也許我們會失去你們中的一半。如果這個會議太簡單,也許它不會讓你感到你從一個人工智慧工程師會議中獲得了你所期望的嚴謹性。所以找到那個平衡點是一個非常獨特的新加坡事情。此外,你必須讓這個會議成為你自己的,因為如果你不打算完全複製什麼,你對程式設計面貌的貢獻是什麼?Sherry 製作了我認為大約 21 個版本的演講者名單。你如何將演講者分類?你如何確保當你聽關於 openclaw 相關的演講時,你同時聽到幾個?因為這樣你就可以看到幾個演講者的觀點,然後自己做出判斷。
也許你今天早些時候聽到了 magic path 和 magic pattern 接連出現。名字相似,領域相似,但他們對產品的思考方式截然不同。這讓你可以形成關於事物如何運作的自己的看法。但另外,我們想為 AIE 活動增添我們自己的風味。這裡的每個人都有工作坊的門票。這通常不是其他 AIES 的預設配置,但我們認為如果你要首次在新加坡舉辦一個「以構建者為先」的活動,你需要有人去構建。像這不是一個思想領導力活動。這不是關於人工智慧未來的爐邊談話小組討論。這是一個構建者活動。如果你在這些日子中至少沒有構建一個,那麼我們就失去了所有這一切的目的。所以工作坊是其中的一部分。
我們增加了一些減壓課程,因為我們覺得人工智慧焦慮、token 焦慮是這些天的一個既定事實,考慮到事物變化如此之快,人們需要一種方式來理解他們與人工智慧的關係,並在每天 30 多個演講中找到一種減壓的方式。這部分很重要。顯然,按照真正的新加坡風格,我們想確保你們玩得開心。所以我們昨晚舉辦了一個大型派對,Jeff Huntley 和我最後在一個領銜 DJ 出現之前擔任了 DJ。但這又是我們認為如果你要在新加坡舉辦活動,我們必須按照我們喜歡在這裡做事的方式來做的事情。但顯然,儘管演講很精彩,程式設計很精彩。
運營像這樣的活動的全部意義是發生的走廊碰撞,你在展覽中遇見的人,你能夠交談的人,你擁有來自大多數贊助商的主要團隊親自在場。你擁有你可以在任何時間點與之相遇的演講者。無論你是在喝咖啡,是否在吃午飯,呃是否你想見他們因為他們坐在你身邊參加演講。提供演講者的訪問許可權,提供團隊的訪問許可權是在新加坡非常罕見的事情。如果你去任何會議,無論是人工智慧還是其他事情,你主要會看到一個營銷人員坐在那裡告訴你關於品牌,交換名片,就這樣。當你試圖與公司相遇時,這不完全是體驗。其中一些從未在新加坡。
其中一些從未參加過任何這些會議。所以在劇院外創造那些時刻對我們來說真的很重要。我相信你們很多人都有機會走過展覽區,與團隊見面。其中一些人飛行了 17 小時以上才來到這裡。其中一些人以前從未到過新加坡。所以為我們創造那種體驗真的非常、非常重要。我們希望像 AI 一樣讓你在週末獲得那種體驗。但這裡的重要事情不僅僅是房間裡已經有的人。而是我們如何定位下一代也從中受益。如我所提到的,票價很貴。
但我們不應該因為經濟困難而向在場景中即將到來的孩子,在大學在學校中封閉這種水平的會議的機會,因為他們將是構建者。所以我們提供了獎學金。外面有一些關於這個的資訊,但基本上我們有一個贊助商是一個我們聽說過的大組織,在我們應該宣佈獎學金之前兩天撤出了。這對我們來說相當令人心碎,因為我們想讓孩子們參與。所以 Rachel、Sherry 和我決定我們會自己掏腰包來做這件事。但很多場景中的構建者以自己的個人身份決定參與,我們能夠帶來 20 名學生。
20 名與演講者見面、與他們一起閒逛、向他們學習的學生,也許有他們在任何其他情況下都不會有的終身機會。我們有一些學生在舞臺邊。我們很樂意讓他們上舞臺。所以,你們能讓他們上來嗎?我們通過我們組織的所有駭客馬拉松、我們做過的所有活動找到了這些學生。這些傢伙在我們做的每一個活動中都出現。顯然,我們所有的活動按設計都是免費的,因為我們想讓他們進入房間。但這是我們能提供的機會的頂端。這些顯然是我們贊助的 20 人中的四個。你們可能在周圍看到過他們。
他們一直在 Twitter 上做所有的總結,釋出關於它的內容,寫下他們的經歷,與所有飛來的人見面,這是我們至少能做的令人難以置信的事情,以確保孩子們享受這個。所以再次感謝你們,夥計們。我確實想為做出貢獻的人吶喊。我 Patrick Kelly 來自 Arise。Arise 實際上是這個會議的贊助商,但 Patrick 決定額外掏自己的錢來支援孩子們。Neil Chang、Ivan、Leo、Casper、Suken 來自 Iterative、Zayn、我自己、Sher、Rachel、許多決定贊助 20 名學生的匿名構建者。所以,再次,為每個人熱烈鼓掌。所以,我們聽過很多次,特別是在新加坡。這裡沒有場景。什麼都沒有發生。我認為我需要飛到舊金山去參加一個會議。
但我認為在週末結束時,我想讓每個人都感到你們就是這個場景。你們定期出現。每一個演講,每一個工作坊,在展覽周圍,就像昨天 8:30,今天上午 9:00,穿過雨,穿過任何可能阻止你們的條件。你們出現在我們為此鋪設的所有副活動中。每個活動都被超額認購。每個活動都有數百人出現。即使你不認識這些公司,即使你不認識誰會去,只是因為你知道有更大的事情正在進行,你可以成為其中的一部分。我想那是你們會記得的東西,因為這超越了僅僅新加坡人工智慧。這將在未來幾年建立這個國家的人工智慧構建者場景。
這就是為什麼這不是一個孤立的時刻。我希望你們繼續出現。我希望你們繼續構建。我希望你們在週末結過朋友,你們會保持聯絡。我希望你們去駭客馬拉松進行構建,也許一起開始一些東西。我希望你們釋出關於它的內容。我希望你們不要尋求許可來分享你正在做的工作,因為這是人們如何瞭解新加坡是一個正在發生行動的城市,不僅僅是舊金山是發生事情的地方。不僅僅是倫敦是事情發生的地方,而是新加坡,不僅僅在亞洲,而是在世界上,是一個值得關注的城市。
在這一點上,我真的想感謝所有來到的演講者、贊助商、我們的主要贊助商、鑽石贊助商和白金贊助商、OpenAI、ZAI、Google Deep Mind、Cursor、Arise、沒有睡眠的志願者、讓它保持在一起的團隊、你們中成千上萬的人。我想將組織團隊和志願者都叫到舞臺上,因為這些傢伙一直是整個週末運營無縫執行的骨幹。這些傢伙確保你們吃得了飯。這些傢伙確保你們的徽章和訪問許可權都得到解決。這些傢伙確保你沒有看到正在滑過裂縫的東西,只是這樣你們就可以有最好的會議體驗。我們還沒完。稍等。>> 所以顯然就像在真正的漫威電影風格中一樣,你知道,AI 工程師會迴歸。
呃我們有一個針對感興趣的人的簽名表。呃我們會發送一些早期門票和類似的資訊,因為我想我們會想出來。但我們確實想確保我們已經記錄了你的意圖,所以如果且當我們在不久的將來宣佈時,你們是第一個知道的,因為你們對我們冒了風險。對於你從未聽說過的人,對於一個從未在世界這個地方舉辦過會議的會議,冒著風險並定期出現在數字上是我們無法理所當然的事情。我們真的、真的、真的感謝你對我們的冒險。所以再次非常感謝。>> 我們能在這裡播放一些音樂嗎?>> 是的,我們再拍一張照片。我們再拍一張照片。>> 沒有音樂。>> Swig 在哪裡?Swix,上來。>> Swix,上來。
>> Swix 是全球 AI 工程師背後的人。如果你昨天聽到過,他也是新加坡人,他讓我們這樣做就是為什麼這正在發生。所以感謝 Swix。Swix 請晚安。只會是你和我。>> 只會是你和我。>> 好的。3 2 1 我們能跳舞嗎?我們怎樣拍照?嘿,嘿,嘿。嘿,感受我。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。
關聯影片
AI Engineer Singapore Day 1:部長開幕 + OpenAI / Google / Vercel / Cursor 主題
2026-05-16 · AI Engineer Singapore · 08:00:00
AI Engineer Singapore Day 1 全程:部長開幕、NanoClaw 演示,以及 OpenAI、Google、Vercel、Cursor 等頭部團隊的工程實戰分享。新加坡首屆 AI Engineer 峰會,定位「工程師 × AI」實操層。
HSC Pipeline Engineering: 用 RAG AI 構建工程知識庫
2026-03-20 · HSC Pipeline Engineering · 05:00
HSC Pipeline 通過 AISG LADP 計劃開發本地部署的 RAG AI 知識庫,打破工程知識孤島,提升決策效率。
王乙康談 AI、基因篩查與超老齡化新加坡的準備
2026-03-04 · Ong Ye Kung · 30:36
衛生部長王乙康深入探討 AI 在醫療保健中的應用以及新加坡應對超老齡社會的策略。
YTL PowerSeraya: LLM 賦能電力市場規則分析
2026-02-20 · YTL PowerSeraya · 05:00
新加坡電力公司 YTL PowerSeraya 通過 LADP 構建電力市場規則專用 LLM,實現報告自動分析與規則查詢。
Skybots: 從 RPA 到 LLM 驅動的智慧客服
2026-01-15 · Skybots · 05:00
會計科技公司 Skybots 通過 LADP 將 RPA 升級為 LLM 驅動的智慧客服,處理複雜會計工作流查詢。
楊莉明談 AI 在中小企業、教育和社會中的角色
2025-11-19 · Josephine Teo · 06:17
楊莉明探討 AI 如何賦能中小企業轉型、重塑教育體系並惠及社會各階層。