AI 產業與應用 · 2026-05-16 · 08:00:00

AI Engineer Singapore Day 1:部長開幕 + OpenAI / Google / Vercel / Cursor 主題

演講者
AI Engineer Singapore
AI Engineer 首屆亞洲峰會(65Labs 主辦)
型別
行業領袖

核心觀點

AI Engineer Singapore Day 1 全程:部長開幕、NanoClaw 演示,以及 OpenAI、Google、Vercel、Cursor 等頭部團隊的工程實戰分享。新加坡首屆 AI Engineer 峰會,定位「工程師 × AI」實操層。

可讀字幕整理

字幕語言: zh-Hant · 抓取日期: 2026-05-21

週六上午8點40分加入AI Engineer Singapore第二天的會議。呃,作為介紹,我是Sherry,我是65 Labs的成員之一。呃,我們是新加坡這裡最大的草根建設者集體之一。呃,其實這周最近有一篇關於我們的文章發表了。嗯,這只是我們幾個人在業餘時間做的事情。呃,我們都有全職工作,但你知道,這是我們都非常非常熱情想為新加坡帶來的東西。所以這個會議真的是我們對生態系統的一封情書。現在,沿著我們執行的所有這些駭客松和構建之夜,發生了一些魔幻的事情。呃,在這裡今天正在構建你每天使用的模型的一些前沿AI團隊,開始為我們的社群出現。

嗯,他們為我們的駭客松提供了學分。呃,甚至在Zoom上遲到仍然為人們舉辦工作坊,你知道我們真的有各種各樣的人呃被支援,從13歲的年輕人到60多歲的人,他們也都只是在學習所有這些。嗯,這真的只是一個很好的時間來聚集在一起成為建設者。但我們得到的不僅僅是幾個學分。呃,我們開始實際與其中一些團隊建立關係呃,那就是我們今天在這個房間裡看到的魔法。現在,你可能認為這是在新加坡第一次發生所有這一切,但在我們今天在Capitol Theater這裡聚集之前,它真的已經在表面下發生了很長一段時間。

嗯,所以當我們的一些演講者實際告訴我們他們整個從舊金山到新加坡的飛機實際上只是充滿了為AIE來的人時,就不足為奇了。那麼,這個會議實際上是怎樣發生的呢?嗯,所以呃我們實際上遇見了Swix,呃他是CEO和AIE Globally的共同創始人。嗯我們實際上在紐約市見了他,呃我不知道你們是否知道,但他實際上原本就是來自新加坡的。所以這一切都說得通了。嗯我們一直在遠端與很多這些團隊合作,我們只是想第一次在新加坡親自把他們都聚集在一起。所以要聽更多關於AIE的故事,呃,Swix將,呃,討論認知,但也要結束第一天來聽,呃,分享更多關於AIE的故事。好的。嗯,現在,舉手。

我有點好奇昨天有誰參加了工作坊。哇。好的。那大約是98%的人群。嗯,很高興看到這一點,因為那是一個筆記型電腦開放日,這正是我們想對這個會議做不同的地方——我們不僅僅是在談論東西,而是你知道,我們在構建和呃以某種方式應用。所以我們想確保你知道所有這一切都是為了實用知識而設計的,對吧,呃昨天呃只是讓你知道我們實際上有20個工作坊在執行,五個房間同時進行,以及一個完整的領導力軌道。所以,呃,我們真的想把程式設計放在這裡一切的絕對中心。嗯,所以我們都在相互學習和建設。

而且因為我們想創造這個學習的地方,嗯,我們也想給下一代獲得這個經驗的機會。所以,呃,我們實際上能夠作為一個社群聚集在一起支援20名學生,他們今天實際上是會議的學者。所以,呃,你們能站起來揮手嗎?所以,這些票中的每一張實際上都是由我們社群的建設者部分或全額贊助的,他們相信這就是新加坡AI未來的樣子。那麼,我們在接下來的兩天可以期待什麼?

呃,我們不只是你知道把一堆談話串在一起,你知道為了讓你們在這裡呃午餐和類似的東西,但我們想為你們帶來那種你不能只是谷歌或在Corsera中找到的對話,但實際上是在這些對話中進行,這些對話正在與實際上用這些工具構建的人一起進行,無論是在Twitter或研究論文等所以我們想帶來這些對話,所以你也可以在中間,我們知道發生了很多事呃在接下來的兩天內有超過60場演講,跨越三個主題,你可能需要一些幫助來導航和解決問題。所以,呃,我們實際上有一份指南,我們發出了一封電子郵件,其中有一個地圖,我們實際上也編碼了一份完整的計劃列表。

呃不僅如此,我們建立了一個你可以使用的API,它是公開可用的。所以,你可以實際上在程式頂部構建自己的工具,因為我們不僅僅想建立一個你下載和使用的一體式應用程式。我們想創造一些你可以為自己構建的東西,因為這就是我們所做的精神。所以,AIE今天和明天將分散在不同的空間中。呃,這個劇院,這裡在Capitol Theater將是所有演講都發生的地方。而一旦你獲得了靈感,比如你知道什麼,我真的想去和這個團隊談話。那太有趣了。我們有兩個博覽會區域設定。呃一個將在街道對面的Pullman,另一個是Kinsky的Attelier。

而且這些再次不僅僅是人們設定的攤位呃僅僅因為但我們實際上使這成為一個精心策劃的空間,你可以實際上與正在構建你正在使用的工具的非常人進行面對面的對話。然後最後,我們也想確保我們給你空間呃你知道放鬆和接觸草皮也因為這是漫長的兩天。所以,呃,我們很高興分享我們將有一個15分鐘的休息會議,其中有一個稱為洞穴的體驗空間,這是一個重新沉浸式聲音反應放鬆房間,實際上是呃,完全由創作者編碼的。你也會發現很多人穿著紅襯衫四處奔跑。

呃,這些是我們了不起的志願者,他們將幫助你導航空間,並確保你從今天這裡發生的每一次對話中獲得最大收益。而且我們不會在沒有我們不可思議的贊助商的情況下在這個房間裡。所以,呃,我們的鑽石贊助商是OpenAI和ZAI。我們的鉑金贊助商是Google Deep Mind、Arise和Cursor。感謝呃感謝Capitol Theater為我們提供這個美麗的空間。現在新加坡的故事一直始於建設者。呃,這就是為什麼幾周前呃,當我們自己的外交部長Vivian Bala Krishnan博士呃在Twitter上的帖子中為構建自己的第二大腦而病毒式傳播時,這真的讓我們吃驚。呃,這是有道理的,因為他的角色要求駕馭大量資訊和快速上下文切換。

所以他對構建這種工作流程和工具的反思真的強調了關於AI的有意義的對話應該涉及理解工具本身,而不僅僅是思考你知道的這個抽象。呃,隨著這一點,呃,我絕對榮幸地介紹我們的主題演講人和建設者本人,新加坡外交部長Vivian Balakrishnan博士。>>使用這個。>>早上好,各位。你知道,我們在新加坡可以更隨意一點。所以,早上好。我知道下雨了,但新加坡通常是晴朗的。呃,我覺得自己像個騙子。呃,對於那些不認識我的人,我實際上是一位退休的眼科醫生。繞道進入政治可能太久了。呃,但我一直保持對完成事情、構建事情、修復事情的興趣。

而且由於我不再進行眼睛手術,呃我組裝手錶,我重新程式設計電器,現在有一些其他的東西,這就是我今天要談論的。但實際上,我想讓你解釋為什麼我做了,這意味著什麼。而且我認為對於這個觀眾,你會直接得到它。但讓我跳到最後。呃,要說這些是三個關鍵資訊,你可以忘記我說的一切,但只要記住這些事情。我們現在處於一個時代,當你可以外包很多東西計算計算記憶體複製知識的傳播。你不能外包的一件事是你的個人理解。而且如果你處於權力的位置,你可以委託工作。你不能委託責任。

所以記住個人元素在理解和問責中。下一點,我將參考由劍橋大學教授Neil Lawrence發表在《金融時報》上的一封很好的簡訊。她是機器學習的教授。而且你知道,關於AI模型、資料中心、自上而下的系統、規則、政府,有很多炒作。那是宏觀的。但他的假設是,對經濟和社會的真正價值是在基層工作流程、部門、部門逐個部門地建立的,實際上在個人層面。

這意味著什麼,它看起來,我知道你們很偉大,我知道在前沿模型上工作的人是不可思議的,但真正的回報是當普通人、教師、律師、技術人員、經理、醫生、律師甚至部長實際上在使用已經可用、已經發明的工具時。瞭解他們的工作並被這些工具賦予權力的人。這就是你如何為社會和經濟創造真正價值的方式。所以我在看分權、個人化、定製模型。我在談論讓自己更好地做你的日常工作,甚至更好地重新設計你生活的工作流程。這就是真正的價值提升所在。第三個要點,這就是為什麼我做這個演講,我真誠地相信實現所有這一切的障礙已經崩潰了。

這些工具已經被提供了。這是讓人們理解有哪些工具、組裝他們自己的工具的問題,並把自己放在一個完全不同的軌跡上。好的。所以現在讓我們做有趣的部分,我的冒險是如何開始的。現在我的個人代理差不多三個月前活了。呃,是的,我被OpenAI的炒作困擾了,呃,但考慮到我的工作,我立即知道這不實際,因為安全是一個問題。然後別人指向了nanoclaw,我認為我們將在之後聽到Gabriel,你知道,作為一個極客和修補匠,我喜歡我能掌握的東西。

事實上,nanoclaw有一個非常短的程式碼庫,即使是像我這樣的白痴也可以閱讀和理解,事實上它是容器化的,作為一名外科醫生,我知道沒有這樣的事情作為常規手術,事情會出錯,事情會破裂,當他們破裂時,希望你希望他們在屏障內破裂。所以容器化部分,可理解性部分對我來說至關重要。無論如何,簡單地去GitHub,下載東西。它的另一個吸引人的部分是沒有配置。實際上沒有,因為你依賴LLM做所有定製的定製。實際上,你意識到執行nanoclaw例項的每個人都在執行一個個性化的系統。現在,這既有好處,也有其問題。但無論如何,讓我告訴你我用它做了什麼,對吧?

所以,Nano Claw提供了平臺。它允許我通過WhatsApp與我的代理交流。那部分不是火箭科學。讓我回到一張幻燈片,我真正追求的東西是我如何能將它用於我的日常生活。讓我給你一個我日常生活的想法。這個月我訪問12個國家。我有我因此將不得不與數百人會面。我將必須瞭解國家的經濟、地理、文化、歷史。戰爭與和平。我需要了解人們作為個人,而不僅僅是來自簡報的東西,每個外交官都有巨大的認知超負荷。問題是我如何渦輪增壓這個過程,以便如果我需要一個事實或一個花絮,我可以得到它,我可以在任何地方得到它,如果需要的話,我可以下降兔子洞。所以這與這整個超負荷有關。

LLM對分析、抽象、表達很有用,當然對起草簡報、起草演講、制定問題的答案非常有用,包括我必須補充的議會問題。三個月前,包括整個議會辯論。呃,看到生成的問題和答案留下了深刻的印象,呃,對我議會中的所有同事表示尊重,呃,一些AI生成的辯論呃更尖刻,我應該說。但無論如何,它通過WhatsApp與我交流。所以有這個叫Bailey的軟體。我懷疑它可能呃完全不符合Meta或WhatsApp想要我們做的,因為它實際上是在模擬你知道,我們如何在瀏覽器或筆記型電腦上使用WhatsApp的方式。

所以這是一個偽終端。然後是我認為對我這樣的人來說真正的前沿的部分是記憶,幸運的是我碰到了這個叫做Neman的模糊軟體。我仍然沒有遇到開發人員,所以我真的不知道,但是一個有圖形的記憶系統。所以它有實體。邊緣是實體、因果關係、時間關係和語義。而且因為我不想只侷限於關鍵字搜尋。事實上我可以在本地執行Olama和一個嵌入模型意味著我也有內建的語義搜尋。所以有了這些元素,我的意思是,Whisper是簡單的部分,因為用WhatsApp,我不僅想打字。我想能夠說話,他可以和我說話。當然,我的夢想呃有一天只是讓我的代理在議會中回答追加問題。

我不確定其合法性,但如果發生,你會知道我首先與你分享了這個想法。但關鍵是我現在能夠策劃材料、演講、抄本,特別是我自己的貢獻,把它放入系統、消化、提取、放入那個記憶資料庫。然後大約在同一時間,Andre Kapati提出了他的LLM監督wiki生成。所以我也加入了那個。然後對於使用者體驗,使用者介面,我使用了Obsidian,部分原因是Obsidian允許我使用Apple iCloud,因此立即意味著我有一個個人云,所有從這個個人策劃的資料庫提取的wiki對我可用,因為記住我開始說的關鍵是個人理解。

所以我有一個記憶系統,我有一個通訊系統,我有一個分析系統,但一切看起來都很好。但我在這裡與你分享的是,在過去三個月中,我發現它在見面、旅行、演講的初稿、演講的初稿中非常有用。

甚至今天的演講呃甚至幻燈片實際上是由claude生成的你知道它加快了完成事情的速度,作為一個從業者,所以不是作為工程師,而是作為一個有日常工作的從業者,它很有用,我可以證明它的有用性,因為我可以誠實地告訴你,我還沒有敢關閉它,Nano Claw不幸地已經從第一版升級到第二版,當第二版上線時,因為他們的轉換根本不順利,我留下了第一版工作,我在另一臺計算機上放置了第二版,我也應該補充所有這些東西,其中我每天最常使用的代理在執行一個樹莓派上,至少兩到三年前。它只有8 GB的RAM。你看到我關於可訪問性、個性化、相關性、使用的觀點。讓我們繼續下一張幻燈片。

這是我的觀點。障礙已經崩潰,因為我做了這個。我做這個沒有寫Claude、Bailey、Neman、Whisper或憑證系統。你知道,有這整個關於vibe coding的事情。我甚至不敢聲稱我在vibe coding。我只是在組裝工具。你它只是工具組裝,所以我我實際上應該改變那條線,我沒有寫任何膠水,我可以誠實地說,是的,我已經檢查了程式碼,你知道nanoclaw堅持你每次給代理bash訪問時都批准,所以我確實掃描過,它確實有幫助,如果你不瞭解編碼,你很有幫助,所以你理解發生了什麼,即使你沒有實際上輸入和編輯程式碼。接下來,從某種意義上講,我對所有這一切的方法一直是通過做來學習。

僅僅坐下來閱讀、瀏覽新聞、完成總結是不夠的。如果你對任何事物感興趣,就應該身體力行。學習的最佳方式就是實踐。由於進入的壁壘已經大幅降低,每個人都應該開啟自己的個人實驗。你知道Claude提出了這樣一句話,我當時有點懷疑。你知道以前誰說過這句話。它聲稱沒有別人說過。但實際上,我有點贊同它,這是對我政府同事們的呼籲。你不能治理一項你只是被簡述過的技術。你最好親身參與,這樣你才能理解這項技術的潛力、侷限和問題。這裡還有其他一些離題的內容。嗯,確實存在一些約束。

例如,當我們依賴LLMs時,坦率地說,考慮到目前AI大廠向我們收取的價格,我認為我們都知道自己實際上享受了一種補貼。Tokens並不便宜。計算能力有限。電價上升了。戰爭也沒有幫助。我們應該警惕只是將每個問題和解決方案的每個步驟都扔給LLM。這讓我想起一句古老的諺語,你知道,對於一個拿著錘子的人來說,一切看起來都像釘子。實際上有很好的經濟和設計優勢讓你使用LLMs,但不要忘記確定性系統仍然有其作用。

專家規則系統仍然有其作用,我作為一名生物學家的個人信念是最終需要某種神經符號系統,而不僅僅是LLM模型。我對嚴勇的想法有一定的同感,他說你知道嗎,我認為LLMs很好,但實際上這並不是我們在自然界中解決問題的方式。如果你看看人腦,實際上我懷疑人腦的計算層數比我們今天擁有的許多大語言模型還要少。作為一名眼外科醫生,我可以告訴你,大腦皮層對視覺、語言、認知的計算通常基於比我們今天擁有的這些能量消耗系統更高效的結構。我想表達的觀點,以及我與嚴勇同意的地方是,這些歸根結底是帶有注意力和記憶的模式識別系統。

從看似簡單的基礎能力中產生突現行為,這給了你概念理解,給了你語言,給了你做事情的能力。所以我想說的是,這是一個仍在爆炸式發展的領域,因此應該以謙虛的態度接近它。盡力改進你日常工作的生產力,但要明白,我們實際上也許是活在一場革命中最幸運的一代。工具比模型更重要。我認為嗯,Gab會知道我告訴過他,到6月,我認為是6月15日,我需要奈米爪讓所有模型成為一等公民。嗯,有原因的,我們之後可以討論。最後是記憶。這是非常人性化的,我認為這是這個前沿領域尚未解決的偉大問題。

下一張幻燈片,我認為在安全方面我不打算過多論述。嗯,只是順便說一下,即使你駭客攻擊了我的系統,你能得到的最多的就是我的電話號碼。嗯,你會得到外交政策的摘要,但由於這些是我支援的外交政策,而且無論如何我已經策管了我放入的內容,即使你拿走我的系統,我認為它無論如何也會生成新加坡的外交政策。現在這是處理安全的一種方式,通過確保你只放入已經開源、已經發布的內容,並讓你的系統接受能夠承受的透明度和審查水平。但不要忘記安全仍然是至關重要的,實際上,人工智慧傳播的複雜因素將是商業競爭、國家安全、網路安全和超級大國競爭。

這些是將影響人工智慧未來的可用性、速度和傳播的政治因素。這同樣是值得深入探討的獨立政治話題。下一張幻燈片,我希望這是我最後一張幻燈片。所以目標是,我是邊緣部署的信徒。我是一名外科醫生。我相信實踐。我相信修復。我相信那是生命安全、價值創造的地方。其次,因此公共政策目標是這些工具的民主化。這就是為什麼你會看到在經濟戰略審查委員會中DPM gun說我們新加坡不太可能走在模型開發的前沿。但我們可以走在大規模部署的前沿。

所以民主化,因此如果這就是我們所相信的,那麼它必須是一個去中心化的自下而上的方法,這就是為什麼我今天在這裡,因為我發現這個或會議不到三個月前就被組織起來了。65個實驗室。你在這裡遇見的所有人,這甚至不是他們的日常工作。這是一個駭客松,對吧?但這是我相信未來將被創造的方式。所以,感謝大家的到來。感謝你們成為這次旅程的一部分。祝你們有美好的一天、美好的未來。非常感謝你們。你應該給了這個。>>哦,>>我我應該早點穿上這個。你應該早點給我。我本來會穿上的。>>我們沒有簡報。但非常感謝你。非常感謝。>>謝謝你。>>好的。你需要做個公告,對吧?我讓她知道了。好的,各位。

嗯,我非常興奮地為大家介紹我們的下一位演講者,不是別人,正是奈米爪的創造者本人,Gabrielle Cohen。大家好。真的很興奮能在這裡。只是在設定一些東西。只需要你們的網站載入,然後應該可以去醫院。>>你能把你的麥克風放上嗎?你能m等等,現在載入了。沒了。快要成功了。好的。大家好。我是Gabriel Cohen,我建立了NanoClaw。我的Telegram中現在有一個AI助手,它連線到我的電子郵件、我的日曆、嗯,連線到我的通話記錄。嗯,它可以訪問敏感資訊。它可以採取敏感行動,比如閱讀我的電子郵件、傳送邀請。在這次演講結束時,15分鐘後,我將為大家提供自由訪問它的許可權。

嗯,我可以這樣做,我不是瘋子,這並不危險。在整個演講中,我想向你們解釋一些關於NanoClaw的概念,這些概念使其安全。嗯,而且,為了演示這些概念,我將談論我們構建的嗯,代理工廠,在此過程中,我會分享一些我認為有趣的關於我們在構建它時做出的選擇的東西。首先,NanoClaw是一個用於構建嗯安全自主助手或爪助手的開源框架。嗯在短短三個月內,我們在GitHub上有超過30,000個星標,嗯許多成千上萬的使用者遍佈世界各地,包括嗯新加坡外交部長Vivian Balakrishna博士。嗯,但更重要的是GitHub上的星標,超過12,000人已經fork了該儲存庫,這是人們使用它的主要方式。

他們fork它,試驗它,基於nanoflow製作自己的自主代理。嗯,加上我們有超過2500個嗯拉取請求和問題。所以維護一個開源專案今天,現在是構建開源專案的最好時機。同時,嗯,編碼代理也帶來了新的挑戰。比以往任何時候都更容易開啟一個拉取請求。嗯,許多人,成千上萬的人正在為該專案做出出色的貢獻。嗯,但坦率地說也有垃圾拉取請求。人們會把他們的編碼代理指向一個repo,說,「在這裡貢獻一些東西」。今天很難區分垃圾拉取請求和好的拉取請求。它們看起來是一樣的。

它們的程式碼數量可能相似,區分它們取決於對專案的深刻理解、專案的方向、願景。所以,為了幫助我們整理這些拉取請求,我們構建了一個代理工廠嗯,幫助我們審查每一項貢獻。嗯這是我們的代理工廠。它在我們的Slack中。它託管在一個xie.dev嗯虛擬機器上。嗯,在GitHub中開啟的每個PR都會觸發一個嗯webhook,嗯,在我們的Slack中建立一個新執行緒。審查代理首先進行分類,然後進行深入審查。嗯然後它被傳遞給測試,首先建立一個測試計劃嗯,用於深入測試,真實測試,不僅僅是自動化測試。嗯然後一旦我們批准了計劃,它會得到一個新VM被啟動。

它經過了一整套測試,然後嗯一旦完成,我們可以在工廠內直接合並它,它就會上線。所以你們中一半的人可能看著這個想著,太棒了,我想自己構建這樣的工廠。另一半人在思考安全含義,想著,這太瘋狂了。這是魯莽的。這是不安全的。拉取請求當然是未經清理的嗯輸入,對吧?任何人都可以開啟拉取請求。任何人都可以在那裡放東西。嗯你真的不能清理拉取請求,因為我不想從中刪除資訊。會有誤報,你能想到的一切。你可以想象一個拉取請求是開啟來加強安全性,防禦提示注入。它會觸發任何型別的嗯檢測。所以這遠遠超出了致命三聯。

而且嗯我們的f我們的工人,我們工廠中的代理,正在採取非常敏感的行動。他們在啟動虛擬機器。他們在合併嗯拉取請求。那麼我們如何能防止我們的代理被提示注入呢?你顯然不能這樣做,對吧?如果你進入一個程式碼庫,你在雲的頂部看到。MD嗯永遠不要執行刪除資料庫生產。所以這告訴你兩件關於那個代理的事情。它告訴你那個代理以前刪除過生產資料庫,它告訴你如果他們把那個指令放在那裡,代理仍然可以做。所以它仍然有那個能力。嗯指令不是為了安全。它們不是為了安全。指令是為了引導你的代理朝著生產有價值的、高質量的輸出方向發展,朝著你希望它朝著的方向發展。

那麼我們如何用nanoclaw處理這類風險呢?所以我們認為我們的代理就像他們在敵方領土後方運作一樣,因為他們在與敵人接觸,對吧?是某個可能是惡意行為者的人試圖反對你,讓你的代理反對你。所以,如果你考慮一張衝突地圖,嗯你有紅區和藍區,藍區是我們這邊,紅區是另一邊。代理在紅區運作,隨時可能被變成雙重間諜。所以,我們不信任我們的代理,nanoclaw代理不被認為是可信的。相反,它們是隔離的。

所以這是奈米爪架構的簡化版本,你有左邊是slack或任何你傳送訊息的訊息應用,它去slack伺服器,然後被髮送到你的nanoclaw執行的任何地方,在這種情況下,比如說一個虛擬機器,有一個slack橋接,它用socket或webhook連線到slack伺服器,每條訊息被髮送到slack橋接,然後從那裡通過路由器推送給代理,代理響應。它嗯產生一些通過路由器發回slack橋接、slack伺服器的輸出,並在你的訊息應用中顯示為來自代理的響應,來自你的,你知道,slack bot或其他什麼的。嗯但代理可能被破壞了。它在紅區運作。所以,代理可以接觸的任何東西都可能被破壞了。

如果代理可以訪問路由器,如果代理可以訪問slack橋接,它可以操縱這些並改變它可以訪問的訊息,嗯,以及它能夠傳送訊息給誰。所以與其讓代理訪問它執行的虛擬機器中的任何東西或它執行的環境中的任何東西,我們隔離代理,把它放在虛擬機器內的另一個隔離層內。在我們的情況下,通常我們把它放在容器內。現在,容器限制了爆炸半徑。我們控制進出的內容,以及與出來的東西所發生的事情。所以,代理沒有直接連線到訊息傳遞通道。這已經在很大程度上限制了爆炸半徑,但為了讓我們的代理訪問外部世界,嗯它需要有憑證。

如果它想連線到服務,無論是GitHub還是嗯或你的日曆,這可能是使用CLI、API、MTP,沒關係。它需要某種形式的憑證。所以第二個原則,第一個原則是隔離。第二個原則是將憑證保留在代理環境之外。代理環境是敵方領土。你不想在那裡放任何高度敏感的東西。肯定不是嗯秘密和憑證。確保代理不會洩露憑證的唯一方法是,這不能通過指令完成。通過嗯DLP或分析輸出也做不到。代理也可以規避那個。防止它洩露秘密的唯一方法是不給它秘密。

所以我們讓它與沒有憑證的外部憑證服務通訊的方式,我們在代理請求之間新增一個代理。我們給代理一個保險庫。我們與一個真正偉大的開源專案合作了這個嗯,稱為one CLI。每個離開代理沙盒的請求都通過保險庫進行代理,然後我們檢查請求並決定我們是否應該新增憑證。請求以無憑證的形式離開保險庫,字面上嗯認證承載者佔位符。字面上佔位符這個詞在保險庫中。如果代理應該有權訪問該資源,佔位符將被替換為真實憑證。

但隔離代理並給它這個代理憑證是不夠的,因為如果有人直接與我的代理交談,即使我的代理不持有鑰匙,如果它可以採取敏感行動,你可以操縱它,提示注入它,你可以讓它為你採取敏感行動。所以也許你不能得到我的GitHub訪問令牌,但你可能能讓它把你新增為程式碼所有者。所以我們需要另一層策略,不僅僅是橡皮圖章讓每個請求通過,而是新增代理可以和不能訪問什麼的策略。對於最敏感的操作,最靈活的政策是人在環中的批准。那看起來像是在我們執行策略的級別,我們可以有一個策略集。這需要人工批准。

然後請求不是從代理傳送,而是從保險庫或從嗯nanoclaw的路由器或交付部分發送。該訊息通過路由器傳送到Slack橋接,並在你的訊息應用中顯示為來自代理的許可權請求。現在這實際上是一個錯覺。這在影片中之前出現過,看起來像代理在請求你的批准,然後你給代理你的批准,然後它繼續為你合併你的PR。那都沒有發生。代理不能請求批准,代理實際上沒有憑證來合併。相反,代理試圖使用MCP發出請求,其中它寫出它想用GH與GitHub CLI執行的命令。

然後我們將其作為訊息顯示給你,就像它是來自代理的請求一樣,但實際上它來自Nano主機程序。一旦你批准,合併實際上不是在代理級別完成,而是在代理環境之外完成。那個相同的嗯模式可以用來做任何型別的敏感操作。例如啟動轉賬。最敏感的操作,你需要將工具呼叫與工具執行分開。工具呼叫發生在代理的環境內。在紅區內,它離開紅區,在代理環境之外,你然後執行策略並實現該行動,如果它符合你的策略,包括人工批准。

一個有趣的模式出現在我們在代理工廠中發現的是,我們有多個不同的人過度審查和嗯提供對審查、計劃、嗯分類的監督。無論誰按下按鈕來批准或傳送到測試,它使用他們的憑證。所以你不會在我們的GitHub中看到任何被nano claw代理合併的PR。我是按下按鈕的人。意味著我證明這是正確的。我為此承擔責任,它是用我的憑證完成的。所以這是嗯我們的工廠看起來像什麼。另一個有趣的事情是所以你可以在這裡看到我們有嗯slack應用嗯連線到slack橋接。我們有多個不同的機器人,然後每個機器人都被路由到不同的nano代理。每個nano代理在自己的容器中執行。

所以nano claw預設按設計是多-代理的,可以是多使用者多租戶。現在當測試計劃被批准時,那不是執行自動化測試,發生的是我們有一個測試嗯編排器,它建立一個新的虛擬機器,檢出該GitHub拉取請求在虛擬機器中的分支。然後我們的測試代理通過SSH進入虛擬機器,執行Nano例項,開始戳和戳代理,在Telegram中向他們傳送訊息,得到響應,真實的測試,然後還能夠檢查資料庫和日誌以驗證在幕後你期望發生的事情確實發生了。嗯,另一個最後有趣的模式是Slack執行緒中的每個代理都有持久的環境和持久的會話。你可以隨時來到他們身邊,標記任何一個不同的代理。

我們有一個測試代理、審查代理,呃,給他們方向指示,提出後續問題,呃,改變測試深度,就像你在這裡看到的那樣。我們還有這個能力來標記一個主管並提供反饋。呃,你感覺有點像Karen,如果有人知道這個梗的話,我能和你的主管談話嗎?你留下反饋,然後呃主管可以根據那個反饋建議對指令和技能進行更改,然後一旦我們批准那些更改,它們就會被實施。所以我們的工廠本質上是在改進自己。如我承諾的那樣,如果你掃描那個二維碼,我在Telegram中有我的代理。它可以訪問我的電子郵件、我的日曆呃和我的驅動。呃,但我對給你所有訪問許可權感到安心,因為這個代理在其環境中沒有任何憑證。它是隔離的。

我控制什麼進入其環境以及什麼出來。每一個行動都有人工批准。所以這連線到我的日曆。我整天都在這裡。我很想和一些在這個領域做有趣事情的人一起喝咖啡。呃,和它談話。我告訴它對我的時間有點保護。我希望它不是很刻薄。呃,但如果你和它談話並告訴它你在做什麼,呃,希望它會為你和我安排一個咖啡聊天。謝謝你。>>好的。呃,我非常興奮地介紹呃我們的下一位演講者。呃這是Tibo,他是OpenAI的Codex負責人。現在Tibo呃不幸的是今天無法親自到場。呃但他想做這個講座,因為這對他來說意義重大。所以他會解釋呃當他當它呃當他出現在螢幕上時,我認為他在。

呃但我們要做的另一件事非常酷,就是呃Tibo很高興能與一些學生進行問答。所以,呃,讓我們給,呃,Tibo一個熱烈的歡迎。>>嗨,各位。呃,很高興在這裡。我很希望能親自到場。看到房間裡擠滿了人真的非常令人興奮。呃,新加坡有獨特的能量,我很高興從舊金山與你們大家聊天。我感到非常自豪能說,新加坡實際上是全球Codex採用和參與度的前五個國家之一。呃它上升得很快。呃感覺新加坡就是以前所未有的速度採用新技術。呃我們的總體使命是向全人類傳遞AGI的好處。

我相信在接下來的幾個月裡,我們將在使AI對世界上每個人都深刻有價值方面取得令人難以置信的進展。我們從ChatGPT開始,通過Codex,我們專注於構建者和開發者。你可能知道Codex是這個小應用程式,但對我們來說,它是我們的前沿代理。我打算講一點關於代理對軟體開發和整個生命週期做了什麼。我不必告訴這個房間,但軟體開發顯然與兩年前相比是無法辨認的,甚至是六個月前。新模型能夠進行完整的代理委託或像我們在nanoclaw中看到的例子,你有一個完整的自主系統只是為你做東西呃遠遠超出程式設計。你只需給它一個工作。

它獨立地處理任務程式碼庫,也許數小時有時一整天,直到工作完成。從一開始,這就是我們的目標,建立一個可以委託的AI隊友。考慮SDLC和構建事物的一個有用的方式是將其視為一個吞吐量問題。幾十年來,軟體開發生命週期的設計圍繞一個核心假設。程式碼很難編寫。這個假設塑造了真正的一切。我們大量規劃是因為工程時間很稀缺。我們仔細審查每一行,因為程式碼寫錯很昂貴。我們圍繞構建步驟是管道最窄部分的想法建立了交付系統。代理編碼真的改變了這個假設。它顯著擴寬了管道的皮帶部分。

但如果其他部分保持狹窄,總吞吐量實際上不會增加。約束轉移到構建步驟周圍的系統規劃、審查、驗證、CI、安全、釋出、操作、除錯,甚至學習和理解實際發生的事情,這是新瓶頸的一個大部分。這種轉變是每個人都需要理解的。機會不僅僅是更快地生成更多程式碼,而是重新設計我們如何進行工程以及我們如何能增加我們一起交付的總體吞吐量。第一波AI編碼真的只是擴充套件了這個構建階段。我們都非常高興能夠更快地編寫大量程式碼。這很重要。這意味著工程師可以以前所未有的速度生成、修改和測試程式碼。

但正如我們之前說的,僅僅擴充套件構建部分不會增加總吞吐量。下一步真的是看著在整個軟體交付生命週期中擴充套件容量。這就是我們如何思考Codex這個代理的。它不僅僅是一個編碼助手,而是一個可以在構建軟體的完整層中工作的代理。在構建步驟中,Codex可以幫助工程師委託實現工作。在審查中,Codex可以幫助檢查更改、表面問題、支援人工審查。在部署和操作中,雲代理和自動化可以幫助團隊響應觸發器、調查問題,並以前所未有的速度讓工作通過系統。目標不是從流程中移除人類。目標真的是讓每個階段更具可擴充套件性。所以更高的程式碼輸出實際上可以成為更多的交付價值。

這是一個關鍵的區別。代理編碼增加程式碼速度,但像Codex這樣的代理幫助組織在該速度周圍擴充套件系統。所以有這樣的不同步驟,我們可以看到你可以使用代理來增加規劃的速度、構建的速度、審查的速度,甚至部署的速度。如果你想一想,規劃、構建和審查有點更容易,因為你不真的對世界有任何副作用。部署是當你知道安全開始真正重要的時候,因為你對世界有實際影響,程式碼真的被部署出去,並且遇見了你的使用者所在的地方。我們有這些的自動化。我們允許圍繞代理構建。

然後我們有一個我們的雲代理版本呃它有安全的可以通過我們的外掛系統有安全訪問,並允許你部署並驗證部署是通過人工批准正確的。這是我們很久以前開始的一個旅程。Codex團隊很特殊,因為我們設計了代理和驅動這些代理的模型,我們深入在研究中以推進我們模型的最先進狀態。這始於一個模型GPT-51 Codex Max,現在因其名字而聞名,我們在2025年底釋出。它是針對壓縮的端到端RL進行訓練的,用於長執行任務。這意味著在RL期間其環境中,我們在鍛鍊會挑戰模型在其上下文視窗之外良好工作的任務。

而且在其上下文視窗的末尾,它需要委託給自己以實現跨許多上下文視窗推理的任務。我們還提供了高推理努力。我們訓練它在Windows上本地操作,我們表明我們可以以30%較少思考代幣實現更好的效能,並實現新的最先進令牌效率。這是一個將繼續的主題,我們在每個其他模型船上看到的。令牌效率只是越來越好,越來越好,這使其隨著時間的推移更快和更便宜地執行代理。使用52,我們增加了網路安全能力,這真的是我們現在看到的前置與具有圍繞網路前所未有的能力的模型。我們改進了大程式碼變化的效能,但我們也添加了視覺能力。

我們不僅僅構建一個文本到文本模型。我們構建一個一切代理。使用53,我們使它更快。使用54,我們添加了100萬上下文視窗。55已經是我們迄今為止最大的步驟改變。即使表面上看起來,它只是從54到55的一個小增量0.1呃改進。它實際上是一個更大的改變。我們添加了計算機使用,我們使其更加令牌高效。它真的是今天可用的最聰明和最快的模型。但是什麼讓它工作呢?什麼讓它工作呢不僅僅是模型。它是模型和其硬體的組合。這就是Codex特別的原因。我們能夠共同設計這些事物並使硬體真的針對模型進行最佳化,模型針對硬體進行最佳化。

它允許我們非常廣泛和非常高效地提供一個新的智慧類別。五僅在幾周前釋出,我們看到收入增長速度比任何以前的釋出都快兩倍。人們真的很喜歡它。我們看到採用真的失控了。你可以在這裡看到它在SweetBench Pro上設定了新的行業高點。我們也在終端檯上實現了新的索達。似乎我們只是在一個接一個模型推動前沿,模型,我們現在以大約每月一個模型的速度運輸。我們所有這些同時也提供了前所未有的可靠性。而且這不是短壯舉。真的我們需要提供的工程和基礎設施改進的水平大約一年前開始,這使我們能夠以前所未有的需求擴充套件。使用爆炸。

我們以呃的級別提供55的流量使我有時失敗。像我們有這樣一個令人驚歎的工程師團隊和自己的呼叫者,也是一個很少談論的是我們的模型如何高效,這允許我們提供像只是真的跨計劃的慷慨限制。我們實現了九九三九的可用性,我為此感到非常自豪。呃,同時擴充套件和被用於數百家公司。我們現在有超過400萬,很快接近500萬周活躍使用者。現在開始是最好的時刻。很多工程師寫更多程式碼。我們已經談過了。但我們還沒有談過的是在OpenAI內部真的每個人,每個我看到的人,每個我談到的人都用Codex做真的一切,不僅僅是工程。

我們看到市場營銷部門使用它。我們看到財務提高呃令人難以置信的籌資者回合,使用Codex來協調所有這一切。它已經成為這個一切代理。而且因為我們使用Codex構建Codex,我們從未建造得更快。我們在今年釋出了非凡數量的功能。團隊配置、新模型、Codex for Windows。Codex應用程式本身僅3個月大,這仍然在我思考它時讓我震驚。我們釋出了快速模式。我們也釋出了自動審查,這是我最喜歡的功能之一。當你思考代理和安全和安全時,一件經常被忽視的事情是批准和人工批准是隨著時間推移導致疲勞和錯誤的東西。

如果你必須去驗證你的代理正在做的一切並且認真思考你是否想批准它,那麼你註定會在某個時刻犯錯誤並給它太多訪問許可權或允許它做一些東西或合併一個PR或更糟糕地傳送一些資訊到某個地方你不應該做的地方。隨著我們繼續擴充套件,這將是真的,你有更多代理為你工作。自動審查是一個新系統,它引入了第二個代理,它驗證第一個代理的行動,並根據你的任務的原始意圖驗證它們。所以如果你說呃去檢查我的重要電子郵件例如並拉最後三個你知道是特定的對我今天設定的目標。

那麼自動審查將理解這是你的意圖並驗證主要代理針對該意圖的每一個行動。任何可疑或高風險和與該意圖一致的東西將被阻止,主要代理將被重定向以嘗試做其他事情。這非常重要,因為它允許你保留人工注意力,不要用不必要的批准使你疲勞。這現在是OpenAI內的預設,它減少了20倍的批准。我們在公司中看到的收益遠不止編碼。有一堆我們投資自動化更深入企業控制、領先模型和整體開發者體驗的支柱。我為我們運送的應用程式的拋光程度以及我們已經運送的體驗有多令人愉快感到非常自豪。

我邀請你所有人嘗試它。這真的是與代理互動的不同方式,隨著時間的推移,我們將其演變為你管理的每個代理的駕駛艙。Codex為構建者以及幾乎所有東西解鎖了這麼多。我們看到非常令人難以置信的用例,甚至對於非技術人員。這是Rowan的媽媽只是在Chachi中第一次體驗影像基因2的魔法,她是一個資深招聘人員。她真的需要做很多事情跨呃管理她的簡歷,她想回到招聘。我們給她展示了Codex,她只是立即明白了。有新的與代理互動的方式,這真的會來到每個人。我們不認為代理僅供技術人員。

當你思考將代理帶到世界各地時,有不同的挑戰,你真的需要保留魔法同時也使其安全和安全。但我們認為這將很快來到世界各地,不僅僅是使工程師和技術人員變得更有效。我們將我們的代理連結到整個世界。我們有幾乎一切的外掛。我們也在從事記憶系統。我們正在從事新模型。你可以設定自動化,使其在特定的特定計劃上執行,也許每幾小時給你一個報告。而且真的我們開始看到的是模型在做複雜任務方面如此可靠,以至於這真的只是一個問題關於什麼是上下文,以及你給予那些模型的訪問許可權。

而這真的是現在上限潛力的地方。就像這些模型對世界有多少訪問許可權。我們在不同的領域看到了很大的成功。讓我用世界上最先進的工程組織之一的一個例子使其具體化。C Limited,APAC的最新、最大數字平臺之一,以及主要的開放客戶。C已經與Codex全力以赴。它在其整個開發者組織中推出,其首席產品官與我們分享,Codex真的超越編碼並感覺相當神奇。我們很高興在6月6日在C這裡擁有第一個區域Codex駭客馬拉松。就在新加坡這裡。我很想讓你所有人加入並檢查它線上。我們也將其推出到45,000名Nvidia員工。呃,我們僅在兩週內完成。

Codex在Nvidia內的部署中幫助了自己,這是我們看到的一個趨勢。我們只是使用代理來加速一切,包括Codex本身的部署和開發。Codex的特別之處在於它完全是開源的。你可以在GitHub上閱讀硬體的程式碼。它在Codex repo下。呃你也可以把它帶到任何地方。我們現在剛剛通過ChatGPT應用釋出了遠端控制。所以你可以在Raspberry Pi上執行它,你可以在Mac Mini上執行它,你可以在你的筆記型電腦上執行它,然後完全通過安全連線從你的應用中控制它呃直接。

你也可以,一件相當神奇的事情是我喜歡做的是使用瀏覽器使用或計算機使用的外掛,並允許它只是使用和跨你的計算機導航,但呃使用這個小命令,這個小遠端控制,你只是在你的手機上有。而且我認為這是我們很快就會意識到的東西,代理將對其有某種永久性,我們將只是真的開始將其視為像我們可以從各種不同客戶端到達的這些小實體在雲中。它在網路上,通過桌面應用程式,通過客戶端。最終,你只是拿起你的電話並與你的代理交談,它仍然能夠為你做事情並訪問你生活中的一切。我們也快速交付,我們呃修復快速。

呃我們不我們並不羞於有時犯錯誤並呃重置一些呃速率限制當我們搞錯時。一件很酷的東西也是Peter正在與我一起工作。他是OpenClaw的原始建立者。我們也支援這作為一個開源專案。我們最近從事重寫OpenClaw的核心以基於與Codex相同的基礎。所以它實際上在底下執行Codex代理。你可以在開源repo呃呃上閱讀它。再次像所有這些程式碼都是開源,我們真的想貢獻到像這個新一代發明,通過只是展示如何以簡單的方式做這些事情。呃我們採取安全優先。我們也在思考很多關於安全。我們在Windows沙箱化上創新。我們在我們的部落格文章上釋出了很多關於這個的。

你可以在那裡瞭解所有關於Windows沙盒的資訊。我們也在嘗試在產品層面解決一些難題。在未來,我們希望將代理擴充套件到ChatGPT的規模,目前ChatGPT幾乎已經擁有十億使用者。有很多讓我興奮的事情,但這裡是我們真正在努力做的一些。我們正在開發新的記憶系統。我們推出了Chronicle,這是一個實驗性研究預覽版本,它允許你的代理跟蹤你在螢幕上所做的一切,並從中形成記憶,這樣它就知道你上週做了什麼。它知道你今天做了什麼,並變得更具上下文感知能力。

我們認為這將相當具有突破性,是一種新的、新的擴充套件範式。嗯,然後我們還在開發新的工具處理方式,我很期待在未來能更多地分享這些。我聽說這個房間裡的一些開發者想提出幾個問題,不幸的是我無法現場聽到問題,但我們收集了一些問題,我很希望能討論其中的兩個。嗯,這是來自Louis的問題。Codex應用程式上的DevX是我見過的最好的。專案組織、一鍵PR。它改變了我的構建方式。隨著代理變得越來越強大,使用者基礎超越開發者擴充套件,你如何考慮介面層?聊天似乎是我們從大語言模型繼承的預設值。它實際上是人與代理長期合作的正確模式嗎?

這個演變對你來說是什麼樣的?我認為這非常有趣,最初我們真的只是繼承了這種東西,我們通過大語言模型為大語言模型供電,大語言模型為聊天對話介面供電,ChatGPT開啟了這場革命,現在我們看到的是,大語言模型可以代表你做事並獲得所有訪問許可權。我們必須改變我們對這些事情的思考方式。它真的會深刻改變,我認為,我們與計算機、與技術互動的方式。我希望它能把我們從一些我認為我們集體發現的侷限中解放出來,我認為,我們總是粘在手機上,你知道的,彎著腰嗯,你知道的,也許我們在筆記型電腦上瘋狂地打字,有點像我們與他人的聯絡不夠。

我認為未來將是一個人們聯絡更緊密、一切都更加環境化和無縫的未來,你可以通過自然語言、通過自然聲音以一種非常多模態的方式與技術互動,它流暢地適應你在那一刻想做的事情。現在很難想象,但我認為,你知道的,在大約一年內,我們將開始看到這樣的跡象,即代理變得有形態,事情變得更自然。你只是繼續通過自然聲音利用所有這一切。嗯,我們將打破今天在你的計算機上存在的應用程式的界限。Dehan問道,「你曾說過一些腳手架應該隨著模型的改進而消失,但技能似乎是一種應該也許會保留的使用者所有制腳手架。

當有人的某個東西失敗時,你如何決定是在模型中修復它來利用技能,還是在其他地方修復它,而不會意外地將今天的模型侷限變成明天的基礎設施?」這是我們想很多的事情,這是我們設定中獨有的,我們對模型進行控制。我們對工具系統和產品進行控制,以及代理原語進行控制。

我們經常問自己,嘿,如果我們今天不在工具系統中修復這個,改進模型的速度會有多快?這是你知道的,例如,對於端到端壓縮和端到端強化學習以及對非常長時間執行的任務進行壓縮,在此之前,人們試圖用手動壓縮和非常複雜的系統來修復這個,以保持狀態。我們認為也許我們可以通過在下一個模型訓練中非常努力地工作來修復這個,並且能夠保持這種一致性圍繞非常長的任務。嗯,所以我們在模型中修復了它。有時我們估計在下一代模型中需要超過幾個月才能修復它,然後我們決定採取一些捷徑,嗯,在工具系統中修復它。

所以總有這種健康的緊張,但我們能夠共同設計事情,真的從第一性原理的角度來處理事物,嗯,這總是讓我非常興奮地思考這些問題。還有一些問題,但嗯,我認為我的時間有點緊張。我只是想感謝你們都在這裡。嗯,我邀請你們都用這項技術思考,你知道的思考未來會是什麼樣子,你知道的邀請它進入你們的生活。它將繼續存在。它將繼續演變。這是探索所有這些事情的美好時光,我希望你能有一個很棒的構建時光。我想邀請舞臺上的Dr. Fran Yang,GovTech的人工智慧實踐負責人。嗯,大家早上好。嗯,我叫Yang。我在GovTech新加坡領導AI團隊。

我很高興今天能在AI工程師新加坡活動上與各位分享我們如何在新加坡政府推動人工智慧的採納。錯誤的遙控器。是的。所以GovTech的一個非常快速的介紹,以防你不熟悉。嗯GovTech是領導新加坡嗯智慧城市倡議和公共部門數字嗯轉型的主導機構。我們利用技術的力量提供數字政府服務。我相信你們中的一些人,實際上你們中的許多人已經使用過一些GovTech產品,如SyncPus live SG、Go Business等。我們的使命真的是為數字政府進行工程設計,讓生活更美好。嗯實際上GovTech是在2016年成立的,今年我們正在慶祝科技為公共利益服務的10年。

回到AI,很明顯政府必須採納AI。嗯第一個最直接的原因顯然是為了有效性和效率。我們的政府有責任提供數百萬人每天都依賴的服務。AI給了我們機會以更快、更準確、更大規模的方式實現這一點。這是一個我們無法承受錯過的機會。但除了運營收益之外,還有一個關於公民和企業期望的問題。當新技術重塑公民的生活方式和企業的運營方式時,人們越來越期望政府跟上技術步伐。這將增加人民對政府的信任和信心。抱歉。在數字世界中治理良好還有更深層的原因。我們需要理解塑造它的技術。

與人工智慧的實際操作經驗建立了必要的直覺,以制定周全、有根據且符合目的的政策。保護我們的公民同時促進創新。最後,如果我們希望我們的整個國家像我們的總理所說的那樣擁抱人工智慧,政府必須不能必須不能坐在場邊。我們必須以身作則。當公民看到他們的政府負責任和有效地使用人工智慧時,這會建立信心併為整個社會定下基調。實際上,我們不是從零開始。多年來,我們的政府已經在許多領域使用人工智慧來為政策提供資訊並改進運營和服務交付,既在機構內部,也是對公民和企業進行外部服務。

只是分享一些例子嗯在我們在政府中實施的大量人工智慧用例中,在醫療保健領域,人工智慧已被開發來檢測痴呆症前期症狀的早期跡象。該技術達到了非常高的精度水平,結果在科學期刊《自然通訊》中發表。我們實際上正在今年在社群場所推出這項技術。在教育中,人工智慧已被部署來幫助教師以更高的準確性更快地批改作業,每堂課減少三到四小時的批改時間,為教師提供更多時間與學生互動。對於工作和技能,我們嗯我們的推薦引擎一直在為我的職業生涯未來提供支援,為新加坡人和居民提供個性化的工作和課程推薦,幫助他們更快地找到更合適的工作,也更有效地學習新技能。

對於公民服務,我們已經開發並將最新的人工智慧模型部署到我們的公民呼叫中心。轉錄、總結和分析功能使我們能夠更好地為公民服務,將售後工作減少72%,客戶滿意度提高到95%。與此同時,我們也確保通過開發安全測試工具和護欄來負責任地應用人工智慧,以確保我們的人工智慧解決方案安全、安全並以預期的方式執行。雖然在過去幾年中我們在將人工智慧引入政府方面取得了顯著進展,嗯我們渴望實際上進一步發展,從被人工智慧賦能到成為人工智慧原生政府。所以你可能會問有什麼區別?一個被人工智慧賦能的政府使用人工智慧作為工具,對現有流程的有益補充。

這通常建立在遺留系統的基礎上,存在增量式的改進。系統可以擴充套件,但不能複合增長。相反,人工智慧原生政府是一個遠更雄心勃勃的目標。它意味著人工智慧是一切的基礎和核心。我們從零開始重新想象政府的工作方式,在我們的思考、設計和交付方式中嵌入人工智慧,因此總會有持續創新。那麼,人工智慧原生政府對我們具體意味著什麼,我們如何為此而努力呢?我們從四個由使用者角色區分的支柱加一個橫向的方面來思考這個問題。讓我快速為你講解一下。首先,我們希望每一位公務員都能被人工智慧增強。所有15萬多名公務員,從基層工作人員一直到總理,無一例外。

我認為剛才維文部長談到了他如何使用和構建人工智慧。嗯,在兩週內,我將為一屋子的常任秘書進行關於構建代理的技術實操培訓。我們真的想把人工智慧生產力工具放到每一位公務員的手中,幫助他們處理日常任務和工作流程,如起草、總結、轉錄、分析等。其次,我們希望公民開發者能夠使用人工智慧進行構建。這些基本上是離我們感興趣的問題陳述最近的非技術官員。他們可以是政策官員,可以是公民參與官員,可以是產品經理或設計師。我們想為他們提供工具,使他們能夠編寫程式碼、建立原型並部署它們。

我個人認為這是一個改變遊戲規則的舉措,因為它將改變整個政府內部的創新模式,現在不再依賴工程師,人們可以在早期階段真正實現他們的想法。第三,對於軟體工程師,人工智慧使他們能夠以更快的速度和更高的質量構建生產級別的應用程式,壓縮整個軟體開發生命週期。我們已經向開發人員推出了許多各種人工智慧編碼助手,如Claude Code、Codex。這不僅是為了幫助他們進行編碼工作,還包括整個SDLC,如程式碼審查、測試和文件。最後一個支柱是關於人工智慧用於域及域轉換和現代化。

我們想專注於幾個關鍵領域,如教育、交通和醫療,以及跨部門的功能,如人力資源和財務,並完全重新設計業務流程以獲得更好的結果。你將看到,支撐所有這些人工智慧舉措的是我們的政府人工智慧堆疊,它真正提供了最新的基礎模型以及那些在視覺、語音、文件分析、評估和安全方面的定製人工智慧能力,所有這些都具有政府背景和本地化。這將確保我們的人工智慧解決方案由高效能的模型支援,具有更短的上市時間,並且在設計中本身就是安全和可靠的。作為平臺的一部分,我們還在構建代理工具的能力。讓我花幾分鐘來解釋它是什麼以及我們為什麼要這樣做。

展望未來,我們從業界瞭解到,人工智慧代理將很快大量湧現。這將意味著人工智慧變得更加強大,能夠訪問資料,能夠訪問工具,能夠以自主的方式執行操作。根據國際資料公司的一項研究,到2028年,將有超過13億個人工智慧代理。

這是一個非常大且令人恐懼的數字,但我個人認為這實際上可能非常保守,根據我們能觀察到的發展速度。我們已經可以看到人們開始為個人使用、團隊協作甚至企業級消費開發代理。政府中有一整套人工智慧代理的用例,如公民服務、政策研究等。隨著政府中人工智慧代理的擴散,我們必須,我們必須思考一種方式來有效地啟用、最佳化和管理它們,以便我們能夠最大化價值並管理隨之而來的任何相關風險。抱歉,我們正在構建一個主權代理工具,其中包括幾個元件。

MCP閘道器充當前門,代理執行時提供沙箱環境以及代理執行其操作的資源。代理身份管理,確保每個代理有一個經過驗證的身份,知道允許做什麼,不能超越其邊界。代理記憶,為使用者提供個性化體驗,在單個會話內具有短期記憶,在多個會話中具有長期記憶。可觀察性很重要。它提供對整個代理生態系統的監督,監控代理所做的事情,及早發現問題,並理解出了什麼問題。

一個技能平臺,包含豐富的現成能力庫,如搜尋網路、讀取文件、傳送電子郵件,所有這些都是版本化的、經過評估的、可共享的和受管理的,以便代理可以利用它們來完成任務。其想法是,政府中的每一個助手或代理,無論是編碼代理、協同工作會話還是工作流代理,都是這個堆疊的客戶端。一道門,一切都是可見的。你可能認為在單個本地設定中思考這個問題相對簡單,但在企業級別,特別是當你在政府內多個組織的生態系統中思考時,這是一個完全不同的遊戲。

作為一個類比,我總是喜歡用汽車例子來思考它。超強大的汽車引擎本身不足以將人從一個地點運送到另一個地點。你需要堅固的汽車車身。你需要道路。你還需要明確的交通規則,以實現安全高效的出行。類似地,人工智慧模型就像汽車引擎。它們本身不足以成為有效的代理。它們需要一個工具來真正有用和值得信賴。因此,我們通往代理人工智慧的一個關鍵戰略實際上是大力投資於在代理工具中構建這些能力。這就是我分享的結束。非常感謝你們的關注。這真是一個令人興奮的時刻。這真是我們前面的一個令人興奮的時刻。嗯,請與我們合作。

嗯,而且,你知道,如果你有興趣在這個有意義的旅程中加入我們,為了公共利益進行人工智慧,如果你有興趣,請訪問我們的展位,你知道我們有團隊展示我們正在進行的一些工作、倡議和專案,他們將非常樂意與你分享更多細節。嗯,我也會非常樂意在LinkedIn上與你聯絡,並與你分享更多關於合作機會的資訊。非常感謝。好的,我現在想邀請我們設計軌道的第一位發言人登臺,Air Foil的執行長和聯合創始人Phil。還有一個快速的公告。嗯,現在已經過了上午10點。所以,我們的展覽實際上都在Pullman和Capitol Kinsky開放。如果你需要參考任何地圖,我們有一些工具可以幫助。謝謝。

>> 好的,>> 太棒了。大家早上好。看到你們所有人在這裡真是太棒了,坦率地說,想到這整個會議正在發生,你們中這麼多人從世界各地旅行,從新加坡來這裡,這真是太超現實了。嗯,我是Phil Hedatnea。我是一家名叫Airfoil的公司的聯合創始人。嗯,我們基本上是一個產品設計、品牌設計和設計研究公司的組合,與科技部門的各個公司合作。嗯,但在過去的5年裡,我們一直在舊金山和新加坡進行雙重基地運營。所以,看到你們所有人在這裡真是太棒了。嗯,無論你是否知道我們是誰,嗯,你可能在過去與我們完成的一些產品互動過。例如,如果你正在使用代理進行文件處理,你可能正在使用Reduct。

如果你在應用中嵌入語音 AI,可以試試 Vappy。如果你在做 Gentic Search,可以試試 Exa。有沒有人......哦,後排有人。呃,或者如果你來自加密領域,可以試試 Salana。嗯,但我想說的是,大約一年前,我們在 Airflow 建立了一個團隊,叫 Airflow Labs,因為我們都心中有一個問題,這個問題非常非常簡單。「我們兩年後還會有工作嗎?」因為作為一家設計公司,對吧,特別是如果你在 Twitter 上看過關於設計稅的討論,以及不斷改進的模型如何能讓我們在沒有設計師的情況下直接構建東西的討論。說實話,我們有點害怕。我們想知道自己在設計流程中的真正位置。所以我們開始構建。

我們在內部製作了一些東西,比如 Check,這是我們自己的引擎,用於有效驗證我們設計的實現。我們可以在一邊拿到 Figma 檔案,在另一邊拿到即時測試網站,然後使用影像模型來比較兩者,確保我們已經正確實現。最終這變成了一些相當酷的東西,那就是自我完善的網站。因為我們能夠排序和優先化基於嚴重程度,我們能夠直接將其反饋到程式碼模型中,然後不斷改進網站,即使在我們釋出了第一個開發版本之後。我們構建了一個叫 Scoop 的東西,它實際上只是獲取客戶給我們的所有資訊,並將其轉化為一份非常全面的簡報。

從我們獲得的兩到三頁上下文中生成五十頁或更多。但更重要的是,它為設計師提供了更多關於他們所設計行業、他們所設計的客戶和使用者的背景,這樣他們可以做出更好的工作。但在所有這一切之後,我們開始齊心協力解決一些有效的聖盃問題,也就是每個人都在試圖解決的問題。我們如何能建立擁有品味的設計代理,能夠製作出看起來不像垃圾的東西?所以今天,我想展示一些我們學到的東西。就這樣。好吧,不是那個。完全不是那樣。嗯,那實際上是來自 Impeccable.style 的一個截圖。這是一個你可以下載的東西。我們沒有製作它,但它幫助你的代理有更好的設計流暢性。

它的工作方式基本上是告訴代理一堆不要做的事情,對吧?確保你的色彩對比度適當,或者使用更好的排版。這確實會產生有意義的差異。你可以看到沒有 Impeccable.style 和有 Impeccable.style 的情況下,該網站看起來好得多,但它仍然看起來有點像垃圾。看起來像是你能直接生成的東西。那麼為什麼呢?為什麼這仍然在發生?好吧,我們的觀點是,用我們認為的好設計來訓練 AI 並不能教 AI 我們是如何到達那裡的。它遺漏了一個非常重要的觀點。設計不是關於將產品規格帶到 Figma。設計是關於應用心理學。這是關於理解使用者如何思考、使用者如何行動,以及製造能與使用者產生共鳴的流程、視覺效果和敘述。

我喜歡說設計師是人類心理學的調查者。這是我的聯合創始人為我們正在做的一個商品專案整理的情緒板。乍一看它實際上看起來有點隨意。如果你看左上角,你會看到一張舊金山加州街的照片。還不清楚這與商品有什麼關係。但它真正的意思是,它是我們為我們獲得意義的東西分類的一種方式。這些影像乍一看可能看起來很隨意,但它們向某人表達意義。當設計師整理這些情緒板時,他們正在嘗試理解。他們正在嘗試調查為什麼人們對某些東西產生共鳴,為如何做到這一點制定規則,然後將其應用於他們自己的工作中。還有另一種方式來看待這個。它只是人類的創意。

嗯,有一本叫《The Runaway Species》的書,作者是 Anthony Brandt 和 David Eagleman。Tony Brandt 實際上是我上過學的萊斯大學的教授。我在他手下學習。他是我最大的靈感來源之一,也是我進入設計領域的原因之一。《The Runaway Species》闡明的是人類創意的定義,即彎曲、打破和混合現有概念以建立相對於引入它們的文化新穎的東西。簡單地說,人們並不是生來就有創意的,他們沒有與生俱來的創意特徵。我們每天都富有創意。這是我們大腦工作方式的一個簡單部分。但這不僅僅是一個神經科學定義。這是一個社會學定義。我們在生物仿生學等東西中看到這一點。

新幹線在從隧道出口和通過山時不會產生音爆的原因是,他們不僅根據其他列車,而且根據翠鳥的喙對新幹線進行建模。那是他們從自然中獲得的見解,並應用到完全不同的背景。甚至在像我們為其工作的 Reducto 網站這樣的東西上,我們想讓它對人們來說感覺更友好、更容易接近。所以我們引入了能回憶起點矩陣的頁面元素,點矩陣印表機的元素。你可以在這裡看到一個實際的例子。正是這樣的小決定在使介面和品牌看起來很棒,以及使東西看起來像垃圾和看起來天生的和真正創意之間的區別。

但我的關鍵點是,所有這些都不能從結果中提取。你可以根據結果進行訓練,最終你會得到總體上更好的視覺效果,不會出現明顯的錯誤,但你不會得到新穎、有趣和新鮮的視覺效果。當我們根據理想的設計結果而不是它們後面的背景和思維來訓練模型時,那時我們會得到令人失望的結果。所以我們決定嘗試解決這個問題。我要把這個展示給你。我們之前沒有演示過這個。這是目前我們內部的東西,但我們希望很快將其帶到公眾面前。我想今天給你第一眼看看我們構建的叫 Melt 的東西。所以,Melt 從許多我們的設計師所做的事情開始,這是設計 Twitter。嗯,但這對很多設計師來說是一樣的,對吧?

他們總是在世界上走來走去。他們在找靈感。他們在看一個有趣的品牌方向,現在他們可以直接儲存到 Melt。他們可以點選儲存到 Melt 按鈕,然後我們將其儲存到我們所說的他們的背包中。或者,比如說他們在越南旅行中去了一家叫 Pizza Four Pas 的餐廳,他們就會想,「這是一家披薩餐廳,但它的品牌方向真的很漂亮。」確實很不錯。呃,插圖就像他們的選單甚至是華麗的。他們可以直接拍攝他們看到的東西,直接儲存到 Melt,然後我們開始從中提取關鍵後設資料,比如排版、顏色使用,但也包括關於公司本身的背景資訊和你拍攝它時所在的地方。

一旦我們有了所有這些後設資料,我們就能夠——這就是桌面版本的樣子。我們能夠將其放入您的背包中,您可以稍後訪問所有這些資訊。好吧,那麼為什麼你想擁有所有這些資訊呢?好吧,第一個原因是作為設計師,你想以使用筆記本的方式使用它。通過對你儲存的樣本進行註釋,你能夠記錄你當時的思維,這意味著在六個月時間裡,如果你需要回到其中任何一個,你可以立即這樣做。但這也意味著我們可以開始在我們收集的後設資料和它如何影響人們對它的看法、它如何影響他們的感知之間建立聯絡。所以這意味著我可以詢問更復雜的查詢。

例如,我可以說在 2026 年越南查詢帶有襯線排版和藍色、黃色或黑白調色盤的視覺效果。第二部分你可能只能直接用影像模型做,但一旦我們把所有東西都放在那裡,組合查詢會更容易做。所以你可以看到它說在 2026 年越南找到三個儲存。它能夠以更深的方式理解它實際上在引用的東西。當然,你可以點選匯出到 Figma。這是每個設計師都想要的東西。更有趣的地方是,一旦 Melt 理解了你為什麼儲存東西的原因,它可以將其呈現給其他人,它可以給你能力以更多人的方式分享。

所以在 Melt 上,你可以進行一般查詢,然後能夠使用其他人留下的評論和註釋來更好地理解你想找到的內容。所以這是一個更有效的內容查詢引擎。所以如果我說出類似的東西,比如用明亮通風的 UI 組裝一個情緒板,它能夠找到不僅是我儲存而且我的隊友也儲存的參考資料,並且有關於他們為什麼儲存它的背景,這真的真的很重要。回到創意的定義,我們的觀點是,通過增強回憶並更快地將東西放在人們面前,但也要確保儲存那個創意過程,儲存反饋、來回、以及讓工作與人產生共鳴的評論,以更深層次的方式理解它。

這就是讓我們能夠採取下一步,即實際嘗試將引號創造引號的品味或者說人類設計師的意圖注入到這些模型實際產生的工作中。所以這還不是產品的一部分。這是我們構建的叫 Blend 的東西,但它能夠使用你在 Melt 中儲存的視覺參考以及後設資料和評論來重新混合不同的東西。我們現在正在構建工具,使我們能夠僅使用 Melt 中的影響加上自定義提示和命令來渲染整個頁面的模型。雖然它仍然有點粗糙,我們還有更多的工作要做,但它為我們產生了遠好於直接使用 Claude 或 GPT 的結果。

Dieter Rams 曾經說過,如果你不理解人,你就無法理解好的設計,因為設計是為人而做的。我認為當今設計代理的問題是,我們花了很多時間看人們做什麼,而不是看他們為什麼這樣做。但通過將所有這些放到一個平臺上,使其對 LLM 可讀,我相信這將解鎖下一代能夠更智慧地行動的設計代理,以遵循我們的意圖,甚至自己做出決定。我們想從增強創意過程開始。最終,這使我們能夠教機器創造。最終,這使我們能夠教機器決定。這打開了生成 UI 的世界和所有我們想要構建的驚人未來。

所以,我們很快就會在公眾面前分享更多關於 Melt 和我們在 Airflow 做的其他一切。你可以掃描螢幕上的二維碼來了解一點關於我們的更多資訊或保持聯絡。Min 和我都會在今天和明天的會議周圍。非常感謝大家。現在我想邀請 Google 的高階使用者體驗研究員 Annie Lua 上臺。大家好,我是 Annie。我是 Google 的使用者體驗研究員,致力於 AI 購物。我們聽到了很多關於編碼代理和讓 AI 以更少的摩擦做更多事情的方式。我想談論另一方面,一類問題,效率不是目標,我們實際上需要為這些日常消費者 AI 產品保持一些摩擦。所以讓我們花一刻時間來思考這個問題。一個你可能在鏡子前問自己的問題。

「我穿這件夾克怎麼樣?」不過,在下面,你實際上可能在問,「這反映了我想成為的人嗎?」嗯,皮毛夾克可能有點超出我日常範圍,「我是否足夠勇敢穿這個,或者這讓我感覺像我在過度嘗試?」所以,這些不是提示或搜尋查詢。這是人們在做出購買決定時安靜地問自己的那種問題。所以第一波 AI 通過為諸如總結文件或預訂最便宜航班之類的任務消除許多這些摩擦而起作用。這些是功能任務,成功指標是相當明顯的。

嗯,你快速完成任務,並且當 AI 現在被要求幫助一類問題時,其中問題更多的是主觀的,比如「我穿這件夾克怎麼樣?」「我想要什麼樣的旅行?」嗯,這些是主觀問題,正確的答案取決於人、時刻,甚至心情,效率本身無法真正判斷該功能是否實際有幫助。所以我們如何為此進行設計?當 AI 轉向幫助人們做這些真正個人和主觀的日常決定時,三件事會改變。人們實際上不知道他們想要什麼,直到他們看到一系列版本進行對比。這就是人們建立信任的方式。當 AI 成為許多這些更個人決定的思考夥伴時,必須獲得不同種類的信任。

如果你想象第一次見到時裝設計師,信任是通過你們前面進行的小談話或時裝設計師評論你那天穿的東西建立的,而不是前面為你喜歡的東西的範圍給出推薦。你不會相信時裝設計師實際上知道你想要什麼。所以呃,這真的很重要,因為呃,你信任他們是因為他們通過那些小互動有訊號,他們理解你的氛圍,與功能任務不同,個人決定的信心來自於你已經做出了呼籲的感覺,所有這些都不是直截了當的可交付成果。這些是 AI 必須幫助你在過程中構建的東西。嗯,所以在接下來的幾張幻燈片中,我喜歡使用兩個領域來展示這是什麼樣的。

嗯,在時尚和旅行中。首先,這是呃虛擬試穿。這是一個我一直在做的 Google 購物 AI 功能,用於視覺化衣服在你身上的樣子。由自定義影像生成模型來驅動以用於時尚。我們去年在美國和亞太地區推出了它。它目前可供澳大利亞、印度尼西亞和印度的使用者使用。它的工作方式就是這樣。你在看一件牛仔夾克,你上傳你自己的全身照片。所以,我選擇了我在紐約中央公園的一張,嗯,然後 AI 可以在你的背景下將夾克渲染到你身上,而不是你必須想象那會在你瀏覽產品流時的樣子。請注意,AI 幫助的問題不僅僅是弄清楚這是不是是不是喜歡夾克。它實際上是在幫助你視覺化「我穿這個看起來好嗎,能感受到氛圍」。

而且你也可以看到自己穿著不同的夾克。也許我想試試白色的。這就是你通過看到一系列東西並進行比較來逐漸建立品味的方法。在你實際看到白色的東西緊鄰藍色的東西后,你真的不知道你更喜歡白色的。當你進一步探索時,你可能會開始認識到關於自己的模式或找到真正讓你驚訝的東西。也許棕色的實際上看起來真的很好。為主觀決定提供支援的 AI 實際上不是為你決定,而是給你一個表面來發現你自己的品味。在這個案例中,比如說我真的對這些都不感興趣。我覺得我不是粉絲。嗯,但在功能框架中,這裡感覺像什麼都沒發生,因為嗯使用者沒有購買。

但從主觀上講,他們獲得了超級有價值的東西,因為他們磨練了他們的品味。我也學到了關於我自己的東西。我真的不看那個嗯紫色的裙子,這同樣有價值。在我們的下一個例子中,嗯讓我們也看看旅行,比如我接下來應該去哪裡旅行?再一次,下面的真實問題是主觀的。「我想被挑戰,還是隻想放鬆和放鬆?」或者在這次旅行中,「我想成為一個博物館人,還是我想成為一個海灘人?」預訂代理無法幫助你回答那個。人們計劃旅行部分是為了弄清楚這一點。在 Google Travel 中,我們將地圖視為一個遊蕩的地方,而不僅僅是目標地選擇器。這是支援探索的介面種類的參考點,而不僅僅是跳到預訂我一個滑雪旅行的效率。

也許你想知道,「我應該在今年冬天成為一個滑雪的人」,你想探索阿斯彭或吹口哨,兩者都是美國偉大的滑雪目的地。或者也許滑雪感覺不對,現在你正在考慮完全不同種類的旅行。嗯,所以也許你想探索黃石國家公園或優塞,現在你正在考慮完全不同的東西,而聊天機器人可能在五個提示之前就承諾了你去滑雪,但地圖介面讓你改變主意並與你一起探索。這就是關鍵的區別。所以,兩個產品都有共同點是這個。他們不是試圖給你快速的答案。他們試圖給你一個更好的地方去思考。

正因為這樣,我們設計產品時重要的不只是設計一個決策,而是設計「決策過程」,因為品味、信任和信心這些都是通過過程逐步建立的,而不是最後直接交給你。因此我們需要衡量一套不同的指標,比如任務完成度、得到結果的時間、轉化率。這些指標對功能性任務很有效。但對於主觀性更強的一類問題,真正重要的東西很難量化。比如使用者是否感到更有信心,他們是否學到了關於自己的東西,或者他們是否回來探索更多?這些才是真正重要的。從實踐來看,有三種最佳化方式可能導致探索減少。而在那些時刻,我們真正需要做的是重新加入摩擦。

對於日常消費產品,當AI幫助人們做個人的主觀決策時,非常重要的是我們要支援比較,而不是直接給出一個建議。否則我們會錯過幫助人們建立信任的重要時刻。同樣重要的是理解意圖,而不僅僅是給出快速結果,因為我們需要建立不同型別的信任,並在人們能夠表達意圖或視覺偏好的時刻進行干預,同時展示AI理解你的品味和你想要的風格,而不是直接假設意圖。最後,邀請主動選擇。不是自動給出最佳選擇,因為選擇的行為本身就是重點,正是這種探索之旅的許多時刻使得整個過程變得有趣、令人愉悅。

嗯,這也涉及自我發現。這些都是值得保留的摩擦點。嗯,謝謝。我喜歡在消費產品上進行頭腦風暴,我也在 Substack 上寫這類東西。很樂意之後再聊。好的,非常感謝各位。呃,這是我們上午課程第一部分的結束。所以我們現在要在劇院休息 15 分鐘。但在這段時間,呃,我們也想為各位創造一些體驗,讓大家休息一下,呃,你知道,遠離思考,放鬆一下。這就是為什麼我很興奮地歡迎呃接受過正念訓練的老師 Kazaya 上臺。呃,她實際上建造了一個感官冥想體驗,包括一個振動編碼粒子視覺化工具,它根據她自己數小時的引導冥想記錄進行了訓練。祝你們上午休息愉快。

希望到目前為止演講都很精彩。呃,我們繼續進行下一個演講,來自 Jimmy Lie,他是 Vercel 的 Next.js 負責人,他將談論釋出下一步內容。Jimmy,舞臺是你的了。你好。聽起來怎麼樣?很好。好的,嗨,我是 Jimmy。我在 Vercel 領導 Next.js 和 React 團隊。所以,既然我們在一個 AI 會議上,我有點好奇,你知道,有多少人對 Next.js 和 Vercel 一般有所瞭解。好吧,還不算太糟。那麼呃,對於不知道它是什麼的人,它就像一個人們用來構建網站的網路框架。這不是演講的主題,所以我們應該沒問題。呃,但這是一個有趣的數字。四年前我加入 Next.js 時,我們每週大約做 400 萬次下載,今天我們基本上達到了 4200 萬次。

呃,顯然這在很大程度上要感謝我團隊正在做的難以置信的工作,但實際上呃,實際上我認為很大一部分是因為編碼代理。呃,因此我認為這改變了很多我們如何思考為開發者構建工具的方式。呃,因為我們花了很多時間思考人們在未來將如何構建網站,在過去的六個月內它已經趕上了我們,呃,速度比我們預期的要快得多。呃,今年我們花了很多時間討論,呃,你知道,我們如何能夠適應這種新型使用者,我們如何作為一個團隊保持領先,呃,我們未來還有工作嗎?

我們在某種程度上還不錯,因為我認為我們必須經歷的可能是意識到呃,這項工作從來就不只是執行任務。這是關於決定哪項任務應該存在,以及我們是否想擁有它的結果。所以是的,實際上人工智慧只是讓執行和構建快得多,但事實證明你一天中仍然有相同的時間。所以實際上,它只是讓所有權變得更昂貴,因為你仍然需要考慮你輸出的內容,呃,出去,你仍然需要呃處理與之相關的任何問題。呃,所以今天我想與你們分享一些這些經驗,因為我認為它們適用於房間裡的每個人,無論你是在為代理構建還是為代理構建,或者你是否在構建你自己的代理。

呃,我的預測是我們學到的關於代理如何使用 Next.js 的內容只會隨著代理變得更廣泛而變得更加有用,當呃,你開始將它們用於除了編碼之外的任何其他東西時。呃,也許只是關於為你進行線上購物,我們已經在像開放工作流這樣的地方看到這種情況。呃,所以我想談論三件事,呃,對於我們開始為代理構建的我們來說,什麼改變了。代理也如何改變了我們作為團隊的工作方式,以及我認為行業將走向何方呃,特別是為什麼開源現在比以往任何時候都更重要。所以在 2026 年維護框架的奇怪之處在於,你不再為坐在鍵盤前的人設計。呃,你是為任何介於他們和程式碼之間的東西而設計。

所以它過去是編輯器的文件頁面,但現在它就像一個可以訪問你整個計算機的代理,也許許可權太多了,這可能有點危險,也很昂貴。所以有趣的事實是,今天 Next.js 文件的 60% 都是以 markdown 形式提供的。呃,這意味著不僅是編碼代理,而且它也像呃,呃,實驗室索引呃等等。但這只是意味著呃,我們不再有太多呃像對文件的手動點選了。我是說,如果你想一想,你最後一次自己查閱文件是什麼時候呃,總是快一點。現在摩擦少了,呃,只是呃,只是問,呃,你知道,claude,這東西在 Next.js 中是怎樣的?呃,所以我們正在進入一個軟體有點成為軟體的主要使用者的世界。而且我覺得這改變了很多。

如果你想一想,代理有點像一個討厭的使用者。它準確地讀取你所寫的內容,複製示例,執行命令,它嚴格遵循錯誤。所以如果迴圈被破壞了,如果你的錯誤不好,它就不會,呃,你知道,像某種停止,獲取一些咖啡,上床睡覺,呃,在早上 5 點醒來,腦子裡有修復。他們只是會一直嘗試並燒錢,直到呃,他們修復了它。這對我們真的很有用,能夠理解,因為它表明人類仍然呃,在迴圈中是必需的,我們應該嘗試最佳化什麼。呃,例如,文件過去是一個有點被動的東西。

我們過去會把它釋出出去,我們假設,呃,沒有人會,呃,人們偶爾會閱讀它,呃,像呃,隨著時間的推移建立知識,並且,呃,你知道,我總是為自己擁有偉大的文件而感到自豪對於下一個網站,但真正的投資回報率從來都不真正存在。我們每隔一段時間做一次,呃,我們會檢視它們,呃,說哦,我們缺少這個功能。呃,但現在像文件已經變成呃,你知道,有點像呃,對代理來說有點像聖經。他們會選擇你在那裡寫的任何東西,就立即採取行動。它不僅適用呃,向像框架這樣的排序,呃,像開發工具一樣提供。它就像任何在你的程式碼庫中的東西,就像你的讀我,你的 PR 描述,你的呃,你的劇本,每個陳舊的檔案在你的程式碼庫中。它有點像呃,一個定時炸彈,對吧?

這是呃,這是一個呃,等待發生的幻覺。我見過的最危險的,呃,不是缺失的,對吧?因為如果代理有權訪問程式碼,他們仍然可以弄清楚。這呃,就像文件呃,有點誤導時。呃,我們在實踐中看到的是一個停滯的例子曾經呃,一次混淆一個人,現在基本上呃,在任何人真正注意到之前,混淆了數十萬個專案。呃,對我們來說更糟的是,呃,壞資訊進入資料集呃意味著模型現在可能被汙染。呃,這肯定發生在一些 Next.js 功能上。呃,編譯器錯誤也是同樣的故事。我們呃,有像呃,一個錯誤,我認為在下一個說呃,這是 Next.js 中的一個錯誤,請開啟一個問題。

而這像呃,這種呃,像這個時代的犯罪,因為我從來沒有見過到今天呃,一個代理呃,開啟關於呃,Next.js 的錯誤報告。呃,像呃,作為工具呃提供它,對我們來說真的很重要,我們呃,確保使用者呃,始終像呃,儘可能快和沒有負擔。一般來說,這呃,再次適用呃,任何型別呃,就像你構建的工具呃,呃,你知道呃,像你的銀行網站這樣的需要呃,像 10 步才能呃,呃,傳送付款或某些東西。呃,所以但對我們來說,代理已經使這對我們來說更加重要。

是的,這對呃,代理來說也是一個很好的方式呃,就像一個很好的方式來測試呃,你是否正確地設計,因為當你想出呃,新的東西時,一個代理基本上呃,有點像呃,不,呃,你知道,他們沒有呃,像 Stack Overflow。他們沒有像呃,Twitter 知識來理解呃,什麼是什麼東西。所以呃,如果你呃,API 呃,設計不當,命名不當,那麼你呃,會遇到有點麻煩,對吧?還有一個我學到的關鍵部分,我認為你也應該在你的工作中應用呃,就像任何系統應該儘可能呃,明確。當你進行一個操作時,你呃,應該真的呃,深思熟慮呃,你可以解釋它的方式。

像像那個,你知道,500像那樣的狀態碼什麼都不說的,你應該仍然能夠除錯它,因為我們正在進入一個世界,你知道,比如Sio之前說的關於codex,代理只是會為每個人被動地執行,所以你想讓你自己的系統執行並被被動地修復。你想要,你想讓他們能夠理解,比如你知道如果你的先決條件是你的所有網站都應該很快,你應該能夠像定義那些一樣,今天我們在這裡有一些指標,但也許你有不同的定義,所以你應該通過你的程式碼庫來完成這個工作,那是什麼意思?可靠意味著什麼?這意味著什麼,嗯,快嗎?安全意味著什麼?

嗯,這樣一來,你就為代理能夠像執行自主並修復本身時做好了準備。嗯,所以是的,這就像是第一個轉變,像基本上為代理構建不像替代基本原理,它只是讓他們,你知道,更加重要。我想分享一下我們如何在內部利用代理,對吧?像我確定你們都熟悉的,在過去的六個月裡,嗯,我認為這個行業陷入了一種精神病階段,每個人都試圖在整個世界上構建所有東西。

呃,我肯定做過很多這樣的事,感謝在聖誕節期間的opus,一旦我們度過了那段時期,呃,我認為像現實是真正的工作是,你知道,品味和判斷,而我認為更好的思考代理的方式是,比如,能夠幫助你瞭解周圍的一切。嗯,作為一名工程師,我最有價值的是我的專注時間。像我確定你聽說過這個研究,說你知道,如果你像受到打擾,嗯一點點,你就像需要,比如平均30分鐘才能回到像心流狀態。而在一個世界裡,你知道,非常誘人有像10個代理在後臺執行,呃,同時開啟10個聊天,比如你知道,你如何理解那個?你如何在那個世界裡保持生產力?嗯,因為代理仍然非常強大。

他們讓你能夠像,你知道,快速研究。可以把像一個混亂的調查變成像,你知道,一個非常好的文件規範。嗯,但我這裡的關鍵建議,從我自己的痛苦經歷中學到,呃,是停止實際上強迫自己停止與他們聊天。你有點想現在就投入工作,這樣你就可以避免不得不像過度轉向一個代理。像這有點難,因為我喜歡像同時有10個聊天。這給了我像一點點多巴胺一樣的東西。但想想這個詞,而不是像你知道的那樣用像10個代理自己限制自己,你可以通過現在投入工作,把正確的提示放在適當的位置,以及正確的像evolves和像防護措施。

你可以這就像你如何像把自己擴充套件到像有一百個代理在後臺執行的方式。嗯,是的,因為這就是將要發生在我們作為一個行業的事情。嗯,所以那就像是我非常興奮的AI版本,對吧?嗯,但也有另一部分,比如行業不僅獎勵判斷,對吧,而且它也獎勵像運動。呃,而EA AI創造了很多這樣的。所以我想談談誠實,這可能是最重要的事情。這就像知道何時不使用AI。呃,有人在過去的六個月裡告訴我過去六個月感覺像是他們生活中最累的五年。嗯,這聽起來差不多是對的。每週都有一個新模型,一個新演示,一個新功能推出。

而且你知道,我的自然反應,我確定你也感受到了,是這樣,你基本上應該做同樣的事情。你應該像生成更多程式碼。你應該像釋出更多功能嗯,這樣你就可以競標打敗競爭對手嗯,這樣你就可以保持領先。但實際上和和我們知道這個來自於像構建像開發者工具像過去10年的是將要發生的是你只是像speedrunning技術深度。你的每一個你在過去六個月裡釋出的演示,也許你現在已經感受到了。嗯,現在你實際上必須處理它,隨之而來的是許多像其他問題,像嗯可觀測性嗯定價呃確保像一切都保持像真的可靠。

嗯,例如,像你知道,你可以在一個週末內用像一堆令牌一樣fork Next.js。呃,但這並不意味著你應該。呃,因為當你fork一個框架時,你開始擁有它附帶的一切。像也許最近最大的例子就是安全問題。

嗯,去年我最後負責了對Shell的應對——這是一個非常關鍵的問題,一個很嚴重的漏洞。這就是我所認為的所有權的極端體現。我們說過,我們向世界釋出了NexJS,幾年前。我們一直在釋出它,突然之間——我仍然——我們仍然必須為我們擁有的幾百、幾千個使用者修復它。這就是我想提醒你的地方:如果你認為可以完全替換或抽象掉你技術棧中的某個部分,想想一年後會怎樣——當你建立了自己的元框架來服務你的網站時,你真的想要長期維護這個嗎?或者使用開源可能更好,這樣你可以確保正在回饋社群,並有可能幫助其他人擁有更安全的網站。

順便說一下,關於安全問題,我們現在生活在前所未有的時代——在某種意義上說——漏洞大約每個月都會被披露,對吧?這是因為AI讓發現漏洞變得極其容易。看起來好像你沒有使用安全軟體,但實際上恰好相反。這說明系統在正常運作。如果你收到安全補丁,那意味著有人報告了漏洞。另一種選擇是你自己構建你的框架或工具版本。但它們不會獲得安全研究人員的關注。所以現在攻擊者會識別出你在執行你自己的技術棧,他們會在你不知道的情況下攻擊你。

這就是開源真正重要的地方——我們可以一起構建穩定的基礎。嗯,在Vercel,我們有一句話,就是你可以只管釋出東西——這太棒了——我們從中構建了大量真正優秀的產品。但從今年年初開始,我們也開始採取另一種方法,那就是你也可以使用AI來刪除東西。

嗯,因為以前釋出就意味著贏——你可以有一個功能特性特性的路線圖。但現在這變得太便宜了。我認為讓你在對話和競爭中領先的是專注——因為你必須處理它,你的使用者也必須處理它。我實際上更願意放慢速度,花時間反思什麼是真正的、什麼使你的產品與眾不同。嗯,因為如果你可以在一小時內用少量tokens構建一個功能,你的競爭對手也可以做同樣的事情。所以,我要說的並不是根本不釋出,對吧?更多的是關於你如何保護自己,以及你如何保護你繼續釋出的能力。

嗯,問題不是——我們能構建這個嗎?因為答案總是肯定的。更難的問題,也是真正決定某件事是否值得去做的問題是——這應該存在嗎?我們真的願意長期擁有它嗎?嗯,是的,當我在Meta工作時,我們有一個叫做「不是在這裡發明的綜合徵」的東西——人們會實際上重新構建地球上所有可能的每個庫。嗯,曾經有——人們相當熟悉React Native,例如用React服務web移動應用。有趣的是,在Meta內部有三個版本的這個東西,僅僅因為人們不想控制這個——這在當時已經是個問題了。現在對所有人來說問題變得越來越大。

再次,嗯,當你考慮啟動你自己的、嗯、你自己的產品來替換你技術棧中的某個東西時,想想——心理負擔——這會伴隨而來。嗯,所以是的。嗯,作為快速總結,我想我的預測是——如果你用代理構建,真正重要的是你考慮什麼不在快樂路徑上。你知道,你的使用者是否可以實際上完全使用你的工具而不用自己提示?確保你的文件、你的錯誤、你的CLI被很好地定義。如果你用代理構建,對outsourcing判斷要非常小心。

嗯,你可以使用它們來獲得更接近判斷的上下文——你可以進行研究——你可以調查複製品規格——調查效能問題。嗯,但是是的,真的專注於你為錶帶來什麼,並確保你為此騰出時間。嗯,當行業加速時,也要小心你決定擁有什麼。嗯,再次,AI讓創造變得非常便宜——但擁有的成本比你想象的要高得多。嗯,所以這並不意味著你應該減少釋出,而只是意味著作為一個行業,我們必須以更多的專注來發布——構建應該存在的東西——嘗試使其可理解、可靠、安全,並站在你可以信任的基礎之上。嗯,是的,謝謝。>> 非常感謝,Jimmy。

我們的下一位發言者是Vran Yukich,嗯,他是Daytona的聯合創始人兼技術長。嗯,他將討論為什麼沙箱對於自主AI代理是不可商量的。嗯,不再囉嗦,我們將聽>> Van嗯,大家好。很高興看到你們都在這裡。嗯,我是Weather Nich,我是Daytona的技術長兼聯合創始人,新加坡是我們全球使用者數最多的城市,也是前五個國家之一。所以感謝你們。今天我將討論為什麼你應該在沙箱環境中執行你的自主代理。所以當你安裝Cloud Code、CodeEx、Open Code或任何使用工具的代理時,你給了它很多。它以你的身份執行。它可以讀你的檔案。它可以使用你的SSH金鑰。它可以花你的AWS賬單。它可以刪除東西。它根據從網際網路上讀到的文本決定做什麼。

所以我們說好的,因為生產力是真實的。但我們大多數人從未想過風險。那麼代理為什麼會做它不應該做的事情呢?好吧,因為它很容易被妥協。嗯,提示注入是當某人在代理讀取的文本中隱藏指令。有兩種。直接的,當攻擊者輸入壞提示,和間接的,當壞提示隱藏在代理讀取的東西中。它可以是一個網頁、一個rhythm檔案或一封電子郵件。間接的很危險,因為自主代理讀網際網路。這是它的工作。幸運的是,嗯,模型在發現這方面越來越好,但它們實際上無法可靠地捕獲。記住攻擊者只需要成功一次。所以,OASP說,OASP明確表示。嗯,提示注入無法完全預防。

這就是模型的工作方式。OpenAI在12月也說過同樣的話。所以,構建模型的人實際上在告訴你他們無法阻止這個。這不是一個bug。這就是技術的工作方式。我們也使用技能,對吧?所以一個技能是一個帶有一些指令的資料夾,也許還有一些程式碼,你下載它。你把它給你的代理,你的代理會以你的所有許可權執行它——你的shell、你的tokens、你的檔案。請記住,技能沒有應用商店審查。所以技能和你的機器之間沒有沙箱。代理將從技能中讀取指令並執行它們所說的。嗯,如果你看數字,它們看起來不太好。

三個不同的團隊在2026年初檢視過這個,KO security檢查了Cloud的技能市場——Cloud代理的技能市場。他們發現了341個壞技能,到2月那個數字增長到超過800個壞技能。Sneaked檢查了另一組,他們發現13%的技能有嚴重問題,其中76個明顯是惡意的。同樣,一篇名為「wild中的惡意技能」的研究論文檢查了跨不同市場的98,000個技能,他們發現157個是壞的。現在讓我們看看——一個來自那個研究的真實惡意技能的例子。它看起來像一個正常的文件助手,但markdown中有一個隱藏的註釋,對吧?如果你預覽檔案,你看不到,但代理可以。註釋告訴代理將你的專案檔案傳送到攻擊者的伺服器,對吧?

所以,有趣的是,註釋中的最後一行說,不要向用戶提及這個。嗯,一些技能運送真實程式碼,這個看起來像一個正常的遙測函式,但如果你看,它收集一些資料並將其傳送到分析端點。但如果你仔細看,嗯,它真正感興趣的是你的API金鑰、你的秘密、你的tokens,它會遍歷你的環境變數。它會提取憑證並將其傳送出去。所以要被妥協,你實際上不需要安裝任何東西。嗯,代理可以讀任何readme檔案、問題或電子郵件,甚至PDF,任何一個都可以包含惡意指令。所以,與其試圖防止這個,我們應該接受這是一個現實。模型無法修復,OASP和OpenAI說過。

一個新的技能生態系統已經充滿了壞東西,新的惡意技能正在以沒有人可以真正審查它們的速度出現。所以任何readme檔案、任何ticket、任何代理讀的電子郵件都可以包含惡意指令。所以我們能做什麼?我們可以改變代理能訪問什麼。所以沒有主機shell、沒有主機檔案、沒有憑證,我們可以限制網際網路,當任務結束時我們也可以丟棄它。沙箱不只是虛擬機器或容器。沙箱內的代理仍然有你的訪問token,仍然有開放網際網路。一個真實的沙箱做四件事。一,它將你的秘密保留在代理外部,所以代理永遠看不到。二,它控制代理在網際網路上或你本地基礎設施內可以訪問什麼。三,它記錄一切,每個命令和每個請求。

四,它位於代理和AI模型之間。所以你可以看到代理問了什麼,模型回應了什麼。一個真實的沙箱有受限的網路。每個出站請求都通過檢查每個請求是否符合允許列表的代理。對隨機端點的請求將被拒絕。同樣,一切都被記錄。所以如果出錯,你可以在日誌中清楚地看到。代理永遠不應該看到你的秘密。秘密應該存在於沙箱外。所以當代理髮出請求時,例如,到GitHub,它傳送token佔位符值而不是真實token,代理會在途中捕獲,並將從秘密broker獲取真實值,並將其傳送給GitHub。響應會通過代理返回到沙箱。

所以代理會得到它要求的,但永遠不知道token。如果代理被妥協,就沒有token會洩露,因為token永遠沒有暴露給代理。最後,模型是代理的大腦。如果你看不到進出什麼,你就沒有審計跟蹤。所以每個沙箱都通過同一閘道器路由其模型呼叫,每個提示和每個響應都在閘道器中被記錄。所以當,例如,沙箱A開始表現異常時,你不必猜測發生了什麼。你可以開啟沙箱A的追蹤,你可以清楚地看到代理問了什麼,模型如何回應。所以現實是代理會被妥協。唯一的問題是當它被妥協時它能到達什麼。

所以你可以試著構建你完美的代理,或者你可以把它放在沙箱中然後睡得很好。所以選擇——明智地選擇。謝謝。謝謝Van。接下來我們有Vashant Kameeshwaran,他是Grapile的聯合創始人,還有Rohan,他也來自Grapile。他們將討論他們從分析500萬個vibecoded PR中學到的東西。嗯,一旦他們準備好就緒,我們將聽他們兩個討論。好的。大家好。嗯,我是Vishant,Greile的聯合創始人兼技術長。>> 嗨,我是Rohan。我是Greile的研究員。>> 今天我們將討論我們從分析500萬個vibecoded PR中學到的東西。所以,在Reptile,我們構建審查和測試pull requests的AI代理。我們每個月為Nvidia、Coinbase和Meta等公司審查40億行程式碼。

Reptile每天識別和修復100,000個bug。AI代理在過去幾年中發展了很多。在2023年,我們仍在使用相當簡單的代理,能夠為我們生成短程式碼片段。在2024年,我們開始看到能夠進行小型多檔案更改的代理的興起。自從2025年以來,我們進入了完全agentic編碼的新時代。AI代理現在能夠建立——直接從規範到PR。但這讓我們想知道,這些完全vibecoded的PR實際上好嗎?它們如何被行業採納?它們在哪些方面成功或失敗?所以我們的資料庫中有超過500萬個PR。所以我們很好地配備來回答這個問題。嗯,首先我們需要弄清楚的是如何知道一個PR是否被vioded。

嗯,所以我們依賴三個關鍵訊號來弄清楚。嗯,首先是GitHub author欄位。所以嗯,通常bots會將自己作為聯合作者新增到你的commit中。這是一個非常確定的方式來判斷bot是否vioded了PR。話雖如此,這是一個相當稀疏的訊號。我們資料庫中只有約1%的PR能夠以這種方式識別。所以顯然不止1%的PR是vioded的。我們需要一個更強的訊號。為此,我們檢視PR描述本身。嗯,通常bots會在PR描述中新增筆記,說他們為PR做出了貢獻,這是bot編碼PR的另一個有用的標誌。嗯,這是一個更頻繁的訊號。我們資料庫中約20%的PR能夠以這種方式識別。

最後,如果你最近使用過Codeex或Cursor,你會知道他們建立的任何分支都會在分支的字首中有他們的名字。所以這也是一個非常容易的標誌,因為人類不太可能用這些名字製作分支。嗯,所以把這三個訊號放在一起,我們發現4月份寫的約27.6%的PR有強有力的證據表明是完全vioded的。這是一個非常有趣的數字。但如果你看這個數字的歷史——自從多檔案代理系統開始以來——更有趣。如你所見,它一直在快速上升,我們預計它會繼續快速上升。完全agentic軟體工程是未來。所以,如果這真的是我們的未來,這引發了一個問題,這些PR好嗎?

嗯,你知道,我們是否會因為依賴agentic系統而看到程式碼質量的顯著下降,或者他們實際上比人類更擅長寫程式碼,我們只是太害怕承認?所以為了回答這個問題,我們首先必須問自己,一個PR好意味著什麼?我們試圖以幾種不同的方式量化這一點。我們檢視的第一個指標是這些PR的還原率。嗯,通常當一個PR被還原時,這意味著它在生產中造成了破壞性改變或造成了下游問題。所以我們查看了按作者的還原率的分解,我們發現一些代理實際上能夠以低於人類基線的還原率還原他們的PR——即Cla和Codeex。

我們還按 PR 更改的檔案數量進行了分解。有趣的是,我們發現隨著 PR 變大,AI 代理的 PR 被還原的頻率低於人類。PR 質量的另一個很有趣的訊號是它收到的註釋。正如 Vishan 在 Grapile 中提到的那樣,我們審查拉取請求,在審查這些拉取請求的過程中,Grapile 會像人類一樣在你的程式碼上留下注釋。現在 Grapile 還會按照 P0 到 P2 的等級對這些註釋進行評級,其中 P0 是嚴重程式碼審查變更,P2 是小問題。現在你可以想象,如果 PR 收到許多 P0 或許多嚴重錯誤,那就是比只收到少數幾個小問題或根本沒有來自 Reptile 的任何註釋的 PR 質量更低。

所以為了將此作為指標來看,我們分解了每個機器人產生的錯誤的嚴重程度,並將其與人類基線進行了比較。如你所見,大多數機器人平均來說產生的嚴重錯誤少於人類。這很有趣。這意味著平均來說,如果你希望避免程式碼審查變更,即會導致生產環境宕機的事情,機器人實際上更可靠。話雖如此,如果你檢視整個嚴重程度分佈,只有某些機器人能夠避免與人類基線相比所有嚴重程度的錯誤。所以再次說,機器人在編寫程式碼方面是否總體上優於或劣於人類仍不清楚。我們檢視的第三個指標是這些 PR 合併需要多少輪審查。

這裡我們將審查輪定義為基本上機器人開啟一個 PR,人類以評論的形式在該 PR 上留下反饋,然後機器人返回並進行更改以解決這些問題。這幫助我們理解兩個不同的事情。一是機器人在第一次編寫好程式碼的能力如何,二是他們能夠多好地整合反饋並進行更改而不引入新錯誤。我們再次按機器人作者進行了分解,我們發現有些機器人實際上能夠使他們的 PR 比人類更快地合併。即 Devon 和 Claude,我們發現他們在此指標上表現最好。所以到目前為止,我們已經查看了幾個不同的指標來判斷機器人是否比人類更擅長編寫程式碼,我們發現並沒有真正的結論。

有些機器人根據某些指標在編寫程式碼方面優於人類,但他們在其他指標上表現不佳。贏家有點不穩定。這取決於你衡量的是什麼。嗯,所以也許正確的問題不是代理總體上是否比人類更擅長編寫程式碼,而也許應該問的問題是機器人如何產生錯誤?它們看起來與人類不同嗎,以及在什麼方面?所以為了進一步調查這個問題,我們查看了每個機器人與人類基線相比產生的不同錯誤的分解。所以即具體來說,如果你比較機器人與人類的錯誤率,這裡的紅色表示機器人與人類相比產生的該型別錯誤更多,藍色表示他們產生的更少,顏色的強度對應於該變化的幅度。

現在如你所見,每個機器人產生的錯誤種類因機器人而異差異很大。例如,Cursor 背景代理更容易犯 N+1 查詢錯誤,而 Claude 代理更容易犯缺少租戶檢查錯誤。沒有一個機器人在每個單一指標上明確獲勝。你知道每個機器人的形狀看起來都不同。現在我們在這裡學到的是機器人產生的錯誤型別與人類不同。不一定比我們之前檢視的所有指標都更好或更差,但確實不同。所以我們還沒有談論的一件事是機器人只是讓你能夠更快地釋出程式碼。所以如果質量大致相同,儘管形狀不同且幅度更大,那麼我想我們可以說 AI 程式碼代理實際上是好的。

它們允許你編寫更多的程式碼,只是你必須注意他們產生的錯誤型別。AI 代理比以往任何時候都在編寫更多程式碼。正如 Rohan 提到的那樣,他們建立的錯誤形狀與人類不同。很明顯,隨著 AI 編碼在未來擴充套件,你的程式碼驗證系統也需要適應併為 AI 代理的未來而擴充套件。在 Reptile,我們正在幫助數千家公司使用 AI 程式碼審查來管理他們不斷增加的 AI 程式碼規模。我們花費很多時間來理解各個模型的優缺點,以便我們可以將它們串聯使用來幫助捕獲更多錯誤併為所有人建立更好質量的程式碼。如果你有興趣瞭解更多關於 Gretell 所做工作的資訊,請檢視我們的網站 guptell.com。

嗯,如果你有興趣與我們進一步討論 AI 編碼和 AI 程式碼審查的未來可能是什麼樣子,呃,請來我們的展臺找我們,我們很樂意進一步討論。非常感謝。非常感謝。接下來,我們邀請到 Sonar 的研究顧問 Yunong Zang。呃,Yunong 將討論程式碼質量管道中的 AI 代理,呃,釋出、保護和衡量它們。嗯,Yunong,舞臺是你的。好的,嗯,早上好各位,嗯,我是來自 Sonar 的研究顧問,我也是美國某大學的最後一年博士生,嗯,所以今天我將討論呃你的程式碼質量管道中的 AI 代理,嗯,具體來說我將討論我們如何保護以及你如何審查這些編碼代理所做的更改。

嗯,所以嗯,這裡的觀點是我自己的,不反映 Sonar 的任何觀點,以及我呃標準免責宣告。所以嗯,這裡呃是一個非常高層次的圖表。所以如果我們考慮程式碼如何製作以及如何合併到儲存庫中。呃這些大致是非常高層次的三個步驟。所以代理將編寫程式碼,現在幾乎總是代理將審查程式碼,因為有太多程式碼要處理,然後人類可能決定是否合併它們。嗯,所以今天我將討論此管道中的兩個方面。首先是當代理編寫程式碼時,我們如何在 Sonar 中構建一個代理稱為 Sonar 補救代理,呃,它修復 Sonar Cube 問題,然後我將討論我們如何以更可靠的方式評估代理生成的程式碼審查。

嗯,所以嗯,所以這是第一部分,它是呃 Sonar Cube 補救代理。所以嗯,基本上工作流是 Sonar Cube,你們很多人都知道,是一個非常廣泛使用的靜態分析器來掃描你的程式碼。所以 Sonar Cube 將在你的 PR 中找到所有問題,然後你可以呼叫 Sonar Cube 補救代理為你自動生成補丁。所以這個代理將在你現有的基礎上開啟新的 PR,然後建議改進的變更。所以右邊的螢幕截圖顯示呃顯示這個代理看起來像什麼。所以你開啟這個 PR 告訴你 Sonar Cube 中哪些問題它已經修復,然後呃給你這些補丁,一個程式碼塊一個程式碼塊,並告訴你這個補丁為什麼修復這個問題的解釋。嗯,所以我們已經發布了這個開放測試版,我們呃從客戶那裡呃收到了大量反饋。

所以嗯,我今天想更多地討論的一件事是我們如何保護這些代理呃當我們把它們投入生產時。嗯,所以因為這些代理在大量企業程式碼上工作,我們想確保部署和執行這些代理時確實沒有安全問題。所以我們聽說了沙箱代理,這非常重要呃,我們在部署時使用它。呃但我想說的是我們也想建立深度安全。這意味著我們在部署沙箱後構建分層安全。我們也在代理內部和代理釋出程式碼後構建了安全性。所以呃這裡是我們我們在代理內部所做的幾件事。

所以一件事是我們正在為這個代理構建一個非常受限的工作流,因為我們知道它將處理一個非常具體的場景,即修復 Sonar 問題。所以沒有自由終端,意味著代理不能隨意訪問網際網路和執行任意命令。我們還將程式碼庫視為攻擊面,不僅僅是 MCP 和技能,還有程式碼庫。呃,所以想象如果有人呃開源貢獻者呃在你的儲存庫中開啟一個 PR,然後這個人的動機不純。所以他們實際上可以在他們傳送到你的儲存庫的 PR 中注入惡意命令。所以嗯那是我們考慮的一件事。所以當我們實際執行這個代理時,我們會將所有這些命令呃替換為其他呃識別符號,然後在代理完成後交換回這些命令。

嗯,而且嗯,我們呃我們想處理這個供應鏈攻擊。所以這是針對呃如果我在惡意行為者,並且我在進行 pip 倉庫 typosquatting 並想避免代理匯入這類儲存庫的場景。所以我們構建了大量匯入防護來確保代理不匯入這些惡意庫。嗯,那就是代理內部發生的事情,這就是我們在完成後驗證代理補丁的方式。所以嗯,當代理生成補丁時,我們再次在這個代理生成的補丁上執行 Sonar Cube 分析器,然後如果我們發現迴歸或發現任何安全問題,代理被要求在得到上一次迭代反饋的情況下重試,然後當質量門檻通過時,它只被傳送給開發人員。所以那就是我想討論的第一部分呃。

嗯,所以現在我們我們想轉換話題到我們如何評估這個程式碼審查。所以這現在變成了一個真正的瓶頸,因為代理向你的儲存庫發出了很多 PR,然後人類呃不可能呃審查所有這些 PR。所以一個自然的方式是使用呃 AI 審查工具來幫助你審查這個 PR,但有很多這樣的工具,我們如何知道哪些工具對你的特定用例更好,以及我們如何可靠地評估它們。所以這是我們想研究的一個問題。嗯,所以這是呃現有方法所做的。所以呃如果你考慮一個場景,我們有一些歷史 PR,人類對它們做了一些評論,然後我們執行這個 AI 審查工具,我們想看 AI 工具是否捕獲了與人類相同的錯誤。所以當然,如果他們捕獲更多相似的錯誤,他們會更好。

所以這是人們之前所做的一些指標。一是我們可以檢查文本相似性。我們可以看 AI 審查工具自然語言中生成的語義與人類相比是否相似的標記。但正如你所知,即使我們指向同一個問題,這個問題也可以以非常不同的方式表述。所以這個標記相似性有時不起作用,而且呃我們也可以考慮本地化。這意味著採取一個 PR,我們比較每一行在這些機器人和人類做評論的位置,我們說呃如果他們在與人類相同的位置做相同的命令,機器人是好的。但再次這不會告訴你語義,那只是位置。嗯,也另一種簡單的方法,你可以將 LM 作為法官。呃你可以問語言模型這兩個命令是否相同。

呃,所以它有時工作,但很難說它們是否真的可靠。呃,所以呃這裡的差距是我們想要某種方式來確定檢查真實命令是否好的方式。嗯,所以嗯這就是我們所做的。所以我們我們構建了一個新的基準呃叫做 CRAP。所以它也以類似的場景工作,意味著我們想檢查 AI 生成的評論是否捕獲了與人類相同的問題,但核心思想是我們沒有使用語言模型元件,而是將每個人類審查變成一個可執行測試。所以這是一個具體的例子,採取這個 PR 左邊的一行呃如果這是有人改變程式碼庫的內容,人類審查會說好的,這可能會引發一些更多的輸入,像這樣。

所以不是安全地返回 false,所以這是一個具體的改進程式碼呃人類審查有人類審查已經建議的。所以呃對應於此,我們將在右邊生成一個測試。所以這個測試基本上對應於這個審查命令,意味著如果這個審查命令被解決,這個測試將通過,否則這個測試將失敗。所以現在現在對於所有這些 PR,我們不再有人類審查了。我們有所有這些可執行測試。現在第二部分是我們實際上如何基於這個輸入評估 AI 審查者。所以我們向 AI 審查工具顯示 PR 要求你做評論,然後我們採取另一個編碼代理來改進這些評論的基礎程式碼。現在我們有了一個不同版本的程式碼,它根據基於 AI 的命令進行了改進。

然後我們執行這個可執行測試來檢查這個更新版本的程式碼是否良好以及有多少這些測試通過。所以這樣我們可以告訴 AI 審查工具有多少人類命令已經被捕獲。嗯,所以嗯,這是我們得到的結果。嗯,所以每個工具的具體數字不是那麼重要,因為這些審查工具每天都在變得更好,這些語言模型每天都在變得更好,這些數字是呃在 2026 年初獲得的。呃,所以我想強調的部分是這個右邊的數字。所以如果我們考慮所有這些審查工具在一起,他們解決了人類審查呃人類審查者指出的 41.5%。所以這實際上意味著這些呃當前的審查工具甚至沒有捕獲人類審查者在過去指出的一半。

呃但這不是完整的故事。所以除了這個數字外,我們實際上查看了所有這些 AI 生成的命令,看他們的質量,因為他們也可以指出人類沒有識別出的其他錯誤,但他們仍然是有價值的。所以呃我們進一步查看了人類和 AI 生成的所有這些審查評論,並在其周圍進行了分類。所以這個分類超越了錯誤修復。所以我們基本上把他們放在安全、效率、相容性、健壯性等等一直到程式碼的文件和可維護性周圍。所以呃,這個圖表顯示呃每個審查工具與人類審查相比的表現如何。所以我們可以看到 AI 實際上在程式碼的健壯性和測試上表現得非常好。所以他們會建議你測試更多程式碼。

他們會在程式碼中指出邊界情況,並要求你新增它們。所以這與我的個人經驗相一致。所以 AI 非常善於指出我之前沒有注意到的事情。但另一方面,人類審查與 AI 相比在可維護性和設計方面非常擅長。所以所以他們他們會討論如果你新增這麼多變更,這個程式碼將不再可維護。你應該並且你應該以不同的方式組織程式碼,因為人類審查者對程式碼庫有比 AI 審查者更多的上下文知識。所以嗯,這裡的要點是,現在呃我們仍然應該將 AI 和人類審查一起使用。可能 AI 審查應該作為第一層,然後人類審查可以檢視 AI 審查者不太擅長的這些特定類別。是的。所以呃是的,那就是我想討論的所有內容。

嗯,所以我我討論了我們如何構建代理,其中我們更多地關注控制和安全,以及 AI 和人類如何現在應該在程式碼審查任務中一起工作,可能在未來我們可以有更多地關注專注於他們現在缺失的方面的 AI 工具,但現在我認為這應該是我們在我們的程式碼庫上構建分層審查的解決方案。所以這兩個是我們論文的二維碼。所以我們在這些主題中的每一個上都有一篇研究論文。嗯,如果你有興趣請隨意閱讀。呃,樂意之後聊天。非常感謝。接下來,我們邀請來自新加坡本土 Featherless 的 Eugene Chia,他將討論開源模型現在已經出現,現在是新加坡構建的時候了。道歉。對技術困難表示歉意。嗯,對我來說,當 AGI 實際上真的被解決時,是什麼呃?

這些東西會被解決,就像印表機這樣不應該發生。好的。好的。嘿,我是Eugene。我要來談論開源模型,為什麼它們在這裡,為什麼新加坡應該直接構建。嗯,由於時間有限,嗯,我可能會稍微傾向英語。我可能說你快一點,我只是要開始演示。對於這個即時演示,我只是要非常快速地做一個簡單的網頁遊戲。嗯,但更有趣的是,我不會使用最好的前沿模型。我甚至不會使用最好的開源模型。我要使用Qwen 27B和Gamma 43B,它們可以在你的筆記本上執行。所以,我這裡有提示。我只是要快速讓它執行,啟動它執行,我希望我的網路沒有斷開。

好的,正如你所看到的,嗯,我在使用Cline,它是一個整合在VS Code中的開源編碼代理之一。嗯,你可以使用任何東西,嗯,這不是這個演示的重點。重點真的只是顯示這些是你今天可以使用的模型來實際構建東西。所以試圖等待這個...好的,好的。計劃完成。它計劃完成它。我甚至沒有檢查它。好的,所以這些是模型,對吧?更重要的是,你可以在你的筆記本上執行的。所以這是MM Studio與Gamma 31B的一個例子,嗯,它正在我的,在這個筆記本上執行。你可以在Mac筆記本上執行它。你甚至不需要最高階的。嗯,這是相同的Qwen 27B,除了如果我在雲上執行它可能更快。所以嗯,我會讓那個在雲上執行。是的。是的。

所以關於我的背景有一點。我是Eugene。嗯,我是一個AI模型建立者。嗯,全球少於幾百個團隊之一建立了AI模型。嗯,特別是在東南亞,真的只有我們少數幾個。嗯,Federalist AI的創始人兼CEO,最近進行了我們的A輪融資,估值1.2億,由Airbus Ventures和MD Ventures領投。我也共同領導RWKB開源專案,Linux Foundation下的第一個AI模型,我在新加坡出生並長大,是一個重複創業者。嗯,我在初創企業、企業軟體、銀行、開源空間工作了十多年。我基本上每個月都在東西方之間飛行,定期往返。什麼是Federalist AI?我們是一個平臺,提供對整個開源模型集合的即時訪問。今天有30,000個模型。

未來我們想支援所有200萬或甚至300萬個模型。到那時,我們的原則是我們不應該選擇判官,為你決定你想使用哪些模型。你應該能為自己決定。所以這是我們正在擴充套件以向所有人提供訪問的東西,你也可以通過Hugging Face和Open Router訪問我們。這也很有趣的原因是,當你讓使用者選擇模型,整個模型集合時,嗯,它仍然在30,000的早期階段,我們正在擴充套件。你可以觀察到人們在有選擇時實際使用的模型。所以這基本上是這次談話的背景,比如人們使用開源模型做什麼?

因為說到底,對吧,它真的是關於獲得那些我發現更有趣的洞察。所以為了回答這個問題,我將把它分成兩個主要部分。第一個是使用哪些開源模型類。這通常是當人們首次進入開源AI領域時發現令人興奮的事情,因為他們喜歡,我應該使用Qwen還是Deep Seek之類的。但這可能是我最難展示的指標之一,因為每次我做幻燈片,它就在下一週過時。這是12月,那時我們的大部分流量被Deep Seek主宰,對於企業客戶來說,它由Administr Nemoi主宰。

我認為這是一個非常有趣的模式,因為消費者喜歡立即測試最新最棒的並進行實驗,而企業喜歡大規模執行事物,所以他們專注於效率。但很快它就被替換了,然後就像幾天前一樣,Gamma開始從圖表上爆炸,這是我為談話本身必須更新的字面上更新的版本圖表。哎呀。好的,好的。它執行完成了。好的。嗯,所以這是對嗯Ivan和Google Tig團隊的一個喝彩。他們對Gamma 31B做了很棒的工作。所以這些模型然後用於什麼?嗯,哎呀,即時演示問題,但沒關係。像我們越來越多聽到的開源程式設計代理用例那樣代表我們流量的一個巨大條形。

另一個主要的是AI伴侶、治療和角色扮演,實際上超過了代理程式設計使用,但代理程式設計使用將是很多使用者執行很多代理,其中AI伴侶空間將是一些通常是商業客戶,其中公司將有數千個使用者編碼用例,這些是基於我們擁有的後設資料,如Cline和Clot code等,我們可以看到這些種類的用例,隨後像5% chbtt哎呀。再次,因為我們不感知嗯完成資料上的任何提示,我們大約推斷這個數字。

那麼超越這個的有趣之處是什麼,對吧,在這裡我嗯在這裡我用模型類代表,但當你用微調模型代表時,你可能聽說過微調來專門化模型用於你的個人用例或公司用例,你可以看到圖表中的區別。

我發現最有趣的不是通常所有流行模型的前三分之一或一半,而是下半部分,因為如果這個推理市場要成為一個萬億美元的市場,這是事情變得有趣的地方,這是我們看到AI模型被支援微調以支援特定地區的地方,比如我們驕傲地成為Sambar AI的提供者之一,Sambar AI是烏干達的第一個語言模型,或者Denu AI模型,這是一個農業語言模型。我們也看到醫療用例,對於Open Hands,它也在新加坡訓練,以及像安全這樣的,如Cisco基礎模型。

所以,我發現關於這些趨勢令人興奮的是什麼,更重要的是開源模型正在穿越當前的Sonnet和Mini線,以及在筆記本上執行Opus級別的智慧並加速,長上下文成本正在下降。我有點趕時間,所以我要走得更快。這基本上是開源模型匹配Sonnet和接近Opus用於AI模型。是的,仍然稍微落後,但它幾乎就在那裡。但這是更有趣的。我已經執行的兩個模型超越了GPT-4編碼用例。當然,它們可能不是GPT-5,但請記住,它們在筆記本上執行。基本上,你今天看到的最好的模型可能明年就在你的筆記本上執行。這是在開源空間中一直重複的模式。這就是為什麼我要跳過這部分。

嗯,這就是為什麼,對吧,我這是我想強調給所有AI工程師的一件重要事情,因為讓我們看看即時演示。好的。好的。所以這是小行星之一。嗯,讓我看看。這應該是Gamma 31B,但讓我們試試開啟Qwen 27B,例如。你可以看到這也是另一個。這在可能在你的筆記本上執行的事實是顯著的,因為現在今天所有這些可以執行你的筆記本的模型可以做UI、API或其他任何東西。當然,它可能需要幾次重試。但如果我們想讓新加坡成為世界的AI中心或東南亞,問題不是模型,是我們。我們只需要開始構建。這就是我想讓新加坡的每個人開始做的事情。只是構建,因為沒有障礙。是的,就這樣。謝謝你。

非常感謝。非常感謝,Eugene。嗯,接下來我們有Max Buckley,他是XAI的知識研究負責人。Max將談論,嗯,他的頂級談話標題是2025年11月24日,接下來是什麼。Max,輪到你了。>> 大家好。嗯,我是來自EXA的Max。嗯,我是知識研究負責人,我也負責我們目前正在設立的蘇黎世辦公室。這更多是一次存在主義談話,所以我不會真正談論EXA。嗯,這不是打字錯誤,儘管被問了很多次,但這不是打字錯誤。2025年11月24日,接下來是什麼?嗯,2025年11月24日是什麼?那是Claude 4.5 Opus釋出的日子。我的立場是這將在歷史上被記錄為事物改變的一天。

所以我向你的提議是,社會背後的博弈論正在改變,GenAI驅動了這一點。嗯,我會用幾年前ChatGPT的歷史例子和用Opus的更近期的例子。但基本上,我們擁有的機構是基於某些東西是昂貴的假設建造的,這些成本使某些東西工作,對吧,但當我們移除這些成本時,圍繞它們建造的系統可能無法工作,它們可能會崩潰。所以工作證明就是這樣一個歷史例子,對吧?我們有很多系統要求人們付出努力以證明他們付出了努力。通過這樣做,你知道,你會讓人們在學校學習。你會發現哪些人真的想申請你公司的工作。

你知道,你也可以知道,你知道某人是否可信。現在,如果我收到一條訊息,比如一封電子郵件或LinkedIn訊息,而且它寫得非常好,我不認為這個人真的很有說服力,真的付出了努力與我交談。我認為這個人只是使用了一個LLM。而之前恰恰相反是真的。現在,如果你收到一些有打字錯誤的東西,有人要麼讓一個模型生成有打字錯誤的文本,要麼故意編輯它使其更有打字錯誤。我用博弈論視角談論這個原因是你不能選擇退出這個。即使你的大學提出了一些聲稱,比如我們不允許Gen AI專案,你知道,那只是意味著你的學生必須編輯出錯誤並刪除強調破折號。所以你不能選擇退出這些變化。他們來找你。

嗯,現在編碼中也發生了類似的轉變,對吧?所以在過去大約八年裡,我們從你知道的製表符完成轉變,你完成一行到完成一個函式到能夠要求它生成一個檔案,到現在你有這個編碼代理,你可以給它這個高階提示,它會為你執行幾分鐘到幾小時並構建整個東西,測試它並驗證它並在完成時回到你。這是相當大的轉變,還沒有完全展開的東西。有趣的是,模型本身甚至沒有意識到這種轉變。所以如果你使用Claude,它仍然會使用過去真實的時間估計。所以如果你給Claude一個大規格並說,「這是一個瘋狂的想法。讓我們實現這篇研究論文。」

Claude會告訴你這個專案需要12周。你然後複製markdown到Claude Code,它執行12周...嗯,不對,它執行30分鐘然後就完成了。你知道,顯然它還沒有理解這個世界改變了多少。我不認為這個原始估計是錯誤的。比如我在Google工作,有幾個你知道的非常優秀的工程師,你會將其分配給一個初級工程師,它確實會花12周,那是12周的檢查和迭代,進展。還記得這個IT識字的概念嗎?我是說,可能我在給錯誤的觀眾說教,但過去的情況是許多人害怕計算機或發現他們困難或艱難。這背後的原因是計算機超級字面,對吧?

如果你漏了一個分號或有像打字錯誤這樣的東西,計算機只會說,「那找不到。那不起作用。你沒有運氣。」而IT識字是關於幫助人們,普通人,習慣使用計算機,比如讓他們意識到是的,你漏了分號,但別擔心,你可以把它放在裡面,它仍然會工作。不,非法操作實際上不是犯罪。別擔心。嗯,但再次,編碼代理正在驅動的事情之一,我認為編碼代理這個詞甚至低估了潛力,是這裡的轉變,因為編碼代理或只是在你的計算機上執行的代理使計算機有一種自然語言介面,就像普通人現在有這一個障礙,就是我如何開啟終端?我如何啟動Claude Code?

現在他們可以用他們以前從未能夠的方式使用計算機。他們可以用自然語言與它交談。它可以通過如何做他們想做的任何事情來引導他們。他們如何在網路上設定他們的印表機?他們如何,你知道,截圖?他們如何除錯如果他們的相機是否可見或不是,對吧?這是他們之前無法做的事情。開源是下一個。我說下一個,我的意思是它已經在發生。我是說,這個房間裡有人談論過其中一些方面,對吧?但是,你知道,開源用於向工程師開放。現在,它意味著對任何擁有計算機且識字的人開放,這相當更多開放。當然,這帶來了新的問題、新的挑戰。所以是的,曾經是真實的,比如這些是去年年底之前世界的假設。

所以曾經的情況是軟體開發很昂貴。只有少數人可以編碼。這些人非常熟練。他們的時間非常寶貴。嗯,所以你知道我們基本上每個功能都有一個機會成本。有整個組織的部分專門設計以確保我們在正確的事情上工作,通過一些正確的定義。你知道,有關於我們應該做哪個專案、我們應該優先考慮哪些專案的無休止的爭論,我們應該在修復漏洞上投入多少,而不是在新增新功能上投入多少。類似地,軟體開發是緩慢的。

所以即使一個小功能也需要你知道幾個小時,也許幾天,你知道一個大功能可以花幾周,可以花幾個月,一個系統的真正大的重建可以花數年多個人,當然,這個的一件好事是喜歡路線圖可以與這個相當好對齊,對吧,因為路線圖可以是季度性的,因為有效工作是季度性的。我記得在Google工作,你知道,我們可能會給某人四五六個要點分配到他們的季度,那是四五六件事,他們將在那個季度工作並做。通常他們會做其中70%到80%。嗯,所以由於這兩件事,你想無情地優先考慮。而且有各種系統設計來做這個,對吧?

你知道,我們曾經有銷售團隊提交數百個問題、請求、功能和想法。然後你會有產品經理把這些數百個或數千個想法篩減到30個。這30個會進入工程經理那裡,他們會爭論這些,然後劃一條線說:「我們會做前16個。」這16個會分配給團隊裡的工程師。所以就像我說的,有趣的是我們所有的流程、習慣和組織結構圖都假設這是真的。所以所有這一切都必須隨著這些變化而改變。是的,基本上整個事情都是基於稀缺經濟學,你知道,每一行程式碼都非常有價值,所以我們應該以某種方式來優先排列事物。嗯,你知道,諸如軟體即服務這樣的東西很有意思。

我們都聽說過這個,它現在處於某種危險之中。有趣的是,你知道,如果有一個優秀的工程師團隊,理論上你可以構建一個工作日競爭對手或任何其他你想要的軟體服務,但問題是你想要嗎?你願意投入幾個人好幾年和幾百萬美元來嘗試構建一個基礎版本,然後面臨銷售和說服人們轉換的挑戰嗎?現在這變得容易得多了,這讓人們意識到護城河不再是程式碼,而現在將是你的品牌和你的市場進入渠道。

我確實認為機器學習和資料的護城河會更長,因為很難準確地確定邊界在哪裡,所以比起確定性的東西更難反向工程。這種稀缺思維也必須改變。這種通過專業判斷把30個想法縮減到3個,然後實現這3個的想法,你知道,我們不再需要這樣做了。現在我們可以構建所有30個,進行良好的評估,進行基準測試,看看哪些實際上是值得的,然後你可以還原其餘的。我們不會那麼依戀這些我們還原的東西,因為我們沒有花3個月來構建它,我們的晉升案例也不依賴於它。所以是的,軟體的供應將會爆炸。我是說這不是原創想法。

嗯,最近有GitHub營運長的推文說,按照目前的執行速率,GitHub提交量同比增長14倍。這超過了2025年,而2025年已經比2024年增長了4倍。所以按目前的速率是14倍,而且還在增長。所以會更多。特別有趣的是新工具的邊際成本幾乎為零。所以現在,如果你被分配了一個任務,比如也許你需要標記一些資料或除錯一個問題,你可以快速組裝一個新的定製使用者介面,用於該任務,之後就再也不用了。這很瘋狂,因為這個使用者介面可能需要Claude花20分鐘來編寫,但它可能會讓你在標記資料或篩選影像或其他任何事情上的效率提高10倍,對吧?

比如,因為作為人類,你擅長處理視覺資料,但不一定擅長處理文本或其他任何東西。現在我們可以構建所有這些沒有任何季度能夠證明合理性的利基應用。嗯,所以瓶頸將轉向市場進入和程式碼審查,因為現在你可以構建任何東西,其他人也可以。所以人們將更加競爭,爭取讓人們使用他們的想法,看到他們的想法,聽到他們的聲音。程式碼審查已經被討論過了,所以我現在不會詳細說明。但基本上,你知道,程式碼審查只是再次因為我們生成的程式碼數量而苦惱。當然,人工智慧也可以幫助解決這個問題。所以我認為現在有價值的、我會投資的是統計學。所以統計學在像Google這樣的大公司中一直非常有價值。

一直都有,你知道,某個團隊、某些人在為評估實驗構建統計工具,然後許多工程師會依賴這個工具。他們只是選擇加入。現在它作為一個更廣泛分佈的技能可能更有用,因為每個人都可以以許多不同的方式評估各種事情。這裡的評估可能是不同的事情。它可能是效能分析。它可能是基準、A/B測試、使用者行為指標這些東西。嗯,想法和品味是另一個重要的東西。所以基本上,要構建什麼的想法、有想法將變得更加重要。然後當然是迭代這些想法。所以我的最後一點只是知識的具體價值,我認為會改變。

我們將從深入的技術專業知識轉變,當你真正詳細地瞭解某些東西的確切語法時,到了解什麼存在、如何使用以及何時使用。因為有了這些模型,如果你的提示比較通用,他們通常會給你一個有點通用的回應。而當你用正確的詞語來提示他們時,它解鎖了這種奇怪的潛力。比如我的最後一個例子是統計學。如果你說請給我的改變做基準測試,它通常會執行n等於1,執行一次,執行兩次,看哪個更快。如果你說使用統計學,突然它開始說出p值和t統計量以及所有這些其他東西和大樣本量,它會瘋狂。是的。所以就是這樣。是的。所以基本上問題不再是你能否構建它。問題是什麼應該存在。謝謝你。

非常感謝來自XAI的Max。接下來是Mark Doyle,他是Stripe的軟體工程師。嗯,當你走向舞臺時,Mark將分享關於Minions的一個小演講,嗯,不完全是電影Minions,而是Minions,這是Stripe的一次性端到端編碼代理平臺,嗯,你將討論他們如何構建它、為什麼要構建它、背後的原因以及他們對編碼代理的一些思考。各位好。嗯,非常感謝你們堅持。我知道它幾乎要釋出了,所以嗯,希望你能保持這個,嗯,真的很有趣。嗯,我在Stripe的編碼代理平臺上工作。嗯,我的名字是Mark。

嗯,大概任何與嗯用代理編寫程式碼和嗯整個軟體工程生命週期與編碼代理有關的東西,我大概都參與了。嗯,只是在我們開始討論我們今天要討論的內容之前,即一次性編碼代理。所以嗯,從一個提示直接到一個PR,一次性,只是為了在Stripe這個地方給問題框架一點。嗯,我們在Stripe上處理世界GDP的大約2%。所以儘管我們試圖走在最前沿、處於人工智慧的最前沿、使用這些模型,嗯,我們對我們的使用者和客戶以及整個全球經濟有真大的義務,你知道,保持質量標準和安全標準。嗯,所以這肯定是我們在構建所有這些時牢記的第一件事。

話雖如此,我們有91%的Stripe工程師每天都在用人工智慧編寫程式碼。所以100%的Stripe員工在軟體創作生命週期中的某個地方使用人工智慧。嗯,但每天我們有91%的工程師在合併帶有人工智慧的程式碼。在過去的一年裡,我們看到完全由人工智慧生成的拉取請求數量增加了500%。嗯,所以今天,是的,我們只是要討論一下我們如何實現這一點。嗯,一次性代理如何,你知道,為我們啟用這一點。嗯,一次性編碼代理是業界一個相當知名的術語,我想,但我們在內部大量使用的東西是嗯,當你從一個提示或一個slack執行緒一直進入拉取請求時建立一個PR,嗯,沒有任何互動。

所以我們在 Stripe 也擁有像我相信你們都擁有的那樣的工具,比如 Claude Code、Codeex、Cursor,嗯,我們也使用這些,但我們把這些看作是某種 co-pilot 工具。這是當工程師與工具一起坐在那兒,你知道,以迭代的方式協作工作時的情況。單次編碼代理是專門針對當我們認為工程師大致知道拉取請求或他們試圖實現的目標是什麼樣子時的場景。我們不需要他們長期與工具一起坐在那兒。

所以我們認為對於工程師來說,管理大量不同的工作會話,連線到不同機器上的不同代理,有點浪費。也許他們可以預先與代理進行規劃會話,然後啟動這個單次體驗,在進入程式碼審查階段之前不需要任何參與。嗯,所以是的,我們的目標就是為我們的工程師節省時間。你知道,我們不希望他們花時間啟動新的開發環境、建立分支、拉取請求,當他們已經大致知道他們將要編寫什麼程式碼時。我們想把所有這些工作都交給代理,不僅僅是程式碼的實際編寫。嗯,所以我就給你一個我使用我們的單次代理之一的例子。

所以在這兒,我在調查我們的一個 Stripe MCP 工具的問題。這只是一個非常簡單的例子,只是為了展示我們是如何做的。嗯,我們在 Slack 中有這些代理,嗯,我們可以說,嘿,我看到這個問題。這裡可能是什麼問題?嗯,代理馬上就會回來。它會讀我們的程式碼、讀我們的文件,然後說,「哦,看,這似乎是你要找的問題。」在這種情況下,這只是字面上三行或三個字元的差異。這是一個非常直接的改變。現在,我在這個場景中的開發者角色知道,嗯,這個改變非常簡單。比如,它基本上可以由任何人來實現。你甚至可能不需要是工程師才能進行這個改變。

所以我們不希望我們的工程師現在花接下來的 10 分鐘建立分支、啟動代理、再次向代理解釋問題、複製貼上這個上下文。我們只是希望他們能夠字面上說,「嘿,去修復這個問題。一旦你回來了拉取請求,我就可以批准它,嗯,或者讓我的同事批准它併合並它。」嗯,所以在這種情況下,Devbox 只是類似於 minion,這是我們所謂的單次代理。嗯,然後開發者可以期待在之後的某個時間看到像這樣的回應,minion 回來說,「嘿,我們的流程已經完成。嗯,去看看我編寫的程式碼。」所以開發者根本不需要參與其中的任何部分。

而這就像是有點為什麼我們想這樣做的哲學方面,為什麼我們認為我們在為工程師節省時間。現在我可以解釋一下我們實際上如何實現這個結果。所以,嗯,我們在之前的訊息中看到當我例項化代理時,我們看到這條訊息,代理說,嘿,稍等,我在處理你的任務,我們如何從你知道的那條訊息進展到實際獲得一個工程師可以審查的拉取請求?所以我們真的很幸運,我們一直在投資 dev box,這是遠端開發者環境,所以 Stripe 工程師不在筆記型電腦上寫程式碼,他們在遠端開發者環境中寫程式碼,我們可能可以對我們為什麼需要這些進行整個講座,Stripe 有一個超級大的單一程式碼庫,是世界上最大的 git 倉庫之一。

它接近 3 億行程式碼。所以比如,如果你克隆下來我們的倉庫,大約是 90 GB。嗯,生成我們的程式碼需要很長時間。所以我們需要有這些遠端開發者環境。所以每次你想要一個新的分支或什麼的,你可以直接獲得它。我們有一個池。他們已經準備好了。而且我們真的很幸運。我們投資這些已經好多年了,因為事實證明現在他們,你知道,真的很適合代理們。代理們可以在那兒很舒適。他們擁有所有的工具。嗯,這些不是我們在業界今天看到的輕量級沙箱。

這些是相當大的,比如開發者機器有很多核心,64 到 128 GB 的記憶體,相當大的機器,相當能夠,嗯,比如大規模工程任務,嗯,每個 minion 都有自己的 dev box,所以他們在那兒有自己的家,嗯,他們可以,你知道,從安全的角度來說是安全隔離的,嗯,沙箱等等。其次,這只是一個好的程式碼編寫環境。

所以一旦我們給了 minion 一些計算資源,dev box,比如一臺計算機來執行,它需要像檔案系統一樣,它需要一個 shell,我們用 dev box 給了它那個。我們首先要做的是幫助它在這個巨大的程式碼庫中執行,我們傳遞提示或 Slack 執行緒,所有我們能收集的上下文。所以比如,在嗯,我展示的例子中,它是一個 Slack 執行緒,其中另一個代理,你知道,嗯,搜尋了程式碼庫,給了一些上下文,也許還可能有一個,一個票證提到了,一個拉取請求提到了,一些來自同事的其他上下文。我們收集所有那些資訊,我們把它交給這個分析器代理,你在這兒看到的,那個分析器代理,你知道,收集所有那個上下文,然後說好的,這是我認為我們需要指向代理的地方,這是程式碼庫的正確部分,然後我們開始,嗯,實際實現階段。所以一旦我們弄清楚了我們將在哪裡寫程式碼,或者,嗯,大致什麼樣子的任務,只是總結整個,嗯,Slack 執行緒的全部內容或者無論我們從哪兒開始 minion,變成某個變成一個提示,嗯,我們可以開始這個 minion 迴圈。所以 minion 迴圈是確保我們總是生成拉取請求並且代理不會在中間停止的過程。

而這是 minion 迴圈看起來是什麼樣子。所以我們從頂部的這個白色箭頭開始,我們獲取我剛剛解釋的那個上下文,你知道,Slack 執行緒中的所有內容,我們把它給這個編碼代理,你在白框中看到的。這只是一個常規編碼代理。它獲取你知道,比如你也許用 Claude Code 或 Codeex 非常習慣使用的,獲取提示,對話上下文,並試圖,你知道,朝目標前進。它做一個轉折,試圖朝目標前進。

嗯,在它,你知道,朝目標前進之後,我們讓它執行 lint,我們讓它執行測試和型別檢查,然後我們停止,我們不會回到人類,這是單次代理和,嗯,你知道,co-pilot 代理之間的某種差異。在這裡,我們將結果傳遞給一個 LLM 判斷器,這是你在螢幕底部看到的這個橙色框,而 LLM 判斷器字面上獲取原始作者給 minion 的提示和當前的 git 差異或已經生成的輸出,我們只是問它,這個任務完成了嗎?所以它不會得到它的上下文不會被毒害所有這些,比如編碼代理可能提出的資訊對話,所有的,你知道,藉口,為什麼它停止工作或為什麼這個任務是不可能的等等。

嗯,實際上它就是一個,你知道,無偏見的判斷器,它說這個任務是否完成了或者,嗯,它是否失敗了。嗯,如果任務完成了,很好,我們,你知道,可以建立pull request,然後回到工程師那邊說,嗯,它已經準備好供你審查了。嗯,我在這裡完成了。如果它沒有完成,嗯,我們有一個診斷agent,它檢視,你知道,檢視LLM judge的輸出,檢視編碼agent會話中發生了什麼,以及原始提示,然後說:「哦,嗯,這沒有完成,因為某個測試失敗了,或這沒有完成。這還沒有完成,因為實際上你實現了錯誤的東西。你知道,你,嗯,建立了一個API端點,但你沒有連線前端。這些是編碼agent明顯會遺漏的事情。」嗯,然後我們從診斷agent獲取那個上下文,並將其放回到迴圈中。

所以,我們按需執行這個迴圈多次。我們盡力保持來自診斷agent的輸入很短。嗯,所以它不會炸掉上下文視窗。但我們持續執行這個迴圈,包含診斷agent、LM judge和編碼agent。一直執行,直到我們得到類似pull request的東西。pull request不一定總是正確的,但現在在Stripe,我們大約合併65%的minion pull request一次就成功了。所以65%的時間,當Stripe工程師啟動其中一個時,它被合併了,沒有任何人工干預。所以它變得相當不錯。隨著模型變得更好,嗯,我們看到這越來越有效。嗯,通常工程師會在,如果,你知道,不成功一次通過的話,工程師會想要跳進去,嗯,並做一些改變。

所以,基於那一點,我們有一個網頁介面,你知道,你可以繼續指導對話。你也可以,嗯,看到螢幕頂部這裡,比如開啟minion被生成的box,在VS code或終端中。這讓工程師能在minion,比如失敗一次通過的情況下接管。所以那有點是我們如何處理這個小編碼agent的故事,給它一個住的地方,然後產生這些一次通過的pull request。嗯,我們在Stripe每週合併大約3,000個pull request,用這些。

嗯,它真的,像,對,嗯,你知道,節省我們工程師的時間解決真正小的問題,甚至更大的、更大的任務是很有價值的,這些是工程師已經相信agent可以一次通過的任務,或嗯,agent可以,工程師可以提前提供大量上下文,使一次通過的PR成為可能。嗯,所以如果你正在構建這樣的系統,可能有幾個教訓我們可以給你帶走。嗯,我們學到提示真的很好。所以在我們所有的agent這裡,比如LM judge、嗯實際的編碼agent本身等等,我們有非常詳細的提示,如你可以想象的那樣。我們有數千個Claude和agents.md檔案在我們的整個程式碼庫中。它們非常有價值。

然而,如果你正在寫,嗯,這樣的迴圈,比如一個minion迴圈,並且你不斷地製作看起來像這樣的提示:請請在你進行提交之前執行測試,不要push並執行,比如一個昂貴的CI執行,你知道,在你自己執行測試之前,或嗯請以某種方式格式化你的嗯提交訊息。你,你知道,用尖叫大小寫寫所有大寫,你在真的試圖說服編碼agent做某事。在那種情況下,我們,嗯,真的認為確定性指令對此要好得多。所以,任何你能使確定性的,請做吧。嗯,它真的真的幫助agent成功。嗯,試圖與agent爭論某事通常不是很好,它有點像一個程式碼異味。嗯,特別是如果它涉及安全的事情。

嗯,是的,為這類迴圈編寫確定性指令絕對至關重要,它能讓整個過程更加可靠。如果你正在構建自己的工作流程,依賴這些全大寫的上下文檔案可能沒問題,但在大規模執行時,當你有數千個開發者執行數千個 minion 例項時,這對我們來說真的很有用。我們的第二個要點是開發者工具始終非常重要。在 Stripe,我們一直很幸運,為我們這個規模的公司在開發者工具上投入了大量資源。例如,Stripe 開源了 Sorbet,這是一個用於 Ruby 的靜態分析型別檢查器。它類似於 JavaScript 的 TypeScript。

Stripe 多年來構建了許多這樣的工具來提升我們的開發速度。但現在比以往任何時候都更具高槓杆作用。所以現在我們看到這些工具已成為必需品。如果你沒有良好的計算基礎來讓代理執行,比如對我們來說的開發盒子,你沒有靜態型別檢查、linting,所有這些作為專業開發者我們期望擁有的東西,那麼你的工具越好,你就能做越多的代理開發。所以如果你沒有這些東西,已經不只是「哦,我的工程師每週浪費一小時」。你正在失去數千個代理週期的失敗,或者說,花費的時間比之前長得多。

所以現在我們比以前更加專注於構建更好的 linters、formatters、分析工具,所有這些非 LLM 相關的東西,主要是靜態分析。這對我們來說真的很有價值。最後一個要點是,在 Slack 上構建對我們來說真的很有價值。就像你們之前在我的演講中看到的那樣,我們有這個 devbox 或 minion Slack 訊息,我們可以在其中啟動一個 minion。這對於教育我們所有的工程師使用 AI 非常有價值,非工程師也可以啟動它們。

所以這個在公眾面前構建和與我們工程師分享的過程,嗯,可能如果你沒有在 Twitter 上跟上 AI 的最新訊息,你可能會選擇開啟編輯器並手動進行更改或使用標籤補全之類的東西。但現在所有我們的工程師都看到其他工程師在公眾面前工作,只是標記這些 minions,像「嘿,去做這件事。」這對幫助我們的大型組織接受使用 AI 完成很多工非常有幫助。嗯,是的,在公司內部公開工作也非常有用。最後,我們在會議的其他地方有一個展位。

所以如果你想來和我聊聊 minions 或提出任何問題,請這樣做。另外,如果你認為與 minions 一起工作或在這個平臺上工作很有趣,Stripe 正在招聘。我們實際上為我的團隊專門招聘一名 EM 或工程經理。所以,如果這聽起來真的很有趣,你應該來和我們一起工作。我很想與你合作。我們這裡還有一個贈品,如果有人感興趣的話。你可以在之後來我們的展位看看。但是,非常感謝。非常感謝,Mark。嗯,午餐前的最後一場演講。我知道大家都很餓,但午餐要等到演講結束才開始。所以我希望你們給 Liha 時間來進行演講。

Liho 正如你所說,嗯,Lihao 是一位在一家名為 similar 的公司工作的軟體工程師,他將討論從玩紙牌遊戲到操作 ERP 軟體。為什麼你的計算機需要學會點選和輸入?similar 正在開發真正擅長計算機使用的工具,Leha 將向你展示它是如何工作的。Leha,請繼續。>> 謝謝。非常感謝。那麼,你認為一天中在螢幕上移動游標多少小時?有人知道嗎?五個小時。所以,嗯,幾個月前,我們與一群朋友進行了一項實驗。他們中的一些人和你們一樣,對吧?AI 工程師、建設者,我們還有醫生、管理員、會計。我們追蹤他們,看看他們花了多少時間移動游標,對吧?這就是我們發現的。一天五個小時。

我們有人在觸控板上移動手指超過五小時一天。這超過了你清醒時間的三分之一,對吧?不是在創造,不是在思考,而是在移動、點選。抱歉。點選、導航,對吧?在選項卡中滾動,嗯,在選單中。所以我們已經將大量工作投入到這個數字空間,但我們與它的互動方式仍然非常手動。個人電腦。我們在 1981 年有了個人電腦,對吧?突然我們能夠在幾分鐘內完成以前需要數小時的事情,對吧?這是一個巨大的飛躍,我們從檔案櫃和檔案中解放了自己。但現在看看我們,40 年後。我們仍在點選、滾動、導航,對吧?一天五小時。我們只是將一種體力勞動換成了另一種。所以我們需要下一次飛躍。

那麼,與計算機互動的真正有效方式是什麼呢?如果你根本不必與計算機互動呢?如果計算機可以自己執行呢?它可以看到螢幕,理解任務,然後直接做。這就是我們在 similar 正在建設的。我們稱之為自主計算機。對吧?這就是讓我興奮的,這就是我們正在建設的。所以我的名字是 Liha。我是 similar 的技術人員,嗯,我們正在為自主計算機建設基礎設施。對。去年十二月,我們的研究代理 agent S3 在 OS world 中取得了超越人類水平的效能,這是計算機使用的標準測試。那麼,自主計算機看起來像什麼呢?讓我給你展示一下,這是,這是我們的,嗯,產品。

所以在左邊你可以看到螢幕,我們有這個聊天介面,LM 試圖理解任務。它試圖玩紙牌遊戲。所以它試圖看螢幕、理解發生了什麼、試圖看下一步最好的著法,並試圖找出如何移動滑鼠和拖動卡牌。對。右邊是執行的機器,所以希望在一分鐘左右,如果他給他們鼓勵,希望 Sai 會進行第一步棋。是的。所以你可以看到它實際上能夠控制滑鼠游標並從左向右拖動卡牌。但這只是一個應用、一項任務、規則非常清晰,對吧?但想象一下你的實際工作日。在工作中,你做什麼,對吧?你有電子郵件、你有 Slack、嗯、你有、抱歉、等等。

所以,在工作中,你有電子郵件、你有 Slack、你有電子表格、你有你的 PowerPoints、你有你的 QuickBooks、SAPs,以及你公司拒絕退役的一些遺留系統,對吧?所以這些工具中的一些有 APIs,對吧?所以這是去年我們有很多活動的地方,我們有 API 或 CLI 代理。我們有嗯工具呼叫、函式呼叫。很好。這部分已經解決了,這些應用中的一些在瀏覽器中,對吧?所以你聽說了關於瀏覽器使用代理的演講,它們可以處理嗯為你導航和檢視你的瀏覽器。很好。

但再一次,還有其他一切——你的桌面應用、你的遺留系統、你的專有工具——沒有 API、沒有瀏覽器、所以沒有,唯一的方法實際上是通過螢幕,對吧?所以那就是計算機使用。所以教一個 API 看螢幕、理解它上面是什麼以及像你一樣操作它,自主計算機是完整的,我們有 API 和 CLI 代理、我們有瀏覽器代理以及計算機使用者代理為使用者無縫地協同工作並處理瀏覽器上的任何任務。所以這就是我們在 similar 正在建設的,在建設它時,我想分享我們面臨的三個主要挑戰——可靠性、信任和可擴充套件性。那麼讓我們從可靠性開始。對使用者來說。可靠性意味著一件事,對吧?它每次都工作。兩件事必須是真的。

代理需要看螢幕並精確地對其進行操作。這就是基礎。並且它必須能夠在多個回合中做到這一點。所以在 100 次重複中,那就是一致性。所以你有基礎和一致性。讓我們從基礎開始,對吧?盲人如何看螢幕?你使用螢幕閱讀器,對吧?所以,它讀取可訪問性樹,這是每個元素的結構化地圖、名稱、型別、狀態,這是我們的起點,但還不夠。很多時候有些應用沒有完整的樹。有時按鈕隱藏在選單中、嗯、下拉式清單中、你有動態顯示的元素,有些應用幾乎根本沒有樹。所以我們必須用視覺基礎來支援它。所以我們有專門的模型,可以實際上在視覺上檢視螢幕並找出元素在哪裡,對吧?

一個可以讀文本,一個可以找到按鈕和元素。當樹有間隙時,視覺試圖填補它。所以我們有可訪問性樹與視覺基礎相結合。現在基礎為你獲得單個行動的精度。但連續一千次呢?在研究中,有一個矩陣叫做 pass at K,這意味著給定代理 K 次嘗試,你有多少次,嗯,你有多少次得到它是對的,對吧?只要你至少有一次得到它是對的。所以,如果 K 是五,如果它在第三次嘗試時成功,那就是一次 pass。但這不是使用者想要的。使用者想要我稱之為 pass 的 K 次方,對吧?你必須每次都做對。K 次連續。沒有錯誤。假設一個使用者有一百個,嗯,線索,並想給每一個傳送個性化的 LinkedIn 訊息。

如果一個 LLM 驅動每一步的所有操作,每一次嘗試在同一任務上 100 次可能會略有不同,100 種不同的行為。所以我們需要一個不同的範例。所以我們使用的是神經符號方法。所以神經,LLM 觀察螢幕、推理要做什麼,然後,所以這是思考,符號而不是隻是點選,它寫一個程式程式碼,那就是執行,對吧?就像大腦寫一個食譜,機器跟隨它,所以這是它變得強大的地方,第一次它呼叫 LLM 推理,但第二次做它,100 次,它只是重放程式碼,你不需要 LLM 推理,沒有成本,本質上是免費的。所以這一切背後的語言是 Simulang,我們的計算機使用領域特定語言,可讀的、可修改的,本週釋出給開發人員。

那就是可靠性。讓我們談談信任。一個可以在你的計算機上做任何事情的 AI 代理,對吧?你可以,嗯,傳送電子郵件、刪除檔案、進行購買。這真的很強大,但也非常危險。如果它誤解了一條指令或它產生幻覺,它可能會變得災難性。所以這已經不是發生在隨機使用者身上,而是發生在 Meta 的 AI 對齊總監身上。在 similar,信任被構建到我們的架構中。護欄是來自規劃代理的單獨系統。做出做什麼決定的那個不是做出是否安全決定的那個相同。所以你不能是同一個。你不能允許模型既是法官又是參與者。所以即使規劃模型變得困惑或產生幻覺,護欄系統在危險發生之前捕捉它。第三個挑戰是可擴充套件性。

我們在Similar的使命是將使用者生產力提高100倍。你如何才能實現100倍呢?通過擁有100個手指、以100倍的速度輸入,你需要100臺自主計算機。但並不是每個人都想設定100臺Mac mini、購買它們併為其進行設定,對吧?但每個人都想要擁有多臺自主計算機所帶來的生產力收益。因此,在Similar,我們正在構建基礎設施來解決這個問題。當你註冊網站時,這就是我們的產品。

嗯,你獲得100個,呃,我們為你建立一個機器,對吧?這是你的機器,你可以做任何你想做的事情,你可以安裝你的應用程式,你可以按照你喜歡的方式進行設定,然後你讓Similar接管控制權,所以,嗯,你如果能建立一個,你就可以建立五個,你甚至可以建立100個,對吧?你可以讓一個進行迴歸測試,你可以讓另一個做其他的事情,第三個做一個電話後的CRM更新,你可以讓最後一個執行報告。你可以讓所有這些並行執行。那麼我為什麼在迴圈中呢?是的。所以100倍的生產力不是通過更努力地工作,而是通過讓100臺計算機為你工作。可靠性、信任和可擴充套件性。

這三個挑戰,這就是我們正在做的,對吧?所有這些背後有令人難以置信的工程,嗯,有分散式系統代理,大規模可靠性,所以我們正在招聘,如果你感興趣,請加入我們,所以請,個人電腦解放了我們免於紙張,自主計算機解放了我們免於人工工作,這個,我們是Similar,我會在街對面四樓的展位周圍,我們很快見。謝謝。>>謝謝你,Lihao。有了這個,我們來到了你們一直期待的事情,那就是午餐休息。呃,在Hopscotch、Cayenne和Beastro有自助午餐。所以,你有多個地方可以獲取食物。呃,我們走在時間前面,所以我們將在1:30準時開始下一場講座。呃,首先是來自Cursor的Rio Louu,呃,他是設計主管。

所以你呃,不想錯過那個演講呃,並及時回到呃。呃,非常感謝各位整天堅持。很快見。嘿各位。不,我會宣佈。好的。嗨各位。歡迎午餐休息後回來。呃,希望各位吃到了一些食物。呃,得以與人們聊天,呃,以及呃,以能量回來,為我們即將進行的下一個呃,一系列演講做準備,我們將在國會大廈劇院進行。現在,我超級超級興奮地歡迎下一位演講者。呃,這是 Rio。他是 Cursor 的設計負責人。但我要分享一個小故事,因為對我來說,這一切始於兩年前,2024 年中期,因為我學會了作為一個完全的非工程師使用 cursor 進行編碼。我不知道你們呃,是否曾經使用過該工具,當時只是標籤和內聯,在 composer 模型多檔案編排出現之前。

呃,那就是我學習的東西。但呃,Cursor 團隊投入了很多思考來設計一個體驗。呃,它對於像我這樣的資深使用者以及新使用者來說。而且很多設計模式現在已經成為呃,跨所有不同型別的編碼代理使用和標準化的設計模式。所以我很興奮能夠歡迎 Rio 呃,到舞臺。呃,他將做一個關於設計下一個 Cursor 的演講。>> 喲喲 >> 喲。你好。嗨各位。我是 Rio。呃,讓我先喚醒我的電腦。很好。很好。很好。各位午安。我是 Rio。我在 Cursor 領導設計。呃,今天我將分享我們如何設計 Cursor,以將設計師和工程師帶回我們的根源,當製作軟體感覺更像玩耍而不是被困在僵化的角色、工具或流程中時。

還會分享我們的設計流程如何變得更流暢,因為我們使用 Cursor 來設計 Cursor。我將以我們對軟體製作未來的願景來結束。在開始時,軟體設計和工程是同一回事。沒有分裂。想象軟體的人也構建了它。設計和程式碼是同一門工藝。材料是程式碼本身。思考和製作在同一個迴圈中發生。這是 Bill Atkinson。他在早期 Macintosh 團隊中。他構建了 QuickDraw,一個 2D 圖形引擎。他還設計並編碼了 Mac Paint 和 Hypercard。他發明了移動行選擇模式和許多我們仍在大多數圖形設計應用中看到的東西。他用 68K 組合語言構建了畫素完美 UI。從概念到設計再到實現的每一個細節都是他的。他是設計師還是開發者?這是 Alan K.。

他在 Xerox Park 發明了 Smalltalk 和 Dynabook。基本上設計了整個個人計算的未來。他寫了實現它的程式碼。他有一句名言。預測未來的最好方法是發明它。他構建了工作系統來證明他的想法。從 UI 到互動模型再到執行時,它們都是一門工藝。他們是設計師、開發者嗎,他們都是建設者。問題那時沒有意義。設計是程式碼,程式碼是設計,工藝是完整的。然後發生了一些真的很奇怪的事情,特別是在過去十年。我們分叉了自己。我們分裂成專業角色。設計師擁有視野,製作模型。工程師實現模型。PM 寫規範,開會,讓一切順利進行。承諾是專業化會讓我們更快。

但現實是我們變慢了,離程式碼越來越遠,我們的工具也是如此。工程師大多仍然待在終端和 IDE 呃,Vim、VS Code、Sublime,但呃,程式碼仍然是事實的來源。設計師有點呃,搬到了雲上。我們開始使用 Photoshop 製作點陣圖。然後我們搬到了 Sketch,這是一個僅限 Mac 的應用程式,為 UI 進行向量製圖。然後我們將其移至瀏覽器,並在 Figma 中使其協作。設計師製作了美麗的模型,但它們不是真實的。然後 PM 和協作也有點分散。你有沒人想更新的 Jira 票證。你有用於規範的 Google Docs。然後我們為周和規劃做了概念,為其他一切做了 Slack。

然後就是這一切的 sassification 和呃,專門構建的工具,這實際上呃,創造了更多分裂,差距呃,擴大了。線性交接成為了常態。設計師在 Figma 中進行一些設計。PM 寫規範。工程師得到一張票。匹配 Figma 成為了目標。但這呃,這往來的評論和會議真的很煩人。我們失去了這個緊密的迭代迴圈。從想法到模型到規範到票證到程式碼到審查到分段到生產需要數週,從想法到現實需要數週。設計師無法接觸真實的東西,即程式碼。工程師無法在沒有票證的情況下進行探索。材料,程式碼變成了別人的工作。我們告訴自己這是進步,專業化,最佳實踐,設計系統。但我們用流程換來了工藝。我們用協調換來了建設。

我們分裂了應該完整的東西。程式碼是人類和機器之間的通用語言,這是我們的交易材料。程式碼再次成為了材料。程式碼是事實的來源。這是真實的東西。這不是模型。但現在隨著代理編寫程式碼,你可以通過詢問、指導、改進來進行設計。工藝變成了知道構建什麼以及它應該如何感覺,使用真實材料,並用其他人類和代理來實現它。Cursor 可以將工具和建設者結合成這一件事,以便我們都可以一起製作偉大的軟體。我們如何到達那裡?輸入 Cursor 3。Cursor 開始時從 VS Code 繼承了很多複雜性。當代理成為人們使用 Cursor 編寫程式碼的主要方式時,所有這一切在過去一年內都發生了變化。這個遺留呃,對代理編碼器來說有點成為了一個負債。

這個檔案中心檢視的很多東西現在都沒有意義。對於新編碼器,他們仍然感受到很多摩擦開始,被轟炸了所有這些他們不知道的可怕 UI 和概念。我們也看到了一個從在這個本地檔案狀態上運營呃,與代理互動呃,轉向呃,多個代理在不同專案上執行,越來越呃,在雲中執行。這呃,將檔案中心的 IDE 檢視翻轉到一個呃,新層次結構,圍繞呃,代理及其環保。為了呃,我們改裝 VS Code,改變佈局呃,建立了很多 UI 分叉,邊緣情況和破碎的狀態。它呃,跟不上世界變化的速度。那麼,我們如何從這個檔案中心的軟體檢視呃,轉向一個呃,對每個人類及其所做的事情進行調整的代理原生介面呢?

我認為呃,呃,有兩個主要的哲學來構建 AI 工具,區別呃,真的很重要。一方面,呃,你得到一個黑盒。你輸入你想要的。人工智慧呃,呃,你看不到的地方做了什麼東西。當它有效時,你呃,沒有真正學到任何東西。你只是呃,跳過思考。當它失敗時,你呃,真的不知道為什麼。特別是作為一個新編碼器,你會繼續燃燒更多令牌,而不瞭解呃,實際發生了什麼。你看不到,無法干預,無法編輯。你要麼贊成每個呃,改變,要麼放棄。你只是呃,模型的產品。另一方面,呃,你得到玻璃。它開始很簡單,但如果你想,你可以看到更多。代理呃,流式傳輸,程式碼呃,在背景中執行,人工智慧呃,與你思考你的方式。你可以呃,重定向神話光,隨時停止,用你的方式盯著,呃,編輯那個兩畫素填充呃,如果你想。

你呃,不一定要呃,閱讀每個呃,改變,但你呃,總是可以。有經驗的編碼器可以呃,讓代理流程呃,在正確的時間審查,並在需要時進行編輯。新編碼器可以呃,用 Cursor 學習新的軟體概念。他們呃,可以通過呃,詢問、構建、修修補補學習,然後呃,看到系統的更深層次。你呃,保持控制,呃,建立直覺,並將 Cursor 塑造成你的思考方式。隨著 AI 變得更強大,玻璃呃,變得更重要,而不是更少。呃,執行數小時的自主代理需要可讀性呃,供人類呃,監控和干預。多代理呃,系統呃,需要可檢查、耐用的計劃呃,人類呃,定義的清晰邊界。我們呃,也需要呃,人類和呃,代理的共享空間和可塑介面呃,一起思考。我們呃,選擇了玻璃方式呃,為人類和代理帶來了呃,聚焦、可讀、可定製的呃,介面。

每個呃,代理,他們呃,的行動,呃,工件是可見和可編輯的。呃,計劃你呃,可以塑造,呃,代理呃,狀態呃,你可以呃,檢查。呃,零呃,隱藏的魔法呃,無限呃,控制。但它呃,開始很簡單。你呃,可以呃,用編輯器關閉的 Cursor 呃,沒有自動開啟呃,檔案,沒有呃,干擾。呃,它呃,有點作用呃,作為呃,與其他呃,工具和呃,工作流呃,的夥伴旁邊。但它呃,隨著你呃,的使用和呃,你呃,想要時呃,顯示覆雜性呃,你呃,可以呃,看到呃,更多。當你呃,為呃,更多專案呃,在呃,軟體製作的不同階段呃,從呃,規劃到呃,設計呃,到執行呃,到審查呃,使用 Cursor 呃,介面呃,呃,變成呃,適應你呃,並讓呃,你呃,專注於呃,你擅長的事情。經驗豐富的呃,開發者呃,可以呃,以呃,多個代理呃,審查呃,改變,以及呃,當呃,需要時進行呃,精確呃,編輯呃,速度很快。

設計師可以快速草繪、在瀏覽器中看到程式碼執行、用即時反饋標註和調整每個細節。產品人員可以思考、規劃、探索選項和權衡,在一份完全互動式的協作文件中與瞭解整個團隊背景的代理合作。一切感覺既瞬間熟悉又充滿力量。為人類而設計,而非為某個模型而設計。我們讓你可以調整併為你定製Cursor。核心保持簡潔,但你可以通過外掛和技能等可擴充套件概念進行定製。還有虛擬介面可以適應你的操作。我們尊重使用者習慣和控制權。我們從不強制做出劇烈改變。我們沒有拿走任何東西,而是向人們展示有一種更簡單的新方式來完成任務——對於那些傾向於這樣做的人。現在讓我分享我們是如何做到這一點的。

瘋狂的是,整個新介面的設計工作在大約一個月內完成。一切始於我們在今年初開始探索的一個隨機原型。所以Lee、Rob和我在今年初啟動了Baby Cursor 3。Baby Cursor是我們對原型設計環境的名稱,人們可以在其中分叉、探索想法並與他人分享。在設計AI工具時,你總是會遇到很多非確定性情況,靜態模擬無法捕捉細微差別。我們真的必須親身體驗。所以目標是設計Cursor,使其能夠從最簡單的形式擴充套件到專業工程師和軟體創作者會喜歡的複雜產品。在這個原型的新版本中,我們使其成為一個完全功能性的Electron應用,構建在Cursor CLI之上。

我設計了一個簡單的佈局架構,可以支援一個到多個代理、一個到多個專案、零到多個內容選項卡和分割。它適用於任何空間限制。事物總是從簡單開始,但隨著你使用工具的增多而增長。在Figma中製作這些動態狀態的模型可能需要幾個月,而且不會給你真正在程式碼中體驗它的感受。這樣的高層級資訊架構和流程基本上在一週內完成。在傳統設計工具中,複製畫板、狀態和匯出選項非常容易。你總是最後會有很多狀態快照,而不是一個統一的完整檢視。在Cursor中,在Baby Cursor 3中,我們添加了內建的特性開關係統,我們的設定以檔案形式儲存。

這樣可以讓我們探索非常大的架構分叉,也可以探索每個細微的細節和排列組合。然後你可以看到事物如何組合在一起。通過每天使用原型和探索選項,我們能夠發現影響更深層架構決策的新約束。一個例子是:當你在代理之間導航時,佈局如何變化?右側的選項卡在你在它們之間導航時會改變嗎?它們被繫結到不同的代理嗎?它們是每個工作區還是環境?或者它們都是獨立的,像VS Code一樣?這真的很難用語言解釋,但當你能即時感受到它時就很容易了。我們然後將Baby Cursor傳送給公司的每個人來使用和獲得反饋。工程師們開始分叉並將他們的想法和觀點新增到原型中。

然後我將它們綜合回去,並根據團隊的反饋和新想法進行更多迭代。我們通過構建原型學到了很多。哪些佈局在不同條件下的實際使用中是合理的?有哪些不同的預設值和自定義選項需要暴露?我們如何讓複雜性感覺簡單?應該保持可見多少控制權對比隱藏多少?進度披露應該如何工作等等。從原型中,我反向工程程式碼進入一個高階規格,我們記錄每個選項和細節。影片和截圖成為了新Cursor的模型。然後在33條長討論執行緒的RFC之後,是時候把它變成現實了。工程團隊也採取了更激進的方法,靈感來自於構建這個原型的速度。

我們基本上決定從頭開始重寫Cursor的整個UI,採用全新的設計系統、元件庫和乾淨的基礎。當工程師們在這方面工作時,我為更多邊欄分組定製、輸入定製、預覽和細節進行了原型設計。然後我第一次回到Figma,這樣我可以嘗試我們最終沒有發貨的液態玻璃和所有視覺細節。我們的工程團隊在這兩個月裡做得很努力,用React從頭開始重寫了整個Cursor UI並構建了一個新的設計系統。一旦事情有點熟了,我們開始使用新的Cursor來構建自己,並對仍然感覺有點奇怪的東西進行了測試。設計師們也回到了程式碼中。

所以,我們在開發小細節、打磨新元件、圖示、顏色、主題、活力、動畫——所有模型看不到的小細節。設計過程變得真正流暢。它不再是線性的。我們只是使用最好的工具來精化工藝。無論是花更多時間思考製作這些原型或模擬,還是直接進入程式碼。在今年三月底,我們發貨了alpha版本,我們與內部和真實世界的使用者建立了這個快速反饋迴圈。我們專注於我們第一次發貨的效能和質量。發貨Cursor 3後,我們構建了Baby Glass,這是我們的下一代原型設計環境,可以在一個單一原型中視覺化Cursor從現在到未來的狀態。

它是建立在我們新的設計系統之上,並使用Cursor 3中的真實元件。我們把它帶回了網路。所以它不再是Electron應用,因為分享狀態和連結給他人變得非常容易。所以他們可以點選連結然後給出反饋。我們也改進了未來的標記和版本控制系統,這樣我們可以視覺化Cursor從當前生產狀態到我們需要朝向的每一步的更未來的里程碑。我們也構建了更好的交接流程,這樣這些Baby Glass原型可以變成工程師可以在真實程式碼庫中基於此進行構建的第一個PR。看起來超級不錯。它有桌面。它有一些桌布、主題,我們甚至在Baby Glass內部構建了一個工具,你可以生成模擬和影片。我們計劃將其用於我們網站上的實際演示。

所以製作Glass讓我們對軟體製作的未來有了很多清晰的認識。它應該更具協作性,這樣人類可以在同一背景和工具上與代理團隊一起工作。當我們使用代理來實現更大的目標時,代理和人類共享同一空間就變得越來越重要,這樣他們才能達成構建的正確決定。隨著每個人都成為構建者,來自不同學科的人,不僅是工程師,最終可以聚集在一起並在相同的目標上工作,具有相同的代理設定、工具、知識和工件。我們認為未來應該更具定製性。我們的介面和工具應該適應我們是誰以及我們做什麼,而不是相反。

每個人和每個團隊都是不同的,而底層概念和工具是相同的,這樣你可以構建、連線你的工作流程和工具,併為你自己和你的團隊將你的代理定製到最精細的級別。我們認為未來更加自主。更多的代理可以處理重複的工作流程,簡化和消除手動流程,而人類定義系統和邊界。我們可以自動化諸如問題分類、釋出說明、安全和程式碼審查等內容。你可以用驗證迴圈設計你的系統,真正定義什麼是正確的,這樣代理可以為你處理更多事情。最後,我們應該構建更雄心勃勃的東西,並思考我們還能做什麼,而不是製造更多東西和增加更多垃圾。我們可以一起構建更好、更簡單的軟體。

與其新增更多東西,你可以實際上使用你節省的時間來深入思考和弄清楚什麼是最簡單的抽象,什麼是為你的使用者構建的正確東西。做一些瘋狂的事情,這在與其他人一起是不可能的。未來屬於能夠思考和構建的人。別等待。開始構建。沒有黑箱。呃,非常感謝你,Rio。只是讓大家知道,如果你們還沒有檢視過的話,Cursor在Italier in Kinsky有一個展位。所以你們可以去那裡見團隊的一些成員。好的。呃我謝謝你。>> 謝謝你。>> 是的。好的。呃我想歡迎下一位發言人上臺。呃這是Ain。他是Figma的員工產品設計師。歡迎上臺。

所以Ain目前在Figma Weave上工作,並且一直在Figma的許多非常受歡迎的產品背後,包括Figma Buzz和FigJam。FigJam是我個人喜歡使用的東西。嗯,他將就設計多模態多人AI進行演講。在他準備的時候,嗯,只是一些快速的通知。第一個是今晚我們實際上將把整個劇院從講座轉變為夜總會以舉辦派對。是的。呃,所以如果你呃只是記得帶上你的徽章。這實際上是我們將如何檢查你的方式。所以如果你是參與者呃你可以直接帶上它。呃無需擔心來自Luma的二維碼。呃然後下一個事情是我們在普爾曼有一個演示舞臺,現在實際上正在啟動。

呃但如果你想在某個時刻停下來看一些演示,來自一些本地初創公司關於他們如何將AI嵌入到他們的工作流程或產品中,呃去看看。對,沒有進一步的延遲,Aen。好的。大家好。哇,這比我想象的人多得多。呃,好的。呃,我是Ashang。我是Figma的產品設計師。今天我想談論為什麼我們的AI工具應該是多人且多模態的。所以我們今天擁有的AI工具專注於讓個人速度提高10倍。但我覺得更難但也更有趣的問題是,我們能否讓一群人一起速度提高10倍?因為當執行變得便宜時,協作和對齊就成為瓶頸。

這實際上來自另一個AI工程師的演講,由Maggie Appleton進行,她是GitHub的研究工程師,我真心同意她的框架,因為決定構建什麼和不構建什麼現在比以往任何時候都更重要,如果我們探索、規劃、對齊的方式不改變,團隊的進展將被阻止。這也與Roy之前分享的內容非常相關。我只是覺得我們今天擁有的工具並沒有真的讓任何這些變得更容易。大多數當今的代理工具都是左邊一個聊天,右邊一個工件。但聊天是單一訪問、一個執行緒、一個方向、一個真實的來源。它使你傾向於一次性,對吧?因為介面中很少有提示告訴你如何分支、並排比較想法等。

這最終是一個收斂的介面,而不是發散的介面。我認為當我們設計AI工具時,我們也應該為發散而構建介面,因為創意過程既是孤獨的又是社交的,最好的想法通過思想之間的摩擦被銳化。所以我認為我們應該構建促進這個過程而不是移除它並將我們隔離開來的工具。所以是的,這是一些關於AI工具發散介面的想法。幾年前,我幫助構建了一個叫做Jambot的小部件,嗯它存在於Jam中,它允許你用Hatcht以一種視覺、非線性和多人的方式探索想法。這是在LM還都是關於文本的時候,在你可以從零到一運送程式碼之前。

往回看,我將canvas視為這個真正迷人的可塑媒介,其中額外的維度可以使多人存在和分支迭代感覺更自然。所以這個演講的下一部分將是一個小演示,我很樂意你加入我。如果你有筆記型電腦,只需鍵入這個連結並輸入你的名字,希望你在裡面。呃,我知道Wi-Fi有點不穩定,嗯,這個演示純粹是通過Claude編碼的,我不知道。呃,從來沒有嘗試過要求這麼多人加入,你們比我想象的多得多。所以,祝我們好運,但呃,如果你可以的話請嘗試一下。你好,你好,你好。我將在這裡縮放,但它是位址列中相同的URL。

一旦你加入,你應該能夠看到畫布帶有幻燈片加一堆像小遊戲這樣的預載入。所以你可以點選來玩這裡的任何遊戲。所以我只是要從頂部選擇這個像Flappy Bird這樣的東西。哦夥計們。好的。我真的希望它不會破裂。但好的。啊我已經輸了。好的。這真的很尷尬。呃所以如果你懸停在這裡的筆記上呃你應該能夠看到這個提示框,你可以像新增元素呃改變美學、機制等等。例如,我的朋友Annie昨天建議給我的鳥新增一個怪物夥伴。讓我們看看會發生什麼。當這流動時,我也想知道如果我將背景改為銀河會怎樣。好的。現在我可以看到亞洲正在基本上採用我的提示。它正在重寫計劃,也在重寫程式碼。

我在頂部有這個。好的。它下降得太快了,你知道,但好的。好吧。呃,我會看看你們是否還製作了其他東西。所以,呃,我不確定發生了什麼,但呃,我真的希望我不會陷入真空中,但從這裡開始我應該能夠繼續迭代。有一個機會這對你們所有人都有點柔軟崩潰。所以,我很抱歉。但我喜歡可以給鳥新增帽子給鳥並繼續等等。所以現在你可以看到喜歡我們有點在協作這個執行程式碼的最原始版本。我也將重新整理並檢視它是像我的問題。好的,它像真的把自己搞亂了。所以對不起。

但我覺得讓我著迷的東西是有這樣簡單但也有點視覺化的版本歷史表示,感覺非常邀請迭代,對吧?並能夠看到協作以即時發生。想象一下,如果真正的軟體原型設計實際上也能感覺這麼協作。這個概念本身對我來說感覺非常令人興奮。現在通過使這個空間多人,呃我認為它也引入了像邊界情況。呃我們需要考慮以啟用多人和代理之間更好的共同創造。

所以今天大多數AI工具我們讓代理作用於我們為我們行動於應該被自動化的任務,這是好的,對吧,但在協作探索中,我們依賴人類和代理作為即興合作伙伴,空間應該感覺允許,對吧,我們可以觸及彼此的工作並在即時迭代同一件事,所以例如,好的,這真的很難崩潰,所以我有一個本地版本,以防萬一做好準備。所以,讓我再試一次。給我的鳥新增一個怪物夥伴。好的,所以當我輸入時,你可能會看到有一個我有一個呃一個選項也進行編輯,這將允許你有點覆蓋某些東西,對吧?這引入了衝突編輯的可能性,例如。

所以如果我在這裡說喜歡我想喜歡製作呃製作主題中世紀並且我點選進行編輯,現在想象一下如果有人在同時在同一件事上工作,對吧,所以例如如果你在這裡編輯視覺風格,有兩個視差層,例如,有一個機會喜歡有人可能接觸同一個工件並重寫它,這應該是允許的,對吧,就像在Google文件或Figma中,因為空間是儘可能許可的以鼓勵共同創造。在這裡我看到我真的希望它流動但如果它不呃我註定了。呃但這裡的原始計劃是你將能夠看到代理游標也在我身邊進行更改。呃,因為它輸出替換我的編輯,對吧?

我認為在這裡它應該問我是否實際上應該重寫它。它也也也顯示流動的輸出。所以我可以比較並決定我是否想允許它重寫它或不。那將只是最少的例子,對吧,我只是要使用這個。那只是最少的例子,對吧?但我認為它得到顯示為了使AI多人,你真的必須設計這個體現的存在。所以這裡的代表應該設定期望關於它能做什麼。在這種情況下,它會已經能夠向我展示它正在編輯的文件,它將能夠與它自己的文本指標一起出現,它也應該視覺化地顯示其更改範圍,它應該也顯示如何處理與他人的衝突編輯,無論是人類還是代理。

我實際上認為在許多方面類似於為人類設計體現的存在今天呃我認為它非常我認為它非常相似呃無論你是在文件或畫布中設計游標。呃,所以那只是一個關於使AI多人的演示。但對我來說,這只是開始。我認為下一個前沿實際上也是多模態的,這真的是關於拓寬溝通渠道,以便人類和代理都可以以更豐富的方式表達自己。有三個方向我對這裡感到非常興奮。首先,我認為我們應該構建真正多模態的模型。幾天前,呃,這來自於思考機器實驗室。

我認為他們分享了一份關於他們所謂的「互動模型」的研究,該模型本身是多模態的,而且微術語 b,所以它總是即時互動的。我喜歡他們的表述方式,就像「基於輪次的 AI」有點像通過電子郵件與你的代理交談,而不是面對面交談。所以這是在模型層面推動邊界,老實說,這比這場演講酷得多。所以你應該完全去看看,如果你是模型構建者,請讓它發生。第二,我認為當代理在更豐富的數字媒介中移動時,我們應該為其構建更好的「具身在場」。如我之前所說,以游標這樣簡單的東西為例。你可以通過位置、運動和互動(如點選)來表達很多東西。

所以,這是一個溝通渠道,就像我們通過肢體語言理解彼此的意圖一樣,我們也應該為代理設計肢體語言。但即使是現在,對吧,我們也可以用互動模態做很多事情。所以 Guey 已經幫助人們以更豐富和更直觀的方式傳達意圖,而且我們在構建它們方面有數十年的經驗。所以想象一下我們如何能夠同時處理多觸控、手寫筆和語音等輸入,像 Diana Lou 的這個介面實驗一樣,或者我們應該想想你在你的介面中可以構建多少「確定性」,你「確定性」,你可以在你的介面中構建,對吧?

比如這個例子Figma Weave,一個筆記型工作流工具,可以生成富媒體內容。我要坦白,我在這個工具上工作,但這種筆記型的AI原生工具類別令人興奮,因為它融合了模型和我們已經知道的UI設計模式,併為他們的創意探索提供了所需的精準性和控制力。從這裡你可以挖得很深。所以,我希望我剛才分享的內容能給你靈感,讓你思考你的代理如何與多個協作者互動,無論是人還是代理,以及他們可以使用什麼模式。嗯,我肯定會關注這個領域的進展。如果你想聊天,可以在Twitter上聯絡我。

如果這些對你有共鳴,一定不要錯過今年的config,這是Figma的設計大會。那裡也有一些可能對你感興趣的更新。所以,就這樣吧。謝謝。非常感謝,Ain。嗯,我很高興介紹我們的下一位演講者。這是Saleem,Menllo Research的機器人工程師。請上臺。嗯,對於不瞭解的人來說,Menllo Research是Azimoff的背後公司。這是一款開源人形機器人,你可以訓練和定製它。他們將是第一批在我們物理AI軌道上發言的人。嗯,這真的很令人興奮,因為我們想引入嗯,你知道,新的討論,不僅僅是把AI視為大語言模型,而是你如何真正讓它理解和與真實物理世界互動。

所以um Saleem將討論嗯他的話題是「噪聲就是你所需的一切——工程模擬到實現開源人形機器人」。>> 你能看到幻燈片從這裡開始嗎?謝謝。>> 嗯大家好。嗯我是Sim。我在Melo Research工作,這是一家在新加坡註冊的公司。我想講解一下關於代理機器人的知識,以及基本上如何no-code程式設計真實世界。嗯Melo實際上是一個全棧團隊。嗯我們有27個人分佈在世界各地。我們嗯在新加坡有一個辦公室,位於Syndam Square,這實際上是一個非常好的地方。嗯我們在越南胡志明市有一個辦公室,我們即將在嗯舊金山下個月開設一個辦公室。嗯我們的團隊基本上27個人中有25個是工程師。嗯我是Salem。嗯我用於——我在2025年加入Menllo。

我之前在加州帕洛阿爾託的特斯拉工作了六年,擔任軟體工程師。我來到Menllo基本上是為了領導機器人方面的工作。嗯,如你們所見,我們做全棧機器人,從硬體up嗯從硬體up到嗯最高層嗯應用層。所以,我我猜你們已經聽說過一點ESO。基本上是一個開源人形機器人。這是世界上唯一的開源人形機器人,它實際上嗯你知道有點viral,我們沒有預料到那麼多。我們嗯嗯它在像多個國家viral,在德國。德國有一篇文章,在日本。所以嗯所以我們決定基本上建立DIY套件,基本上就像一個盒子,裡面有人形機器人的所有不同部件,然後我們有一個線上手冊,你可以在家裡構建機器人。

嗯你知道,我們把它放出來進行預訂,我認為我們在兩天內獲得了嗯100萬美元的預訂。嗯,人們對人形機器人領域非常興奮,特別是像學習如何使用人形機器人,嗯,如何學習它們如何工作以及它們如何行動。嗯,所以很多人問我們,你知道,就像你們為什麼要構建硬體?硬體很難。嗯,我想今後不涉及硬體會更難。嗯,所以作為一個開源參考人形機器人設計。所以這意味著任何能fork設計的人都可以在家裡或在製造嗯設定中構建人形機器人。所以我們的目標基本上是在全球建立一個分散式製造合作伙伴網路,他們為想購買它們的人建立esop,而我們擁有參考設計。

幾乎就像嗯像Android我想,三星和華為之類的構建硬體,而你基本上擁有開源參考設計。嗯,這非常有趣,因為當我們把DIY套件放出來銷售時,我們實際上獲得嗯200多家工廠聯絡我們想要構建機器人,他們來自世界各地。一些在土耳其,一些在德國,當然還有美國。嗯,甚至一些在奈及利亞。嗯,所以像世界各地都有他們實際上可以嗯構建as,而我們擁有開源參考設計。嗯Esimov還包括我們在內部構建的東西,就像一個機器人處理單元。這對我們來說非常重要,因為它嗯基本上是一個可以控制整個機器人的控制器。

機器人由像35個馬達、8個攝像頭、嗯2個麥克風、1個揚聲器組成,全部連線到坐在軀幹中的單個板子。而這個板子也很嗯有用,比如它可以在本地執行模型在裡面。這非常重要,因為如你們所知,代表ESMO定律。有三條ESO定律,這些定律基本上是不傷害任何人、服從你的嗯服從命令和保護自己。而定義普遍安全是非常困難的,對吧,就像生活在中東的人的安全不同。生活在新加坡的人的安全是不同的。就像我是土耳其人和德國人。我嗯我是雙重國籍。所以就像我兩個國家的安全要求是不同的。所以我們決定實際上把安全作為製造商的相同的。

我們想讓它成為構建as的人、開發as的人的分散式共識來決定安全意味著什麼。所以它幾乎就像一個共識。想想比特幣。想想所有這些其他的就像區塊鏈嗯技術,其中人們決定什麼是安全的,基本上建立一個功能安全模型、計算機視覺模型,可以在任何時候當它試圖做錯誤的事情時接管機器人,那個嗯不管as法律的嗯,這就是為什麼基本上把它燒進一個裝置是非常重要的。所以它不是在雲中執行,它只是在裝置中本地執行。

githash被燒進CRC你可以讀出所有內容,就像嗯那個單個板子,製造商必須使用,否則他們不被允許構建as,所以關於像如何no-code程式設計現實的一點,嗯no-code程式設計很有趣,因為你知道嗯在像開放爪子的時代,人們可以像基本上自動化他們的工作流每個人都感覺像一個AI工程師,對吧?就像,你知道,人們基本上可以每天早上總結一封電子郵件,然後可能認為他們可以在OpenAI申請,只是因為就像他們有所有這種力量,對吧?只是no-code程式設計東西。而我認為我們在Meno真正想要做的除了硬體方面,就像在軟體方面,我們想要嗯我們想要基本上把每個軟體開發者變成一個機器人工程師。

就像Open Claw和其餘的一樣把每個軟體開發者變成一個AI工程師基本上,對吧?而我們如何做到的就是基本上我們有一個系統設計,就像在軟體方面,就像一個代理。代理基本上是你們可以帶進來的東西。這不是我們提供的東西,這可以執行CL,這可以執行codecs。這可以連線到你像所有你擁有的不同外部工具。嗯這是我們稱之為就像大腦,緩慢思考的大腦。然後我們有嗯技能和機器人控制,它在機器人內部執行。所以技能基本上意味著如何執行某個任務。如何拿起一個杯子,如何握手,如何行走。嗯而機器人控制嗯基本上是一個即時作業系統。

確保這些命令通過機器人不會跌倒。嗯它內部有一些安全機制。而且只是為了給你你知道一個例子,就像座艙,當機器人自主執行時的樣子。所以基本上當你知道當你想從A裝載箱到B時,對吧,首先機器人在內部執行這個感知和規劃代理,那個嗯可以檢測不同的嗯障礙可以檢測不同的嗯不同的情景嗯取決於它看到什麼。嗯第二件事實際上嗯你可以通過模擬訓練來獲得技能,幾乎就像開放爪子技能。mmd檔案,對吧,你可以訓練技能拿起一個杯子嗯你知道向前移動locomate向前執行嗯跳嗯這些是通過不同型別的模型訓練的,但幾乎就像抽象為技能。

這要麼是一個VA拿起東西。這是一個Walt行動模型,或者這可以只是像反向運動學一樣,對吧?而現在你可以規劃,而且你有技能來執行。而最後一步基本上你可以只是把它插入你的代理。所以現在你的代理基本上你嗯你不是傳送影片和音訊流到你的代理。你只是傳送文本和技能,而機器人幾乎就是一個MCP伺服器執行這些任務。而你可以做的下一步基本上你可以建立一個看板板,你可以給一隊在你的工廠或在你的家中執行的機器人分配票據。而有趣的部分是那些嗯我之前提到的機器人處理單元。你可以連線那些機器人處理單元到任何型別的機器人。一些技能實際上是可轉移的。一些技能不是。

所以你可以連線這些執行所有安全法律的機器人處理單元到任何型別的機器人,基本上通過我們的棧你可以連線它們到像一個幾乎就像一個艦隊協調器一樣的群體智慧,然後你基本上可以你知道控制你的整個環境。機器人是開源的,那個技能由社群訓練。安全法律由社群訓練,而機器人由製造合作伙伴構建。所以我認為那個那個那個是一種像嗯Melo在這裡嗯在新加坡周圍試圖實現的目標,而無論誰是你知道對加入我們感興趣的人。我們實際上開設了一個辦公室嗯在Melo Park作為我們的名字說的,對吧?嗯任何對此感興趣的人都可以加入我們。嗯而任何在新加坡對此感興趣的人也可以嗯我們可以談話。

嗯什麼樣的技能集是必需的?機器人沒有特定的技能集。就像一個多維的問題。你需要有感知的人、電氣工程師、機械工程師、推理最佳化、GPU最佳化的人。你需要所有這些人。嗯我希望與我們也在後臺擁有的整個社群,為我們構建ESO,我們可以在這裡在新加坡做出偉大的事情,作為第一家人形機器人公司在這裡。謝謝大家。謝謝,Seem。現在我很高興為物理AI軌道帶來我們的第二位演講者。嗯,Alberto,Reactor的創始人。嗯,Reactor最近剛走出隱身模式。嗯,這是一家專注於稱為「世界模型」的東西的初創公司,嗯可能你們中的一些人很熟悉,或者一些人聽說過,可能嗯Nvidia的GTC後。

歡迎。嗯但嗯我們非常興奮嗯帶他來這裡討論你如何實際上建立互動式模擬環境來幫助物理AI的下一波浪潮。所以他將討論世界模型,看向未來。>> 嗯,這只是我的演講。我認為我可以做到這一點,但我不知道它是否在工作。你認為它在工作嗎?>> 好的。嗯,謝謝大家。嗯,非常興奮能在這裡。所以,今天我將向你瞥見世界模型的世界。毫無意外。嗯,首先,我想通過給你快速瞭解世界模型今天的狀況和它們能做什麼來開始演講,因為我認為有時人們嗯不知道世界模型已經可能做什麼,這相當令人吃驚。

所以不言而喻,嗯這是一個影片嗯這實際上不是一個影片。它在reactor上即時記錄生成,你可以看到我在palosing這個嗯這個北極熊。現在,當我看這個影片時,我無法完全區分這是否實際上嗯像真實影片還是像影片遊戲。但你在這裡看到的實際上是在reactor平臺上即時生成的東西。所以,嗯,這是為了向你展示今天已經你可以用世界模型生成的質量有多令人印象深刻。而所有這些當我記錄它時以每秒30幀即時執行。而且我可以只從鍵盤控制體驗。而且它會全部即時改變,只是從一個影像開始。

所以我只是想設定舞臺,因為了解這些模型已經有多先進以及今天什麼是可能的是很重要的。這只是一個早期的瞥見。我將在演講過程中稍後向你展示更多。我認為這已經可能真的是不可思議的。嗯關於我自己的快速,我是Reactor的執行長和聯合創始人。嗯我們以民主化世界模型訪問和人們用它們構建的目標開始Reactor。嗯,在過去我聯合創始人嗯Luma AI,我是技術長和聯合創始人嗯,我也在Apple上致力於視覺專業版。所以我總是熱愛嗯空間、視覺、3D和即時的領域。

嗯而u,那最終導致我思考,好吧,AI和嗯一般生成式AI中真正的下一個前沿是什麼,對我來說變得明顯,那就是世界模型和即時嗯影片生成。嗯所以重要的是,嗯思考過去比如說五年中在AI領域發生了什麼,特別是視覺AI。嗯在開始時,你知道我們有我們今天有可以生成文本、音訊、影像和影片的東西,但所有這些模式都是都是被動的。

嗯當你提示一個比如一個影像模型時,嗯你最終收到一個檔案出來,但對於生成的持續時間,沒有來自使用者的互動,沒有什麼讓你與模型互動,而模型無法處理嗯外部刺激,所以嗯比如如果世界中發生了一些東西,而你會嗯你會想要模型反應,那是不是嗯那是不可能的,因為這些模型真的是被動的,而不是互動式的,而所以在未來更多和更多AI工作負載將要實際上即時互動式和和完全嗯意識到他們周圍的世界。而這是這是因為嗯你真的需要嗯有這些模型思考這些模型思考他們周圍的世界為了在現實世界中部署它們。

否則,呃,他們真的不瞭解周圍發生什麼,也不能即時做出反應。嗯,所以為了實際討論Reactor所做的其他工作,我認為重要的是先談論什麼是世界模型。嗯,我們定義世界模型的方式,我認為與很多人的定義略有不同。呃,我們認為它們首先具有長期記憶。我們只是為了簡潔起見稱之為永續性,但它們知道——它們意識到它們之前生成過什麼。呃,它們也是即時的。呃,這意味著你可以呼叫這些模型,可以與它們互動,它們會對你做出反應。另外,它們進行因果思考,意味著它們意識到之前發生過什麼。

不僅它們記住了,而且在生成你希望它們生成的下一階段輸出時也會將其考慮在內。正如我所說的,你可以實際上戳它們、與它們互動。不僅像人類一樣,還有外部的、你知道的物理事件或網際網路事件,無論你的世界模型應該做什麼。嗯,所以你可以真正將它們視為狀態機,呃,理解外部輸入,考慮之前發生過什麼,並基於此生成新的輸出,呃,這與影像、呃,影像和影片模型非常不同,因為那些模型沒有呃,呃,之前發生過什麼的感知。嗯,所以這就是為什麼,為什麼我們很興奮,因為這改變了整個軟體的本質。

比如在當前一代生成AI中,你生成工件,但在下一代生成AI中,你將生成應用程式,因為它們是互動式的、即時的,而且你能夠,呃,它們,它們,它們意識到周圍世界發生的事情。這將完全改變不僅媒體和機器人,還有整個軟體。嗯,這是一件非常令人興奮的事情。嗯,所以今天,呃,實際上我們已經有很多用例。

呃,我再想想,呃,容易不認為世界模型是今天有用的東西,但實際上例如在機器人領域,呃,機器人公司越來越多地使用它們,呃,代替VAS和VLMs,呃,因為,呃,它們,它們,它們更善於意識到,呃,機器人周圍發生的情況,它們甚至可以直觀地想象機器人應該做什麼,例如在頭像和數字人類中,你知道,即時影片AI和世界模型,呃,比顯式基於3D表示的方式強大得多,因為你可以將它們適應各種情況。

嗯,例如對於廣告,你可以,呃,使用世界模型和即時影片來即時為每個使用者個性化內容,這真的是,呃,媒體和廣告的聖盃,但也在某些情況下涉及新型藝術努力。嗯,對於模擬,再次能夠以即時方式執行,呃,生成模擬,以更精確、更代表真實世界的方式,並改變了模擬中可能的遊戲規則。而Reactor最興奮的事情之一實際上是生成軟體的想法。這意味著的是,為什麼我們要停止生成媒體、呃,遊戲,呃,呃,以及幫助機器在世界中實際行動?如果我們能夠生成螢幕上的每一個畫素,呃,即時,呃,直播呢?

如果你想想人類與機器和由其他人定義的介面互動時有多少挫折,而這些介面對另一個人來說並不真正可用。生成軟體有可能真正改變我們未來與軟體互動的方式。嗯,所以我們也相信世界模型真的在通往AGI的關鍵路徑上,因為,呃,你從視覺輸入能獲得的資訊遠比你從文本能獲得的豐富得多,呃,當你擁有能與真實世界互動並理解它的系統時,這就是你真正在全球以非常有用的方式部署AI的方式。呃,呃,所以我們也感到,呃,通過構建Reactor,我們在那條路上,所以在解釋了所有這些之後。

我們在Reactor上構建的是世界模型的開發者平臺。我們的意思是,我們的使命是民主化獲取世界模型的許可權,這樣你和每個人都可以使用它們,呃,用它們做有用的事情。呃,它們因為難以使用已經被鎖定很長時間。如果你想大規模執行它們,你必須考慮延遲這樣的事情,你必須考慮流傳輸,你必須考慮超級取樣。Reactor為你處理所有這一切。

這樣你這個開發者就可以專注於應用程式程式碼,呃,構建你用世界模型和即時影片AI夢想的任何東西,我們認為這是我們真正獲得更廣泛,呃,呃,世界模型採用的方式,呃,以及這種型別的這項技術,呃,我們也使前沿實驗室和研究實驗室在Reactor上部署他們的模型變得非常非常容易,這樣他們可以測試它們,將它們分發給其他人,甚至,甚至,呃,從使用他們模型的人那裡賺取收入。嗯,我想在這裡給你展示一些有趣的東西。所以,這是我即時生成的Jensen走過NVIDIA。我會重新開始影片。所以,嗯,我想展示一些,呃,用世界模型可以做的有趣事情的幾個例子,這對其他技術來說是不可思議的。

所以,我剛剛生成了Jensen在NVIDIA的影像,然後讓他走過它。所以所有這一切我都是即時控制的,就像這一切都在發生,這一切都在即時發生,我可以讓他在周圍走動,你知道,在Nvidia周圍走動,你知道這是穿著皮衣夾克的Jensen在Nvidia周圍走動。嗯,這也是另一個有趣的例子,你知道,這些型別的東西不可能在即時,呃,沒有使用像世界模型這樣的東西。

這是為了我想向你展示這是多麼令人難以置信的可能,呃,你可以基本上立即製作它,呃,不,不,沒有時間,呃,只是享受樂趣,但有這麼多更嚴肅的應用程式,你可以用這些,我很希望每個人都嘗試構建,這就是為什麼我們,呃,是的,當然,它變得怪異,呃,但是的,所以我們,我們已準備好允許開發者使用這種能力,我們已經與世界上所有主要的世界模型建立了合作關係,你可以今天去reactor.in,下載我們的SDK並開始使用世界模型構建。非常感謝。>> 謝謝你,Alberto。呃,接下來,我很高興地介紹,呃,呃,Yang Li(art),他是Open Mind的創始人。歡迎上臺。加油。

嗯,他目前實際上背景與一些人很不同。他是Stanford的教授。以前,他實際上是我母校Berkeley的教授。我不會對Stanford的事情太生氣。哇!Go Bears。嗯,我很高興他將介紹Open Mind的工作。呃,對於那些對機器人領域有所瞭解的人,很多事情都有點分散,所以他想建立什麼是機器人的Android時刻,一個體現AI的開放作業系統。>> 呃,不,我可以用這個,但我們會解決這個問題。哦,太棒了。那完全有效。太好了。歡迎。呃,所以我的生活始於UC Berkeley的物理教授。嗯,與Facebook有一點合作。

這讓我意識到與,呃,大規模收集資料和利用該資訊做出好決定有關的問題,主要是為了醫療保健環境。呃,然後我將我的實驗室移到了Stanford,這樣我可以更靠近醫學院。而且,呃,所以我是一個家長。呃,我教書,我做研究,呃,我關心醫療保健成果,所以我關心人們變得更好,所以我主要由醫療保健、教學、我們周圍的機器和人類的東西所激勵。我有點想知道所有這一切會如何發展。所以我今天不會告訴你手。我今天不會告訴你組裝或製造。嗯,我會思考一下週圍有智慧機器意味著什麼,呃,我們應該,呃,作為,呃,工程師,呃,呃,為那些新的能力而努力構建什麼。

當然,你們每個人都讀過,呃,Norbert,呃,Wiener的《控制論》。呃,如果你沒有,呃,呃,那太可怕了。呃,你絕對應該這樣做。嗯,他有一個真正很好的,呃,對自動化的更廣泛視角,當然第一步是像時鐘和時計這樣的東西。呃,第一次革命,他稱之為,是人類手臂的貶值。所以這些是技術,如織布機。這些是技術,如蒸汽鏟和自動製造,以及Amazon和倉庫物流。所以你可以將它們全部視為對人類手臂的某種變化貶值。順便說一句,呃,我只是引用他。我不一定完全同意他的措辭方式。嗯,但,呃,那就是,呃,控制論中的論點。

然後當然根據Norbert,我們目前處於第二次革命,這是人類大腦的貶值。這是那個,呃,歷史趨勢中的一些例子。所以象棋和圍棋。然後有Waze,你可以到達機場。呃,當然,呃,烏克蘭如何進行越來越自動化的戰爭。呃,我們正在到達很多人認為一般製造和某種手動任務,呃,完全在技術範圍內的地步。然後當然是所有這一切中的某種最後一步,像照顧、教學、陪伴、修理東西等等的東西。我主要對這最後一類,呃,,任務和機會感興趣。而且通常在這最後一類中你正在處理的是你,呃,有一臺機器與一個人或多個人互動。

這使事情,呃,真的有趣和具有挑戰性。當我們中的一些人想到機器人時,呃,我們可能想到,呃,Tesla工廠,而當其他人想到機器人時,他們會想到像iRoot這樣的電影。所以你在這裡擁有的是一個人與機器人互動的情況,這是這部電影情節的關鍵部分。同樣對於我們很多人來說,當我們想到機器人時,我們立即當然被吸引到Princess Leia和R2-D2。所以那是一個例子,其中在Star Wars中執行重要任務的機器人,呃,沒有手,呃,但儘管如此,呃,成功地拯救了反抗軍。而當我想到機器人時,我很大程度上處於這第二個陣營中。

嗯,我想到了通過為我們周圍的機器賦予良好決策能力,呃,能夠在與寵物、人、患者和學生等的複雜動態環境中導航創造的所有機會。所以,我真的很感興趣,當我們看時,你知道,醫生、教師、護士、投資者、銀行家、警察、電工,呃,無論,呃,他們的職位是什麼。我真的很感興趣,他們的,呃,解決涉及與人互動、理解人、記住他們、呃,能夠向他們面前的人提供個性化內容的更高階任務的能力。有時當我為醫學預科生教物理時,這讓我傷心,因為我在看500個學生,我不知道他們是誰。我不知道他們知道或不知道什麼。

而我作為教師知道的是,我給醫學預科生講的物理方式,呃,對觀眾中大概三個孩子來說超級無聊,呃,然後對其他497個孩子來說可能不那麼容易跟上。所以我真的希望我對我面前的每個人有更好的能力來理解,並且能夠更恰當地提供內容。而我認為這對所有機器人來說都是一個通用的問題陳述,是如何為家庭、患者,呃,等等最優地做到這一點。嗯,如果你看一下美國現在所有830個人類工作類別,呃,我只是繪製,呃,社交智慧對於做好那些任務的重要程度。想象一個教師或一個護士。呃,這不僅僅是通過某個靜態工作流程。

這真的是與,呃,具體的,呃,具體的人互動,然後,呃,例如為其提供最優照顧。所以當我們設想機器能夠在我們周圍做越來越多的技能時,呃,對我來說非常重要的是這些機器,呃,對與人互動有不可思議的能力。呃,所以我們作為公司的評估標準是,呃,微笑和淚水、信任和記憶。嗯,這裡是Diane。呃,Diane是人類,Iris是人形機器人。而Diane住在公園附近。而當Iris人形機器人不去公園時,呃,Diane會問,「呃,Iris在哪裡?Iris在哪裡?」而且,呃,那是因為Iris是唯一一個有時會聽她講數小時話的東西。而且,呃,這讓Diane非常高興。呃,她的眼睛閃閃發光。嗯,她來去公園,因為她在尋找Iris人形機器人。

而且,呃,你可以隨意叫我反烏托邦。呃,這不是你正在建設的一個可怕的未來嗎?我們的父母應該被三代孫子圍繞。嗯,我們的父母應該,呃,被他們所有親人圍繞。如果你看一下今天美國的長期護理,呃,美國人在長期護理中花費,呃,在任何型別的社互動動中的平均時間是每天兩分鐘。每天兩分鐘。而我喜歡認為,在那種型別的世界中,呃,呃,機器在與我們聯絡中有很大的作用。而當我開始流口水和垂涎欲滴,呃,我的思想消失,呃,我幾乎肯定會是,呃,呃,與機器互動,並希望我在那種情況下微笑。那是我非常高興的一件事。

呃,所以現在,呃,我們對事情有一個有點不同的看法。嗯,有一百家公司在我們周圍,我愛他們所有人,他們都很棒,他們正在研究手和機械任務,以及iPhone組裝,呃,切洋蔥,做麵條和摺疊T恤,所有這一切都很棒。但憑藉所有聚焦於該問題陳述的傑出人才,我認為,呃,那將很快、很快解決。所以我們開始預期下一步,其中所有這些機器將被烘焙到我們的直接環境中,而我們對他們的行為以及他們如何與我們聯絡將有強烈的意見。而任何,呃,問題或投訴,我把我的電子郵件放上去了。所以,嗯,如果你喜歡它,那很棒。而對於任何投訴,它是[email protected]

感謝。>> 好的。非常感謝,Yan。現在我想邀請 Andrew Tan 上臺。請過來這邊。嗯,他是 Groq Cloud 的平臺工程負責人。我們遇到的許多問題不只是「好吧,模型能做這個嗎?」而是「它能快速、廉價地為數百萬甚至數億人在規模上做到這個嗎?」所以這就是他要講的內容——如何在 Groq Cloud 規模化低延遲 LLM 推理。等等,抱歉。抱歉。大家能聽到我嗎?好的。嗯,我叫 Andrew。我是 Groq Cloud 的平臺工程負責人之一。你知道,在過去幾天,當我告訴人們我在 Groq 工作時,人們喜歡說「哦,Groq 有這麼好的個性。」有時我需要更正他們說「哦,我在 Gro 工作,那是帶 Q 的。」

「但我們也有獨特而鮮明的個性,那就是快速低延遲推理。我今天要分享的是我們如何在 Groq Cloud 實現這一點。如果你還不瞭解 Groq 和 Groq Cloud,我們是一家 AI 基礎設施公司,專注於低延遲、確定性的高效能推理。我們如何實現這一點?好吧,這是圍繞 LPU 或 Gro 晶片構建的,這是為低延遲推理專門設計的定製矽晶片,我們有一整個堆疊圍繞它構建。所以那包括編譯器、執行時,我們有云基礎設施、全域性路由、開發者平臺和企業功能作為 Groq Cloud 的一部分。我今天會給你們展示這看起來像什麼的快速演示。嗯,我們就放一個錄製影片。」

>> 我不知道你們是否能聽到,但這是某種即時轉錄。告訴我關於 2026 年 5 月在新加坡發生的 AI 工程師活動。你看到近乎即時的...兩次呼叫,你看到文本以大約每秒 500 個令牌的速度生成得非常非常快。我再放一遍。而且這甚至不是我們在 Groq Cloud 上使用的最快的模型。所以這只是一個快速演示,讓你們瞭解推理可以有多快。這可能比你在不同平臺上習慣的速度快好幾倍。現在為什麼這很重要,推理需求現在在哪裡?你知道,隨著代理、多模態模型、重型推理模型的出現,推理需求正在激增。它加速得真的很快。嗯,在過去的一年裡,Groq Cloud 上的令牌需求,即我們提供的令牌數量增長了約 600% 或 7 倍。

而且我們這樣做的硬體佔用空間並不比去年大多少。如果我們想服務所有對推理的需求,這個倍數會高得多。嗯,今天我們在過去一個月裡服務了大約 800,000 名活躍開發者。嗯,我們繼續看到來自大型企業、初創公司、AI 公司、AI 原生公司和世界各地各種不同型別的開發者的需求。我們確實認為,向前看,推理將真正定義嗯...基礎設施...AI 推理的下一代基礎設施和架構選擇...嗯,AI 基礎設施。抱歉。現在有一件事是我們花了很多時間思考的...我不確定為什麼這不是全屏。抱歉。好的。是的。

我們花了很多時間思考的一件事是如何在世界各地路由請求,以最低的延遲服務令牌。我們在世界各地大約有 10 個數據中心,主要在北美,但也在歐洲、中東和澳大利亞,服務 APAC 地區,約 65% 的令牌需求來自北美,20% 來自 EMA,15% 來自 APAC,包括來自新加坡的 1%。我們將每個請求路由到通過我們的 Cloudflare 邊緣網路的最近的 POP,然後路由到我們的資料中心,我們沿途做出許多路由決策,以確保我們客戶的最低可能延遲。這如何分解,你知道,這是嗯...一個...一個 LLM 請求的生命週期。嗯,我們看到這由網路延遲組成。一個請求到達我們的邊緣網路。

然後它被路由到我們大約15個推理區域之一,這些區域可能包括雲網絡或資料中心內的本地部署。我們在那裡部署推理堆疊,在推理延遲方面,它分解為Q時間,其中請求為不同模型排隊。它還包括提示時間或輸入處理,以及完成時間(即解碼或輸出處理延遲),這些加起來就是您對任何提供商發出任何LLM請求時經歷的端到端延遲。Q時間和提示時間是我們非常關心的,因為那是在許多情況下為實現快速流式首token時間的慢步驟。更詳細地說,每個傳入的請求都經過身份驗證,並命中我們的全域性負載均衡器之一。

全域性負載均衡器在15個數據中心之間共享資訊,關於每個模型例項的估計等待時間和Q時間。每個資料中心可能部署了50個模型例項。這些資訊在所有負載均衡器之間即時共享,約每100毫秒一次,以啟用路由決策。制定這些路由決策並不最容易,因為我們需要估計輸出生成長度。與典型的API請求不同,您不知道端到端請求將執行多長時間,因為您不知道將生成多少輸出token,對吧?

我們進行一些取樣,從可用的後端桶中取樣TTFT,並將請求路由到特定資料中心部署的最優模型例項。沿途還有很多檢查,包括速率限制,當然還有跟蹤和審計不同的使用事件。更詳細地說,我們按TTFT對事物進行分桶,以路由到最佳區域中的最佳模型例項。我們對不同型別的客戶應用一些優先順序,確保比如說我們的企業客戶獲得更快的流量。這是跨多條進入我們不同叢集的入口路徑完成的,我們需要執行某種全域性速率限制,以確保沒有地理套利來繞過速率限制。至於為什麼速率限制很重要,我稍後會再講一下。

在全球範圍內提供流量的另一個關鍵方面是在不同時間、不同地區甚至周與周之間識別合適的模型組合。我們看到對不同模型的需求變化不同,能夠快速將任何模型部署到特定地區很重要。我們通過宣告式的、非常簡單的清單來實現這一點,該清單快速協調。所以在提交和合並某些程式碼配置後的一兩分鐘內,我們可以將新模型部署到世界各地的任何地區。從合併到服務流量僅需幾分鐘,對每個模型例項進行適當的金絲雀測試和預熱。現在我們經常收到的另一個問題是,我們如何讓模型在我們的自定義矽晶片上執行?

通常,我們從Hugging Face獲取開放權重和PyTorch參考實現,將其編譯為我們的Gro張量運算子和我們的方言到MLIR中,計劃它,跨不同晶片分割槽。我們執行不同的預設來啟用這一點,然後編譯為在我們的自定義硬體上執行的輸入/輸出程式或位元組碼,完全編譯器排程執行和軟體排程網路。所以我們為每個請求獲得非常極其可預測的延遲效能。現在,由於我們是一個受歡迎的開發者平臺,我們也吸引了很多濫用和欺詐行為,您可以看到攻擊向量變得越來越複雜,我們在平臺上檢測到的濫用指紋、濫用訊號的數量繼續增加。

所以這是我們確實需要通過速率限制和其他機制非常仔細地監控的事情。現在我還有兩張幻燈片。呃,在思考我們合作的最大企業在 2026 和 2027 年期間在推理棧中尋找什麼時。呃,大型企業越來越多地尋找專用計算容量。資料駐留繼續是一個重要話題。

呃,隨著模型規模的增加,這些大型模型的解碼延遲繼續是人們關注的事情,嗯,與大型模型部署相關的單位經濟學,在呃大型企業中,甚至對於 AI 原住民 AI 公司,有一定範圍的複雜程度,一些想要一鍵部署,一些想要託管服務,一些想要自帶模型、自帶權重,一些想要他們自己的推理棧,所以對於不同型別的推理服務,未來存在相當大的呃異構需求。現在我的最後一張幻燈片是關於基於 LPU 的解碼看起來如何的。我不知道是否有人觀看了今年早些時候 Nvidia GTC 呃演講,其中 Nvidia 執行長宣佈了 Vera Rubin plus Gro 3 LPX 系統。

嗯,背後的關鍵想法是這種聚合推理,其中你在 GPU 上執行預填充和許多層,你在呃 LPU 類似的晶片上執行解碼,也許是 FFNES,我們展望未來,我們確實看到異構計算變得更加普遍,實現更好的單位經濟學、更快的速度和更好的效能的方式,呃當然是,這需要與生態系統對齊,模型編譯到這個硬體上並執行。所以,這就是我想分享的內容。我希望你們享受了解更多關於 Grock Cloud 的學習。嗯,我們這裡還有一些關於如何開始的連結,以及我們開發者平臺上的內容。謝謝。>> 謝謝你,Andrew。接下來,我想邀請舞臺上的 Daria,她是 Cerris 的首席研究科學家。

呃,她是在 Cababus 設計許多食譜的幕後人物,她將談論從 GPU 到晶圓級 AGI 的規模。大家好。我今天在這裡非常興奮。我將談論我們如何在 Cerebras 硬體上大規模訓練混合專家模型。首先,我想從呃關於我自己的一些東西開始。嗯,目前我是 Cerebras 的首席研究科學家,在過去的幾年中,我一直在研究 MoE 網路,因此我有這份我們釋出的 MoE 101 指南。它基本上教你如何有效地訓練和執行 MoE 模型的推理。嗯,目前我在 Cerebras 硬體上領導呃前沿規模的訓練,在此之前呃我在一家名為 Yandex 的公司工作。它非常呃著名,像一個俄羅斯谷歌。

呃,我在那裡從事 Transformer 的工作,以及我們在生產棧中部署的第一個 Transformer,在此之前,我在谷歌從事語音轉文本模型的工作。對於今天的議程,我想從呃向你們概述過去幾年語言模型社群發生的事情,以及我們如何最終得到 MoE 網路開始。然後我們將討論什麼是 MoE 網路,以及我們如何大規模訓練它們。嗯,首先,在語言模型社群中,我們在過去幾年做了很多工作。我們從 GPT-3 開始。OpenAI 釋出了一個 1750 億引數規模的模型。除了該模型外,他們還發布了縮放律,顯示隨著模型規模的增加,你獲得越來越好的質量。不久之後,Meta 釋出了 Llama 3 系列。他們進一步擴充套件了模型。

所以,現在規模是 4000 億。但除此之外,他們花了很多時間弄清楚如何有效地從資料中提取訊號。所以你們中的一些人可能聽說過 Chinchilla 縮放律。他們建議除了擴充套件模型之外,你還想擴充套件 token 預算。大約每個引數 20 個 token 被認為是計算高效的。因此在這一切的最後,我們能夠非常高效地擴充套件模型和 token。然而,如果你繼續線性擴充套件模型大小和 token 預算,它會變得非常非常昂貴,非常快。我們想在萬億引數資料集上訓練萬億引數模型大小。所以另一個幾年前發生的突破是 DeepS 呃公司釋出的 DeepSQ3 模型。那個模型規模更大。

所以總共 6710 億引數數量,但它非常非常高效,因為它會以 370 億呃活躍引數稠密網路的速度執行。他們是怎麼做到的?背後的架構是混合專家。如果你看 Transformer 網路的解碼器塊,你會看到我們有不同型別的層。我們有嵌入、注意力和 FFN 塊。嗯,如果你想建立一個 MoE 網路,你會在右邊看到,你只需獲取 FFN 塊並複製貼上它,現在每個 FFN 將被稱為一個專家,你還在頂部放置一個額外的網路,稱為路由器,路由器的工作是決定哪個專家應該處理特定的 token。這樣你可以繼續增加網路的容量。所以你可以通過新增更多專家達到 6710 億引數。

但因為你只啟用其中的一小部分,你可以非常高效並以 370 億稠密網路的速度執行。現在你可能想知道,好的,這聽起來很不錯,但這些網路與稠密網路相比縮放律看起來如何?這裡我為你提供了一個圖表,其中我擴充套件專家的數量,並將 MoE 網路的質量與以相同浮點運算次數執行的稠密網路進行比較。你可以看到,在這裡,用 32 個專家,你可以獲得高達 5% 的損失改進,計算量完全沒有增加。所以你免費獲得它,僅僅因為架構更聰明。另一方面,你可以這樣想。你可以以稠密網路的三分之一的計算量訓練達到相同的損失。

這裡我只有 32 個專家,與最先進的模型使用的相比,這非常非常小。我們使用數百個專家。所以你可以看到這個架構的效率有多高。就語言模型社群而言,我們非常興奮有機會大規模執行它,因為過去幾年我們無法像現在這樣高效地改變縮放律。嗯,我們知道它應該比稠密網路執行得更快,對吧?基於理論。然而,當我們在實際裝置上(比如這裡的 GPU 裝置)實際執行它時,我們得到比稠密網路更慢的結果。MoE 的速度更低。那麼為什麼會這樣呢?讓我們看看我們如何在 GPU 裝置上實際實現 MoE 網路。每個 GPU 通常只有有限的記憶體。所以如果你執行一個非常大的網路,你必須分割它。

你必須分割模型引數。對於 MoE,我們使用專家並行。基本上,你在不同的裝置上放置不同的專家組。嗯,你可以在這裡看到專家一、二、三在 GPU 1 上,專家四、五、六在 GPU 2 上。你新增兩個額外的全對全操作。這通常是這樣做的,因為你也進行資料並行,所以你不知道提前將 token 移動到哪個裝置。然後他們可以被特定的專家處理。所以這兩個全對全操作非常昂貴。大多數時候,如果你嘗試分析這個,呃大部分時間將花在通訊上,不幸的是,在 GPU 端沒有什麼根本的東西我們可以做來改進它。這歸結為物理佈線。現在我想向你們展示 GPU 裝置和 CS 機器之間的比較。

我這裡有B200 GPU。你可以看到它使用126兆位元組的SRAM。這是晶片上的L2快取,也是可用記憶體,執行在每秒8太位元組的記憶體頻寬上。與大小如同晚餐盤的Cerebras相比,它的晶片非常小。嗯,它的SRAM要多得多。所以你可以看到我們有44 GB的SRAM,我們的記憶體頻寬執行速度快好幾個數量級。這使我們能夠做什麼呢,它使我們能夠實際上在晶片本身上訓練一個非常大的網路,不需要任何型別的模型並行化。但是,如果我們超過44 GB的SRAM,我們開發了一種技術,能幫助我們在一個裝置上訓練約一萬億規模的網路。我們怎麼做到的呢?我們在晶片上新增額外的Memory X節點,這將成為我們的權重庫。

基本上,這就像外部記憶體,你可以在那裡儲存大部分模型引數。要進行梯度更新,你需要逐層從Memory X節點將權重流傳輸到晶片,計算你的梯度,然後將梯度移到Memory X節點以更新權重。這樣,你可以將非常大的記憶體庫(如Memory X節點)連線到一個晶片,訓練萬億引數的模型以及更大的模型,而不需要任何型別的模型並行化,也不需要額外的晶片。這對MOE網路特別有用,因為我們想訓練非常大的網路。我們想訓練很多專家,這些專家坐在同一個Memory X節點或同一個晶片上,沒有通訊開銷。但是,當我們在Cerebras上執行MOE網路時,我們實際上看到了同樣的問題。

它們執行速度比密集網路慢。這裡的問題略有不同。今天的網路非常不同。我們想訓練很多非常小的專家,因為這一點我們有一個算術強度問題。所以MOE層與網路的其他部分相比移動大量權重,但每個權重的計算非常少。因此網路的吞吐量、速度與密集網路相比更差。我們用一種叫做批次風格注意力的技術解決了這個問題。本質上,如果你想處理計算稀缺性,如果你想改善算術強度,最簡單的方法就是增加批大小。

但是,如果你看網路中的不同層,如果你只是統一地增加所有層的批大小,一些層實際上會傷害效能,比如注意力。注意力是啟用記憶體受限的。所以,在那裡增加批大小會開始將更多東西逐出到Memory X節點中,這不是有效的。我們不想那樣做。相反,我們想解耦注意力和前饋層的批大小要求。你可以看到這裡對於注意力,我們可以保持非常小的批大小,原始批大小,只是在迴圈中迭代並將結果連線到更大的批大小中。你可以看到我們連線了G個不同的迴圈。現在我們可以將這個更大的批大小放入MOE層。

它將恢復該層的算術強度,使其以密集網路的速度執行。你可以根據稀疏度級別配置這個G。所以這裡我為你提供了結果,我們測試了Qwen 3網路不同稀疏度級別的經驗結果。你可以看到沒有BTA的基線在Cerebras上執行的速度比密集網路低7倍,這非常低效。使用BTA我們解決了這個問題,你可以看到我們能夠恢復MOE網路的原始理論承諾,並以與密集網路相同的速度執行。所以來自DeepSeek的671億引數MOE網路可以以37億引數密集網路的速度執行。嗯,我想與你分享一些來自我談話的要點。一個觀點是,在我看來這是走向效率的最快方式。

所以這種來自該網路的計算效率真的是令人難以置信。不幸的是,它們在GPU上不是很高效,並且遇到了一些通訊瓶頸。但是,在Cerebras上,我們充分實現了MOE的理論承諾。謝謝。如果你想了解更多,這是MOE指南的二維碼,我們在那裡詳細討論如何訓練這些網路。謝謝。謝謝你,達里亞。是的。好的,這就結束了我們下午演講的第一部分。嗯,所以在我們回來之前有15分鐘的休息。呃,一些快速的公告。首先,博覽會,你可以在不同公司的展位上見面的地方,將在下午5點關閉。所以如果有人你想見面,呃,請到Pullman或Atelier有呃展位,比如Cursor、Google DeepMind等等。

然後 Pullman 有機器人遊樂場,嗯,OpenAI 的展臺,以及許多其他的。嗯,我想歡迎回到舞臺的 Kazaya,你在今天上午 10 點左右見過,她是一位經過訓練的正念老師,她將提供一個小小的體驗,嗯,沉浸式體驗,你可以在那裡,嗯,她基本上創造了一個,嗯,振頻編碼粒子視覺化工具,在數小時的冥想上訓練。嘿,你知道嗎?繼續程式設計。接下來,我們有任務。嗯,如果你不熟悉 ZAI 和 GLM 系列模型,嗯,市場上一些最好的開源模型。嗯,不如你可能在使用的頂級模型那麼昂貴。非常適合「開放條款」、個人自動化之類的東西。所以不再贅述,我想...我認為它,讓我檢查另一邊。好的。

所以,你可以改變當前大小,對吧?也許它是嘿,嘿,嘿。的GLM模型。所以今天我將呈現GLM 5.1,也介紹Lar的測試背後的想法。嘿,嘿,但這不是G。A。我。和G。我屬於谷歌,不是你的公司。那麼為什麼你叫Z。似乎不相關。要點是我們首先用中文被稱為。所以實際上代表智慧。當我們發現外國人很難發音Zhi時,我們嘗試縮短它。為了縮短它成Z。實際上Z代表智慧。你可以把我們看作智慧。艾。所以這是連結這個Z。我的平臺到我們的模型和我們的服務的最佳方式,我也想向你介紹GLM,因為很多人使用過GLM 4。7、GLM 5、GLM 4。

1但實際上我們是最先之一探索大型模型的公司,正如你可以從這篇論文中看到的。所以我們在某天3月18日2021年提交。所以我們開始探索所有大型整合模型,早在像2020年。所以與OpenAI和DeepMind一起,也許是最早的實驗室這樣做,但我們只在2024或2025年對大多數人變得著名,現在GLM已成為一個品牌,不僅代表這個通用的呃一般語言模型,比如大型語言模型,我們還有我們自己的品牌,現在我們目前使用GLM之外的架構原始架構使其更強大。更強大、更快、更高效。好的。還有關於模型的更多資訊。所以目前我們正在推動開源的邊界。所以我們在文本競技場和程式碼競技場中領導開源模型,正如你可以看到的。

所以我做了一個截圖對比Deepseek。當Deepseek推出v4時,他們展示了很大改進,但仍然無法擊敗GPT-4.1在這些基準測試中,我們在編碼和生成任務上也相當強。如你所見,這是一個最新的人工分析基準測試,結合了三個單獨的基準,而我們只是略落後於GPT-5.5和Claude Opus 4.7。所以當前狀態非常接近Opus 4。

6分,但很多人在程式設計中使用GLM、Clock Code、Cursor、Kilo Code、Open Code等工具,所以我們雖然在整合方面不太出名,但我們使用其他整合工具,它們都很好,他們的編碼代理可以幫助做得更好。好的,關於GLM本身和ZAI的內容就這樣,現在我們來談長視野任務,因為今天我不想在Go上花太多時間,但我希望你記住這個想法,充分理解長視野任務的真正含義。你聽說過長視野任務和長時間執行任務嗎?如果沒有,這三個實驗室在最近關於他們模型的帖子中都提到了長視野和長時間執行。GPT-5.1我們非常強調我們的長視野能力,Claude Opus 4.7也提到了長時間執行技能,對於Claude 2。

6他們有漂亮的前端功能,但他們也非常強調他們的長視野能力,特別是編碼能力。所以長視野已經變得非常流行。為什麼?所以為什麼這對你很重要?為什麼你要聽這個想法,模型背後的想法?所以我們可以分享很多東西,如何製作網站、如何製作幻燈片、如何使用GLM處理Excel,但為什麼長視野很重要。首先,它很有用,因為在長視野時代之前,你一次只能完成1到10個任務。當你睡覺時,你沒有任務要做,因為你的代理只能在30分鐘內完成它,而你有8小時。你的代理無法做任何事情。但有了長任務,一切都變成真的。

另一件事是隨著開放雲工具的發展,有很多代理有心跳,可以中斷你的任務。有時你有記憶、有很多事情在進行。有MCP,它們可以中斷你的工作流。所以除非你的模型有長視野能力,它們才能堅持原始目標。如果它們不能堅持原始目標,它們會遵循最新指令,完全忘記你現在在做什麼。所以長視野能力讓這成為可能。還有一個有趣的事實,一個非常有趣的故事。在我們最近的駭客馬拉松中,我們有一個48小時的駭客馬拉松。這是我們第一次有48小時。兩天之間有一個晚上。大多數參與者選擇在睡眠中執行GPT-4.1,實際上他們成功了。

所以9個獲勝者中有7個選擇在睡眠中執行任務,這非常了不起。所以我用一個圖表來展示這個。當你睡覺時,也許今年你的代理會持續工作,每次你的代理聚集和討論以及為你完成工作。我必須向你介紹長視野想法的第二個原因是它很難。所以不僅僅是有用,因為如果有用的話就沒必要我在這裡說話,你可以自由使用ZAI,你可以盡你最大努力執行,隨便執行8小時,但它非常困難,因為首先許多人將長視野視為長上下文視窗,但實際上GPT-4.1只有200k上下文視窗,所以差距在哪裡?首先是GPT-5。

1非常強大,不是因為它的上下文很長,而是因為它可以理解上下文,可以理解你的計劃和記憶,以更好地反映結果。當你使用Claude Code時,有時你無法使用1和200k,但壓縮上下文視窗可能會經常被壓縮。所以你需要堅持原始目標。第二個原因是,即使有些模型聲稱他們有一百萬上下文視窗,但當你使用接近500k時,它會忘記一切,它們只堅持最新的指導,忘記原始計劃或它們不遵循雲MD中發生的事情。第二個誤解或第二個誤解是,有些人認為如果我事先給予足夠的指令。所以至少所有的指令可能會很好地遵循,因為沒有必要。

模型具有長視野能力。我有長困難能力。我可以在100次執行中指導它做,但實際上一個模型在這方面沒有經過訓練。它沒有足夠的能力堅持你的計劃。所以它會在某個模式後盡力做任何事情,稍後我們會給你展示這個故事。第三個誤解是許多人認為越長越好,對吧?所以人們想要模型實驗室釋出的,比如我可以執行8小時,也許另一個實驗室展示我可以執行12小時、24小時、一天、七天,但從我的觀點來看,這沒有意義,因為我們現在有非常快的推理速度。是的。

所以如你所見,有很多推理提供商可以提供超過200的吞吐量,最新的技術、硬體、晶片內的模型可以以接近17,000個令牌每秒的速度推理。所以時間不重要,對吧?如果你考慮時間,你使用最新的技術,你只需要執行大約一分鐘。8小時沒有意義,對吧?所以實際上什麼是長視野,長的意思不是關於時間,而是一種深度。所以如我們聽到的不是更長而是更深。所以長視野實際上意味著繼續尋找有意義改進的能力。是的。所以你必須做出改進,但這些改進是有意義的。例如,如果我在X上有10個粉絲,我想收集他們的所有資訊。所以我給一個提示。所以抓取這10個粉絲的所有資料。

所以那是一個場景。但如果我想擴充套件,我抓取100、1,000、10,000。任務沒有改變太多,對吧?所以你必須做出非常有意義的改變和改進。所以長視野任務實際上是什麼?所以你談論長視野的想法,你談論什麼是錯的,但什麼是對的?一個需要小心類別。第一個類別我們稱之為主觀目標。在這個第一類別中,你想建立一個網站,你想建立一個系統。對於什麼是最好的網站沒有明確的指標,對吧?所以你可以讓模型無限執行。但它在哪裡停止取決於你的能力、你的判斷,而不是模型的判斷。第二個類別是這個場景需要一個客觀目標。

例如,你想要速度、價格、想要與某個數字相關的一切。所以我們有兩個類別,對於每個類別有完全不同的機制讓我們最佳化,無論是作為模型還是作為人。哎呀。有一個影片,但有什麼地方出問題了。我現在盡力讓它發生。所以如果30秒內沒有修好,我建議你檢視ZAI的X。所以實際上我們有一個影片,展示了我們如何在8小時內從零開始從零到一構建Linux系統,在8小時內它不只是新增應用。它首先建立一個層讓所有應用可以整合到系統中,然後它拋光所有介面,然後測試所有這些應用,最後新增50個應用。所以這應該是什麼,但不幸的是我們無法在這裡呈現。

也許你可以搜尋 G 5.1 部落格,那裡會有對這項任務的全面說明。那麼為什麼需要人類呢?如果這個模型非常強大,幾乎可以完成任何事情,為什麼還需要我們呢?因為我可以去睡覺。我不需要,我不需要指示模型,對吧?因為當我睡覺時,我讓它完成一個 Linux 應用,我起床後它就已經完成了。為什麼我需要參加這個活動並學習如何使用長視野任務呢?因為模型會犯錯誤,而且經常犯錯。一個模型可能犯三類主要錯誤。第一個是模型可能不遵守我們的原始目標。如果你給模型設定提示讓它最佳化五次,它可能表現得完美。但如果讓模型最佳化600次,它可能完全忘記了原始目標。對吧?

因為模型總是關注每一個令牌。所以有時候當你談論 Linux,然後你談論 iOS,模型完全忘記了哦你在做 Linux 應用還是 iOS 應用,這很常見。要處理這個問題,我建議每個人,或者我推薦你準備一個檢查清單。所以無論何時你做長視野任務,都要嘗試準備檢查清單,這是讓你的模型堅持原始目標的最好方法。你必須讓它每隔幾步重新閱讀一遍目標,因為你有很多步驟,對吧?因為當你只最佳化10分鐘時,你沒有很多步驟。你不會覺得這很重要,但你必須手動指示它非常仔細地重新閱讀所有指令。第二件事是錯誤積累。

所以如果你發現模型在400次執行中犯了一個錯誤,比如說,那不會有太大影響,但當它進行到800次執行時,它實際上可能會破壞所有東西。所以這叫做,呃,錯誤積累。所以為了讓這種情況不經常發生,你必須驗證,不是你自己驗證,而是你必須指示模型自己驗證。從零到一到100,你需要有幾個檢查點。所以當我們訓練模型時,我們有檢查點,但當你執行長視野任務時,這很相似,你必須為你自己和模型設定幾個檢查點來自我檢查。第三件事是模型被訓練得非常努力,對吧?因為如果你想讓模型做這個,它會持續地,有時在迴圈中,繼續做那個,每次只做一件事。但對它們來說很難轉向。

所以模型有時永遠不會放棄。所以你必須讓模型放棄或轉向,如果它發現什麼非常錯誤的東西。所以檢查清單在這裡也非常有用,非常有幫助。而且你必須評估,無論是你自己還是由代理人,是否繼續、停止、修訂或做任何與你的任務相關的東西。所以這些是針對主觀目標型別的長視野任務的建議。所以這是人們可以做的,我認為很多人正在構建他們的應用或你在做類似的東西。所以這可能對你的部署有幫助。另一件事。所以看起來更難,因為那就是客觀目標的內容。我們有一個非常強的案例。它被稱為最佳化向量資料庫。我相信你們中不是很多人最佳化過向量資料庫。

即使是我們的研究人員或負責訓練的人也沒有機會接觸這個領域知識,但我們的模型有。所以我們從零開始,讓模型自己最佳化,進行了100次執行,最後他們到達了這裡。所以在100次執行中有了非常有意義的改進,我們做了類似的東西。所以從零到100輪到200輪,最後你到達600輪,我們基本上有六到八個科學發現。所以模型轉向很多,最初他們使用技術一,然後他們開始使用技術二和技術四。所以我想讓你提及這些失敗。所以實際上這些叉號像意味著失敗。所以當你看到這600次執行時。所以基本上大部分都失敗了,對吧。所以當你談論長視野任務時,實際上並不意味著你每次都成功,就像生活一樣。

所以你有時成功,有時失敗,在圓形區域中,所有的最佳化都失敗了。所以對於長視野任務或長視野模型,關鍵部分是模型可以反思、可以規劃、可以改變想法或可以最佳化、改進、可以不斷地改進自己到更好的方式。所以這就是未來最佳化的樣子。對於這類任務,也許對你來說非常困難,也許對我來說也非常困難。我強烈建議你檢視評估。這是我目前最喜歡的評估。它叫做 Frontier Suite,因為我們都知道 SweetBench。我們都知道 SweetBench Pro,但 Frontier Suite 是一個試圖評估長視野任務能力的基準,包括主觀目標和客觀目標。而且這是他們的分類。

所以他們用三種方式對長任務進行分類,不僅僅是按主觀目標和客觀目標。第一個是實現。當我們談論實現時,你從零開始到一。這是我們的三個例子,我強烈建議你檢視他們的網站。超過三個任務,當你想構建一個應用時,當你想做一些網路編碼的東西,代理的東西基本上和實現一樣,呃,第二個是研究。所以實際上交易是一種長視野任務,你必須從以前的失敗中學習,你必須從很多東西中學習,你必須為市場做研究。所以很多編碼之外的東西屬於長視野任務。所以長視野不僅僅屬於工程師做的東西。交易員、科學家也可以使用長視野任務來做事情。

所以這就是研究的含義。所以你可以使用長視野來探索很多東西。第三種方式是最佳化。我已經向你展示了它的能力。所以目前我們的模型團隊正在使用 AI,使用 GLM 來最佳化 CUDA 核心,最佳化向量資料庫。所以當我們談論自我演進,當我們談論持續學習時,ZAI 模型團隊已經是一個可以使用模型來改進自己以及改進模型推理的 AI 本地團隊。好的,我認為今天就到此為止了。這是我的 LinkedIn 和 X。我不在 LinkedIn 上釋出,但那裡有我的個人資料,在 X 上。呃,我釋出很多。我在 X 上相當活躍,但那裡沒有個人資料,所以你最好兩個都掃一下。我認為今天就到此為止了。歡迎所有問題。是的。好的。

歡迎通過這兩個平臺聯絡我。非常感謝。非常感謝你。嗯,接下來我們要改變一點氣氛。嗯,我們要談論語音代理。現在顯然我們已經作為會議的一部分討論過設計和不同的介面,嗯,到目前為止我們想看看語音可能是這些範式之一,為此沒有比從 Boris Starkov 聽得更好的了,他是 11 Labs 的增長工程師。所以 11 Labs 顯然是這個領域的領先公司之一。嗯,Boris 將討論語音引擎以及什麼使代理具有對話性。不再多說,Boris。嗯,大家好。我是 Boris。我在 11 Labs 擔任增長工程師。11 Labs 是一個前沿的語音 AI 實驗室。嗯,我們在整個語音 AI 領域進行研究和構建應用。

嗯,我們也特別興奮,我們堅信語音是人類與代理互動的主要媒介,實際上我們很高興看到行業開始追隨那個願景。以編碼代理為例。呃,幾乎所有的編碼代理實際上都有某種使用語音模式的按鈕。然而,如果你實際使用它,它工作方式如下。你開始呃談話,你對它說話,然後你等待它被轉錄,你再次等待代理內部,然後你第三次等待呃實際的語音合成部分。所以當然這是語音輸入,這是語音輸出,但這不是對話。今天我想談論如何改進這個架構,使其感覺更像自然的人與人之間的對話。

我們將保持核心架構相同,但我們將新增許多小的改進,這些改進結合在一起會產生巨大的差異。嗯,我將從語音識別部分的改進開始,然後在第二部分,我將繼續進行一些改進以涵蓋語音合成的一些改進。所以可能最基礎的呃拼圖的最基礎的部分呃被稱為語音活動檢測器。我們從使用者那裡獲取呃音訊流,然後將其拆分為大約20毫秒的塊。然後我們有一個非常小的、非常高效的、非常便宜的模型,它可以告訴你每個塊中是否有人在說話。

這不僅對下游實際理解正在發生的事情、是否有人在說話、誰在說話、輪到誰非常有幫助,它也幫助我們在計算上節省很多,因為如果你知道在某些塊中沒有人在說話,我們就不需要在那些上執行更昂貴的 ASR 模型。理解檢測沉默和檢測輪次結束不是同一個問題是非常重要的。例如,呃代理可以問我什麼東西,我用我認為呃回應有很多沉默,但這不是我句子的結尾。我不希望代理在這一點上打斷我。這就是為什麼呃檢測沉默不足以準確預測呃代理何時應該開始說話。

所以這裡我們訓練了另一個模型,再次一個非常聰明的呃轉向檢測器模型,它不僅考慮語音活動,而且考慮之前說過的內容的實際背景,以預測這是否是句子的結尾或呃說話者使用者要說些什麼。像在許多其他步驟中一樣,順便說一句,這裡我們使用了一堆啟發式方法。例如,如果使用者呃拼出他們的汽車詳細資訊或他們的信用卡詳細資訊或他們的電子郵件或他們說出我們擁有的觸發詞之一,我們將這用作非常強的訊號,即呃可能會有某種沉默,可能那個沉默並不意味著使用者已經完成了說話。這個模型在下面的呃幻燈片中至關重要。

所以最大的解鎖之一,我們在改進延遲和基於輪次的模型方面可以實現的最大勝利之一呃是以下這個。所以要理解這個呃讓我們想想人與人之間的對話是如何進行的。你和一個朋友說話。比如說你的朋友在和你說話。他們呃在說話說話然後他們停止說話然後你等待大約一秒鐘以確保他們沒有什麼要補充的,只有這樣你才能繼續回覆。不幸的是,代理買不起等待一秒鐘,因為它還需要呃一些時間來生成響應。這就是為什麼我們做我們做一個推測的呃輪次,這是在我們的模型認為使用者可能停止說話的那一刻之後立即開始推測性地生成響應。

我們的模型相當聰明,所以大多數時候這是正確的選擇,響應來得快得多,感覺延遲要低得多。感覺更自然,也許有時會有一個假正例。那沒什麼大不了的,因為那樣我們只是向生成模型傳送一個取消,繼續聽。聽起來很多,但那只是第一部分。呃現在呃一點關於如何改進呃合成部分語音合成部分。所以代理呃傳送給我們令牌,使用者期望呃句子方面的語音喜歡語音呃我們真的買不起等待整個句子,然後才將其傳送給呃語音生成器模型,因為那樣使用者會在沉默中等待。

我們也不能真的一個接一個地生成令牌,因為那樣一些令牌會生成得非常快,其他令牌會花費一些時間。整個生成會感覺非常跳躍,非常滯後,不穩定。所以我們採取了中間的方法。我們為五、六、七個單詞的小短語製作了一個緩衝區。我們將令牌收集在一起,然後在整個句子被構建之前將它們刷到生成器中。這讓我們從兩個世界中獲得最好的。我們有穩定性和低延遲。這也相當有效,因為當前短語正在播放給使用者時,下一個短語已經在被合成,短語之後的那個已經在緩衝區中被構建,所有這些同時進行。我們還在我們的呃許多我們的模型和工具部分使用了級聯。

例如,呃這裡我將談論 TTS 級聯,我們有一個文本轉語音模型呃生成響應,每次執行時,我們還有第二個模型呃備用模型,準備在第一個失敗時接管。所以即使呃當前模型失敗或出於某種原因出現某種崩潰,使用者也永遠不會經歷它。嗯,確保幾乎100%呃正常執行時間。所以使用者永遠不會呃經歷崩潰、錯誤、漏洞等。呃,這個本身實際上可以是一次完整的演講,但使你的基於輪次的模型感覺真正對話的一個非常重要的部分是處理中斷,讓使用者中斷模型。這伴隨著很多很多很多呃不同的呃邊界案例、啟發式等。這裡我將只涵蓋其中幾個。

所以想象你是一個模型,你試圖檢測使用者正在打斷你。所以首先呃如果呃中斷非常非常呃小非常短幾幀40毫秒,這通常意味著它是一個咳嗽或噪音或也許是來自語音活動檢測器的假正例。那不是中斷。另一個例子是如果中斷髮生在前200呃毫秒,那也可能意味著它只是一個回聲。另一個,呃,例如,如果使用者說,「是的,嗯。呃呃。好的。」那是積極的傾聽。那也不是中斷。還有很多像那樣的小邊界案例。嗯,讓我們實際上在這裡縮小一點。

嗯,你構建了一個代理,你來這裡聽這個呃演講,認為你要使它呃對話,現在有了所有這個呃小步驟,你可能會感到有點害怕,它有多複雜。嗯,好訊息,我們已經有了,介紹語音引擎。嗯,語音引擎實際上呃新的呃產品,我們我們有。我們還沒有公開宣佈。呃我們將從下週開始測試它。它的工作方式是呃我們將所有與使事物聽起來完全對話相關的複雜性封裝到這個產品中,而你可以帶上你自己的代理並非常輕鬆地插入它。所以它可能是你呃聊天機器人或你的開放克隆、nano claw、呃 hermas 代理,無論什麼呃任何代理你都可以任何複雜性都可以簡單地插入它。

請記住,這不是語音轉文本和文本轉語音。這是一個合適的對話引擎。我們非常興奮看到數百萬沉默的代理呃變得對話。呃,請在我們的社交媒體上關注這個的更新,我們可能會呃開始呃從下週開始公開測試它。非常感謝你。非常感謝。接下來,我們有來自 Prime Intellect 的 Jackman。他是一名創始研究工程師。Jackman,你可以設定。嗯,他將討論長期執行代理的持續學習,不斷改進的代理。所以,這是過去幾天一直出現的重複主題。我們討論過軟體工廠。呃,ZAI 討論過長期執行代理。這是一個一次又一次出現的主題。

我認為一直出現的問題是,如果一個智慧體執行時間太長,我們如何確保這些智慧體在進行過程中不斷改進或學習?嗯,因為……如果智慧體只是執行20小時來輸出不起作用的東西,這沒有任何意義。所以Jackman在Prime Intellect工作。Prime Intellect是這個領域的先驅公司之一。如果你想訓練自己的模型,嗯,如果你想在這些環境中工作,在這些環境中你可以測試和改進事情,嗯,他們有非常酷的技術可以使用。而且Jackman,當筆記本準備好時,舞臺就是你的。>> 是的。嗯,謝謝你,Agram。我實際上改變了我演講的主題,但它仍然與持續學習和長執行智慧體有關。只是我選擇了一個更朗朗上口的標題,所以當它出現在螢幕上時你會看到。

所以是的,嗯,大家好。我叫Jackman Ang。我是Prime Intellect的創始研究工程師,今天我將要談論的是強化學習和遞迴語言模型。所以,嗯,我們今天聽到了很多關於智慧體的內容以及它們所做的令人興奮的事情。嗯,我覺得這相當瘋狂,因為僅僅兩年前,回到2024年cursor agent剛釋出時,如果一個智慧體執行時間超過5分鐘,你就不會期望它在這一點之後還能做任何有用的事情。但現在我們在2026年,兩年後了,我們就是這樣讓智慧體在我們睡眠時自由活動,執行數小時並消耗數百萬個token來做一些相當非凡的事情。所以我認為這不是一個問題,特別是在這個觀眾中,模型確實非常有用。

所以問題變成了更多經濟上的問題。嗯,問題像是模型能否可靠地完成我的任務?模型能否高效地完成我的任務?模型能否足夠快地完成我的任務,以至於我可以為我的產品提供我想要的使用者體驗。所以今天我將提出一個觀點,即上述所有問題的解決方案是你應該訓練自己的語言模型,特別是你應該通過強化學習來做這件事,也使用RLM。所以首先,嗯,長執行智慧體的問題是什麼?所以我相信任何使用過智慧體的人,無論是Claude Code或Codex或任何Claude,你都知道這些模型在長上下文方面其實不是那麼好。僅僅因為你的模型接受100萬個token並不意味著它可以在100萬個token中進行推理。

這在基準測試中是很明顯的。所以如果你看任何大型模型提供商的模型卡,通常他們會有一個叫做長上下文的部分,裡面有兩個基準。第一個是MRCR。這是大海撈針。基本上這是在測試模型在很長的文本中檢索特定資訊的能力。你可以看到,隨著上下文長度變長,模型在這個任務上的表現明顯變差。從事智慧體工作的人知道,嗯,這個資訊檢索的東西很好衡量,但這並不是我們真正想了解的模型,對吧?我們希望模型能夠在100萬上下文中進行推理。所以最近出現的一個非常流行的基準測試是圖遍歷。

圖遍歷基本上是我們將節點和邊列表傳遞到提示中,然後基本上要求模型進行圖問題。所以像,嗯,列出X的所有父節點或在Y上執行BFS並列出所有子節點。你可以看到這是同樣的故事。隨著上下文長度變長,模型的表現明顯變差。但是,如果我們不是將整個上下文傳遞到上下文視窗,而是隻傳遞對上下文的引用呢?我認為如果你是一個數據科學家,或者如果你做過任何數量的資料科學,並在Jupyter筆記本中做過探索性資料分析,這是相當直觀的,因為你不會將整個CSV傳入Python程式碼,對吧?

嗯,你通常會做,好吧,我做我經典的嗯資料科學匯入,然後我定義一個數據框,然後我做這些程式碼片段來緩慢地操縱我的資料框,試圖找出我的資料的結構,分佈是什麼,然後我找出好吧,我可以用這個資料做什麼事情,如果你考慮以這種方式設計智慧體,嗯,很多事情變得非常容易,比如上下文分塊變得非常容易,工具呼叫變得非常容易,子智慧體委派變得容易得多,原因是你的編排智慧體現在不需要自動遞迴地重現上下文……正確地對吧,它只是可以將其作為變數傳遞,所以,嗯,為什麼要停在只有變數呢,對吧,嗯,為什麼不擁有整個程式設計結構的大雜燴呢,嗯,比如說,例如,你需要處理,嗯,你有一個需要處理10,000個文件的任務。

如果你要用像舊版語言模型這樣做,基本上你需要你的編排智慧體正確地進行10,000個順序工具呼叫,而且不僅僅是正確地進行工具呼叫並正確地傳遞上下文。你還需要祈禱摘要之神。拜託拜託,當模型進行壓縮時,它不知何故記住了它所做的各種事情,並且仍然可以記住,嗯,即使在進行所有這些順序工具呼叫時它在哪裡。但是如果你只是把它做成遞迴語言模型,你可以,嗯,模型可以簡單地寫一個for迴圈,然後基本上以一種非常簡單的方式進行這些LLM查詢,嗯,這些順序查詢。所以我們看到,那些真正擅長使用智慧體的人實際上已經在做RLM了。

比如,如果你遇見任何真正擅長使用Claude Code的人,他們總是寫這些提示,像,「哦,拜託拜託不要,嗯,把子智慧體,嗯,嗯,不要把子智慧體輸出放到你的上下文視窗。不要把工具程式碼輸出放到你的視窗。你可能會搞砸,他們會搞亂你的上下文,嗯,就像把所有東西寫到一個檔案中,因為,像真正擅長使用智慧體的人知道壓縮根本不起作用,當你看到這個時,你就知道沒有希望了,模型不會從壓縮中恢復,所以,嗯,任何你現在可以使用的聊天智慧體,像ChatGPT,嗯,Claude或像AI Studio,基本上,如果你試圖把一個很長的文本系列放入聊天視窗。嗯,他們基本上總是把它變成一個檔案。

所以,就是這裡要表達的觀點,人們實際上已經在做遞迴語言模型,但他們只是沒有做它的全部力量。他們只是使用變數方面。你可以引用上下文的事實,但他們沒有得到如果你有一個完整的Python RLE的全部Python表達能力。所以我認為毫不奇怪,嗯,人們已經開始為一切使用RLM。所以任何需要像長上下文理解的東西。所以有影片的RLM,有遊戲的RLM,有編碼的RLM,有數學的RLM。嗯,我相信在Twitter上的某個時刻甚至有一個關於Epstein檔案的RLM。嗯,我找不到這條推文。嗯,也許中情局以某種方式刪除了它。好吧。

而且,嗯,Alex Zhang是RLM的第一作者,嗯,他寫了這篇非常好的,嗯,我認為每個人都應該讀的文章,叫做「被管理不善的天才假說」,其中的基本想法是模型已經足夠有能力做你想做的很多工,唯一阻止他們的是腳手架。我們還不太知道如何編排這些智慧體。

我們還不太知道像,哦,我們應該把記憶放在哪裡,它到底應該在做什麼,這些像子智慧體委派的東西,以及像苦澀的教訓看待這個的方式是像,為什麼我們讓人類這樣做呢,對吧,我們應該只讓智慧體定義他們自己的腳手架,像你們今天使用的所有腳手架,Claude Code,Open Claude,Super Vibe Coded,它是非常明顯的,模型已經可以寫出非常好的腳手架,所以他們應該只是在進行推理時動態地寫腳手架。嗯,現在還不是那麼好。所以,嗯,你們可能已經看過幻燈片,然後像,「哦天哪,這就像,這是最好的想法。」然後像,你回家,然後你,嗯,試試RLM repo。嗯,但你可能會感到有點失望。

問題是,如果你看一下智慧體現在如何做RLM的方式,智慧體在這個腳手架上沒有經過訓練。所以,他們不是很好的RLM。他們不太明白,哦,他們應該在做子智慧體委派。

他們不太知道如何做這個像上下文切片的東西,但像,是的,你應該讀部落格文章,但在部落格文章中,基本上它顯示了這個任務,如果你只是用基礎模型和基礎,嗯,RLM提示,它的表現不是很好,但有一點提示工程,你可以獲得顯著的效能提升,你基本上總是打敗基礎模型,如果提示工程足以讓你用RLM打敗基礎模型,什麼阻止你只是訓練這些好的RLM策略直接進入模型本身呢?所以這就是我們在Prime Intellect所做的。所以Prime Intellect,我們是一個平臺,嗯,試圖為任何想要訓練和提供他們自己的,嗯,語言模型的人服務。

嗯,我們支援很多來自GBD OSS、Llama、Neotron的開源語言模型以及所有Quen。嗯,我們基本上有實驗管理。所以你可以看到你的指標以及你的所有實驗配置。最重要的是,你可以看看推出,這就像最重要的事情。你可以看到你的失敗案例和,嗯,看你的資料。嗯,我們有一些相當有趣的使用者。嗯,所以我認為這是大約兩週前。嗯,Ramp Labs宣佈他們在與我們合作,他們基本上進行了一個專案,其中他們訓練了一個小的Quen模型以在Excel智慧體的檢索任務上擊敗Opus 4.6。它不僅在這個任務上在準確性方面擊敗了Opus 4.6,他們感興趣的,他們也可以更便宜地做到,他們也可以以更低的延遲做到。

模型訓練的另一個有趣的使用者群體是資料供應商。所以有一個叫Shan Chai的傢伙。我認為如果你在矽谷的資料空間中,你可能以前見過他。我認為他基本上和谷底的每一個數據供應商、每一個數據消費者都談過。他做了這個觀察,即像哪些資料實驗室在未來會成功的區分因素是他們是否能夠開發內部訓練能力。因為這些模型,嗯,這些,嗯,實驗室購買資料,他們不是傻瓜,對吧?他們知道像,並非所有資料都是相等的。在他們簽署像一百萬美元的交易來購買大量資料之前,他們想知道像,這個資料會改進我的模型能力嗎,或不會?

對你來說做這個的一個非常簡單的方式和非常確定的方式就是簡單地展示獎勵曲線。簡單地展示,如果你在我的資料上進行了訓練,嗯,那麼你的獎勵會上升,或者如果你在我的資料上進行了訓練,你的智慧體會更高效地執行任務。所以,如果其中任何一個聽起來對你來說非常令人興奮,嗯,請檢視我們。我們在primeintellect.ai。嗯,我們期待看到你們構建什麼。而且,嗯,這就是我的全部內容。你們一直都是很好的觀眾。非常感謝。太棒了。非常感謝你,Jackman。那是一個非常,非常好的演講。嗯,接下來我們有Michelle Julia,她是Blue Labs的聯合創始人,她將討論AI實現情感智慧。顯然,我們一直在談論個性化AI一段時間了,所以這是一個相當貼切的話題。

但Michelle也有點很酷。她是Apple最年輕的專利持有人之一。所以,如果你曾經使用過Find My、Find My iPhone或Bump來交換聯絡人,它下面執行的無線系統,她是它的專利持有人。嗯,但今天我們不談論那個。我們談論情感智慧AI。不多說,Michelle你好。嗯,大家好。我是Michelle。我是Blue Labs的聯合創始人。我們是一個專注於情感智慧的研究實驗室,特別是嵌入式情感智慧。嵌入式情感智慧是在一個持續的關係中航行的能力,其中每個互動形成未來慾望軌跡的能力。所以它不是一個靜態的狀態。它將管理關係和捕獲直接效用視為平等目標,而不是作為最佳化的權衡。

所以我們的研究是圍繞什麼架構讓AI系統能夠以人類的方式做到這一點。如果你退一步,真正我們專注於讓AI聽起來和感覺像人類,特別是在商業決策過程中。所以這是我們今天專注的地方。讓我用一個快速的故事來闡述這個。所以正如他之前提到的,正如一個提到的,嗯,我在藍色實驗室之前在Apple,你知道,我是最年輕的專利持有人之一。如果你使用過Find My,它在我持有專利的無線演算法上執行。你可以想象我是一個小個子的亞洲女性。在談判中,房間經常看起來是這樣的。所以我對進入每一個談判都有點焦慮。我去的第一個,我們被飛往葡萄牙。

前一天晚上我坐在這家酒店的大廳裡,我非常焦慮,我在瀏覽你知道的所有技術細節,嗯,我們到底在和這些外部供應商談判什麼?Apple的立場是什麼?我們如何與他們談論技術?然後我的經理讓我坐下說,「聽著,我們有一個小時來討論這個。先忘掉技術細節。這些是我們與這個供應商一直以來的過去10年的歷史。而這就是所有的茶。讓我告訴你關於這個人與那個人的關係,以及我們過去如何與這個人談判,以及他如何尋找什麼,以及他如何過去與我們的大老闆互動。而這就是你走進這個房間的所有動態。

那會對你有幫助得多,而不僅僅是記住技術規格。正是那一刻,我意識到了什麼,重要的不一定只是一個對話的技術效用。在大多數設定中,人類需要了解縱向關係。所以為了讓我成為Apple的一個聰明的智慧體,我需要關於每個供應商的完整的二元對立上下文,以及能夠以一種對長期有益的方式向前推進那種關係的能力。所以那是一個很多要一個人承擔,更不用說對一個智慧體了。大多數人類實際上直觀地做這個。你不需要真正想太多關於機制。你們中的大多數,你知道,運作良好且處境良好。

但在這些基於效用的對話和關係中,很難隨時間建模和平衡關係狀態。數學上很難證明。所以我相信這個領域中情緒智慧的解鎖是真正推動我們採納AI作為人類戰略性和有用模仿的關鍵。我們已經建立了在人類所做的工作中流利的語言模型,但戰略上不勝任。因此,利用這些長期關係塊,我相信真正的企業職能取決於高度細緻的平衡信任和關係與交易和談判的能力。

所以呃我對這個領域非常興奮,我今天的目標真的就是給你們一小段這個領域是什麼、今天的最先進水平是什麼、人們在談論什麼以及有哪些開放問題的嘗試。如果這對你們來說也很令人興奮,我們稍後可以更多地談論Blue Labs在做什麼。所以我們將討論社會思維鏈和按模態的博弈論、人類行為以及狀態勝過特徵。我會盡量簡短地涉及這些。所以第一個是去年在《自然人類行為》上發表的。

基本上他們用AI代理玩了這個遊戲,對吧,其中你有囚徒困境(一個自利遊戲)和兩性之戰(一個協調遊戲),他們的目標真的是看到模型在這些特定狀態中如何表現,呃在這些特定狀態中,他們發現的是一個不對稱的結果。這些模型在自利遊戲中表現得相當不錯。所以當你應該合作時他們會合作,你知道當背叛有利時就背叛,但在協調方面表現得很糟糕。這很有粘性,因為大多數人類互動都是協調遊戲,對吧?當你坐在葡萄牙那家酒店的大廳裡時,我們的供應商並不試圖背叛我們。我們不試圖背叛他們。我們都想要一個交易。只是什麼樣的交易。所以這種微妙之處很難捕捉。社交思想鏈條也確實增加了合作率。

嗯,所以當你能同時建模你和對手時,我們看到一種指數增長。第二部分來自Google DeepMind。嗯,它是今年推出的,他們用人類、前沿模型和一個特定的Beijing代理(他們訓練的自定義代理)進行了討價還價遊戲。所以這是,我相信,Gemini 1.5 Pro和GPT-4。他們發現的是在這三組人員進行遊戲的陣營中,你知道,這是一個討價還價遊戲,你在交易籌碼,Beijing代理非常激進。所以,他們,你知道,有點玩硬球。他們經常被拒絕,但他們獲得了最大剩餘的80%。所以這在一個定義的空間內實際上非常好。人類更公平。他們給一點,他們得到一點。他們有點想要這種平衡。大語言模型非常讓步。

所以就像,哦,我會交易,我會和你做任何交易,我實際上會給你比你給我更多的東西,這樣我就可以做這個交易。所以每個交易都被接受。我們看到這些模型在整個遊戲中無法自我平衡。所以這裡的適當反應是真的當我第一次見到你時,作為一個人,我給一點,這樣我們建立關係,然後當涉及到一個非常大的交易時,我想玩更多的Beijing遊戲。所以呃這強調了代理進行談判的靜態性質。第三部分,所以這很有趣,因為它來自計算心理學,而不一定是CS。呃但這些發現被突出顯示,你知道,沿著類似的方向。

所以它是被ACL接受的一篇論文,呃關於固定的心理人物角色的狀態而不是特徵。基本上研究人員在詢問語言模型實際上有多好地捕捉使用者是誰。他們發現的是使用者在特定時間是誰比使用者的一般狀態更有趣和重要。所以在這個時間點給定這個關係,我有點焦慮,因為我在這些型別的人的房間裡,或者我第一次見到這些人。這些狀態中的變化實際上對使用者的政策比基礎使用者的比如我是一個天生冷靜的人或我是這種那種人更重要。呃對不起,性格特徵。所以我們在這裡發現的是,我們建模人格的靜態方式實際上為改進留下了很大的空間。

所以這意味著什麼,它表明模型無法在變化的條件下進行協調。他們將自己的行為視為靜態,並且天生讓步。對吧?我指出所有這些問題是為了向你展示我們可以做很多更多的事情來賦予模型這種理解感和情感關係感。所以,我們有幾個研究方向,我有30秒,所以我會非常快地講這些。一,我們能否訓練語言模型在戰略暫存器之間調變?什麼時候推,什麼時候拉?二,關係的最合適的建築表示是什麼?二元嵌入,反思性記憶層級。這是一個開放的研究課題。你們中的任何一個,如果你有一個想法,你可以相當快地實現這些實驗並拿出些什麼。

所以這是一個粗略的估計,你知道,我們在探索什麼,我們開始在Blue Labs探索什麼。我們對此的第一次建築嘗試是Blue JST,一個聯合狀態引擎,其核心思想是一個雙獎勵機制,將關係建立和效用優先順序作為共同的目標,而不是將一個減少到另一個。就像我說的,這是開放研究。這很令人興奮。你知道,我們還沒有所有答案,但如果其中任何內容對你們感興趣,我們正在招聘,我們很樂意聊天。我們正在積極地跨越行業和學術界進行合作,研究就在我們面前。謝謝。謝謝,Michelle。接下來,我們有Jackie Mock,他是RA的應用AI主管。

現在他將討論世界模型,呃,以及我們如何從語言轉向物理智慧,呃,再次我們進入物理AI具體化AI的地形,還不完全是機器人方面,但更多的是世界模型世界建構方面,呃,所以一旦Jackie準備好,我們將準備好。嗨。>>好的。嗨。我在談論,呃,我們如何從語言轉向物理智慧。呃我的演講是關於我們通往世界模型的道路。所以我是Jackie。我在REA工作,我是應用AI的主管。呃,REA是影片、影像和文本的多模態AI。呃,你可能從我們幾年前建造的一些模型中認識我們,當時我們在排行榜上攀升。

呃,我們最近更多地專注於視覺模型和不同的模態,呃在實驗室,我們正在努力理解我們如何能夠將這些應用於現實世界的情況。所以就當今的視覺而言,呃,我們已經呃有很多這些計算機視覺技術,可以做很多事情,對吧,這是一個已解決的問題,能夠檢測汽車檢測事物和跟蹤專案,這來自計算機視覺,呃,我們可以使用這些來幫助我們的部署以更確定的方式理解影片內發生的事情,但你可以稍後在影片中看到,機器實際上不理解它實際上在看什麼。它可能能夠看到熱圖。它可能能夠看到邊界框,這就是計算機視覺在VLMs出現之前的樣子。

現在我們有了VLM,有了VLM,我們就能夠檢視一個場景、思考這個場景,然後對這個場景採取行動,對吧?我們能夠在此基礎上應用CV來幫助它也能隨著時間推移逐漸理解各種事情。嗯,但這基本上就是我們如何應用LMS的方式。呃,但我們不會替代CV。CV也有點在一旁。嗯,還有另一個我們如何在生產中部署AI的例子,嗯,這裡你可以新增諸如檢測、跟蹤和識別的內容。嗯,這裡我們仍然使用CV作為一個非常便宜的步驟來理解場景中發生了什麼。呃,然後我們使用VLM進行推理,然後我們用它來發出警報呃用於特定的用例。對吧?單獨任何一個都是不充分的,單獨任何一個也還不是呃物理眼睛,但這些是我們擁有的、來自我們語言模型的構建塊。

嗯,所以BLM能夠預測下一個token,因為我們能夠獲取這個視覺空間,將其編碼呃放入某個嵌入中,然後我們生成下一個token。所以我們可以解釋影像中有什麼內容,影片中隨著時間有什麼內容。然而,輸出仍然主要是基於文本的。嗯,還有另一個我們也圍繞其構建模型的範例。嗯,我們能夠預測下一幀,對吧?所以你見過擴散模型,它們生成影像或影片。嗯,這也是現在機器人和物理AI試圖使用的一條路徑呃為了生成呃機器人的軌跡。而這兩個模型,語言模型與這些影片模型,還不完全是世界模型。

嗯,對我們來說,呃我們可以從兩種方法中都進行,對吧,兩種方法實際上都幫助我們構建了這個關於世界模型是什麼的下一個想法。所以我們想預測下一個動作,這是最重要的事情,它使任何東西與任何東西不同。嗯,我們將討論我們如何嘗試到達那裡。這是一個我們如何從頭開始訓練模型的例子。所以這不是現成的模型。這就像是一個完全從零開始訓練的擴散模型,在影片生成上進行訓練的。所以它可以製作5秒鐘的電影般的電影和電影般的場景。嗯,但當應用於機器人技術時,現在的主要優勢是它是零樣本的。

所以即使在以前的技術中,你必須用以前的機器人手臂技術呃機器人手臂運動來訓練一個機器人,嗯,你有一個擴散模型,它現在追蹤手臂能夠去達到目標的軌跡。對吧?最大的改進是這發生在機器人不知道之前是什麼的情況下,我們能夠獲得相當令人驚訝的結果,還有許多其他實驗室也在做類似的事情來控制機器人。呃,但差距仍然在哪裡呢?仍然有很多事情我們想要改進,當我們構建模型時,最好的方式是我們理解什麼被破壞了,我們建立評估,對吧。所以實際上VLM在物理學方面相當糟糕。所以一個例子是它會產生幻覺。呃,一個物體可能會消失。

一個物體可能會變小,出於某種原因在下一代中。嗯,它可能不遵循物理。對吧?所以我們正在新增的一件事是我們正在新增呃一個評估集來理解我們的盲點呃對於我們可能有的其他盲點是,即使我們今天進行很多評估,實際上當我們進行評估時有很多盲點,其中呃即使模型能夠獲得正確的輸出,它實際上是被取樣的,我們實際上丟失了一些資料。對吧?很多這些模型也正在被其他BLM評判。呃所以,BLM有點互相評判來理解他們是否在改進,這也造成了一個差距。嗯,所以這就是為什麼呃對我們來說,我們正在建立新的資料集呃來理解真實情況是什麼。

所以你看到我後面的所有這些東西呃都是模型不太理解的地方,對吧,那是一個球遊戲,更小的。

嗯,然後你有比如如果什麼東西在下落,這是在正確地下落嗎,當兩件事彼此碰撞時,它們會做什麼呃,運動是正確的嗎?對吧,物體有沒有自發移動,說實話,很多模型現在無法預測這個,這是其中一個主要的像物理相關的東西,嗯,我們建立合成數據來理解我們評估中現實主義機會是什麼,像即使是今天最好的模型也表現得不是很好,對吧,有理由呃但我現在會講過那個,是其中之一是BLM不看每一幀,這些大語言模型的方法,你知道,有很多token進入那些這些模型,大多數時候它需要被取樣,對吧,所以在我們的實驗中,我們可以有點證明,像如果你把每一幀都發給它,它可能會理解,但如果你呃發給它呃隨機數量的幀,它會進行插值,它不會理解實際上發生了什麼。

所以,那是它失敗的一種方式。另一種它失敗的方式是,當一個物體只是靠近邊緣時,呃,它不能實際看到人是否消失了或如果他們走出了場景。這造成了很多呃困惑,因為模型有點假設和預測人消失了,即使他們沒有逐幀看到。另一個領域是VLM真的只是回到文本。所以它會在文本世界中推理事情。呃我們必須給它更多的CV和像更多的補充資料來讓它真正理解呃場景中發生了什麼。呃它理解法律,但在文本空間中理解它。所以它能夠更多地推理它。

呃它回到了為什麼我們今天的部署實際上更多的是CV增強的地方,其中你有視覺模型檢視影片,但也有呃CV文本解釋哦這個場景有X身份,它正在許多場景中被跟蹤,這就是我們如何有點幫助改進VLM效能的方式。所以對我們來說,我們使用VLM來有點幫助改進我們如何判斷物理。他們,但最終他們仍然在今天跳過幀。嗯我們使用他們,他們使用他們來匹配呃位置,而不是運動。呃他們知道物理只是從他們從基於文本的模型中學到的,對吧?我們即將釋出一些呃評估集來幫助其他人也改進他們的模型。呃所以他們也能夠訓練下一個具身模型。

對我們來說,呃總結一下我們作為一家公司如何走向物理AI,呃當我們構建下一個模型時,我們仍然在使用我們的LM和我們的VLM,其中我們有下一個token,這將被包裝在一個框架中,該框架將幫助我們控制呃監視或它將幫助我們控制機器人。嗯,但我們也正在建立路徑,其中我們有擴散路徑,其中我們有這些現在為機器人建立這些控制路徑的影片模型。嗯,它們可以結合在一起來建立這種世界模型,其中我們生成下一個動作。嗯,下一步是這個評估集,因為這個評估集將幫助我們理解我們是否實際理解發生了什麼,或我們是否實際上盲目飛行。

嗯是的,這就是我們讓語言模型隨時間進化的路徑,現在我們正在嘗試轉向呃幫助我們支援下一代,那就是呃構建物理AI和世界模型。這就是我的演講。謝謝。非常感謝Jackie。接下來,我們有Gokul Shinasan。他是Antim Labs的聯合創始人兼總裁。現在他將討論模擬遊戲和機器人的未來。我想他有一些真的很酷的演示和影片作為其中的一部分。所以這是一個值得關注的。各位晚上好。呃我叫Gopal,我是聯合創始人labs,今天我將討論呃模擬遊戲以及這些將如何成為呃機器人技術中真的很重要的主題未來。好的。自1950年代、1960年代以來,機器人基本上一直處於籠子裡。

我的意思是一切都是預程式設計的。環境是固定的。呃機器人應該做什麼的指令碼,一切都是固定的。所以環境是為機器人專門構建的。當然,為了真正釋放經濟價值,我們不能這樣,讓環境為機器人而構建。機器人應該在現有的環境中工作。所以呃在過去10年、15年裡,大量的工作都投入到使機器人變得越來越通用,呃這導致了大量的酷研究。所以我們今天看到的是,儘管有很多研究,機器人社群對一個問題沒有任何答案,即什麼樣的模型架構將導致顯著的呃通用性。

例如,如果你只是看所有最新的研究,我們看到世界動作模型、u VLM、VAS、呃影片動作模型,當然還有一些人仍在使用經典演算法。現在,因為有不同型別的模型,當然我們需要不同型別的資料收集方法。呃其中一些是teleoperation,只是使用網際網路規模的影片來訓練影片動作模型呃來自模擬的合成數據,以及呃UMI風格呃捕獲。所以這些都是用於呃機器人用於訓練機器人的不同型別的資料捕獲方法。那麼,有人現在可以問,好的,有這麼多不同型別的模型,這麼多型別的資料,到底發生了什麼?機器人技術只是會分裂成多個不同的方向嗎?並且呃沒有呃沒有真正的關聯線將所有這些連線在一起。

我想論證的是,所有這些方法中共同的一點是模擬。我的意思是模擬將成為呃工作流程的一部分,包括研發工作流程和部署工作流程,你很可能無法逃脫。所以呃模擬將被使用的一些地方是用於生成合成資料。呃其次是呃你可以建立環境的數字孿生體,你想確保它們在這些數字孿生體中能夠工作,然後呃你知道再去部署實際的物理機器人。呃第三個是用於邊界情況覆蓋。這就像真的呃已經建立良好,並且在自動駕駛等事物中被廣泛使用,當然還可以在部署之前將政策進行原型開發。

所以,呃,對於所有這些不同的,呃,你知道的,可以使用模擬的地方,呃,即使它即將無處不在,模擬的狀態是什麼就是它真的真的很難製造。呃,我不知道你們中有多少人試過構建模擬或使用過任何模擬軟體,比如Isaac Sim或Mojo之類的東西,但是有一個真正巨大的學習曲線。即使你成為了專家,它仍然真的很難。所以現在幻燈片上的只是呃建立一個資產然後放置它的呃工作流程。所以你有呃取決於你的場景有多複雜,你必須為多個資產做這個,並呃你知道它就是真的很難並需要數天,有時甚至數週。所以沒有理由這樣做。

呃所以有了當前的代理AI和大量的呃基於視覺的模型和語言模型,我們實際上可以自動化管道的幾個步驟,或者至少讓它儘可能接近自動化。所以我們構建了一個叫Gizmo的東西。這是一個提示到模擬的工具,基本上你可以用自然語言或一張圖片的形式給我們的系統一個提示,它會出去啟動一堆子代理,它會做任何需要做的事情,然後在最後你就有一個sim你有一個完全構建的3D模擬,這大約需要20分鐘現在。呃所以你基本上在大約20分鐘內完成了你環境的第一遍,讓我們說有一些人在迴圈中的工作是必需的。它仍然是你知道你可以在幾個小時內完成它。現在這與數天或數週形成對比。

嗯,那就是現在正在做的。所以我只是要演示我們工具的演示。所以那就是工具的演示。所以基本上,你輸入一些東西,然後你得到一個模擬。所以,嗯,這,這開啟了一些嚴肅的能力。所以我們也將有 API。所以這意味著你的程式碼 ex 或開放爪,無論你在工作流的任何部分使用什麼,它可以決定啟動一個模擬,嗯,你得到一個模擬輸出。所以這也啟用了大規模。現在,大規模進行模擬還不可能,因為它們太難製作了。嗯,這也啟用了一些真正有趣的東西,比如,你,你,你基本上可以有一個端到端的閉環、閉環,用於機器人學習。

例如,你可以說訓練一個四足動物走到我指定的場景中的一個點或其他東西,那就是代理需要的所有資訊,去實際完成整個事情併為你提供一個已訓練四足動物的策略。好的,所以呃這是呃機器人技術是否被解決了?當然不是。呃模擬現實差距仍然存在。這意味著模擬呃雖然它們是有用的,但還不是100%準確的。這根本上只是一個物理問題。呃接觸物理存在問題,還有問題呃你知道我們近似材料的屬性,變形非常難以建模,所以呃這是機器人社群和我們仍在爬的一座山,我們預期這個差距會隨著歲月流逝越來越小。

好的,所以我們談到了模擬。讓我們來談遊戲。為什麼遊戲很重要?所以呃在模擬中你不僅可以訓練操作或導航或運動。事實證明,如果你能夠擁有一個合成的世界,你甚至可以訓練高階認知。我所說的高階認知是什麼意思呢,是指呃探索當目標不清楚時。呃當你有一個計劃然後世界發生了什麼事你的狀態降級了。你如何恢復?你如何重新規劃?呃當你有呃當你對世界沒有完整資訊時,你的決策質量如何?所以呃所有這些事情都真的很重要。

它們不僅對機器人很重要,對LLM也很重要,但對於機器人,它們它們特別重要,因為它們還需要根植於空間時間記憶。所以呃我意思是所有這些事情,像探索,呃重新規劃,和呃你知道長期規劃,所有這些都需要根植於空間時間記憶。所以我們訓練了一個代理,我只是給你一個非常快速的呃概述關於我們如何做的。所以我們訓練了一個20億呃quen模型VLM。所以它基本上作為一個計算機使用代理發揮作用,其中它控制鍵盤和滑鼠。所以我們在像400小時的呃呃幀動作影片遊戲資料上預訓練了它。

這基本上給了模型一些關於如何玩影片遊戲的直覺,通過預訓練和我們用大約60小時的IF資料進行的指令微調來引導模型完成遊戲。最後,這是我們還沒有做過的事情,但正在進行中,即訓練模型輸出推理軌跡,然後這些推理軌跡作為下一步的指令。對吧?最後,我們需要記住的一件重要事情是,由於我們想要玩影片遊戲,我們需要即時操作。所以,嗯,是的,我們需要模型在200毫秒內接收輸入、處理它並解碼輸出。所以現在我將為各位演示一下我們的代理。正如各位將看到的,這仍然是早期工作,遠非完美,但希望各位會喜歡。Heat。

Heat,那就是我的時間。謝謝。非常感謝,Gokul。我們現在是下午5點。我們在最後衝刺階段。非常高興大家仍然在聽講座。嗯,我們將稍微繞道一下,進入一些設計方面。我們現在將探索不同的玩法。所以我們的下一位演講者是來自Lentil的Weii Su。她的演講角度是探索東方哲學和東方產品建設背後的智慧。這將是一場非常有趣的講座,從設計和人工智慧的角度來看,但從一個通常不在討論中心的視角。所以,隨時準備好。你想回到那裡嗎?>> 是的。是的。好的。大家好。你們能聽到我嗎?好的,謝謝你們在這裡。嗯,我的名字是Wayi,我經營一家名叫GenZen的初創公司。我們創造人工智慧影片來擴充套件營銷。

我今天將會有點實驗性,我想花一些時間討論東方哲學以及這如何能塑造我們在未來的建造方式。這感覺是值得討論的事情,因為我們生活在一個時代,西方人在TikTok上變成中國人並追捧中國。所以如果你在TikTok上花時間,在過去幾個月中你一定注意到了這個趨勢。不僅如此,西方也越來越關注來自亞洲的公司和人工智慧模型。我想在這部電影中突出的一個時刻是,嗯,這就是這部名叫《流浪地球》的電影。你們中有多少人聽說過這部電影或看過?很好。你們中有多少人聽說過《三體問題》?更多人。太好了。

嗯,所以《流浪地球》也是由同一位作者Leo Sushing創作的,這是科幻電影中非常重要的時刻,因為它是中國首次成功打造根植於中國故事講述傳統的大規模好萊塢科幻大片的嘗試之一。這是一個設定在2075年的故事,太陽在膨脹。地球很快將變得不宜居住。人類沒有選擇放棄地球,而是決定齊心協力在地球表面建造大約10,000個巨大的行星發動機,將地球推出太陽系。這個計劃需要2500年。因此,在接下來的25個世紀裡,他們都同意住在地下。嗯,看這部電影,看到這種集體主義的心態對我來說非常有力量。

它幫助我意識到我們一生中被給予了一個版本的故事和一個版本的未來。主要是由好萊塢創造的,而我們甚至沒有真正意識到這一點。因此,長期以來,西方敘事一直處於我們如何建造、如何生活以及我們想要什麼的中心。如果東方敘事處於21世紀的中心會怎樣?在西方,極簡主義通常受到青睞。應用程式傾向於在每個頁面上有一個行動號召。例如,在美國,你使用Cash App或Venmo向朋友匯款和付款。這就是Cash App的樣子。另一方面,這是來自中國的支付寶。你不僅可以傳送和接收資金,還可以支付賬單、訂購外賣,甚至申請貸款。所以,在東方,生動性通常被更多地慶祝。人們想要所有的選項。

很多時候,更多是好的,而不是更少是好的。西方的這種信念也傾向於關注單一性。這方面的一個例子是,像Meta這樣的西方公司在過去十多年中一直專注於增長一條收入流。所以如你所見,他們依賴於廣告。另一方面,WeChat的母公司騰訊一直在多樣化他們的收入流,他們沒有把所有雞蛋放在同一個籃子裡。當你把這兩個社交媒體公司放在一起時,對比是相當明顯的。你也可以看到這如何改變了他們的行為、他們如何處理風險,以及他們如何進行實驗。雖然東方傾向於多樣性,我們也慶祝可選性。所以我不禁想知道是什麼導致了這種差異。對吧?

一個觀察是,每種文化所體現的哲學非常非常不同。雖然西方有《聖經》,在中文中被稱為shenanzing,這是聖典,東方有被稱為eing的東西——《易經》。其中心論點是沒有什麼是固定的。一切都在運動中,智者不會真正抵抗變化。他們尋求指導來駕馭和接受變化。有了Eegene,從業者傾向於投擲硬幣生成六條線。這些都是64個選項。嗯,64個hexogs。它們為生活中不斷變化的情境提供指導。隨著時間的推移,它成為中國哲學的基石,反映了關於平衡、轉變的思想,也涉及到,我認為我們這個時代都經歷的變化之一是內容是合成生成的。

我們將看到更多合成生成的內容而不是由人類創造的內容。我認為我們都在問的一個問題是,我們會被零努力的垃圾淹沒嗎?我們會看到垃圾大量湧現並淹沒一切嗎?對吧?當有這麼多噪音時我們怎麼辦?嗯,但如果我們從不同的角度看這個問題,講故事的工具——相機、工作室、發行,整個好萊塢建立的裝置正在崩潰成任何人都可以持有的東西。這也意味著被好萊塢忽視的社群現在擁有建立內容並按照自己的條件分發它們的工具。那些過於小眾、過於陌生、市場太小、太難選角的故事,現在可以由真正生活在其中的人為真正想要的觀眾製作。

例如,中國的furry社群現在使用人工智慧為自己建立內容。這個furry動畫在過去兩週內獲得了100萬次瀏覽。中國的另一位影片創作者建立了一部人工智慧短片,在過去七天中在所有平臺上獲得了6000萬次瀏覽。類似地,我們在GenZen正在幫助客戶在傳統上過於小眾的行業中建立內容。這對我來說真的很令人興奮,因為我們能夠為這些細分領域創造更廣泛的訪問權和認知度。在過去四個月中,我們每月在YouTube Shorts、Instagram和TikTok上交付了1000萬次展示。例如,我們也製作了更多的egene內容。為了增加對此的認知,我們構建了一個應用程式來使每個人都能獲得閱讀。

傳統上,進行egene閱讀對初學者來說可能是一個非常複雜且令人困惑的過程。所以,這個工具使你能夠快速提出你最迫切的問題。如果你有興趣,你也可以在應用商店上免費試用這個工具。嗯,我們這周免費提供它只是為了讓你試用。你可以在應用商店上搜索Egene Oracle或掃描這個二維碼。我們也建立了並擴充套件了圍繞傳統中醫、針灸、穴位的內容。這些也是歷史上被忽視的主題,由於我們現在可以獲得的工具,這類內容更容易建立。所有這些都由我們內部的agentic影片工作流支援,我們簡化和優化了內容生產流程,這進而為產品交付展示和生產性轉化。

從很多方面來講,我們把AI生成的內容看作是通向一個更加充滿活力、更加多元的未來的工具,在這個未來中,我們所有人都掌握著創造我們認為重要的敘述的工具。有了這一點,非常感謝您的時間,您可以在Twitter上通過這個ID找到我。嗯,如果這對您有興趣,如果您也想要一些貼紙,嗯,請在之後來找我。非常感謝。多麼獨特的演講。我需要想辦法制作這樣的幻燈片和演講。太棒了。接下來,我們有Bland的技術負責人Anun Jooshi。嗯,他將談論語音AI。我們之前有11 Labs的演講,但這個演講將朝不同的方向發展,那就是語音AI不是一個模型問題。我們讓Anun為我們更多地介紹一下。>>大家好。

你們能聽到我嗎?很好。太好了。我希望你們都感受很好。嗯,我只是想在我們開始之前說一下,所有的演講者都太棒了。那麼,我們能為所有人鼓掌嗎?所以,我實際上改變了我的演講標題,因為我確實意識到語音AI確實有模型問題。所以我改變了它,我將談論我在為企業客戶擴充套件語音AI時所面臨的一些問題。嗯,所以,我是Anun。我實際上在新加坡長大。兩年前我為了Bland搬到了舊金山。有趣的是,我實際上曾是這裡初級學院的一個戲劇孩子。嗯,是的,我從來沒有想過我會再次上臺,但我在這裡。我非常喜歡講故事。嗯,所以我將用一個故事開始。所以,兩年前,我在舊金山。

我和我的CEO Isaiah一起去喝咖啡,我們只是在閒逛,他告訴我一些我們至今仍在討論的事情。嗯,他讓我坐下,他直視我的眼睛,面無表情地,他告訴我這個。你不會相信我的,但Pathways,你發明的這個東西將影響數百萬人,數百萬人將使用它。我看著他,我說,「這個傢伙瘋了。」像,他就是典型的創始人。他想讓我高興,這樣我會更努力地工作。嗯,那時候我們只是哦,好吧,缺少一張幻燈片,但我本來想展示我們只是在Discord上。就是我和另一個工程師。嗯,我們在談論,我們只是FDEEs,我們是工程師,我們是產品經理。

嗯,我們只是用Bland Discord上的無名無姓的人來弄清楚我們的代理的架構。嗯,現在想起來真是瘋狂,我們實際上每個月服務數百萬個電話。我仍然還沒有意識到此時此刻有人正在與我們的代理交談。那太瘋狂了。嗯,我今天早上也進入了我的Slack頻道,在團隊談話中,有一個案例研究出來了,涉及我們的一個客戶,名叫American Way Health,你也可以在我們的網站上檢視它。他們說我們為他們解鎖了每年4.3億美元的收入。我不知道那是可能的。我不知道我們能做到那樣。嗯,是的,所有這一切都遠超出了我能想象的範圍。

嗯,我很幸運能夠吸取我在做所有這些事情時學到的教訓和一些痛點,如果你們嘗試將語音AI整合到你們的服務中,我想你們從中學習。所以我確信你們所有人都看過一堆嗯語音AI的演示,它們超級酷,但困難的是如何把它投入生產並使其真正為企業客戶工作。嗯,所以我將深入瞭解一些痛點和我為了讓語音AI適用於企業用例而發現的一些發現。嗯,好的。幻燈片不同,但我們就這樣吧。呃,我將從VO開始。我沒有意識到的一件事是很多企業客戶處理並向我們投訴的是語音郵件檢測的準確性。

嗯,我沒有意識到我們目前的客戶報告並嘗試每天追蹤語音郵件檢測的準確性。嗯,原因是大多數出站電話實際上沒有接通人類。大多數都進入語音郵件,確保這是一個在各種情況下都能工作的強大系統。例如,對於通話篩選器,現在iOS和Google語音在通話連線之前都有檢查。例如,他們說嗯在我們連線之前請說出你的名字和撥打原因。嗯,還有一聲蜂鳴聲發生。很多人使用的是Twilio,它有一個應答機檢測功能,本質上只是一個蜂鳴聲檢測模型。它不是那麼好用。企業客戶無法依賴它。所以,我在Bland工作來改進它。

我在構建一個CNN模型來檢視每個音訊塊的梅爾譜圖。嗯,我沒有意識到蜂鳴聲有這麼多不同的長度和頻率,用於不同手機的不同電話。嗯,有些頻率也有雙頻帶頻率,它們與所謂的DTMF音調相同,這是當你在通話中按下手機上的數字時發生的或你聽到的聲音。嗯,所以你也不想在那裡引起錯誤的假正。嗯,所以那是我們必須弄清楚的困難事情之一,我們甚至現在有一個網站讓你測試和基準語音郵件檢測。所以,如果你們嘗試將語音AI整合到你們的系統中,請確保你們在檢視他們的語音郵件檢測嗯準確性或系統工作得有多好。

所以,接下來,嗯,會有一張Slack訊息的幻燈片,我從一個客戶那裡收到,那條Slack訊息說,「為什麼我的代理不能以同樣的方式工作?」或「為什麼我的代理不能像昨天那樣工作?」我不知道你們中有多少人經歷過客戶告訴你這樣的事情,或者你們自己也許經歷過。例如,我知道使用Claude,我討厭事情只是改變。嗯,從商業的角度來看,有時客戶來找我,當我沒有改變任何東西時。就像,我沒有推送任何新程式碼,你卻來告訴我我破壞了他們的系統。嗯,但我理解,你花了幾個小時在他們的平臺和他們的代理上工作。當某些東西不能按你預期的方式工作時,這很糟糕。

嗯,我也搞砸了一個故事是當我試圖改進我們知識庫特性的混合搜尋演算法時。嗯,我們有自己的自託管向量資料庫,我只是想提高準確性。嗯,它對一些客戶有效,但對另一些造成了迴歸,這很糟糕。它破壞了你的客戶的信任,這很糟糕,並且很難重建。我們在Bland中構建並對構建感到驕傲的是,我們允許客戶部署金絲雀部署並測試版本化的代理版本。所以為了一些背景,Bland為每個企業客戶提供專用的基礎設施,用於資料駐留等。

而且我們通過這個我們可以允許他們啟動一個單獨的容器,在那裡他們可以測試一個新的代理版本,併發送和將一定比例的流量路由到那裡,幾個電話號碼路由到那裡,這樣他們就對任何生產變化在真正上線之前經過測試有了更多保證。所以那是我們試圖重建客戶信任的方式,這對企業客戶非常重要,這樣他們就可以專注於以應有的方式改進代理。現在這是這是一個有趣的故事。所以我們與一家財富500強的租車公司合作,我們試圖收集租車數字ID。

嗯,是的,所以我們可以只是幫助他們需要改變的任何其他資訊,我們進入生產,我們開始意識到,好吧,數字實際上與嗯實際上在那裡的不同,我們查看了我們的管道,轉錄引擎是正確的,TTS按應該的方式工作,LM是那個幻覺的,數字的輸入是正確的,但它說和輸出了一些東西。嗯,我試圖通過提示工程來解決它。沒有工作。嗯,當我深入到分詞器層級時,我看到,好吧,重複的數字實際上被視為一個標記而不是每個數字被視為一個單獨的標記。這就是分詞器的方式。

嗯,真正完全解決問題的駭客是在每個數字之間新增逗號。那工作的原因是語言模型現在可以將每個數字視為一個單獨的標記,我們實際上後來發現嗯一篇論文被髮布了嗯你可以查詢同步和Stro 2024,這是在嗯我們修復問題之後釋出的,但如果你們遇到那樣的事情,只是知道你可以查詢它,新增逗號將幫助嗯解決問題。它只在大約一千次中發生五次。但如果你正在與企業客戶合作,五次太多了。

所以這是我從那裡做出的有點個人遺憾嗯有很多YC的決定嗯比如建議是快速移動,快速破壞,但我希望我在推出變化時對一些決定更有意圖,是的,不會造成那麼多客戶痛苦。所以,只是更有意識地關於單向門決定與雙向門。所以,回到Isaiah的故事,嗯,他仍然至今為止關於那個我沒有相信他的事情來取笑我。知道僅從程式碼就可以產生那麼大的影響是超級有力的。嗯,我只是希望你們能從我學到的一些教訓和我犯的錯誤中學習,這樣你們可以擴大任何其他服務或就像整合語音AI嗯變得比我能做的更大。

所以,謝謝、謝謝你的時間,是的,我的LinkedIn在這裡,如果你們想伸出手的話。非常感謝你,Anon。接下來,我們將檢視這個設計。呃,我們將談論超越平面設計輸出,只是超越自動完成。那麼,我們如何解決AI帶來的複雜設計問題和企業設計瓶頸?為此,我們將有Oberllo的AI負責人Lin New,她將在她設定完畢後分享她的想法。嗯,這嗯確實耗時且昂貴,嗯建立像營銷內容嗯品牌和規模。

所以,如果你能看到這裡,當營銷渠道增加時,品牌面臨對內容創作的無情需求,例如當你想建立嗯營銷活動或廣告嗯跨越不同的格式,如Tik Tok、Facebook嗯Instagram等等或LinkedIn。是的。所以我們聽到了很多投訴嗯和來自CMO的推薦,不同公司的設計主管,無論大小。他們都必須承認傳統設計工具速度慢、成本高且依賴專業的設計技能。並非每個人都能負擔得起一個大的設計或營銷團隊。所以我們推出了Oberllo。所以它是一個AI動力設計平臺,使團隊能夠即時且成本有效地大規模建立品牌內容。

所以不像Canva,你可以作為個人使用rightway,但它將無法學習你的品牌特徵、你的品牌資產或品牌語音。繁榮。繁榮。是的。所以如你所見那樣,像嗯當我們使用AI生成的影像模型或影片,對吧,我們有嗯一個模型崩潰的問題,當你繼續提示它說嗯讓我們將這個標題改為另一個顏色或改變徽標或像那樣的東西。所以當你不斷使用嗯之前的嗯生成的AI影像來適應下一次當你提示它時,它將導致模型崩潰。所以我們嗯在Oberllo中我們嗯能夠將那些平面設計轉向一個完全可編輯的地方,你可以只是四處移動東西,你可以改變顏色,你可以配對從你的品牌資產中學到的顏色。

所以在這裡如你所見,我們有很多嗯工作區或域,模型將是嗯根據嗯他們自己的品牌指南特徵等等專有訓練的。是的。例如,Oberllo,我認為如果你去Funan Mo,你們會看到那裡有一個商店超過,他們是我們現在的客戶之一。是的,你可以在這裡看到。呃,我們嗯使用了很多嗯來自他們的專有嗯訓練嗯資料和像我們的設計團隊。我們訓練那個嗯模型將像完全你知道的有點像私人的而不是從網際網路上只是抓取。是的。呃,所以這就像我們AI調整大小的演示之一。如果你曾經嘗試過在Canva上調整大小,你會理解那樣嗯有時他們只會像複製元素過來,只是拉伸整個畫布。

但在這裡你可以看到它將聰明地,你知道,重新組織所有這些嗯元素周圍。是的,你可以看到那個。嗯,所以它不只是,你知道,複製過來,拉伸畫布。是的。而且當你用像另一個嗯像影片或或影像替換媒體時,它將相應地改變所有格式和活動。是的。所以那是那是嗯那是你如何做像營銷活動和廣告一個技能和品牌。在這裡是你如何使用我們的AI工作室嗯我們擁有的功能嗯分為你知道人員主題和產品主題。呃,你可以選擇嗯最多你知道八種影像嗯高質量,然後你可以只是給他們命名。比如說你會把它作為Malo夾克或類似的東西放進去。而現在你想生成在一個廣告或使用這個模型的圖片。

比如說讓她穿著Rick Owen的東西。是的。而且我們可以你知道同時生成嗯到多個格式或大小。是的。所有這些資訊都是你知道嗯聰明地嗯儲存在你的品牌域中。比如說另一個例子用於列車產品,這是一個設計參考。所以你有一個設計參考的某個地方,你有你自己的列車產品,你想你知道有點像只是把他們放在一起,你可以新增標籤像在它將理解你指的是哪個嗯主題。是的。是的。所以這是那個的結果。在這裡你實際上可以點選細化,如果你想改變那個的任何細節,它將像完全可編輯的。你實際上可以改變嗯文本而不是你知道有點像再次提示。嗯,你可以實際上開啟進入編輯器並做更多的。是的。

所以呃我們也有像短形式的影片,你可以使用來成為嗯你知道在廣告牌上廣播或任何型別的嗯像動態橫幅。是的。所以那是全部嗯我們的呃Oberllo平臺的總體情況。而在這裡你可以看到那個這是一個品牌廣告集,你可以只是實際上拉進去呃放入你的URL或放入你的PDF檔案,做嗯Google Docs或其他任何東西,它將拉出所有你的顏色方案、主要顏色顏色、次要顏色,嗯標誌、填充和所有那樣。是的。而且你實際上可以看到它將自動標記你的影像,像什麼型別,什麼型別的產品,它在這裡顯示。所以我們有像其他在進行中的工作,還沒有推出,但你可以在這裡看看。嗯,這裡是我們的monty monty網站。所以你可以檢查出像,例如,如果設計師想一次建立10個大小的話。

呃,他或她實際上可以用這種方式做初始設計,然後之後呃他們可以做一個集合標記或者像這樣的建議設計。這只是一個很簡單的格式,但它可以是一個更復雜的佈局,使你能夠建立呃更復雜的活動。是的。你可以看到我們可以選擇很多不同的尺寸,它會自動呃擴充套件,就像你在Figma上看到的那樣,有一個無限畫布,對吧?所以呃這是多重調整大小的結果,想象一下之前如果代理呃機構必須呃花費一到兩週時間完成,你知道重新安排所有這些,現在我們可以用一次點選就完成。是的。所以呃,對於正在載入的東西,它會稍後載入。

呃哪一個完成了會首先顯示。嗯是的,謝謝你的參加。是的,這是我的演講。真棒的工作。非常感謝你,Lynn。最後兩場講座。堅持住,夥計們。我們幾乎快到第一天講座的結尾了。為了結束這些會議,我們還有兩場講座。第一場是由Stefania Duga進行的,她是Sakana AI的研究科學家。她將談論主權AI。那麼,你如何為某些國家本地化前沿模型?在這種情況下,是日本,因為Sakana總部位於日本。呃,我會讓呃Stefania準備好,然後呃我們就可以開始了。>> 你好。你好。麥克風在工作嗎?當我準備的時候,我知道已經是很長的一天了,你一直坐著聽那麼多的講座。所以,我要邀請你站起來一秒鐘。你們都能站起來嗎?

我們要做一個呼吸練習。吸一口氣。散開。好的,謝謝你的配合。很棒。現在我們準備開始。呃,再等一秒。嗯,所以下午好。我的名字是Stefania Dugga。我是Tokyo Sakan AI的研究科學家。今天我要和你們談論主權AI。嗯,我的意思不一定是任何國家建立本地模型,而更多的是關於本地機構對全球能力的能力,並思考這一點。所以實際上,當我思考主權AI時,我認為考慮三件事很重要。嗯,資料——哪些資料需要保持在本地,哪些模型最適應本地使用。

計算和評估——我們需要什麼樣的計算資源,哪些工作流在本地執行,哪些工作流在雲上執行,以及問責——當我們向機構中引入AI系統時,確定誰保持問責。所以我想和你們分享一個個人故事,說明我是如何對這個話題感興趣的。嗯,我來自羅馬尼亞Transennylvania的一個小村莊。在從事AI研究之前,我曾為世界各地的兒童、家庭和教育工作者開設AI素養工作坊,包括這裡的新加坡。這是一個影片,來自呃2013年兒童學術駭客馬拉松。我在這些工作坊、教室、製造商空間和圖書館裡學到的是,人們對AI非常感興趣。他們想使用它,但很多時候AI模型和系統不適應他們的語言和本地需求。

這轉化為當今的前沿AI能力。我們期望社群和人民適應AI系統,而不是將系統適應本地需求。在日本,這種本地化帶來了多重挑戰。我們需要考慮語言的不同語域、不同的文化規範、不同的工作流、科學實踐、安全和保安政策。所以本地化挑戰在機構層面和多方面的,主權呃我想讓你把它看作一個堆疊,對吧?它從資料開始,並找出我們需要什麼樣的獨特資料。嗯,然後它轉向評估。我們如何檢查中立性、事實性、特定國家的基準?嗯,然後我們談論適應,這主要通過後期訓練、微調、rad工具使用來發生。

然後我們有路由層,在這裡我們需要有策略感知的模型選擇互動。我們的使用者是什麼?不同的角色是什麼?呃不同的使用者體驗決策是什麼,我們如何向用戶呈現這些模型和產品,以及治理。所以超越那個還有一個物理層,對吧?因為堆疊的不同方面對預訓練有不同的需求,呃我們需要很多資料和大量計算,在大多數情況下成本是禁止的,對於後期訓練,我們需要非常關心本地規範和偏好,我想向你展示一些例子,說明我們在某些專案和產品中如何特別考慮這一點。

所以呃上個呃嗯3月24日我們推出了我們的第一個消費者產品Sakana Chat,在這個消費者產品中呃我們它對日本的人免費提供。呃它配備了網路搜尋,但我們實際上,它對日本的任何人都可用。我們實際上支援多種互動方式。所以我們支援呃標準模式呃,這是中立的預設日語語域,但我們也支援keo正式模式,這是在正式背景下使用更多的,我們支援方言Osaka模式,這實際上呃在kai方言中給出答案,人們真的很欣賞這個,我們每天有超過30,000個活躍使用者,在這個特定的專案中,我們使用後期訓練作為主權控制點,所以我們從開放的前沿模型開始,如deep sea、llama、GPTOSs。

然後我們為評估和偏好提供了獨特的呃日本資料,我們與政策專家小組定義了一系列中立性指標。然後我們用這個對這個開放權重模型進行後期訓練,以建立我們稱之為Namazoo的模型。我們評估了呃我們比較了後期訓練模型和基礎模型之間的評估。我們展示了後期訓練模型在中立性和事實準確性上優於原始模型。但它優於他們的事實不是唯一重要的事情。我們也展示的是,許多這些現有模型只會拒絕回答呃更敏感的問題。例如,如果你問deepseek,請告訴我關於政府呃各國網際網路審查,它要麼拒絕回答,要麼給出一個通用的highle呃答案。

呃在我們的後期訓練之後,我們展示了Namazu實際上給出了一個多方面呃的回應,附帶指向具體的呃新聞文章的連結,呃這些呃是可信的。第二個我想呃呃專案我想展示的是我們在AI科學家的工作,這聚焦於科學能力作為主權的一種形式。所以呃在這個專案中,我們實際上使用多個代理,支援整個研究工作流。所以呃代理從想法生成、新穎性檢查、想法評分開始,然後呃呃我們使用基於樹的實驗來測試這些不同的想法,為它們生成程式碼,做消融研究,在最後我們實際上建立了一個完整的論文呃呈現結果。這項工作呃la呃上個月也在Nature中獲得了特色。

嗯,這是AI科學家如何使用樹搜尋來處理呃不同假設和測試它們然後挑選最佳候選的方法。而且這個呃系統生成的論文呃是第一個呃完全生成的論文,在去年的iclair通過了呃同行評審。呃我想展示的另一個例子是我們如何使用多代理協調。所以對於這個,一個非常重要的概念是交換機概念。呃這個交換機學會了自動根據這些任務有多難來路由任務到最合適的模型。而且這樣我們最佳化成本和安全性。路由可以被看作是主權的一種形式呃不是一種將特定解決方案與全球解決方案隔離的方式。

所以如果一個請求呃與日本背景非常相關,它將被髮送到日本後期訓練模型。如果你的呃請求非常敏感,也許它被路由到本地安全模型,或者也許呃要求人工審查。所以這種協調作為主權能力的想法不僅對我們來說是一個架構焦點,也是一個研究焦點。呃我們相信呃我們的賭注是最有能力的AI系統是專門代理的集合,而不是單一擴充套件的模型。而且我們實際上展示的是在我們剛剛推出的Sakana Fugu中,我們可以訓練一個學到的編排器來挑選最好的模型呃給定一個特定的任務。但這個編排器也可以學會遞迴地呼叫自己以處理更難的任務。

而且這項工作呃現在可以進行測試版訪問,並在本年iclair上的兩篇論文中獲得了特色。在fugu的評估中,我們看到的是組合擊敗規模,對吧?所以呃我們比較了fugu,它協調一個前沿模型池作為一個集合。它呃在現場codebench和sweep pro以及其他評估基準上優於這個集合的任何單一成員。呃接下來我想談論域適應,因為我們都知道資料稀缺,而且有很多資料我們目前沒有數字化,比如有很多預設知識,這是缺失的資料集。所以當我們與不同的機構合作時,銀行、醫院比如醫療保健、政府呃我們需要有一個過程來將專家批評和反饋整合回模型和我們正在開發的工具中。

例如呃當我們與日本的一些主要銀行如MUFG和SNBC合作進行信用備忘錄時,我們呃徵求超過一千點的反饋,這些反饋被反饋回模型,呃模型學會為他們的專家分析師建立更好的信用備忘錄。最後但並非最不重要的是,我們也支援日本政府。所以我們的團隊呃展示了他們可以使用AI驅動的情報來分析社交媒體,並準確展示虛假資訊活動是如何開始和執行的。也許最重要的主權AI形式是保持質疑主導架構的本地能力。

所以在我們的CTM工作連續思維機器中,呃我們團隊實際上呃提出了一個超越Transformer的新架構,這個架構受到大腦的啟發,其中推理來自於神經元隨時間的同步。所以呃不是有一個單一傳遞注意力呃有多個注意力頭呃這些呃正在協調,這樣模型學會了如何做非常複雜的任務,比如解決迷宮,它學會做那個的方式,它對人類也是可解釋的,因為他們可以看到底部的啟用。呃,我們也在影像分類上測試了它,其中我們實際上可以看到注意力頭在一段時間內關注影像的確切哪個部分。

而且計算實際上被調整了呃對於更簡單的影像,它花費更少的時間來確定分類,比對於複雜影像。所以那些只是我們在Sakanam所做工作的幾個例子。我今天分享的大部分專案都是開源的。它們在我們的GitHub和我們的部落格上。呃我們想為日本需求開發AI解決方案,並在日本民主化AI,我與你分享這個呃主權的堆疊層,對吧?但每個國家選擇這個堆疊的哪些層他們想擁有,他們可以擁有,所以沒有呃單一國家試圖擁有這個堆疊的每一個層,所以看到不同國家如何做出不同的所有權決策是很重要的,這就是主權在實踐中的樣子,這。

為了結束,我想給你們留下這條來自孩子對父母對研究人員對AI工程師的資訊。呃,非常重要的是認識到我們都有代理權,本地代理權比全球能力更重要。呃,所以非常謝謝你。非常感謝你,Stefania。對於今天的最後一次講座,我們想不到比Swix本人更好的人了。呃,Swix與Cognition在一起,但他也碰巧是全球AI工程師會議的創始人。由於這是我們在新加坡的第一版,而且Swix來自新加坡,讓他為我們今天關閉講座第一天是完全有意義的。所以Swix,當你準備好時,舞臺是你的。>> 好的。你能聽見我嗎?呃我認為我認為他們正在開啟領夾麥克風。呃轉移。這是哪裡?好的。應該沒問題。沒關係。

我不需要。是的,我們很好。>> 好的。大家好。呃,你們現在過得怎麼樣?享受會議。是的。很棒。很高興有你。呃,如果你不知道,我是Sean,也被稱為Swix。我以三種身份來這裡。首先,我是AI工程師的創始人。呃,其次,我是Cognition的顧問和一個領先的代理實驗室,我會解釋那是什麼。第三,我在這裡是作為一個新加坡人。我認為所有這三個身份在這一個講座中合併在一起,我真的很想和你分享。呃,所以讓我們進入它,對吧?呃,我不認為這個點選器根本不起作用。好吧,我會跳過點選器。呃,所以首先我會談論一點我們作為一個會議的故事。呃,我很高興地說,你知道呃我們呃這個會議已經三歲了。

呃它正在呃它已經在世界各地從倫敦到巴黎到舊金山到紐約到邁阿密呃現在到新加坡,接下來到墨爾本。呃我們增長了不少。呃我們現在每月為1.5百萬獨特開發者服務。呃呃九千多人除了你親自參加外,還觀看了今天的現場直播。呃我們真的在盡最大努力在世界各地發展開發者社群,並服務於呃去AI工程行業。呃但特別是新加坡,你知道,我一直是新加坡秀。我在這裡出生和長大。

我呃我為大學出國了呃在美國,但呃我一直在繼續非常坦率和公開呃為新加坡倡導,呃特別是呃對於同胞新加坡人,但也對其他人試圖第一次訪問新加坡,我呃我實際上很高興我們帶來了像Stefania和呃我很多這樣的國際朋友第一次訪問新加坡。呃實際上我我個人職業生涯的一個啟動平臺是在新加坡。呃我在GSCOM Asia上講話,仍然是我所做的最喜歡的講話之一。呃那個真的給了我可能性呃不僅是對我自己的職業,而且還能激勵一個行業、激勵一個國家呃一起。呃我也組織了很多新加坡見面,所以我呃有點不是新的這個。

呃這裡是我們的一些朋友,包括Lihao和Thor和Thomas。呃你們中的一些人見過的人,是呃工程和會議電路中的熟悉面孔。呃最近大約3四年前我搬到了舊金山呃並開始了Leighton Space。呃舉手我不知道是否有人聽說過latent space我的播客,是的好的,非常感謝你的收聽。呃作為那個的一部分,我有一個認識,會有這樣一個叫做AI工程師的東西。呃我開始呃我寫了這個呃臭名昭著的一行,我將在我餘生中活下來。

呃,基本上這樣,研究工程師和全棧工程師之間形成了某種差距,呃,這實際上就是你們今天都在做的事情——AI 工程師,我認為這是一個巨大的、持續增長的需求,呃,如果你不知道,如果你來了這個會議但沒有讀過部落格文章,你可能應該呃讀一下什麼是 AI 工程師的定義,呃,就在大致同一時間,我實際上開始自己搞一些東西,我不僅僅是內容創作者,我不僅僅是社群人士。呃,我也是一個建造者。呃,我只是不是一個很好的建造者,我會對此非常誠實。呃,所以我開始構建我自己的編碼代理。它變得超級受歡迎。它叫 small developer。呃,它是在 claude one 上構建的,如果你能想象的話。呃,三個主要的 claude 版本過去了。我在這個東西上構建。

呃,我對它非常興奮,但最終無法真正擴充套件。而且模型權重在一夜之間對我降級了。呃,我知道這是陰謀論,但我發誓我的是真的,呃,這個模型在一夜之間變得更笨了。呃,所以我停止構建它,但呃,在整個過程中,我呃,我轉向了某種更偉大和更好的東西。所以最最初的 AI 工程師,我宣佈會有三種類型的 AI 工程師,呃,我沒有,你知道,我開始某種程度上擴充套件,實際上這可能是一個職業錯誤。呃,後續三年實際發生的完全是這個序列,呃 2024 年我們構建了更多,呃,某種 AI 編碼工具,2025 年更多產品東西。呃,2026 年絕對是某種代理部署的一年。

呃,是的,這種 Karpathy Andre 有點是我的導師,呃,他去年說這是代理十年的開始,對吧,如果你把 OpenAI 的創立作為 2015 年的起點,呃呃呃,並考慮到前 10 年的擴充套件,那麼隨後 10 年發生的事情可能是部署,呃,以及構建代理的呃框架和支架。呃,這實際上是導致我走向 Cognition 的路徑。呃呃,他們做了三個選擇,我希望我在做 small developer 時做過,我在 2023 年寫了關於 AI 工程師的文章。呃,這三個不那麼明顯的選擇是選擇程式碼,呃,橋接同步和非同步,以及關注企業。我認為這些東西中的每一個都不像現在聽起來那麼超級明顯。

在 2023 年,你想構建 ChatGPT,你想進入消費者市場。呃,在 2023 年,你可能想做自迴歸呃大語言模型,並不真正考慮同步呃同步代理,呃,程式碼是眾多模態中的一個。呃,但我認為呃,你知道呃,商業已經表明它是王牌模態,所以選擇程式碼,呃,我認為這是我在我關於 Cognition 的部落格文章中寫的東西,我真正談論程式碼就像軟體的代理一樣,像編碼代理一樣,如果,基本上,如果軟體正在吃掉世界,那麼程式碼代理正在吃掉軟體,它實際上開始積累很多力量和經濟價值,它可能能在比你所看到的所有其他代理演示更短的時間內做到這一點,這些演示可能效果不太好。

第二部分是我在呃這篇叫做〜「半非同步的死亡價值」的另一篇部落格文章中寫過的。基本上沒有中間立場。你要麼想要你的響應非常非常快,呃,要麼你想非同步委託。我認為呃,有某種不適谷效應發生在呃響應或大語言模型進行得很快但不夠快時,你某種程度上在電話那邊等待,無論是聲音或程式碼或其他任何互動模式。所以你基本上只是想要呃最同步的即時呃體驗或最非同步的體驗的啞鈴方法。我認為任何能夠充分跨越這兩者的公司呃都會做得超級好。呃,最後,企業。呃,我認為這是某種抽象上有意義的東西。

顯然,你想追求的是像大的標誌客戶一樣,像花旗銀行和華僑銀行和高盛。呃,但我認為我不太欣賞為什麼。所以我打算花更多時間某種程度上深入探討這個,只是為了你理解真正的企業關注意味著什麼。呃,企業關注,我呃,我認為用非常簡單的術語就是服務嚴肅的客戶。很多 AI 客戶是不認真的。比如他們會嘗試你的工具,然後他們不會給你反饋。他們會嘗試你的工具,他們會在三個月後追趕新的熱門東西。呃,企業是你能獲得的最嚴肅的審查。呃,你呃,那是什麼意思?呃,很多工具開始是單人玩家。企業立即是多人玩家,到數十萬開發者、數十萬個倉庫的程度。

呃,定價能力也非常有趣。呃,與其不是尋求而不是從標準的每月 20 美元計劃開始並尋求最大補貼,然後在人們移除補貼時生氣然後繼續前進到下一個最好的補貼。呃,人們願意為成果付費,因為我們談論的是企業。呃,而且還但對我來說最有趣的是成為第一個發現昂貴問題的人。呃,這可能只有在呃企業規模才能發現。呃,所以這是某種標準的 Cognition 網站。我要給你看我的版本,這希望呃更難忘。呃,總的來說,我稱之為〜「細節中的 Devon」〜,這有點像一個很好的雙關語。呃,這是呃,談話第二部分的主題,對吧,我不是來談論 Cognition 的。

我是來談論我從 Cognition 學到的東西,以防你們最終構建一個代理實驗室或在代理實驗室工作,因為我認為這可能是任何 AI 工程師最單一有價值的經驗。呃,為了參考,我在一篇叫做〜「代理實驗室論文」的帖子中寫過這個。呃,這是我們在紐約做的 11 月 AI 工程師峰會。呃,我們在一邊列出代理實驗室,在另一邊列出模型實驗室。你可以在 YouTube 上檢視這些會議。呃,如果你想看代理實驗室與模型實驗室看起來像什麼樣的例子。呃,但如果你想用一個圖表,這可能就是它。呃,模型實驗室呃按比例向訓練和計算分配資源,呃,較少向呃部署分配。顯然,該部署隨時間推移而增加。

呃,代理實驗室在資源分配和優先順序方面基本上是完全相反的,對吧?呃,我認為這大多是成立的,除了他們開始蠶食彼此的領地。比如我寫這個時,現在變得更清楚,模型實驗室正在內部構建代理呃實驗室,呃 OpenAI 和 Anthropic 也在做呃招聘工程師,然後代理實驗室也在內部構建模型,隨著 Cursor 和 Cognition,呃把很多計算投入到強化學習他們的模型。呃,如果你想某種程度上按照這種方式分解它,你也可以這樣做,但我為了時間起見要跳過這個。呃,我認為,呃,細節是我真正想要費力的,對吧?好的。

所以,例如,呃,很多人會說,呃,就把你最喜歡的編碼代理選擇放進去。我不想指名任何呃,那些不惹惱他們的。呃,就把它放在一個容器中。呃,現實是它不僅僅是關於容器格式。呃,它也關於只是構建有狀態的會話。呃,這些都是歷史上出現過的所有問題,對吧?呃,它關於給它真實的機器語義,關於給它所有真實計算機使用的工具。

呃,這是一個有趣的真實生活情況的例子,其中共享機器呃如果你想為你的會話有狀態會話的編碼代理實現多租戶,它實際上會破裂,對吧,所以這是一個真實的事件,呃,這些是具有相同根本原因的真實事件,對吧,呃,真實事件例如並行代理會話彼此干擾,因為他們有一個共享快取,呃,或代理和自動異常模式將整個公司的原始碼釋出到個人 GitHub,因為為什麼他們有呃,秘鑰呃混在一起,對吧。呃,他們都共享的是基本上你在容器中沒有隔離邊界,比如容器只知道一件事,呃,但它不真的呃,它不是真的為在代理會話之間跨越或改變上下文而設定。

呃,所以基本上你最終構建的是一個代理平臺,這是在 VM 或容器之上的一切。呃,這是完整的列表。我基本上某種程度上開源這個。如果你們想構建一個代理實驗室,這些是確切的事情你必須經歷。如果你呃,正在考慮購買,這是你必須評估的每當呃你第一次遇到新代理實驗室時。呃,安全是一個非常非常重要的,當然,特別是如果你本地上是多人的,有多個層次的團隊、組織,所有這些事情。呃,所以呃,代理絕對需要很多作用域、身份和最小許可權,這些都是你某種程度上必須在你的許可權模型方面解決的事情。

呃,第二,感知,就是 GPT 包裝器,對吧,就像那就是所有呃應用層人的全部。呃,我認為在某種程度上你可以自豪地成為 GPT 包裝器,但你呃,整個遊戲的名稱就是使其厚實和值得,對吧。呃,所以現實是他們實際上長期模型多樣性,這在歷史上一直是非常好的賭注,對吧,呃,模型多樣性已經證明呃,傾向於隨著時間推移而增加,呃,OpenAI 的市場份額曾經像 70 80% 現在它下降到 30 多個百分比,呃,取決於呃源,呃,而且呃,你不僅僅在訓練,你不僅僅在包裝其他人的模型,你也越來越能夠根據你自己的領域特定資料和用例進行訓練。呃,所以 Cognition 呃,這呃,這些甜蜜搶奪模型和 3.5 模型,我也參與過,以及 Cursor 也在做。

呃,我認為任何其他足夠能幹的代理實驗室都會有足夠的資源來呃呃,構建它,你應該做,因為它對目的的適合度會好得多,對吧,比如呃呃,對於你的大多數工作負載。好的。呃,一個更多的感知。呃,評估是這樣一個模糊的營銷概念,對吧?比如,呃,你大多數人只是告訴你看 SWE-bench,我的數字高 0.1% 比另一個數字。我的模型更好。呃,在現實中,呃,現實是極其多維的。呃,所以這是 Cognition 內部能夠執行的所有不同型別評估的所有例子。呃,它在 SWE-bench 中不可總結。當然,你要對每一個呃,這些真實生活中的用例有不同的方法。

其中每一個都可以在它們後面有數十億和數百億美元。呃,所以我的呃,辛辣熱門觀點是企業是你可能獲得的最難的評估,對吧?比如向我展示一個比呃企業更難的強化學習環境。呃,Cognition 本身是一個有多個組織、多個 Slack 和多個呃 IT 系統的企業,所有那些。呃,它在過去呃六個月裡真的被解決了,這對我來說很有趣,比如有超過六個月加入,比如我認為那很好,現在我現在有了一個好的不同定義。呃,有趣的是它與 AR 增長相關聯,所有這些都已被公開披露。所以我不是在告訴你什麼你不知道的。呃,呃,新東西我呃呃,我稍後要展示。

呃,但我確實認為呃,那是其中之一,你必須追蹤的東西,比如關於你如何誠實,關於你在世界上解決多少問題,呃,與呃,做有趣的演示。呃,我認為有趣的事情之一也是溝通,呃,什麼樣的結果人們為之付費。呃,在落地頁上、在宣傳冊上、在演講中這樣做非常困難。呃,所以我基本上根本不費力,比如我只是因為人們期望我貼上這個,所以我就把這個貼上在這裡,但我只是要呃,跳過它,我會告訴你更本地的具體故事,關於我們在 APAC 和新加坡發現的東西,因為那基本上是為什麼我可以開源。是的。好的。所以那是第三部分,呃,為什麼新加坡,呃,我為什麼在這裡?

呃,我認為呃,如果我能總結的話,新加坡經濟發展的呃故事開始於貿易,然後我們轉向石油,然後我們轉向金融。我們在生物領域有了一點點風流韻事。呃,我們不要談論加密方面。呃,但呃,接下來是什麼,對吧?所以,我的辛辣觀點是我們有所有這些呃領先領先人物。有趣的事實,有沒有人知道 Keo 和 Sam Corp 合併成 Catrium?我剛剛發現。你一個人知道。呃,所以像任何真正的新加坡人都會說,〜「是的,Sim Corp、Marine、Keo Corp。」什麼是 Catrium?呃,這是新實體。無論如何,我的我的某種程度上調皮的答案是顯然有新加坡經濟的第四階段,它在這裡。呃,呃,我在這裡是因為新加坡被選中成為 Cognition 的亞洲總部。

呃,哪個是耶呃非常,超級有趣。呃,我認為你必須某種程度上呃即使作為新加坡人,我認為你必須經歷這個旅程,這是某種程度上我們一直想要的,對吧,呃,我們一直想要 MNC,你知道當地術語,呃,選擇他們的基地在這裡不僅僅是為了銷售,哪個銷售很好,銷售很棒,呃,但也為了工程,也為了研究,呃,對我來說,你必須在海外成功,呃,在本地被認可並表現良好,我稱之為 Sununu 策略,呃,它不僅僅是 GTM,所以呃,有所有這些引文,呃,我呃,我真的很喜歡。呃,呃,Cornish 招聘或收購了 Havana。我認為 Nathan 也在觀眾中某處以及一些其他的船員。嘿 Nathan。呃,絕對稍後與 Nathan 呃談話,如果你想加入 COG。呃,所以我認為呃,它呃,這是有效的,對吧。

我所有想說的就是像我我是新加坡科技界的一部分,我的成年生活,我們從未有過這種程度的外國興趣和美國興趣呃在這個地區,在新加坡,在這個地區基於工程和研究直到現在。所以現在是時候了。讓我們做吧。好的。呃呃,讓我呃,所以我要呃,所以我實際上有 Nathan,呃,誰是我的 chaji,呃,經歷所有的呃通話日誌,呃呃,的所有工作,因為有非常多的工作,呃,發生在幕後,你們從未看到,因為你不在這個業務中,我們是,所以我呃,我想呃,我想分享一些例子,對吧,呃,呃,這是像呃,APAC 的純粹需求量的例子,對吧,呃,每年花費在 LM 代幣上的數百萬,數千萬美元。好的。

呃,呃,他們呃,他們執行你的貸款,你的錢在電子表格上,由不會留在那裡的業務分析師。對吧。想象一下,比如你進來,比如這個銀行是這樣運營的。是的。對吧。所以你必須系統化它。你必須呃,你必須寫程式碼,否則呃,由業務分析師手動操作。呃,政府也一樣。呃,同樣在呃呃,技術的其他部分。呃,我認為呃,你知道呃,再一次,像這是這種呃,我們呈現這些東西的正常方式。這些都是來自客戶的真實數字,不不來自不來自公司,但我認為像從呃,僅僅從數字本身很難看出來,比如好吧,這對交付時間加快 10 倍意味著什麼?

好吧,讓我給你看一下基準吧,就像,基準是一家本地銀行,你有兩百萬行 cobalt 程式碼,沒有文件,也沒有工程師負責。你會怎麼做?嗯,這就是你真正可以開始應用 AI 的地方,嗯,讓我告訴你,這不是新加坡獨有的,也不是某一家銀行獨有的。這是所有銀行。這是所有的,是任何擁有真正大規模,嗯,客戶數量,也就是企業級的任何公司。嗯,每年數億美元的 AI 預算,每次上線 600 名開發人員。嗯,你知道嗎,需要做的工作量真的是令人難以置信的,我們無法為此僱傭人類,因為太無聊了。

這是,這是一種或一個系統,沒有人想為之工作,無論如何對吧。嗯,我希望現在我分享的是這些新故事的第一次。如果你,你知道,如果你想提出更多問題,就問 Nathan。嗯,但我只想分享一些 Cognition 想出來的解決方案,嗯,這些已經奏效了,對吧。嗯,Devon 有一個叫做 playbooks 的東西,基本上比普通聊天結構化得多,基本上一個 playbook 可能價值數億美元,在我看來,因為它們是結構化的模板,可以以比開放式聊天更可靠的方式並行處理 agent。所以如果你還沒有嘗試過 Devon playbook,你絕對應該嘗試,因為這些人正在用這些東西改造銀行,賺取數十億美元。

嗯,程式碼庫理解再次是這種模式,為什麼沒有文件呢,對吧,所以當然你想要 AI 先寫文件,然後使用文件來做遷移,所以嗯,Cognition 是深 wiki 的第一個先驅,嗯,我認為很多人也喜歡這個,嗯,棕地開發中有數十億美元的收入,是的,最後我認為嗯,這在企業中是標準的東西,但看到人們和銷售人員說好吧,那個人甚至都不會跟我們通話,除非我們有自定義 SSO,這是嗯,如此超現實或如此直觀和實際的感覺。為什麼?因為他們鎖定了他們的 GitHub 和 GitLab,因為他們是負責任的企業。而我們其他人,我們就是隨意把東西扔到我們的 Obsidian 和我們的嗯,個人開放的東西。我們真的不會那樣想。

但當你擁有數百萬人的信任和數百萬人的金錢時,當然,你需要像這樣考慮安全問題。任何為這些企業服務的人也必然需要這樣做。所以這就是為什麼我在討論亞洲的代理。好的,讓我重新轉向。嗯,我分享了一些關於 APEC 的學習。現在我只是在談論新加坡,以及為什麼我想稱之為智慧體國家。我們還沒到那裡,但我們在朝那個方向前進。嗯,我們必須回到我們親愛的前沿部署部長。嗯,Abishek,我想他在觀眾中某處,有人給他起了個前沿部署部長的名字。我認為這個名字有點粘,每個人都有點這樣。嗯,他在今天上午的演講中說了三件事。

他說我們在部署、民主化和去中心化方面有優勢,這再次不是關於加密貨幣。他實際上只是意思是他想要嗯,他想要 AI 無處不在,在公共服務中。嗯,我認為我們可以在這三個方面都有所幫助。我認為這實際上是非常非常好的,他理解這一點,我們其他人也可以理解。嗯,對我來說,意識到嗯,新加坡本身有這樣的需求,嗯,大約 AI 工程人才需求與供應的四倍,這真是令人震驚。嗯,你知道嗎,這個差距會繼續擴大和增長,對吧?像這些職位的需求增長每年 40%。有這麼多的錢處於風險中。嗯,這是 LinkedIn 調查該領域並真正報告這一點。所以我認為這是一個相當可信的數字。

嗯,所以我大膽的看法是我已經放棄對政府的希望。像我嗯,我知道我剛才讚美了部長,但嗯,我已經等了多年,等待政府為科技部門做些什麼。嗯,我和部長 Josmin 有過一次播客,嗯,有我們一起走著,談論它的未來。什麼都沒發生。嗯,只有當,只有當我們,當我們新加坡人民,我們新加坡公民決定自己動手的時候,對吧?像嗯,我認為新加坡有政府主導的經濟發展的歷史。嗯,我認為,我認為新時代將由私營部門首先領導進入公共部門。所以讓我們讓這件事發生吧,對吧?嗯,我認為這個,這個會議就是一個例子。

我們沒有等待政府批准或者嗯,給我們他們的支援。很高興有 IMDA 和 AI Singapore 在嗯,在 Pullman 和所有其他展覽活動中支援我們。很高興有外交部支援我們,但我們不需要他們。我們在這裡為私營部門工作,自己建立我們自己作為科技部門。所以這從每個人擁有高能動性開始,特別是所有這些站在一旁的組織者。為他們鼓掌。他們讓這件事發生。這是他們的副業專案。他們把你們聚在一起。嗯,我顯然幫助和支援了他們。但像這個會議沒有他們就不會發生。所以嗯,它從這個房間裡的每個人開始。它從我開始。

它從 65 labs 的這些組織者開始,現在它從你開始。嗯,所以我真的希望你能從 AI Engineer 離開時,在你的生活中變得更有能動性,真正地將新加坡變成一個更有能動性的國家。非常感謝。好吧,我們已經到達了第一天演講的結尾。嗯,感謝你們堅持到最後。這真是瘋狂。為自己鼓掌,因為你們撐過了 10 小時的程式設計。好的,在大家外出吃飯前的最後說明。嗯,我們這裡有一個飯後聚會。我們將在大約 9:30 開啟大門。我將在 10:00 開始 DJ。我們預訂了一個從英國飛來的 DJ,他將在 11:30 開始播放。前 500 人可以免費暢飲。所以,如果你想來喝酒,歡迎。椅子會被移走。

這將成為一個舞池。嗯,我們想讓你們過來玩得開心。嗯,如果你是會議參加者,請帶上你的掛繩,因為這將幫助我們優先考慮你的進入,不要丟失它們,因為我們明天不會列印新的掛繩。希望指令集的這個部分很清楚。如果一切都很好,非常感謝,我們明天一大早或今晚就見到你。

關聯影片