AI 产业与应用 · 2026-05-16 · 08:00:00

AI Engineer Singapore Day 1:部长开幕 + OpenAI / Google / Vercel / Cursor 主题

AIE Singapore Day 1 ft. Minister, NanoClaw, OpenAI, Google, Vercel, Cursor & more

演讲者
AI Engineer Singapore
AI Engineer 首届亚洲峰会(65Labs 主办)
类型
行业领袖

核心观点

AI Engineer Singapore Day 1 全程:部长开幕、NanoClaw 演示,以及 OpenAI、Google、Vercel、Cursor 等头部团队的工程实战分享。新加坡首届 AI Engineer 峰会,定位「工程师 × AI」实操层。

可读字幕整理

字幕语言: zh-CN · 抓取日期: 2026-05-21 · 翻译日期:2026-05-22

周六上午8点40分加入AI Engineer Singapore第二天的会议。呃,作为介绍,我是Sherry,我是65 Labs的成员之一。呃,我们是新加坡这里最大的草根建设者集体之一。呃,其实这周最近有一篇关于我们的文章发表了。嗯,这只是我们几个人在业余时间做的事情。呃,我们都有全职工作,但你知道,这是我们都非常非常热情想为新加坡带来的东西。所以这个会议真的是我们对生态系统的一封情书。现在,沿着我们运行的所有这些黑客松和构建之夜,发生了一些魔幻的事情。呃,在这里今天正在构建你每天使用的模型的一些前沿AI团队,开始为我们的社区出现。

嗯,他们为我们的黑客松提供了学分。呃,甚至在Zoom上迟到仍然为人们举办工作坊,你知道我们真的有各种各样的人呃被支持,从13岁的年轻人到60多岁的人,他们也都只是在学习所有这些。嗯,这真的只是一个很好的时间来聚集在一起成为建设者。但我们得到的不仅仅是几个学分。呃,我们开始实际与其中一些团队建立关系呃,那就是我们今天在这个房间里看到的魔法。现在,你可能认为这是在新加坡第一次发生所有这一切,但在我们今天在Capitol Theater这里聚集之前,它真的已经在表面下发生了很长一段时间。

嗯,所以当我们的一些演讲者实际告诉我们他们整个从旧金山到新加坡的飞机实际上只是充满了为AIE来的人时,就不足为奇了。那么,这个会议实际上是怎样发生的呢?嗯,所以呃我们实际上遇见了Swix,呃他是CEO和AIE Globally的共同创始人。嗯我们实际上在纽约市见了他,呃我不知道你们是否知道,但他实际上原本就是来自新加坡的。所以这一切都说得通了。嗯我们一直在远程与很多这些团队合作,我们只是想第一次在新加坡亲自把他们都聚集在一起。所以要听更多关于AIE的故事,呃,Swix将,呃,讨论认知,但也要结束第一天来听,呃,分享更多关于AIE的故事。好的。嗯,现在,举手。

我有点好奇昨天有谁参加了工作坊。哇。好的。那大约是98%的人群。嗯,很高兴看到这一点,因为那是一个笔记本电脑开放日,这正是我们想对这个会议做不同的地方——我们不仅仅是在谈论东西,而是你知道,我们在构建和呃以某种方式应用。所以我们想确保你知道所有这一切都是为了实用知识而设计的,对吧,呃昨天呃只是让你知道我们实际上有20个工作坊在运行,五个房间同时进行,以及一个完整的领导力轨道。所以,呃,我们真的想把编程放在这里一切的绝对中心。嗯,所以我们都在相互学习和建设。

而且因为我们想创造这个学习的地方,嗯,我们也想给下一代获得这个经验的机会。所以,呃,我们实际上能够作为一个社区聚集在一起支持20名学生,他们今天实际上是会议的学者。所以,呃,你们能站起来挥手吗?所以,这些票中的每一张实际上都是由我们社区的建设者部分或全额赞助的,他们相信这就是新加坡AI未来的样子。那么,我们在接下来的两天可以期待什么?

呃,我们不只是你知道把一堆谈话串在一起,你知道为了让你们在这里呃午餐和类似的东西,但我们想为你们带来那种你不能只是谷歌或在Corsera中找到的对话,但实际上是在这些对话中进行,这些对话正在与实际上用这些工具构建的人一起进行,无论是在Twitter或研究论文等所以我们想带来这些对话,所以你也可以在中间,我们知道发生了很多事呃在接下来的两天内有超过60场演讲,跨越三个主题,你可能需要一些帮助来导航和解决问题。所以,呃,我们实际上有一份指南,我们发出了一封电子邮件,其中有一个地图,我们实际上也编码了一份完整的计划列表。

呃不仅如此,我们创建了一个你可以使用的API,它是公开可用的。所以,你可以实际上在程序顶部构建自己的工具,因为我们不仅仅想创建一个你下载和使用的一体式应用程序。我们想创造一些你可以为自己构建的东西,因为这就是我们所做的精神。所以,AIE今天和明天将分散在不同的空间中。呃,这个剧院,这里在Capitol Theater将是所有演讲都发生的地方。而一旦你获得了灵感,比如你知道什么,我真的想去和这个团队谈话。那太有趣了。我们有两个博览会区域设置。呃一个将在街道对面的Pullman,另一个是Kinsky的Attelier。

而且这些再次不仅仅是人们设置的摊位呃仅仅因为但我们实际上使这成为一个精心策划的空间,你可以实际上与正在构建你正在使用的工具的非常人进行面对面的对话。然后最后,我们也想确保我们给你空间呃你知道放松和接触草皮也因为这是漫长的两天。所以,呃,我们很高兴分享我们将有一个15分钟的休息会议,其中有一个称为洞穴的体验空间,这是一个重新沉浸式声音反应放松房间,实际上是呃,完全由创作者编码的。你也会发现很多人穿着红衬衫四处奔跑。

呃,这些是我们了不起的志愿者,他们将帮助你导航空间,并确保你从今天这里发生的每一次对话中获得最大收益。而且我们不会在没有我们不可思议的赞助商的情况下在这个房间里。所以,呃,我们的钻石赞助商是OpenAI和ZAI。我们的铂金赞助商是Google Deep Mind、Arise和Cursor。感谢呃感谢Capitol Theater为我们提供这个美丽的空间。现在新加坡的故事一直始于建设者。呃,这就是为什么几周前呃,当我们自己的外交部长Vivian Bala Krishnan博士呃在Twitter上的帖子中为构建自己的第二大脑而病毒式传播时,这真的让我们吃惊。呃,这是有道理的,因为他的角色要求驾驭大量信息和快速上下文切换。

所以他对构建这种工作流程和工具的反思真的强调了关于AI的有意义的对话应该涉及理解工具本身,而不仅仅是思考你知道的这个抽象。呃,随着这一点,呃,我绝对荣幸地介绍我们的主题演讲人和建设者本人,新加坡外交部长Vivian Balakrishnan博士。>>使用这个。>>早上好,各位。你知道,我们在新加坡可以更随意一点。所以,早上好。我知道下雨了,但新加坡通常是晴朗的。呃,我觉得自己像个骗子。呃,对于那些不认识我的人,我实际上是一位退休的眼科医生。绕道进入政治可能太久了。呃,但我一直保持对完成事情、构建事情、修复事情的兴趣。

而且由于我不再进行眼睛手术,呃我组装手表,我重新编程电器,现在有一些其他的东西,这就是我今天要谈论的。但实际上,我想让你解释为什么我做了,这意味着什么。而且我认为对于这个观众,你会直接得到它。但让我跳到最后。呃,要说这些是三个关键信息,你可以忘记我说的一切,但只要记住这些事情。我们现在处于一个时代,当你可以外包很多东西计算计算内存复制知识的传播。你不能外包的一件事是你的个人理解。而且如果你处于权力的位置,你可以委托工作。你不能委托责任。

所以记住个人元素在理解和问责中。下一点,我将参考由剑桥大学教授Neil Lawrence发表在《金融时报》上的一封很好的短信。她是机器学习的教授。而且你知道,关于AI模型、数据中心、自上而下的系统、规则、政府,有很多炒作。那是宏观的。但他的假设是,对经济和社会的真正价值是在基层工作流程、部门、部门逐个部门地创建的,实际上在个人层面。

这意味着什么,它看起来,我知道你们很伟大,我知道在前沿模型上工作的人是不可思议的,但真正的回报是当普通人、教师、律师、技术人员、经理、医生、律师甚至部长实际上在使用已经可用、已经发明的工具时。了解他们的工作并被这些工具赋予权力的人。这就是你如何为社会和经济创造真正价值的方式。所以我在看分权、个人化、定制模型。我在谈论让自己更好地做你的日常工作,甚至更好地重新设计你生活的工作流程。这就是真正的价值提升所在。第三个要点,这就是为什么我做这个演讲,我真诚地相信实现所有这一切的障碍已经崩溃了。

这些工具已经被提供了。这是让人们理解有哪些工具、组装他们自己的工具的问题,并把自己放在一个完全不同的轨迹上。好的。所以现在让我们做有趣的部分,我的冒险是如何开始的。现在我的个人代理差不多三个月前活了。呃,是的,我被OpenAI的炒作困扰了,呃,但考虑到我的工作,我立即知道这不实际,因为安全是一个问题。然后别人指向了nanoclaw,我认为我们将在之后听到Gabriel,你知道,作为一个极客和修补匠,我喜欢我能掌握的东西。

事实上,nanoclaw有一个非常短的代码库,即使是像我这样的白痴也可以阅读和理解,事实上它是容器化的,作为一名外科医生,我知道没有这样的事情作为常规手术,事情会出错,事情会破裂,当他们破裂时,希望你希望他们在屏障内破裂。所以容器化部分,可理解性部分对我来说至关重要。无论如何,简单地去GitHub,下载东西。它的另一个吸引人的部分是没有配置。实际上没有,因为你依赖LLM做所有定制的定制。实际上,你意识到运行nanoclaw实例的每个人都在运行一个个性化的系统。现在,这既有好处,也有其问题。但无论如何,让我告诉你我用它做了什么,对吧?

所以,Nano Claw提供了平台。它允许我通过WhatsApp与我的代理交流。那部分不是火箭科学。让我回到一张幻灯片,我真正追求的东西是我如何能将它用于我的日常生活。让我给你一个我日常生活的想法。这个月我访问12个国家。我有我因此将不得不与数百人会面。我将必须了解国家的经济、地理、文化、历史。战争与和平。我需要了解人们作为个人,而不仅仅是来自简报的东西,每个外交官都有巨大的认知超负荷。问题是我如何涡轮增压这个过程,以便如果我需要一个事实或一个花絮,我可以得到它,我可以在任何地方得到它,如果需要的话,我可以下降兔子洞。所以这与这整个超负荷有关。

LLM对分析、抽象、表达很有用,当然对起草简报、起草演讲、制定问题的答案非常有用,包括我必须补充的议会问题。三个月前,包括整个议会辩论。呃,看到生成的问题和答案留下了深刻的印象,呃,对我议会中的所有同事表示尊重,呃,一些AI生成的辩论呃更尖刻,我应该说。但无论如何,它通过WhatsApp与我交流。所以有这个叫Bailey的软件。我怀疑它可能呃完全不符合Meta或WhatsApp想要我们做的,因为它实际上是在模拟你知道,我们如何在浏览器或笔记本电脑上使用WhatsApp的方式。

所以这是一个伪终端。然后是我认为对我这样的人来说真正的前沿的部分是记忆,幸运的是我碰到了这个叫做Neman的模糊软件。我仍然没有遇到开发人员,所以我真的不知道,但是一个有图形的记忆系统。所以它有实体。边缘是实体、因果关系、时间关系和语义。而且因为我不想只局限于关键字搜索。事实上我可以在本地运行Olama和一个嵌入模型意味着我也有内置的语义搜索。所以有了这些元素,我的意思是,Whisper是简单的部分,因为用WhatsApp,我不仅想打字。我想能够说话,他可以和我说话。当然,我的梦想呃有一天只是让我的代理在议会中回答追加问题。

我不确定其合法性,但如果发生,你会知道我首先与你分享了这个想法。但关键是我现在能够策划材料、演讲、抄本,特别是我自己的贡献,把它放入系统、消化、提取、放入那个记忆数据库。然后大约在同一时间,Andre Kapati提出了他的LLM监督wiki生成。所以我也加入了那个。然后对于用户体验,用户界面,我使用了Obsidian,部分原因是Obsidian允许我使用Apple iCloud,因此立即意味着我有一个个人云,所有从这个个人策划的数据库提取的wiki对我可用,因为记住我开始说的关键是个人理解。

所以我有一个记忆系统,我有一个通信系统,我有一个分析系统,但一切看起来都很好。但我在这里与你分享的是,在过去三个月中,我发现它在见面、旅行、演讲的初稿、演讲的初稿中非常有用。

甚至今天的演讲呃甚至幻灯片实际上是由claude生成的你知道它加快了完成事情的速度,作为一个从业者,所以不是作为工程师,而是作为一个有日常工作的从业者,它很有用,我可以证明它的有用性,因为我可以诚实地告诉你,我还没有敢关闭它,Nano Claw不幸地已经从第一版升级到第二版,当第二版上线时,因为他们的转换根本不顺利,我留下了第一版工作,我在另一台计算机上放置了第二版,我也应该补充所有这些东西,其中我每天最常使用的代理在运行一个树莓派上,至少两到三年前。它只有8 GB的RAM。你看到我关于可访问性、个性化、相关性、使用的观点。让我们继续下一张幻灯片。

这是我的观点。障碍已经崩溃,因为我做了这个。我做这个没有写Claude、Bailey、Neman、Whisper或凭证系统。你知道,有这整个关于vibe coding的事情。我甚至不敢声称我在vibe coding。我只是在组装工具。你它只是工具组装,所以我我实际上应该改变那条线,我没有写任何胶水,我可以诚实地说,是的,我已经检查了代码,你知道nanoclaw坚持你每次给代理bash访问时都批准,所以我确实扫描过,它确实有帮助,如果你不了解编码,你很有帮助,所以你理解发生了什么,即使你没有实际上输入和编辑代码。接下来,从某种意义上讲,我对所有这一切的方法一直是通过做来学习。

仅仅坐下来阅读、浏览新闻、完成总结是不够的。如果你对任何事物感兴趣,就应该身体力行。学习的最佳方式就是实践。由于进入的壁垒已经大幅降低,每个人都应该开启自己的个人实验。你知道Claude提出了这样一句话,我当时有点怀疑。你知道以前谁说过这句话。它声称没有别人说过。但实际上,我有点赞同它,这是对我政府同事们的呼吁。你不能治理一项你只是被简述过的技术。你最好亲身参与,这样你才能理解这项技术的潜力、局限和问题。这里还有其他一些离题的内容。嗯,确实存在一些约束。

例如,当我们依赖LLMs时,坦率地说,考虑到目前AI大厂向我们收取的价格,我认为我们都知道自己实际上享受了一种补贴。Tokens并不便宜。计算能力有限。电价上升了。战争也没有帮助。我们应该警惕只是将每个问题和解决方案的每个步骤都扔给LLM。这让我想起一句古老的谚语,你知道,对于一个拿着锤子的人来说,一切看起来都像钉子。实际上有很好的经济和设计优势让你使用LLMs,但不要忘记确定性系统仍然有其作用。

专家规则系统仍然有其作用,我作为一名生物学家的个人信念是最终需要某种神经符号系统,而不仅仅是LLM模型。我对严勇的想法有一定的同感,他说你知道吗,我认为LLMs很好,但实际上这并不是我们在自然界中解决问题的方式。如果你看看人脑,实际上我怀疑人脑的计算层数比我们今天拥有的许多大语言模型还要少。作为一名眼外科医生,我可以告诉你,大脑皮层对视觉、语言、认知的计算通常基于比我们今天拥有的这些能量消耗系统更高效的结构。我想表达的观点,以及我与严勇同意的地方是,这些归根结底是带有注意力和记忆的模式识别系统。

从看似简单的基础能力中产生突现行为,这给了你概念理解,给了你语言,给了你做事情的能力。所以我想说的是,这是一个仍在爆炸式发展的领域,因此应该以谦虚的态度接近它。尽力改进你日常工作的生产力,但要明白,我们实际上也许是活在一场革命中最幸运的一代。工具比模型更重要。我认为嗯,Gab会知道我告诉过他,到6月,我认为是6月15日,我需要纳米爪让所有模型成为一等公民。嗯,有原因的,我们之后可以讨论。最后是记忆。这是非常人性化的,我认为这是这个前沿领域尚未解决的伟大问题。

下一张幻灯片,我认为在安全方面我不打算过多论述。嗯,只是顺便说一下,即使你黑客攻击了我的系统,你能得到的最多的就是我的电话号码。嗯,你会得到外交政策的摘要,但由于这些是我支持的外交政策,而且无论如何我已经策管了我放入的内容,即使你拿走我的系统,我认为它无论如何也会生成新加坡的外交政策。现在这是处理安全的一种方式,通过确保你只放入已经开源、已经发布的内容,并让你的系统接受能够承受的透明度和审查水平。但不要忘记安全仍然是至关重要的,实际上,人工智能传播的复杂因素将是商业竞争、国家安全、网络安全和超级大国竞争。

这些是将影响人工智能未来的可用性、速度和传播的政治因素。这同样是值得深入探讨的独立政治话题。下一张幻灯片,我希望这是我最后一张幻灯片。所以目标是,我是边缘部署的信徒。我是一名外科医生。我相信实践。我相信修复。我相信那是生命安全、价值创造的地方。其次,因此公共政策目标是这些工具的民主化。这就是为什么你会看到在经济战略审查委员会中DPM gun说我们新加坡不太可能走在模型开发的前沿。但我们可以走在大规模部署的前沿。

所以民主化,因此如果这就是我们所相信的,那么它必须是一个去中心化的自下而上的方法,这就是为什么我今天在这里,因为我发现这个或会议不到三个月前就被组织起来了。65个实验室。你在这里遇见的所有人,这甚至不是他们的日常工作。这是一个黑客松,对吧?但这是我相信未来将被创造的方式。所以,感谢大家的到来。感谢你们成为这次旅程的一部分。祝你们有美好的一天、美好的未来。非常感谢你们。你应该给了这个。>>哦,>>我我应该早点穿上这个。你应该早点给我。我本来会穿上的。>>我们没有简报。但非常感谢你。非常感谢。>>谢谢你。>>好的。你需要做个公告,对吧?我让她知道了。好的,各位。

嗯,我非常兴奋地为大家介绍我们的下一位演讲者,不是别人,正是纳米爪的创造者本人,Gabrielle Cohen。大家好。真的很兴奋能在这里。只是在设置一些东西。只需要你们的网站加载,然后应该可以去医院。>>你能把你的麦克风放上吗?你能m等等,现在加载了。没了。快要成功了。好的。大家好。我是Gabriel Cohen,我创建了NanoClaw。我的Telegram中现在有一个AI助手,它连接到我的电子邮件、我的日历、嗯,连接到我的通话记录。嗯,它可以访问敏感信息。它可以采取敏感行动,比如阅读我的电子邮件、发送邀请。在这次演讲结束时,15分钟后,我将为大家提供自由访问它的权限。

嗯,我可以这样做,我不是疯子,这并不危险。在整个演讲中,我想向你们解释一些关于NanoClaw的概念,这些概念使其安全。嗯,而且,为了演示这些概念,我将谈论我们构建的嗯,代理工厂,在此过程中,我会分享一些我认为有趣的关于我们在构建它时做出的选择的东西。首先,NanoClaw是一个用于构建嗯安全自主助手或爪助手的开源框架。嗯在短短三个月内,我们在GitHub上有超过30,000个星标,嗯许多成千上万的用户遍布世界各地,包括嗯新加坡外交部长Vivian Balakrishna博士。嗯,但更重要的是GitHub上的星标,超过12,000人已经fork了该存储库,这是人们使用它的主要方式。

他们fork它,试验它,基于nanoflow制作自己的自主代理。嗯,加上我们有超过2500个嗯拉取请求和问题。所以维护一个开源项目今天,现在是构建开源项目的最好时机。同时,嗯,编码代理也带来了新的挑战。比以往任何时候都更容易打开一个拉取请求。嗯,许多人,成千上万的人正在为该项目做出出色的贡献。嗯,但坦率地说也有垃圾拉取请求。人们会把他们的编码代理指向一个repo,说,「在这里贡献一些东西」。今天很难区分垃圾拉取请求和好的拉取请求。它们看起来是一样的。

它们的代码数量可能相似,区分它们取决于对项目的深刻理解、项目的方向、愿景。所以,为了帮助我们整理这些拉取请求,我们构建了一个代理工厂嗯,帮助我们审查每一项贡献。嗯这是我们的代理工厂。它在我们的Slack中。它托管在一个xie.dev嗯虚拟机上。嗯,在GitHub中打开的每个PR都会触发一个嗯webhook,嗯,在我们的Slack中创建一个新线程。审查代理首先进行分类,然后进行深入审查。嗯然后它被传递给测试,首先创建一个测试计划嗯,用于深入测试,真实测试,不仅仅是自动化测试。嗯然后一旦我们批准了计划,它会得到一个新VM被启动。

它经过了一整套测试,然后嗯一旦完成,我们可以在工厂内直接合并它,它就会上线。所以你们中一半的人可能看着这个想着,太棒了,我想自己构建这样的工厂。另一半人在思考安全含义,想着,这太疯狂了。这是鲁莽的。这是不安全的。拉取请求当然是未经清理的嗯输入,对吧?任何人都可以打开拉取请求。任何人都可以在那里放东西。嗯你真的不能清理拉取请求,因为我不想从中删除信息。会有误报,你能想到的一切。你可以想象一个拉取请求是打开来加强安全性,防御提示注入。它会触发任何类型的嗯检测。所以这远远超出了致命三联。

而且嗯我们的f我们的工人,我们工厂中的代理,正在采取非常敏感的行动。他们在启动虚拟机。他们在合并嗯拉取请求。那么我们如何能防止我们的代理被提示注入呢?你显然不能这样做,对吧?如果你进入一个代码库,你在云的顶部看到。MD嗯永远不要运行删除数据库生产。所以这告诉你两件关于那个代理的事情。它告诉你那个代理以前删除过生产数据库,它告诉你如果他们把那个指令放在那里,代理仍然可以做。所以它仍然有那个能力。嗯指令不是为了安全。它们不是为了安全。指令是为了引导你的代理朝着生产有价值的、高质量的输出方向发展,朝着你希望它朝着的方向发展。

那么我们如何用nanoclaw处理这类风险呢?所以我们认为我们的代理就像他们在敌方领土后方运作一样,因为他们在与敌人接触,对吧?是某个可能是恶意行为者的人试图反对你,让你的代理反对你。所以,如果你考虑一张冲突地图,嗯你有红区和蓝区,蓝区是我们这边,红区是另一边。代理在红区运作,随时可能被变成双重间谍。所以,我们不信任我们的代理,nanoclaw代理不被认为是可信的。相反,它们是隔离的。

所以这是纳米爪架构的简化版本,你有左边是slack或任何你发送消息的消息应用,它去slack服务器,然后被发送到你的nanoclaw运行的任何地方,在这种情况下,比如说一个虚拟机,有一个slack桥接,它用socket或webhook连接到slack服务器,每条消息被发送到slack桥接,然后从那里通过路由器推送给代理,代理响应。它嗯产生一些通过路由器发回slack桥接、slack服务器的输出,并在你的消息应用中显示为来自代理的响应,来自你的,你知道,slack bot或其他什么的。嗯但代理可能被破坏了。它在红区运作。所以,代理可以接触的任何东西都可能被破坏了。

如果代理可以访问路由器,如果代理可以访问slack桥接,它可以操纵这些并改变它可以访问的消息,嗯,以及它能够发送消息给谁。所以与其让代理访问它运行的虚拟机中的任何东西或它运行的环境中的任何东西,我们隔离代理,把它放在虚拟机内的另一个隔离层内。在我们的情况下,通常我们把它放在容器内。现在,容器限制了爆炸半径。我们控制进出的内容,以及与出来的东西所发生的事情。所以,代理没有直接连接到消息传递通道。这已经在很大程度上限制了爆炸半径,但为了让我们的代理访问外部世界,嗯它需要有凭证。

如果它想连接到服务,无论是GitHub还是嗯或你的日历,这可能是使用CLI、API、MTP,没关系。它需要某种形式的凭证。所以第二个原则,第一个原则是隔离。第二个原则是将凭证保留在代理环境之外。代理环境是敌方领土。你不想在那里放任何高度敏感的东西。肯定不是嗯秘密和凭证。确保代理不会泄露凭证的唯一方法是,这不能通过指令完成。通过嗯DLP或分析输出也做不到。代理也可以规避那个。防止它泄露秘密的唯一方法是不给它秘密。

所以我们让它与没有凭证的外部凭证服务通信的方式,我们在代理请求之间添加一个代理。我们给代理一个保险库。我们与一个真正伟大的开源项目合作了这个嗯,称为one CLI。每个离开代理沙盒的请求都通过保险库进行代理,然后我们检查请求并决定我们是否应该添加凭证。请求以无凭证的形式离开保险库,字面上嗯认证承载者占位符。字面上占位符这个词在保险库中。如果代理应该有权访问该资源,占位符将被替换为真实凭证。

但隔离代理并给它这个代理凭证是不够的,因为如果有人直接与我的代理交谈,即使我的代理不持有钥匙,如果它可以采取敏感行动,你可以操纵它,提示注入它,你可以让它为你采取敏感行动。所以也许你不能得到我的GitHub访问令牌,但你可能能让它把你添加为代码所有者。所以我们需要另一层策略,不仅仅是橡皮图章让每个请求通过,而是添加代理可以和不能访问什么的策略。对于最敏感的操作,最灵活的政策是人在环中的批准。那看起来像是在我们执行策略的级别,我们可以有一个策略集。这需要人工批准。

然后请求不是从代理发送,而是从保险库或从嗯nanoclaw的路由器或交付部分发送。该消息通过路由器发送到Slack桥接,并在你的消息应用中显示为来自代理的权限请求。现在这实际上是一个错觉。这在视频中之前出现过,看起来像代理在请求你的批准,然后你给代理你的批准,然后它继续为你合并你的PR。那都没有发生。代理不能请求批准,代理实际上没有凭证来合并。相反,代理试图使用MCP发出请求,其中它写出它想用GH与GitHub CLI运行的命令。

然后我们将其作为消息显示给你,就像它是来自代理的请求一样,但实际上它来自Nano主机进程。一旦你批准,合并实际上不是在代理级别完成,而是在代理环境之外完成。那个相同的嗯模式可以用来做任何类型的敏感操作。例如启动转账。最敏感的操作,你需要将工具调用与工具执行分开。工具调用发生在代理的环境内。在红区内,它离开红区,在代理环境之外,你然后执行策略并实现该行动,如果它符合你的策略,包括人工批准。

一个有趣的模式出现在我们在代理工厂中发现的是,我们有多个不同的人过度审查和嗯提供对审查、计划、嗯分类的监督。无论谁按下按钮来批准或发送到测试,它使用他们的凭证。所以你不会在我们的GitHub中看到任何被nano claw代理合并的PR。我是按下按钮的人。意味着我证明这是正确的。我为此承担责任,它是用我的凭证完成的。所以这是嗯我们的工厂看起来像什么。另一个有趣的事情是所以你可以在这里看到我们有嗯slack应用嗯连接到slack桥接。我们有多个不同的机器人,然后每个机器人都被路由到不同的nano代理。每个nano代理在自己的容器中运行。

所以nano claw默认按设计是多-代理的,可以是多用户多租户。现在当测试计划被批准时,那不是运行自动化测试,发生的是我们有一个测试嗯编排器,它创建一个新的虚拟机,检出该GitHub拉取请求在虚拟机中的分支。然后我们的测试代理通过SSH进入虚拟机,运行Nano实例,开始戳和戳代理,在Telegram中向他们发送消息,得到响应,真实的测试,然后还能够检查数据库和日志以验证在幕后你期望发生的事情确实发生了。嗯,另一个最后有趣的模式是Slack线程中的每个代理都有持久的环境和持久的会话。你可以随时来到他们身边,标记任何一个不同的代理。

我们有一个测试代理、审查代理,呃,给他们方向指示,提出后续问题,呃,改变测试深度,就像你在这里看到的那样。我们还有这个能力来标记一个主管并提供反馈。呃,你感觉有点像Karen,如果有人知道这个梗的话,我能和你的主管谈话吗?你留下反馈,然后呃主管可以根据那个反馈建议对指令和技能进行更改,然后一旦我们批准那些更改,它们就会被实施。所以我们的工厂本质上是在改进自己。如我承诺的那样,如果你扫描那个二维码,我在Telegram中有我的代理。它可以访问我的电子邮件、我的日历呃和我的驱动。呃,但我对给你所有访问权限感到安心,因为这个代理在其环境中没有任何凭证。它是隔离的。

我控制什么进入其环境以及什么出来。每一个行动都有人工批准。所以这连接到我的日历。我整天都在这里。我很想和一些在这个领域做有趣事情的人一起喝咖啡。呃,和它谈话。我告诉它对我的时间有点保护。我希望它不是很刻薄。呃,但如果你和它谈话并告诉它你在做什么,呃,希望它会为你和我安排一个咖啡聊天。谢谢你。>>好的。呃,我非常兴奋地介绍呃我们的下一位演讲者。呃这是Tibo,他是OpenAI的Codex负责人。现在Tibo呃不幸的是今天无法亲自到场。呃但他想做这个讲座,因为这对他来说意义重大。所以他会解释呃当他当它呃当他出现在屏幕上时,我认为他在。

呃但我们要做的另一件事非常酷,就是呃Tibo很高兴能与一些学生进行问答。所以,呃,让我们给,呃,Tibo一个热烈的欢迎。>>嗨,各位。呃,很高兴在这里。我很希望能亲自到场。看到房间里挤满了人真的非常令人兴奋。呃,新加坡有独特的能量,我很高兴从旧金山与你们大家聊天。我感到非常自豪能说,新加坡实际上是全球Codex采用和参与度的前五个国家之一。呃它上升得很快。呃感觉新加坡就是以前所未有的速度采用新技术。呃我们的总体使命是向全人类传递AGI的好处。

我相信在接下来的几个月里,我们将在使AI对世界上每个人都深刻有价值方面取得令人难以置信的进展。我们从ChatGPT开始,通过Codex,我们专注于构建者和开发者。你可能知道Codex是这个小应用程序,但对我们来说,它是我们的前沿代理。我打算讲一点关于代理对软件开发和整个生命周期做了什么。我不必告诉这个房间,但软件开发显然与两年前相比是无法辨认的,甚至是六个月前。新模型能够进行完整的代理委托或像我们在nanoclaw中看到的例子,你有一个完整的自主系统只是为你做东西呃远远超出编程。你只需给它一个工作。

它独立地处理任务代码库,也许数小时有时一整天,直到工作完成。从一开始,这就是我们的目标,建立一个可以委托的AI队友。考虑SDLC和构建事物的一个有用的方式是将其视为一个吞吐量问题。几十年来,软件开发生命周期的设计围绕一个核心假设。代码很难编写。这个假设塑造了真正的一切。我们大量规划是因为工程时间很稀缺。我们仔细审查每一行,因为代码写错很昂贵。我们围绕构建步骤是管道最窄部分的想法建立了交付系统。代理编码真的改变了这个假设。它显著扩宽了管道的皮带部分。

但如果其他部分保持狭窄,总吞吐量实际上不会增加。约束转移到构建步骤周围的系统规划、审查、验证、CI、安全、发布、操作、调试,甚至学习和理解实际发生的事情,这是新瓶颈的一个大部分。这种转变是每个人都需要理解的。机会不仅仅是更快地生成更多代码,而是重新设计我们如何进行工程以及我们如何能增加我们一起交付的总体吞吐量。第一波AI编码真的只是扩展了这个构建阶段。我们都非常高兴能够更快地编写大量代码。这很重要。这意味着工程师可以以前所未有的速度生成、修改和测试代码。

但正如我们之前说的,仅仅扩展构建部分不会增加总吞吐量。下一步真的是看着在整个软件交付生命周期中扩展容量。这就是我们如何思考Codex这个代理的。它不仅仅是一个编码助手,而是一个可以在构建软件的完整层中工作的代理。在构建步骤中,Codex可以帮助工程师委托实现工作。在审查中,Codex可以帮助检查更改、表面问题、支持人工审查。在部署和操作中,云代理和自动化可以帮助团队响应触发器、调查问题,并以前所未有的速度让工作通过系统。目标不是从流程中移除人类。目标真的是让每个阶段更具可扩展性。所以更高的代码输出实际上可以成为更多的交付价值。

这是一个关键的区别。代理编码增加代码速度,但像Codex这样的代理帮助组织在该速度周围扩展系统。所以有这样的不同步骤,我们可以看到你可以使用代理来增加规划的速度、构建的速度、审查的速度,甚至部署的速度。如果你想一想,规划、构建和审查有点更容易,因为你不真的对世界有任何副作用。部署是当你知道安全开始真正重要的时候,因为你对世界有实际影响,代码真的被部署出去,并且遇见了你的用户所在的地方。我们有这些的自动化。我们允许围绕代理构建。

然后我们有一个我们的云代理版本呃它有安全的可以通过我们的插件系统有安全访问,并允许你部署并验证部署是通过人工批准正确的。这是我们很久以前开始的一个旅程。Codex团队很特殊,因为我们设计了代理和驱动这些代理的模型,我们深入在研究中以推进我们模型的最先进状态。这始于一个模型GPT-51 Codex Max,现在因其名字而闻名,我们在2025年底发布。它是针对压缩的端到端RL进行训练的,用于长运行任务。这意味着在RL期间其环境中,我们在锻炼会挑战模型在其上下文窗口之外良好工作的任务。

而且在其上下文窗口的末尾,它需要委托给自己以实现跨许多上下文窗口推理的任务。我们还提供了高推理努力。我们训练它在Windows上本地操作,我们表明我们可以以30%较少思考代币实现更好的性能,并实现新的最先进令牌效率。这是一个将继续的主题,我们在每个其他模型船上看到的。令牌效率只是越来越好,越来越好,这使其随着时间的推移更快和更便宜地运行代理。使用52,我们增加了网络安全能力,这真的是我们现在看到的前置与具有围绕网络前所未有的能力的模型。我们改进了大代码变化的性能,但我们也添加了视觉能力。

我们不仅仅构建一个文本到文本模型。我们构建一个一切代理。使用53,我们使它更快。使用54,我们添加了100万上下文窗口。55已经是我们迄今为止最大的步骤改变。即使表面上看起来,它只是从54到55的一个小增量0.1呃改进。它实际上是一个更大的改变。我们添加了计算机使用,我们使其更加令牌高效。它真的是今天可用的最聪明和最快的模型。但是什么让它工作呢?什么让它工作呢不仅仅是模型。它是模型和其硬件的组合。这就是Codex特别的原因。我们能够共同设计这些事物并使硬件真的针对模型进行优化,模型针对硬件进行优化。

它允许我们非常广泛和非常高效地提供一个新的智能类别。五仅在几周前发布,我们看到收入增长速度比任何以前的发布都快两倍。人们真的很喜欢它。我们看到采用真的失控了。你可以在这里看到它在SweetBench Pro上设置了新的行业高点。我们也在终端台上实现了新的索达。似乎我们只是在一个接一个模型推动前沿,模型,我们现在以大约每月一个模型的速度运输。我们所有这些同时也提供了前所未有的可靠性。而且这不是短壮举。真的我们需要提供的工程和基础设施改进的水平大约一年前开始,这使我们能够以前所未有的需求扩展。使用爆炸。

我们以呃的级别提供55的流量使我有时失败。像我们有这样一个令人惊叹的工程师团队和自己的呼叫者,也是一个很少谈论的是我们的模型如何高效,这允许我们提供像只是真的跨计划的慷慨限制。我们实现了九九三九的可用性,我为此感到非常自豪。呃,同时扩展和被用于数百家公司。我们现在有超过400万,很快接近500万周活跃用户。现在开始是最好的时刻。很多工程师写更多代码。我们已经谈过了。但我们还没有谈过的是在OpenAI内部真的每个人,每个我看到的人,每个我谈到的人都用Codex做真的一切,不仅仅是工程。

我们看到市场营销部门使用它。我们看到财务提高呃令人难以置信的筹资者回合,使用Codex来协调所有这一切。它已经成为这个一切代理。而且因为我们使用Codex构建Codex,我们从未建造得更快。我们在今年发布了非凡数量的功能。团队配置、新模型、Codex for Windows。Codex应用程序本身仅3个月大,这仍然在我思考它时让我震惊。我们发布了快速模式。我们也发布了自动审查,这是我最喜欢的功能之一。当你思考代理和安全和安全时,一件经常被忽视的事情是批准和人工批准是随着时间推移导致疲劳和错误的东西。

如果你必须去验证你的代理正在做的一切并且认真思考你是否想批准它,那么你注定会在某个时刻犯错误并给它太多访问权限或允许它做一些东西或合并一个PR或更糟糕地发送一些信息到某个地方你不应该做的地方。随着我们继续扩展,这将是真的,你有更多代理为你工作。自动审查是一个新系统,它引入了第二个代理,它验证第一个代理的行动,并根据你的任务的原始意图验证它们。所以如果你说呃去检查我的重要电子邮件例如并拉最后三个你知道是特定的对我今天设定的目标。

那么自动审查将理解这是你的意图并验证主要代理针对该意图的每一个行动。任何可疑或高风险和与该意图一致的东西将被阻止,主要代理将被重定向以尝试做其他事情。这非常重要,因为它允许你保留人工注意力,不要用不必要的批准使你疲劳。这现在是OpenAI内的默认,它减少了20倍的批准。我们在公司中看到的收益远不止编码。有一堆我们投资自动化更深入企业控制、领先模型和整体开发者体验的支柱。我为我们运送的应用程序的抛光程度以及我们已经运送的体验有多令人愉快感到非常自豪。

我邀请你所有人尝试它。这真的是与代理交互的不同方式,随着时间的推移,我们将其演变为你管理的每个代理的驾驶舱。Codex为构建者以及几乎所有东西解锁了这么多。我们看到非常令人难以置信的用例,甚至对于非技术人员。这是Rowan的妈妈只是在Chachi中第一次体验图像基因2的魔法,她是一个资深招聘人员。她真的需要做很多事情跨呃管理她的简历,她想回到招聘。我们给她展示了Codex,她只是立即明白了。有新的与代理交互的方式,这真的会来到每个人。我们不认为代理仅供技术人员。

当你思考将代理带到世界各地时,有不同的挑战,你真的需要保留魔法同时也使其安全和安全。但我们认为这将很快来到世界各地,不仅仅是使工程师和技术人员变得更有效。我们将我们的代理链接到整个世界。我们有几乎一切的插件。我们也在从事记忆系统。我们正在从事新模型。你可以设置自动化,使其在特定的特定计划上运行,也许每几小时给你一个报告。而且真的我们开始看到的是模型在做复杂任务方面如此可靠,以至于这真的只是一个问题关于什么是上下文,以及你给予那些模型的访问权限。

而这真的是现在上限潜力的地方。就像这些模型对世界有多少访问权限。我们在不同的领域看到了很大的成功。让我用世界上最先进的工程组织之一的一个例子使其具体化。C Limited,APAC的最新、最大数字平台之一,以及主要的开放客户。C已经与Codex全力以赴。它在其整个开发者组织中推出,其首席产品官与我们分享,Codex真的超越编码并感觉相当神奇。我们很高兴在6月6日在C这里拥有第一个区域Codex黑客马拉松。就在新加坡这里。我很想让你所有人加入并检查它在线。我们也将其推出到45,000名Nvidia员工。呃,我们仅在两周内完成。

Codex在Nvidia内的部署中帮助了自己,这是我们看到的一个趋势。我们只是使用代理来加速一切,包括Codex本身的部署和开发。Codex的特别之处在于它完全是开源的。你可以在GitHub上阅读硬件的代码。它在Codex repo下。呃你也可以把它带到任何地方。我们现在刚刚通过ChatGPT应用发布了远程控制。所以你可以在Raspberry Pi上运行它,你可以在Mac Mini上运行它,你可以在你的笔记本电脑上运行它,然后完全通过安全连接从你的应用中控制它呃直接。

你也可以,一件相当神奇的事情是我喜欢做的是使用浏览器使用或计算机使用的插件,并允许它只是使用和跨你的计算机导航,但呃使用这个小命令,这个小远程控制,你只是在你的手机上有。而且我认为这是我们很快就会意识到的东西,代理将对其有某种永久性,我们将只是真的开始将其视为像我们可以从各种不同客户端到达的这些小实体在云中。它在网络上,通过桌面应用程序,通过客户端。最终,你只是拿起你的电话并与你的代理交谈,它仍然能够为你做事情并访问你生活中的一切。我们也快速交付,我们呃修复快速。

呃我们不我们并不羞于有时犯错误并呃重置一些呃速率限制当我们搞错时。一件很酷的东西也是Peter正在与我一起工作。他是OpenClaw的原始创建者。我们也支持这作为一个开源项目。我们最近从事重写OpenClaw的核心以基于与Codex相同的基础。所以它实际上在底下运行Codex代理。你可以在开源repo呃呃上阅读它。再次像所有这些代码都是开源,我们真的想贡献到像这个新一代发明,通过只是展示如何以简单的方式做这些事情。呃我们采取安全优先。我们也在思考很多关于安全。我们在Windows沙箱化上创新。我们在我们的博客文章上发布了很多关于这个的。

你可以在那里了解所有关于Windows沙盒的信息。我们也在尝试在产品层面解决一些难题。在未来,我们希望将代理扩展到ChatGPT的规模,目前ChatGPT几乎已经拥有十亿用户。有很多让我兴奋的事情,但这里是我们真正在努力做的一些。我们正在开发新的记忆系统。我们推出了Chronicle,这是一个实验性研究预览版本,它允许你的代理跟踪你在屏幕上所做的一切,并从中形成记忆,这样它就知道你上周做了什么。它知道你今天做了什么,并变得更具上下文感知能力。

我们认为这将相当具有突破性,是一种新的、新的扩展范式。嗯,然后我们还在开发新的工具处理方式,我很期待在未来能更多地分享这些。我听说这个房间里的一些开发者想提出几个问题,不幸的是我无法现场听到问题,但我们收集了一些问题,我很希望能讨论其中的两个。嗯,这是来自Louis的问题。Codex应用程序上的DevX是我见过的最好的。项目组织、一键PR。它改变了我的构建方式。随着代理变得越来越强大,用户基础超越开发者扩展,你如何考虑界面层?聊天似乎是我们从大语言模型继承的默认值。它实际上是人与代理长期合作的正确模式吗?

这个演变对你来说是什么样的?我认为这非常有趣,最初我们真的只是继承了这种东西,我们通过大语言模型为大语言模型供电,大语言模型为聊天对话界面供电,ChatGPT开启了这场革命,现在我们看到的是,大语言模型可以代表你做事并获得所有访问权限。我们必须改变我们对这些事情的思考方式。它真的会深刻改变,我认为,我们与计算机、与技术交互的方式。我希望它能把我们从一些我认为我们集体发现的局限中解放出来,我认为,我们总是粘在手机上,你知道的,弯着腰嗯,你知道的,也许我们在笔记本电脑上疯狂地打字,有点像我们与他人的联系不够。

我认为未来将是一个人们联系更紧密、一切都更加环境化和无缝的未来,你可以通过自然语言、通过自然声音以一种非常多模态的方式与技术互动,它流畅地适应你在那一刻想做的事情。现在很难想象,但我认为,你知道的,在大约一年内,我们将开始看到这样的迹象,即代理变得有形态,事情变得更自然。你只是继续通过自然声音利用所有这一切。嗯,我们将打破今天在你的计算机上存在的应用程序的界限。Dehan问道,「你曾说过一些脚手架应该随着模型的改进而消失,但技能似乎是一种应该也许会保留的用户所有制脚手架。

当有人的某个东西失败时,你如何决定是在模型中修复它来利用技能,还是在其他地方修复它,而不会意外地将今天的模型局限变成明天的基础设施?」这是我们想很多的事情,这是我们设置中独有的,我们对模型进行控制。我们对工具系统和产品进行控制,以及代理原语进行控制。

我们经常问自己,嘿,如果我们今天不在工具系统中修复这个,改进模型的速度会有多快?这是你知道的,例如,对于端到端压缩和端到端强化学习以及对非常长时间运行的任务进行压缩,在此之前,人们试图用手动压缩和非常复杂的系统来修复这个,以保持状态。我们认为也许我们可以通过在下一个模型训练中非常努力地工作来修复这个,并且能够保持这种一致性围绕非常长的任务。嗯,所以我们在模型中修复了它。有时我们估计在下一代模型中需要超过几个月才能修复它,然后我们决定采取一些捷径,嗯,在工具系统中修复它。

所以总有这种健康的紧张,但我们能够共同设计事情,真的从第一性原理的角度来处理事物,嗯,这总是让我非常兴奋地思考这些问题。还有一些问题,但嗯,我认为我的时间有点紧张。我只是想感谢你们都在这里。嗯,我邀请你们都用这项技术思考,你知道的思考未来会是什么样子,你知道的邀请它进入你们的生活。它将继续存在。它将继续演变。这是探索所有这些事情的美好时光,我希望你能有一个很棒的构建时光。我想邀请舞台上的Dr. Fran Yang,GovTech的人工智能实践负责人。嗯,大家早上好。嗯,我叫Yang。我在GovTech新加坡领导AI团队。

我很高兴今天能在AI工程师新加坡活动上与各位分享我们如何在新加坡政府推动人工智能的采纳。错误的遥控器。是的。所以GovTech的一个非常快速的介绍,以防你不熟悉。嗯GovTech是领导新加坡嗯智慧城市倡议和公共部门数字嗯转型的主导机构。我们利用技术的力量提供数字政府服务。我相信你们中的一些人,实际上你们中的许多人已经使用过一些GovTech产品,如SyncPus live SG、Go Business等。我们的使命真的是为数字政府进行工程设计,让生活更美好。嗯实际上GovTech是在2016年成立的,今年我们正在庆祝科技为公共利益服务的10年。

回到AI,很明显政府必须采纳AI。嗯第一个最直接的原因显然是为了有效性和效率。我们的政府有责任提供数百万人每天都依赖的服务。AI给了我们机会以更快、更准确、更大规模的方式实现这一点。这是一个我们无法承受错过的机会。但除了运营收益之外,还有一个关于公民和企业期望的问题。当新技术重塑公民的生活方式和企业的运营方式时,人们越来越期望政府跟上技术步伐。这将增加人民对政府的信任和信心。抱歉。在数字世界中治理良好还有更深层的原因。我们需要理解塑造它的技术。

与人工智能的实际操作经验建立了必要的直觉,以制定周全、有根据且符合目的的政策。保护我们的公民同时促进创新。最后,如果我们希望我们的整个国家像我们的总理所说的那样拥抱人工智能,政府必须不能必须不能坐在场边。我们必须以身作则。当公民看到他们的政府负责任和有效地使用人工智能时,这会建立信心并为整个社会定下基调。实际上,我们不是从零开始。多年来,我们的政府已经在许多领域使用人工智能来为政策提供信息并改进运营和服务交付,既在机构内部,也是对公民和企业进行外部服务。

只是分享一些例子嗯在我们在政府中实施的大量人工智能用例中,在医疗保健领域,人工智能已被开发来检测痴呆症前期症状的早期迹象。该技术达到了非常高的精度水平,结果在科学期刊《自然通讯》中发表。我们实际上正在今年在社区场所推出这项技术。在教育中,人工智能已被部署来帮助教师以更高的准确性更快地批改作业,每堂课减少三到四小时的批改时间,为教师提供更多时间与学生互动。对于工作和技能,我们嗯我们的推荐引擎一直在为我的职业生涯未来提供支持,为新加坡人和居民提供个性化的工作和课程推荐,帮助他们更快地找到更合适的工作,也更有效地学习新技能。

对于公民服务,我们已经开发并将最新的人工智能模型部署到我们的公民呼叫中心。转录、总结和分析功能使我们能够更好地为公民服务,将售后工作减少72%,客户满意度提高到95%。与此同时,我们也确保通过开发安全测试工具和护栏来负责任地应用人工智能,以确保我们的人工智能解决方案安全、安全并以预期的方式运行。虽然在过去几年中我们在将人工智能引入政府方面取得了显著进展,嗯我们渴望实际上进一步发展,从被人工智能赋能到成为人工智能原生政府。所以你可能会问有什么区别?一个被人工智能赋能的政府使用人工智能作为工具,对现有流程的有益补充。

这通常建立在遗留系统的基础上,存在增量式的改进。系统可以扩展,但不能复合增长。相反,人工智能原生政府是一个远更雄心勃勃的目标。它意味着人工智能是一切的基础和核心。我们从零开始重新想象政府的工作方式,在我们的思考、设计和交付方式中嵌入人工智能,因此总会有持续创新。那么,人工智能原生政府对我们具体意味着什么,我们如何为此而努力呢?我们从四个由用户角色区分的支柱加一个横向的方面来思考这个问题。让我快速为你讲解一下。首先,我们希望每一位公务员都能被人工智能增强。所有15万多名公务员,从基层工作人员一直到总理,无一例外。

我认为刚才维文部长谈到了他如何使用和构建人工智能。嗯,在两周内,我将为一屋子的常任秘书进行关于构建代理的技术实操培训。我们真的想把人工智能生产力工具放到每一位公务员的手中,帮助他们处理日常任务和工作流程,如起草、总结、转录、分析等。其次,我们希望公民开发者能够使用人工智能进行构建。这些基本上是离我们感兴趣的问题陈述最近的非技术官员。他们可以是政策官员,可以是公民参与官员,可以是产品经理或设计师。我们想为他们提供工具,使他们能够编写代码、创建原型并部署它们。

我个人认为这是一个改变游戏规则的举措,因为它将改变整个政府内部的创新模式,现在不再依赖工程师,人们可以在早期阶段真正实现他们的想法。第三,对于软件工程师,人工智能使他们能够以更快的速度和更高的质量构建生产级别的应用程序,压缩整个软件开发生命周期。我们已经向开发人员推出了许多各种人工智能编码助手,如Claude Code、Codex。这不仅是为了帮助他们进行编码工作,还包括整个SDLC,如代码审查、测试和文档。最后一个支柱是关于人工智能用于域及域转换和现代化。

我们想专注于几个关键领域,如教育、交通和医疗,以及跨部门的功能,如人力资源和财务,并完全重新设计业务流程以获得更好的结果。你将看到,支撑所有这些人工智能举措的是我们的政府人工智能堆栈,它真正提供了最新的基础模型以及那些在视觉、语音、文档分析、评估和安全方面的定制人工智能能力,所有这些都具有政府背景和本地化。这将确保我们的人工智能解决方案由高性能的模型支持,具有更短的上市时间,并且在设计中本身就是安全和可靠的。作为平台的一部分,我们还在构建代理工具的能力。让我花几分钟来解释它是什么以及我们为什么要这样做。

展望未来,我们从业界了解到,人工智能代理将很快大量涌现。这将意味着人工智能变得更加强大,能够访问数据,能够访问工具,能够以自主的方式执行操作。根据国际数据公司的一项研究,到2028年,将有超过13亿个人工智能代理。

这是一个非常大且令人恐惧的数字,但我个人认为这实际上可能非常保守,根据我们能观察到的发展速度。我们已经可以看到人们开始为个人使用、团队协作甚至企业级消费开发代理。政府中有一整套人工智能代理的用例,如公民服务、政策研究等。随着政府中人工智能代理的扩散,我们必须,我们必须思考一种方式来有效地启用、优化和管理它们,以便我们能够最大化价值并管理随之而来的任何相关风险。抱歉,我们正在构建一个主权代理工具,其中包括几个组件。

MCP网关充当前门,代理运行时提供沙箱环境以及代理执行其操作的资源。代理身份管理,确保每个代理有一个经过验证的身份,知道允许做什么,不能超越其边界。代理记忆,为用户提供个性化体验,在单个会话内具有短期记忆,在多个会话中具有长期记忆。可观察性很重要。它提供对整个代理生态系统的监督,监控代理所做的事情,及早发现问题,并理解出了什么问题。

一个技能平台,包含丰富的现成能力库,如搜索网络、读取文档、发送电子邮件,所有这些都是版本化的、经过评估的、可共享的和受管理的,以便代理可以利用它们来完成任务。其想法是,政府中的每一个助手或代理,无论是编码代理、协同工作会话还是工作流代理,都是这个堆栈的客户端。一道门,一切都是可见的。你可能认为在单个本地设置中思考这个问题相对简单,但在企业级别,特别是当你在政府内多个组织的生态系统中思考时,这是一个完全不同的游戏。

作为一个类比,我总是喜欢用汽车例子来思考它。超强大的汽车引擎本身不足以将人从一个地点运送到另一个地点。你需要坚固的汽车车身。你需要道路。你还需要明确的交通规则,以实现安全高效的出行。类似地,人工智能模型就像汽车引擎。它们本身不足以成为有效的代理。它们需要一个工具来真正有用和值得信赖。因此,我们通往代理人工智能的一个关键战略实际上是大力投资于在代理工具中构建这些能力。这就是我分享的结束。非常感谢你们的关注。这真是一个令人兴奋的时刻。这真是我们前面的一个令人兴奋的时刻。嗯,请与我们合作。

嗯,而且,你知道,如果你有兴趣在这个有意义的旅程中加入我们,为了公共利益进行人工智能,如果你有兴趣,请访问我们的展位,你知道我们有团队展示我们正在进行的一些工作、倡议和项目,他们将非常乐意与你分享更多细节。嗯,我也会非常乐意在LinkedIn上与你联系,并与你分享更多关于合作机会的信息。非常感谢。好的,我现在想邀请我们设计轨道的第一位发言人登台,Air Foil的首席执行官和联合创始人Phil。还有一个快速的公告。嗯,现在已经过了上午10点。所以,我们的展览实际上都在Pullman和Capitol Kinsky开放。如果你需要参考任何地图,我们有一些工具可以帮助。谢谢。

>> 好的,>> 太棒了。大家早上好。看到你们所有人在这里真是太棒了,坦率地说,想到这整个会议正在发生,你们中这么多人从世界各地旅行,从新加坡来这里,这真是太超现实了。嗯,我是Phil Hedatnea。我是一家名叫Airfoil的公司的联合创始人。嗯,我们基本上是一个产品设计、品牌设计和设计研究公司的组合,与科技部门的各个公司合作。嗯,但在过去的5年里,我们一直在旧金山和新加坡进行双重基地运营。所以,看到你们所有人在这里真是太棒了。嗯,无论你是否知道我们是谁,嗯,你可能在过去与我们完成的一些产品互动过。例如,如果你正在使用代理进行文档处理,你可能正在使用Reduct。

如果你在应用中嵌入语音 AI,可以试试 Vappy。如果你在做 Gentic Search,可以试试 Exa。有没有人......哦,后排有人。呃,或者如果你来自加密领域,可以试试 Salana。嗯,但我想说的是,大约一年前,我们在 Airflow 建立了一个团队,叫 Airflow Labs,因为我们都心中有一个问题,这个问题非常非常简单。「我们两年后还会有工作吗?」因为作为一家设计公司,对吧,特别是如果你在 Twitter 上看过关于设计税的讨论,以及不断改进的模型如何能让我们在没有设计师的情况下直接构建东西的讨论。说实话,我们有点害怕。我们想知道自己在设计流程中的真正位置。所以我们开始构建。

我们在内部制作了一些东西,比如 Check,这是我们自己的引擎,用于有效验证我们设计的实现。我们可以在一边拿到 Figma 文件,在另一边拿到实时测试网站,然后使用图像模型来比较两者,确保我们已经正确实现。最终这变成了一些相当酷的东西,那就是自我完善的网站。因为我们能够排序和优先化基于严重程度,我们能够直接将其反馈到代码模型中,然后不断改进网站,即使在我们发布了第一个开发版本之后。我们构建了一个叫 Scoop 的东西,它实际上只是获取客户给我们的所有信息,并将其转化为一份非常全面的简报。

从我们获得的两到三页上下文中生成五十页或更多。但更重要的是,它为设计师提供了更多关于他们所设计行业、他们所设计的客户和用户的背景,这样他们可以做出更好的工作。但在所有这一切之后,我们开始齐心协力解决一些有效的圣杯问题,也就是每个人都在试图解决的问题。我们如何能创建拥有品味的设计代理,能够制作出看起来不像垃圾的东西?所以今天,我想展示一些我们学到的东西。就这样。好吧,不是那个。完全不是那样。嗯,那实际上是来自 Impeccable.style 的一个截图。这是一个你可以下载的东西。我们没有制作它,但它帮助你的代理有更好的设计流畅性。

它的工作方式基本上是告诉代理一堆不要做的事情,对吧?确保你的色彩对比度适当,或者使用更好的排版。这确实会产生有意义的差异。你可以看到没有 Impeccable.style 和有 Impeccable.style 的情况下,该网站看起来好得多,但它仍然看起来有点像垃圾。看起来像是你能直接生成的东西。那么为什么呢?为什么这仍然在发生?好吧,我们的观点是,用我们认为的好设计来训练 AI 并不能教 AI 我们是如何到达那里的。它遗漏了一个非常重要的观点。设计不是关于将产品规格带到 Figma。设计是关于应用心理学。这是关于理解用户如何思考、用户如何行动,以及制造能与用户产生共鸣的流程、视觉效果和叙述。

我喜欢说设计师是人类心理学的调查者。这是我的联合创始人为我们正在做的一个商品项目整理的情绪板。乍一看它实际上看起来有点随意。如果你看左上角,你会看到一张旧金山加州街的照片。还不清楚这与商品有什么关系。但它真正的意思是,它是我们为我们获得意义的东西分类的一种方式。这些图像乍一看可能看起来很随意,但它们向某人表达意义。当设计师整理这些情绪板时,他们正在尝试理解。他们正在尝试调查为什么人们对某些东西产生共鸣,为如何做到这一点制定规则,然后将其应用于他们自己的工作中。还有另一种方式来看待这个。它只是人类的创意。

嗯,有一本叫《The Runaway Species》的书,作者是 Anthony Brandt 和 David Eagleman。Tony Brandt 实际上是我上过学的莱斯大学的教授。我在他手下学习。他是我最大的灵感来源之一,也是我进入设计领域的原因之一。《The Runaway Species》阐明的是人类创意的定义,即弯曲、打破和混合现有概念以创建相对于引入它们的文化新颖的东西。简单地说,人们并不是生来就有创意的,他们没有与生俱来的创意特征。我们每天都富有创意。这是我们大脑工作方式的一个简单部分。但这不仅仅是一个神经科学定义。这是一个社会学定义。我们在生物仿生学等东西中看到这一点。

新干线在从隧道出口和通过山时不会产生音爆的原因是,他们不仅根据其他列车,而且根据翠鸟的喙对新干线进行建模。那是他们从自然中获得的见解,并应用到完全不同的背景。甚至在像我们为其工作的 Reducto 网站这样的东西上,我们想让它对人们来说感觉更友好、更容易接近。所以我们引入了能回忆起点矩阵的页面元素,点矩阵打印机的元素。你可以在这里看到一个实际的例子。正是这样的小决定在使界面和品牌看起来很棒,以及使东西看起来像垃圾和看起来天生的和真正创意之间的区别。

但我的关键点是,所有这些都不能从结果中提取。你可以根据结果进行训练,最终你会得到总体上更好的视觉效果,不会出现明显的错误,但你不会得到新颖、有趣和新鲜的视觉效果。当我们根据理想的设计结果而不是它们后面的背景和思维来训练模型时,那时我们会得到令人失望的结果。所以我们决定尝试解决这个问题。我要把这个展示给你。我们之前没有演示过这个。这是目前我们内部的东西,但我们希望很快将其带到公众面前。我想今天给你第一眼看看我们构建的叫 Melt 的东西。所以,Melt 从许多我们的设计师所做的事情开始,这是设计 Twitter。嗯,但这对很多设计师来说是一样的,对吧?

他们总是在世界上走来走去。他们在找灵感。他们在看一个有趣的品牌方向,现在他们可以直接保存到 Melt。他们可以点击保存到 Melt 按钮,然后我们将其保存到我们所说的他们的背包中。或者,比如说他们在越南旅行中去了一家叫 Pizza Four Pas 的餐厅,他们就会想,「这是一家披萨餐厅,但它的品牌方向真的很漂亮。」确实很不错。呃,插图就像他们的菜单甚至是华丽的。他们可以直接拍摄他们看到的东西,直接保存到 Melt,然后我们开始从中提取关键元数据,比如排版、颜色使用,但也包括关于公司本身的背景信息和你拍摄它时所在的地方。

一旦我们有了所有这些元数据,我们就能够——这就是桌面版本的样子。我们能够将其放入您的背包中,您可以稍后访问所有这些信息。好吧,那么为什么你想拥有所有这些信息呢?好吧,第一个原因是作为设计师,你想以使用笔记本的方式使用它。通过对你保存的样本进行注释,你能够记录你当时的思维,这意味着在六个月时间里,如果你需要回到其中任何一个,你可以立即这样做。但这也意味着我们可以开始在我们收集的元数据和它如何影响人们对它的看法、它如何影响他们的感知之间建立联系。所以这意味着我可以询问更复杂的查询。

例如,我可以说在 2026 年越南查找带有衬线排版和蓝色、黄色或黑白调色板的视觉效果。第二部分你可能只能直接用图像模型做,但一旦我们把所有东西都放在那里,组合查询会更容易做。所以你可以看到它说在 2026 年越南找到三个保存。它能够以更深的方式理解它实际上在引用的东西。当然,你可以点击导出到 Figma。这是每个设计师都想要的东西。更有趣的地方是,一旦 Melt 理解了你为什么保存东西的原因,它可以将其呈现给其他人,它可以给你能力以更多人的方式分享。

所以在 Melt 上,你可以进行一般查询,然后能够使用其他人留下的评论和注释来更好地理解你想找到的内容。所以这是一个更有效的内容查找引擎。所以如果我说出类似的东西,比如用明亮通风的 UI 组装一个情绪板,它能够找到不仅是我保存而且我的队友也保存的参考资料,并且有关于他们为什么保存它的背景,这真的真的很重要。回到创意的定义,我们的观点是,通过增强回忆并更快地将东西放在人们面前,但也要确保保存那个创意过程,保存反馈、来回、以及让工作与人产生共鸣的评论,以更深层次的方式理解它。

这就是让我们能够采取下一步,即实际尝试将引号创造引号的品味或者说人类设计师的意图注入到这些模型实际产生的工作中。所以这还不是产品的一部分。这是我们构建的叫 Blend 的东西,但它能够使用你在 Melt 中保存的视觉参考以及元数据和评论来重新混合不同的东西。我们现在正在构建工具,使我们能够仅使用 Melt 中的影响加上自定义提示和命令来渲染整个页面的模型。虽然它仍然有点粗糙,我们还有更多的工作要做,但它为我们产生了远好于直接使用 Claude 或 GPT 的结果。

Dieter Rams 曾经说过,如果你不理解人,你就无法理解好的设计,因为设计是为人而做的。我认为当今设计代理的问题是,我们花了很多时间看人们做什么,而不是看他们为什么这样做。但通过将所有这些放到一个平台上,使其对 LLM 可读,我相信这将解锁下一代能够更智能地行动的设计代理,以遵循我们的意图,甚至自己做出决定。我们想从增强创意过程开始。最终,这使我们能够教机器创造。最终,这使我们能够教机器决定。这打开了生成 UI 的世界和所有我们想要构建的惊人未来。

所以,我们很快就会在公众面前分享更多关于 Melt 和我们在 Airflow 做的其他一切。你可以扫描屏幕上的二维码来了解一点关于我们的更多信息或保持联系。Min 和我都会在今天和明天的会议周围。非常感谢大家。现在我想邀请 Google 的高级用户体验研究员 Annie Lua 上台。大家好,我是 Annie。我是 Google 的用户体验研究员,致力于 AI 购物。我们听到了很多关于编码代理和让 AI 以更少的摩擦做更多事情的方式。我想谈论另一方面,一类问题,效率不是目标,我们实际上需要为这些日常消费者 AI 产品保持一些摩擦。所以让我们花一刻时间来思考这个问题。一个你可能在镜子前问自己的问题。

「我穿这件夹克怎么样?」不过,在下面,你实际上可能在问,「这反映了我想成为的人吗?」嗯,皮毛夹克可能有点超出我日常范围,「我是否足够勇敢穿这个,或者这让我感觉像我在过度尝试?」所以,这些不是提示或搜索查询。这是人们在做出购买决定时安静地问自己的那种问题。所以第一波 AI 通过为诸如总结文档或预订最便宜航班之类的任务消除许多这些摩擦而起作用。这些是功能任务,成功指标是相当明显的。

嗯,你快速完成任务,并且当 AI 现在被要求帮助一类问题时,其中问题更多的是主观的,比如「我穿这件夹克怎么样?」「我想要什么样的旅行?」嗯,这些是主观问题,正确的答案取决于人、时刻,甚至心情,效率本身无法真正判断该功能是否实际有帮助。所以我们如何为此进行设计?当 AI 转向帮助人们做这些真正个人和主观的日常决定时,三件事会改变。人们实际上不知道他们想要什么,直到他们看到一系列版本进行对比。这就是人们建立信任的方式。当 AI 成为许多这些更个人决定的思考伙伴时,必须获得不同种类的信任。

如果你想象第一次见到时装设计师,信任是通过你们前面进行的小谈话或时装设计师评论你那天穿的东西建立的,而不是前面为你喜欢的东西的范围给出推荐。你不会相信时装设计师实际上知道你想要什么。所以呃,这真的很重要,因为呃,你信任他们是因为他们通过那些小互动有信号,他们理解你的氛围,与功能任务不同,个人决定的信心来自于你已经做出了呼吁的感觉,所有这些都不是直截了当的可交付成果。这些是 AI 必须帮助你在过程中构建的东西。嗯,所以在接下来的几张幻灯片中,我喜欢使用两个领域来展示这是什么样的。

嗯,在时尚和旅行中。首先,这是呃虚拟试穿。这是一个我一直在做的 Google 购物 AI 功能,用于可视化衣服在你身上的样子。由自定义图像生成模型来驱动以用于时尚。我们去年在美国和亚太地区推出了它。它目前可供澳大利亚、印度尼西亚和印度的用户使用。它的工作方式就是这样。你在看一件牛仔夹克,你上传你自己的全身照片。所以,我选择了我在纽约中央公园的一张,嗯,然后 AI 可以在你的背景下将夹克渲染到你身上,而不是你必须想象那会在你浏览产品流时的样子。请注意,AI 帮助的问题不仅仅是弄清楚这是不是是不是喜欢夹克。它实际上是在帮助你可视化「我穿这个看起来好吗,能感受到氛围」。

而且你也可以看到自己穿着不同的夹克。也许我想试试白色的。这就是你通过看到一系列东西并进行比较来逐渐建立品味的方法。在你实际看到白色的东西紧邻蓝色的东西后,你真的不知道你更喜欢白色的。当你进一步探索时,你可能会开始认识到关于自己的模式或找到真正让你惊讶的东西。也许棕色的实际上看起来真的很好。为主观决定提供支持的 AI 实际上不是为你决定,而是给你一个表面来发现你自己的品味。在这个案例中,比如说我真的对这些都不感兴趣。我觉得我不是粉丝。嗯,但在功能框架中,这里感觉像什么都没发生,因为嗯用户没有购买。

但从主观上讲,他们获得了超级有价值的东西,因为他们磨练了他们的品味。我也学到了关于我自己的东西。我真的不看那个嗯紫色的裙子,这同样有价值。在我们的下一个例子中,嗯让我们也看看旅行,比如我接下来应该去哪里旅行?再一次,下面的真实问题是主观的。「我想被挑战,还是只想放松和放松?」或者在这次旅行中,「我想成为一个博物馆人,还是我想成为一个海滩人?」预订代理无法帮助你回答那个。人们计划旅行部分是为了弄清楚这一点。在 Google Travel 中,我们将地图视为一个游荡的地方,而不仅仅是目标地选择器。这是支持探索的界面种类的参考点,而不仅仅是跳到预订我一个滑雪旅行的效率。

也许你想知道,「我应该在今年冬天成为一个滑雪的人」,你想探索阿斯彭或吹口哨,两者都是美国伟大的滑雪目的地。或者也许滑雪感觉不对,现在你正在考虑完全不同种类的旅行。嗯,所以也许你想探索黄石国家公园或优塞,现在你正在考虑完全不同的东西,而聊天机器人可能在五个提示之前就承诺了你去滑雪,但地图界面让你改变主意并与你一起探索。这就是关键的区别。所以,两个产品都有共同点是这个。他们不是试图给你快速的答案。他们试图给你一个更好的地方去思考。

正因为这样,我们设计产品时重要的不只是设计一个决策,而是设计「决策过程」,因为品味、信任和信心这些都是通过过程逐步建立的,而不是最后直接交给你。因此我们需要衡量一套不同的指标,比如任务完成度、得到结果的时间、转化率。这些指标对功能性任务很有效。但对于主观性更强的一类问题,真正重要的东西很难量化。比如用户是否感到更有信心,他们是否学到了关于自己的东西,或者他们是否回来探索更多?这些才是真正重要的。从实践来看,有三种优化方式可能导致探索减少。而在那些时刻,我们真正需要做的是重新加入摩擦。

对于日常消费产品,当AI帮助人们做个人的主观决策时,非常重要的是我们要支持比较,而不是直接给出一个建议。否则我们会错过帮助人们建立信任的重要时刻。同样重要的是理解意图,而不仅仅是给出快速结果,因为我们需要建立不同类型的信任,并在人们能够表达意图或视觉偏好的时刻进行干预,同时展示AI理解你的品味和你想要的风格,而不是直接假设意图。最后,邀请主动选择。不是自动给出最佳选择,因为选择的行为本身就是重点,正是这种探索之旅的许多时刻使得整个过程变得有趣、令人愉悦。

嗯,这也涉及自我发现。这些都是值得保留的摩擦点。嗯,谢谢。我喜欢在消费产品上进行头脑风暴,我也在 Substack 上写这类东西。很乐意之后再聊。好的,非常感谢各位。呃,这是我们上午课程第一部分的结束。所以我们现在要在剧院休息 15 分钟。但在这段时间,呃,我们也想为各位创造一些体验,让大家休息一下,呃,你知道,远离思考,放松一下。这就是为什么我很兴奋地欢迎呃接受过正念训练的老师 Kazaya 上台。呃,她实际上建造了一个感官冥想体验,包括一个振动编码粒子可视化工具,它根据她自己数小时的引导冥想记录进行了训练。祝你们上午休息愉快。

希望到目前为止演讲都很精彩。呃,我们继续进行下一个演讲,来自 Jimmy Lie,他是 Vercel 的 Next.js 负责人,他将谈论发布下一步内容。Jimmy,舞台是你的了。你好。听起来怎么样?很好。好的,嗨,我是 Jimmy。我在 Vercel 领导 Next.js 和 React 团队。所以,既然我们在一个 AI 会议上,我有点好奇,你知道,有多少人对 Next.js 和 Vercel 一般有所了解。好吧,还不算太糟。那么呃,对于不知道它是什么的人,它就像一个人们用来构建网站的网络框架。这不是演讲的主题,所以我们应该没问题。呃,但这是一个有趣的数字。四年前我加入 Next.js 时,我们每周大约做 400 万次下载,今天我们基本上达到了 4200 万次。

呃,显然这在很大程度上要感谢我团队正在做的难以置信的工作,但实际上呃,实际上我认为很大一部分是因为编码代理。呃,因此我认为这改变了很多我们如何思考为开发者构建工具的方式。呃,因为我们花了很多时间思考人们在未来将如何构建网站,在过去的六个月内它已经赶上了我们,呃,速度比我们预期的要快得多。呃,今年我们花了很多时间讨论,呃,你知道,我们如何能够适应这种新型用户,我们如何作为一个团队保持领先,呃,我们未来还有工作吗?

我们在某种程度上还不错,因为我认为我们必须经历的可能是意识到呃,这项工作从来就不只是执行任务。这是关于决定哪项任务应该存在,以及我们是否想拥有它的结果。所以是的,实际上人工智能只是让执行和构建快得多,但事实证明你一天中仍然有相同的时间。所以实际上,它只是让所有权变得更昂贵,因为你仍然需要考虑你输出的内容,呃,出去,你仍然需要呃处理与之相关的任何问题。呃,所以今天我想与你们分享一些这些经验,因为我认为它们适用于房间里的每个人,无论你是在为代理构建还是为代理构建,或者你是否在构建你自己的代理。

呃,我的预测是我们学到的关于代理如何使用 Next.js 的内容只会随着代理变得更广泛而变得更加有用,当呃,你开始将它们用于除了编码之外的任何其他东西时。呃,也许只是关于为你进行在线购物,我们已经在像开放工作流这样的地方看到这种情况。呃,所以我想谈论三件事,呃,对于我们开始为代理构建的我们来说,什么改变了。代理也如何改变了我们作为团队的工作方式,以及我认为行业将走向何方呃,特别是为什么开源现在比以往任何时候都更重要。所以在 2026 年维护框架的奇怪之处在于,你不再为坐在键盘前的人设计。呃,你是为任何介于他们和代码之间的东西而设计。

所以它过去是编辑器的文档页面,但现在它就像一个可以访问你整个计算机的代理,也许权限太多了,这可能有点危险,也很昂贵。所以有趣的事实是,今天 Next.js 文档的 60% 都是以 markdown 形式提供的。呃,这意味着不仅是编码代理,而且它也像呃,呃,实验室索引呃等等。但这只是意味着呃,我们不再有太多呃像对文档的手动点击了。我是说,如果你想一想,你最后一次自己查阅文档是什么时候呃,总是快一点。现在摩擦少了,呃,只是呃,只是问,呃,你知道,claude,这东西在 Next.js 中是怎样的?呃,所以我们正在进入一个软件有点成为软件的主要用户的世界。而且我觉得这改变了很多。

如果你想一想,代理有点像一个讨厌的用户。它准确地读取你所写的内容,复制示例,运行命令,它严格遵循错误。所以如果循环被破坏了,如果你的错误不好,它就不会,呃,你知道,像某种停止,获取一些咖啡,上床睡觉,呃,在早上 5 点醒来,脑子里有修复。他们只是会一直尝试并烧钱,直到呃,他们修复了它。这对我们真的很有用,能够理解,因为它表明人类仍然呃,在循环中是必需的,我们应该尝试优化什么。呃,例如,文档过去是一个有点被动的东西。

我们过去会把它发布出去,我们假设,呃,没有人会,呃,人们偶尔会阅读它,呃,像呃,随着时间的推移建立知识,并且,呃,你知道,我总是为自己拥有伟大的文档而感到自豪对于下一个网站,但真正的投资回报率从来都不真正存在。我们每隔一段时间做一次,呃,我们会查看它们,呃,说哦,我们缺少这个功能。呃,但现在像文档已经变成呃,你知道,有点像呃,对代理来说有点像圣经。他们会选择你在那里写的任何东西,就立即采取行动。它不仅适用呃,向像框架这样的排序,呃,像开发工具一样提供。它就像任何在你的代码库中的东西,就像你的读我,你的 PR 描述,你的呃,你的剧本,每个陈旧的文件在你的代码库中。它有点像呃,一个定时炸弹,对吧?

这是呃,这是一个呃,等待发生的幻觉。我见过的最危险的,呃,不是缺失的,对吧?因为如果代理有权访问代码,他们仍然可以弄清楚。这呃,就像文档呃,有点误导时。呃,我们在实践中看到的是一个停滞的例子曾经呃,一次混淆一个人,现在基本上呃,在任何人真正注意到之前,混淆了数十万个项目。呃,对我们来说更糟的是,呃,坏信息进入数据集呃意味着模型现在可能被污染。呃,这肯定发生在一些 Next.js 功能上。呃,编译器错误也是同样的故事。我们呃,有像呃,一个错误,我认为在下一个说呃,这是 Next.js 中的一个错误,请打开一个问题。

而这像呃,这种呃,像这个时代的犯罪,因为我从来没有见过到今天呃,一个代理呃,打开关于呃,Next.js 的错误报告。呃,像呃,作为工具呃提供它,对我们来说真的很重要,我们呃,确保用户呃,始终像呃,尽可能快和没有负担。一般来说,这呃,再次适用呃,任何类型呃,就像你构建的工具呃,呃,你知道呃,像你的银行网站这样的需要呃,像 10 步才能呃,呃,发送付款或某些东西。呃,所以但对我们来说,代理已经使这对我们来说更加重要。

是的,这对呃,代理来说也是一个很好的方式呃,就像一个很好的方式来测试呃,你是否正确地设计,因为当你想出呃,新的东西时,一个代理基本上呃,有点像呃,不,呃,你知道,他们没有呃,像 Stack Overflow。他们没有像呃,Twitter 知识来理解呃,什么是什么东西。所以呃,如果你呃,API 呃,设计不当,命名不当,那么你呃,会遇到有点麻烦,对吧?还有一个我学到的关键部分,我认为你也应该在你的工作中应用呃,就像任何系统应该尽可能呃,明确。当你进行一个操作时,你呃,应该真的呃,深思熟虑呃,你可以解释它的方式。

像像那个,你知道,500像那样的状态码什么都不说的,你应该仍然能够调试它,因为我们正在进入一个世界,你知道,比如Sio之前说的关于codex,代理只是会为每个人被动地运行,所以你想让你自己的系统运行并被被动地修复。你想要,你想让他们能够理解,比如你知道如果你的先决条件是你的所有网站都应该很快,你应该能够像定义那些一样,今天我们在这里有一些指标,但也许你有不同的定义,所以你应该通过你的代码库来完成这个工作,那是什么意思?可靠意味着什么?这意味着什么,嗯,快吗?安全意味着什么?

嗯,这样一来,你就为代理能够像运行自主并修复本身时做好了准备。嗯,所以是的,这就像是第一个转变,像基本上为代理构建不像替代基本原理,它只是让他们,你知道,更加重要。我想分享一下我们如何在内部利用代理,对吧?像我确定你们都熟悉的,在过去的六个月里,嗯,我认为这个行业陷入了一种精神病阶段,每个人都试图在整个世界上构建所有东西。

呃,我肯定做过很多这样的事,感谢在圣诞节期间的opus,一旦我们度过了那段时期,呃,我认为像现实是真正的工作是,你知道,品味和判断,而我认为更好的思考代理的方式是,比如,能够帮助你了解周围的一切。嗯,作为一名工程师,我最有价值的是我的专注时间。像我确定你听说过这个研究,说你知道,如果你像受到打扰,嗯一点点,你就像需要,比如平均30分钟才能回到像心流状态。而在一个世界里,你知道,非常诱人有像10个代理在后台运行,呃,同时打开10个聊天,比如你知道,你如何理解那个?你如何在那个世界里保持生产力?嗯,因为代理仍然非常强大。

他们让你能够像,你知道,快速研究。可以把像一个混乱的调查变成像,你知道,一个非常好的文档规范。嗯,但我这里的关键建议,从我自己的痛苦经历中学到,呃,是停止实际上强迫自己停止与他们聊天。你有点想现在就投入工作,这样你就可以避免不得不像过度转向一个代理。像这有点难,因为我喜欢像同时有10个聊天。这给了我像一点点多巴胺一样的东西。但想想这个词,而不是像你知道的那样用像10个代理自己限制自己,你可以通过现在投入工作,把正确的提示放在适当的位置,以及正确的像evolves和像防护措施。

你可以这就像你如何像把自己扩展到像有一百个代理在后台运行的方式。嗯,是的,因为这就是将要发生在我们作为一个行业的事情。嗯,所以那就像是我非常兴奋的AI版本,对吧?嗯,但也有另一部分,比如行业不仅奖励判断,对吧,而且它也奖励像运动。呃,而EA AI创造了很多这样的。所以我想谈谈诚实,这可能是最重要的事情。这就像知道何时不使用AI。呃,有人在过去的六个月里告诉我过去六个月感觉像是他们生活中最累的五年。嗯,这听起来差不多是对的。每周都有一个新模型,一个新演示,一个新功能推出。

而且你知道,我的自然反应,我确定你也感受到了,是这样,你基本上应该做同样的事情。你应该像生成更多代码。你应该像发布更多功能嗯,这样你就可以竞标打败竞争对手嗯,这样你就可以保持领先。但实际上和和我们知道这个来自于像构建像开发者工具像过去10年的是将要发生的是你只是像speedrunning技术深度。你的每一个你在过去六个月里发布的演示,也许你现在已经感受到了。嗯,现在你实际上必须处理它,随之而来的是许多像其他问题,像嗯可观测性嗯定价呃确保像一切都保持像真的可靠。

嗯,例如,像你知道,你可以在一个周末内用像一堆令牌一样fork Next.js。呃,但这并不意味着你应该。呃,因为当你fork一个框架时,你开始拥有它附带的一切。像也许最近最大的例子就是安全问题。

嗯,去年我最后负责了对Shell的应对——这是一个非常关键的问题,一个很严重的漏洞。这就是我所认为的所有权的极端体现。我们说过,我们向世界发布了NexJS,几年前。我们一直在发布它,突然之间——我仍然——我们仍然必须为我们拥有的几百、几千个用户修复它。这就是我想提醒你的地方:如果你认为可以完全替换或抽象掉你技术栈中的某个部分,想想一年后会怎样——当你创建了自己的元框架来服务你的网站时,你真的想要长期维护这个吗?或者使用开源可能更好,这样你可以确保正在回馈社区,并有可能帮助其他人拥有更安全的网站。

顺便说一下,关于安全问题,我们现在生活在前所未有的时代——在某种意义上说——漏洞大约每个月都会被披露,对吧?这是因为AI让发现漏洞变得极其容易。看起来好像你没有使用安全软件,但实际上恰好相反。这说明系统在正常运作。如果你收到安全补丁,那意味着有人报告了漏洞。另一种选择是你自己构建你的框架或工具版本。但它们不会获得安全研究人员的关注。所以现在攻击者会识别出你在运行你自己的技术栈,他们会在你不知道的情况下攻击你。

这就是开源真正重要的地方——我们可以一起构建稳定的基础。嗯,在Vercel,我们有一句话,就是你可以只管发布东西——这太棒了——我们从中构建了大量真正优秀的产品。但从今年年初开始,我们也开始采取另一种方法,那就是你也可以使用AI来删除东西。

嗯,因为以前发布就意味着赢——你可以有一个功能特性特性的路线图。但现在这变得太便宜了。我认为让你在对话和竞争中领先的是专注——因为你必须处理它,你的用户也必须处理它。我实际上更愿意放慢速度,花时间反思什么是真正的、什么使你的产品与众不同。嗯,因为如果你可以在一小时内用少量tokens构建一个功能,你的竞争对手也可以做同样的事情。所以,我要说的并不是根本不发布,对吧?更多的是关于你如何保护自己,以及你如何保护你继续发布的能力。

嗯,问题不是——我们能构建这个吗?因为答案总是肯定的。更难的问题,也是真正决定某件事是否值得去做的问题是——这应该存在吗?我们真的愿意长期拥有它吗?嗯,是的,当我在Meta工作时,我们有一个叫做「不是在这里发明的综合征」的东西——人们会实际上重新构建地球上所有可能的每个库。嗯,曾经有——人们相当熟悉React Native,例如用React服务web移动应用。有趣的是,在Meta内部有三个版本的这个东西,仅仅因为人们不想控制这个——这在当时已经是个问题了。现在对所有人来说问题变得越来越大。

再次,嗯,当你考虑启动你自己的、嗯、你自己的产品来替换你技术栈中的某个东西时,想想——心理负担——这会伴随而来。嗯,所以是的。嗯,作为快速总结,我想我的预测是——如果你用代理构建,真正重要的是你考虑什么不在快乐路径上。你知道,你的用户是否可以实际上完全使用你的工具而不用自己提示?确保你的文档、你的错误、你的CLI被很好地定义。如果你用代理构建,对outsourcing判断要非常小心。

嗯,你可以使用它们来获得更接近判断的上下文——你可以进行研究——你可以调查复制品规格——调查性能问题。嗯,但是是的,真的专注于你为表带来什么,并确保你为此腾出时间。嗯,当行业加速时,也要小心你决定拥有什么。嗯,再次,AI让创造变得非常便宜——但拥有的成本比你想象的要高得多。嗯,所以这并不意味着你应该减少发布,而只是意味着作为一个行业,我们必须以更多的专注来发布——构建应该存在的东西——尝试使其可理解、可靠、安全,并站在你可以信任的基础之上。嗯,是的,谢谢。>> 非常感谢,Jimmy。

我们的下一位发言者是Vran Yukich,嗯,他是Daytona的联合创始人兼首席技术官。嗯,他将讨论为什么沙箱对于自主AI代理是不可商量的。嗯,不再啰嗦,我们将听>> Van嗯,大家好。很高兴看到你们都在这里。嗯,我是Weather Nich,我是Daytona的首席技术官兼联合创始人,新加坡是我们全球用户数最多的城市,也是前五个国家之一。所以感谢你们。今天我将讨论为什么你应该在沙箱环境中运行你的自主代理。所以当你安装Cloud Code、CodeEx、Open Code或任何使用工具的代理时,你给了它很多。它以你的身份运行。它可以读你的文件。它可以使用你的SSH密钥。它可以花你的AWS账单。它可以删除东西。它根据从互联网上读到的文本决定做什么。

所以我们说好的,因为生产力是真实的。但我们大多数人从未想过风险。那么代理为什么会做它不应该做的事情呢?好吧,因为它很容易被妥协。嗯,提示注入是当某人在代理读取的文本中隐藏指令。有两种。直接的,当攻击者输入坏提示,和间接的,当坏提示隐藏在代理读取的东西中。它可以是一个网页、一个rhythm文件或一封电子邮件。间接的很危险,因为自主代理读互联网。这是它的工作。幸运的是,嗯,模型在发现这方面越来越好,但它们实际上无法可靠地捕获。记住攻击者只需要成功一次。所以,OASP说,OASP明确表示。嗯,提示注入无法完全预防。

这就是模型的工作方式。OpenAI在12月也说过同样的话。所以,构建模型的人实际上在告诉你他们无法阻止这个。这不是一个bug。这就是技术的工作方式。我们也使用技能,对吧?所以一个技能是一个带有一些指令的文件夹,也许还有一些代码,你下载它。你把它给你的代理,你的代理会以你的所有权限运行它——你的shell、你的tokens、你的文件。请记住,技能没有应用商店审查。所以技能和你的机器之间没有沙箱。代理将从技能中读取指令并执行它们所说的。嗯,如果你看数字,它们看起来不太好。

三个不同的团队在2026年初查看过这个,KO security检查了Cloud的技能市场——Cloud代理的技能市场。他们发现了341个坏技能,到2月那个数字增长到超过800个坏技能。Sneaked检查了另一组,他们发现13%的技能有严重问题,其中76个明显是恶意的。同样,一篇名为「wild中的恶意技能」的研究论文检查了跨不同市场的98,000个技能,他们发现157个是坏的。现在让我们看看——一个来自那个研究的真实恶意技能的例子。它看起来像一个正常的文档助手,但markdown中有一个隐藏的注释,对吧?如果你预览文件,你看不到,但代理可以。注释告诉代理将你的项目文件发送到攻击者的服务器,对吧?

所以,有趣的是,注释中的最后一行说,不要向用户提及这个。嗯,一些技能运送真实代码,这个看起来像一个正常的遥测函数,但如果你看,它收集一些数据并将其发送到分析端点。但如果你仔细看,嗯,它真正感兴趣的是你的API密钥、你的秘密、你的tokens,它会遍历你的环境变量。它会提取凭证并将其发送出去。所以要被妥协,你实际上不需要安装任何东西。嗯,代理可以读任何readme文件、问题或电子邮件,甚至PDF,任何一个都可以包含恶意指令。所以,与其试图防止这个,我们应该接受这是一个现实。模型无法修复,OASP和OpenAI说过。

一个新的技能生态系统已经充满了坏东西,新的恶意技能正在以没有人可以真正审查它们的速度出现。所以任何readme文件、任何ticket、任何代理读的电子邮件都可以包含恶意指令。所以我们能做什么?我们可以改变代理能访问什么。所以没有主机shell、没有主机文件、没有凭证,我们可以限制互联网,当任务结束时我们也可以丢弃它。沙箱不只是虚拟机或容器。沙箱内的代理仍然有你的访问token,仍然有开放互联网。一个真实的沙箱做四件事。一,它将你的秘密保留在代理外部,所以代理永远看不到。二,它控制代理在互联网上或你本地基础设施内可以访问什么。三,它记录一切,每个命令和每个请求。

四,它位于代理和AI模型之间。所以你可以看到代理问了什么,模型回应了什么。一个真实的沙箱有受限的网络。每个出站请求都通过检查每个请求是否符合允许列表的代理。对随机端点的请求将被拒绝。同样,一切都被记录。所以如果出错,你可以在日志中清楚地看到。代理永远不应该看到你的秘密。秘密应该存在于沙箱外。所以当代理发出请求时,例如,到GitHub,它发送token占位符值而不是真实token,代理会在途中捕获,并将从秘密broker获取真实值,并将其发送给GitHub。响应会通过代理返回到沙箱。

所以代理会得到它要求的,但永远不知道token。如果代理被妥协,就没有token会泄露,因为token永远没有暴露给代理。最后,模型是代理的大脑。如果你看不到进出什么,你就没有审计跟踪。所以每个沙箱都通过同一网关路由其模型调用,每个提示和每个响应都在网关中被记录。所以当,例如,沙箱A开始表现异常时,你不必猜测发生了什么。你可以打开沙箱A的追踪,你可以清楚地看到代理问了什么,模型如何回应。所以现实是代理会被妥协。唯一的问题是当它被妥协时它能到达什么。

所以你可以试着构建你完美的代理,或者你可以把它放在沙箱中然后睡得很好。所以选择——明智地选择。谢谢。谢谢Van。接下来我们有Vashant Kameeshwaran,他是Grapile的联合创始人,还有Rohan,他也来自Grapile。他们将讨论他们从分析500万个vibecoded PR中学到的东西。嗯,一旦他们准备好就绪,我们将听他们两个讨论。好的。大家好。嗯,我是Vishant,Greile的联合创始人兼首席技术官。>> 嗨,我是Rohan。我是Greile的研究员。>> 今天我们将讨论我们从分析500万个vibecoded PR中学到的东西。所以,在Reptile,我们构建审查和测试pull requests的AI代理。我们每个月为Nvidia、Coinbase和Meta等公司审查40亿行代码。

Reptile每天识别和修复100,000个bug。AI代理在过去几年中发展了很多。在2023年,我们仍在使用相当简单的代理,能够为我们生成短代码片段。在2024年,我们开始看到能够进行小型多文件更改的代理的兴起。自从2025年以来,我们进入了完全agentic编码的新时代。AI代理现在能够创建——直接从规范到PR。但这让我们想知道,这些完全vibecoded的PR实际上好吗?它们如何被行业采纳?它们在哪些方面成功或失败?所以我们的数据库中有超过500万个PR。所以我们很好地配备来回答这个问题。嗯,首先我们需要弄清楚的是如何知道一个PR是否被vioded。

嗯,所以我们依赖三个关键信号来弄清楚。嗯,首先是GitHub author字段。所以嗯,通常bots会将自己作为联合作者添加到你的commit中。这是一个非常确定的方式来判断bot是否vioded了PR。话虽如此,这是一个相当稀疏的信号。我们数据库中只有约1%的PR能够以这种方式识别。所以显然不止1%的PR是vioded的。我们需要一个更强的信号。为此,我们查看PR描述本身。嗯,通常bots会在PR描述中添加笔记,说他们为PR做出了贡献,这是bot编码PR的另一个有用的标志。嗯,这是一个更频繁的信号。我们数据库中约20%的PR能够以这种方式识别。

最后,如果你最近使用过Codeex或Cursor,你会知道他们创建的任何分支都会在分支的前缀中有他们的名字。所以这也是一个非常容易的标志,因为人类不太可能用这些名字制作分支。嗯,所以把这三个信号放在一起,我们发现4月份写的约27.6%的PR有强有力的证据表明是完全vioded的。这是一个非常有趣的数字。但如果你看这个数字的历史——自从多文件代理系统开始以来——更有趣。如你所见,它一直在快速上升,我们预计它会继续快速上升。完全agentic软件工程是未来。所以,如果这真的是我们的未来,这引发了一个问题,这些PR好吗?

嗯,你知道,我们是否会因为依赖agentic系统而看到代码质量的显著下降,或者他们实际上比人类更擅长写代码,我们只是太害怕承认?所以为了回答这个问题,我们首先必须问自己,一个PR好意味着什么?我们试图以几种不同的方式量化这一点。我们查看的第一个指标是这些PR的还原率。嗯,通常当一个PR被还原时,这意味着它在生产中造成了破坏性改变或造成了下游问题。所以我们查看了按作者的还原率的分解,我们发现一些代理实际上能够以低于人类基线的还原率还原他们的PR——即Cla和Codeex。

我们还按 PR 更改的文件数量进行了分解。有趣的是,我们发现随着 PR 变大,AI 代理的 PR 被还原的频率低于人类。PR 质量的另一个很有趣的信号是它收到的注释。正如 Vishan 在 Grapile 中提到的那样,我们审查拉取请求,在审查这些拉取请求的过程中,Grapile 会像人类一样在你的代码上留下注释。现在 Grapile 还会按照 P0 到 P2 的等级对这些注释进行评级,其中 P0 是严重代码审查变更,P2 是小问题。现在你可以想象,如果 PR 收到许多 P0 或许多严重错误,那就是比只收到少数几个小问题或根本没有来自 Reptile 的任何注释的 PR 质量更低。

所以为了将此作为指标来看,我们分解了每个机器人产生的错误的严重程度,并将其与人类基线进行了比较。如你所见,大多数机器人平均来说产生的严重错误少于人类。这很有趣。这意味着平均来说,如果你希望避免代码审查变更,即会导致生产环境宕机的事情,机器人实际上更可靠。话虽如此,如果你查看整个严重程度分布,只有某些机器人能够避免与人类基线相比所有严重程度的错误。所以再次说,机器人在编写代码方面是否总体上优于或劣于人类仍不清楚。我们查看的第三个指标是这些 PR 合并需要多少轮审查。

这里我们将审查轮定义为基本上机器人打开一个 PR,人类以评论的形式在该 PR 上留下反馈,然后机器人返回并进行更改以解决这些问题。这帮助我们理解两个不同的事情。一是机器人在第一次编写好代码的能力如何,二是他们能够多好地整合反馈并进行更改而不引入新错误。我们再次按机器人作者进行了分解,我们发现有些机器人实际上能够使他们的 PR 比人类更快地合并。即 Devon 和 Claude,我们发现他们在此指标上表现最好。所以到目前为止,我们已经查看了几个不同的指标来判断机器人是否比人类更擅长编写代码,我们发现并没有真正的结论。

有些机器人根据某些指标在编写代码方面优于人类,但他们在其他指标上表现不佳。赢家有点不稳定。这取决于你衡量的是什么。嗯,所以也许正确的问题不是代理总体上是否比人类更擅长编写代码,而也许应该问的问题是机器人如何产生错误?它们看起来与人类不同吗,以及在什么方面?所以为了进一步调查这个问题,我们查看了每个机器人与人类基线相比产生的不同错误的分解。所以即具体来说,如果你比较机器人与人类的错误率,这里的红色表示机器人与人类相比产生的该类型错误更多,蓝色表示他们产生的更少,颜色的强度对应于该变化的幅度。

现在如你所见,每个机器人产生的错误种类因机器人而异差异很大。例如,Cursor 背景代理更容易犯 N+1 查询错误,而 Claude 代理更容易犯缺少租户检查错误。没有一个机器人在每个单一指标上明确获胜。你知道每个机器人的形状看起来都不同。现在我们在这里学到的是机器人产生的错误类型与人类不同。不一定比我们之前查看的所有指标都更好或更差,但确实不同。所以我们还没有谈论的一件事是机器人只是让你能够更快地发布代码。所以如果质量大致相同,尽管形状不同且幅度更大,那么我想我们可以说 AI 代码代理实际上是好的。

它们允许你编写更多的代码,只是你必须注意他们产生的错误类型。AI 代理比以往任何时候都在编写更多代码。正如 Rohan 提到的那样,他们创建的错误形状与人类不同。很明显,随着 AI 编码在未来扩展,你的代码验证系统也需要适应并为 AI 代理的未来而扩展。在 Reptile,我们正在帮助数千家公司使用 AI 代码审查来管理他们不断增加的 AI 代码规模。我们花费很多时间来理解各个模型的优缺点,以便我们可以将它们串联使用来帮助捕获更多错误并为所有人创建更好质量的代码。如果你有兴趣了解更多关于 Gretell 所做工作的信息,请查看我们的网站 guptell.com。

嗯,如果你有兴趣与我们进一步讨论 AI 编码和 AI 代码审查的未来可能是什么样子,呃,请来我们的展台找我们,我们很乐意进一步讨论。非常感谢。非常感谢。接下来,我们邀请到 Sonar 的研究顾问 Yunong Zang。呃,Yunong 将讨论代码质量管道中的 AI 代理,呃,发布、保护和衡量它们。嗯,Yunong,舞台是你的。好的,嗯,早上好各位,嗯,我是来自 Sonar 的研究顾问,我也是美国某大学的最后一年博士生,嗯,所以今天我将讨论呃你的代码质量管道中的 AI 代理,嗯,具体来说我将讨论我们如何保护以及你如何审查这些编码代理所做的更改。

嗯,所以嗯,这里的观点是我自己的,不反映 Sonar 的任何观点,以及我呃标准免责声明。所以嗯,这里呃是一个非常高层次的图表。所以如果我们考虑代码如何制作以及如何合并到存储库中。呃这些大致是非常高层次的三个步骤。所以代理将编写代码,现在几乎总是代理将审查代码,因为有太多代码要处理,然后人类可能决定是否合并它们。嗯,所以今天我将讨论此管道中的两个方面。首先是当代理编写代码时,我们如何在 Sonar 中构建一个代理称为 Sonar 补救代理,呃,它修复 Sonar Cube 问题,然后我将讨论我们如何以更可靠的方式评估代理生成的代码审查。

嗯,所以嗯,所以这是第一部分,它是呃 Sonar Cube 补救代理。所以嗯,基本上工作流是 Sonar Cube,你们很多人都知道,是一个非常广泛使用的静态分析器来扫描你的代码。所以 Sonar Cube 将在你的 PR 中找到所有问题,然后你可以调用 Sonar Cube 补救代理为你自动生成补丁。所以这个代理将在你现有的基础上打开新的 PR,然后建议改进的变更。所以右边的屏幕截图显示呃显示这个代理看起来像什么。所以你打开这个 PR 告诉你 Sonar Cube 中哪些问题它已经修复,然后呃给你这些补丁,一个代码块一个代码块,并告诉你这个补丁为什么修复这个问题的解释。嗯,所以我们已经发布了这个开放测试版,我们呃从客户那里呃收到了大量反馈。

所以嗯,我今天想更多地讨论的一件事是我们如何保护这些代理呃当我们把它们投入生产时。嗯,所以因为这些代理在大量企业代码上工作,我们想确保部署和运行这些代理时确实没有安全问题。所以我们听说了沙箱代理,这非常重要呃,我们在部署时使用它。呃但我想说的是我们也想建立深度安全。这意味着我们在部署沙箱后构建分层安全。我们也在代理内部和代理发布代码后构建了安全性。所以呃这里是我们我们在代理内部所做的几件事。

所以一件事是我们正在为这个代理构建一个非常受限的工作流,因为我们知道它将处理一个非常具体的场景,即修复 Sonar 问题。所以没有自由终端,意味着代理不能随意访问互联网和执行任意命令。我们还将代码库视为攻击面,不仅仅是 MCP 和技能,还有代码库。呃,所以想象如果有人呃开源贡献者呃在你的存储库中打开一个 PR,然后这个人的动机不纯。所以他们实际上可以在他们发送到你的存储库的 PR 中注入恶意命令。所以嗯那是我们考虑的一件事。所以当我们实际运行这个代理时,我们会将所有这些命令呃替换为其他呃标识符,然后在代理完成后交换回这些命令。

嗯,而且嗯,我们呃我们想处理这个供应链攻击。所以这是针对呃如果我在恶意行为者,并且我在进行 pip 仓库 typosquatting 并想避免代理导入这类存储库的场景。所以我们构建了大量导入防护来确保代理不导入这些恶意库。嗯,那就是代理内部发生的事情,这就是我们在完成后验证代理补丁的方式。所以嗯,当代理生成补丁时,我们再次在这个代理生成的补丁上运行 Sonar Cube 分析器,然后如果我们发现回归或发现任何安全问题,代理被要求在得到上一次迭代反馈的情况下重试,然后当质量门槛通过时,它只被发送给开发人员。所以那就是我想讨论的第一部分呃。

嗯,所以现在我们我们想转换话题到我们如何评估这个代码审查。所以这现在变成了一个真正的瓶颈,因为代理向你的存储库发出了很多 PR,然后人类呃不可能呃审查所有这些 PR。所以一个自然的方式是使用呃 AI 审查工具来帮助你审查这个 PR,但有很多这样的工具,我们如何知道哪些工具对你的特定用例更好,以及我们如何可靠地评估它们。所以这是我们想研究的一个问题。嗯,所以这是呃现有方法所做的。所以呃如果你考虑一个场景,我们有一些历史 PR,人类对它们做了一些评论,然后我们运行这个 AI 审查工具,我们想看 AI 工具是否捕获了与人类相同的错误。所以当然,如果他们捕获更多相似的错误,他们会更好。

所以这是人们之前所做的一些指标。一是我们可以检查文本相似性。我们可以看 AI 审查工具自然语言中生成的语义与人类相比是否相似的标记。但正如你所知,即使我们指向同一个问题,这个问题也可以以非常不同的方式表述。所以这个标记相似性有时不起作用,而且呃我们也可以考虑本地化。这意味着采取一个 PR,我们比较每一行在这些机器人和人类做评论的位置,我们说呃如果他们在与人类相同的位置做相同的命令,机器人是好的。但再次这不会告诉你语义,那只是位置。嗯,也另一种简单的方法,你可以将 LM 作为法官。呃你可以问语言模型这两个命令是否相同。

呃,所以它有时工作,但很难说它们是否真的可靠。呃,所以呃这里的差距是我们想要某种方式来确定检查真实命令是否好的方式。嗯,所以嗯这就是我们所做的。所以我们我们构建了一个新的基准呃叫做 CRAP。所以它也以类似的场景工作,意味着我们想检查 AI 生成的评论是否捕获了与人类相同的问题,但核心思想是我们没有使用语言模型组件,而是将每个人类审查变成一个可执行测试。所以这是一个具体的例子,采取这个 PR 左边的一行呃如果这是有人改变代码库的内容,人类审查会说好的,这可能会引发一些更多的输入,像这样。

所以不是安全地返回 false,所以这是一个具体的改进代码呃人类审查有人类审查已经建议的。所以呃对应于此,我们将在右边生成一个测试。所以这个测试基本上对应于这个审查命令,意味着如果这个审查命令被解决,这个测试将通过,否则这个测试将失败。所以现在现在对于所有这些 PR,我们不再有人类审查了。我们有所有这些可执行测试。现在第二部分是我们实际上如何基于这个输入评估 AI 审查者。所以我们向 AI 审查工具显示 PR 要求你做评论,然后我们采取另一个编码代理来改进这些评论的基础代码。现在我们有了一个不同版本的代码,它根据基于 AI 的命令进行了改进。

然后我们运行这个可执行测试来检查这个更新版本的代码是否良好以及有多少这些测试通过。所以这样我们可以告诉 AI 审查工具有多少人类命令已经被捕获。嗯,所以嗯,这是我们得到的结果。嗯,所以每个工具的具体数字不是那么重要,因为这些审查工具每天都在变得更好,这些语言模型每天都在变得更好,这些数字是呃在 2026 年初获得的。呃,所以我想强调的部分是这个右边的数字。所以如果我们考虑所有这些审查工具在一起,他们解决了人类审查呃人类审查者指出的 41.5%。所以这实际上意味着这些呃当前的审查工具甚至没有捕获人类审查者在过去指出的一半。

呃但这不是完整的故事。所以除了这个数字外,我们实际上查看了所有这些 AI 生成的命令,看他们的质量,因为他们也可以指出人类没有识别出的其他错误,但他们仍然是有价值的。所以呃我们进一步查看了人类和 AI 生成的所有这些审查评论,并在其周围进行了分类。所以这个分类超越了错误修复。所以我们基本上把他们放在安全、效率、兼容性、健壮性等等一直到代码的文档和可维护性周围。所以呃,这个图表显示呃每个审查工具与人类审查相比的表现如何。所以我们可以看到 AI 实际上在代码的健壮性和测试上表现得非常好。所以他们会建议你测试更多代码。

他们会在代码中指出边界情况,并要求你添加它们。所以这与我的个人经验相一致。所以 AI 非常善于指出我之前没有注意到的事情。但另一方面,人类审查与 AI 相比在可维护性和设计方面非常擅长。所以所以他们他们会讨论如果你添加这么多变更,这个代码将不再可维护。你应该并且你应该以不同的方式组织代码,因为人类审查者对代码库有比 AI 审查者更多的上下文知识。所以嗯,这里的要点是,现在呃我们仍然应该将 AI 和人类审查一起使用。可能 AI 审查应该作为第一层,然后人类审查可以查看 AI 审查者不太擅长的这些特定类别。是的。所以呃是的,那就是我想讨论的所有内容。

嗯,所以我我讨论了我们如何构建代理,其中我们更多地关注控制和安全,以及 AI 和人类如何现在应该在代码审查任务中一起工作,可能在未来我们可以有更多地关注专注于他们现在缺失的方面的 AI 工具,但现在我认为这应该是我们在我们的代码库上构建分层审查的解决方案。所以这两个是我们论文的二维码。所以我们在这些主题中的每一个上都有一篇研究论文。嗯,如果你有兴趣请随意阅读。呃,乐意之后聊天。非常感谢。接下来,我们邀请来自新加坡本土 Featherless 的 Eugene Chia,他将讨论开源模型现在已经出现,现在是新加坡构建的时候了。道歉。对技术困难表示歉意。嗯,对我来说,当 AGI 实际上真的被解决时,是什么呃?

这些东西会被解决,就像打印机这样不应该发生。好的。好的。嘿,我是Eugene。我要来谈论开源模型,为什么它们在这里,为什么新加坡应该直接构建。嗯,由于时间有限,嗯,我可能会稍微倾向英语。我可能说你快一点,我只是要开始演示。对于这个实时演示,我只是要非常快速地做一个简单的网页游戏。嗯,但更有趣的是,我不会使用最好的前沿模型。我甚至不会使用最好的开源模型。我要使用Qwen 27B和Gamma 43B,它们可以在你的笔记本上运行。所以,我这里有提示。我只是要快速让它运行,启动它运行,我希望我的网络没有断开。

好的,正如你所看到的,嗯,我在使用Cline,它是一个集成在VS Code中的开源编码代理之一。嗯,你可以使用任何东西,嗯,这不是这个演示的重点。重点真的只是显示这些是你今天可以使用的模型来实际构建东西。所以试图等待这个...好的,好的。计划完成。它计划完成它。我甚至没有检查它。好的,所以这些是模型,对吧?更重要的是,你可以在你的笔记本上运行的。所以这是MM Studio与Gamma 31B的一个例子,嗯,它正在我的,在这个笔记本上运行。你可以在Mac笔记本上运行它。你甚至不需要最高端的。嗯,这是相同的Qwen 27B,除了如果我在云上运行它可能更快。所以嗯,我会让那个在云上运行。是的。是的。

所以关于我的背景有一点。我是Eugene。嗯,我是一个AI模型创建者。嗯,全球少于几百个团队之一创建了AI模型。嗯,特别是在东南亚,真的只有我们少数几个。嗯,Federalist AI的创始人兼CEO,最近进行了我们的A轮融资,估值1.2亿,由Airbus Ventures和MD Ventures领投。我也共同领导RWKB开源项目,Linux Foundation下的第一个AI模型,我在新加坡出生并长大,是一个重复创业者。嗯,我在初创企业、企业软件、银行、开源空间工作了十多年。我基本上每个月都在东西方之间飞行,定期往返。什么是Federalist AI?我们是一个平台,提供对整个开源模型集合的即时访问。今天有30,000个模型。

未来我们想支持所有200万或甚至300万个模型。到那时,我们的原则是我们不应该选择判官,为你决定你想使用哪些模型。你应该能为自己决定。所以这是我们正在扩展以向所有人提供访问的东西,你也可以通过Hugging Face和Open Router访问我们。这也很有趣的原因是,当你让用户选择模型,整个模型集合时,嗯,它仍然在30,000的早期阶段,我们正在扩展。你可以观察到人们在有选择时实际使用的模型。所以这基本上是这次谈话的背景,比如人们使用开源模型做什么?

因为说到底,对吧,它真的是关于获得那些我发现更有趣的洞察。所以为了回答这个问题,我将把它分成两个主要部分。第一个是使用哪些开源模型类。这通常是当人们首次进入开源AI领域时发现令人兴奋的事情,因为他们喜欢,我应该使用Qwen还是Deep Seek之类的。但这可能是我最难展示的指标之一,因为每次我做幻灯片,它就在下一周过时。这是12月,那时我们的大部分流量被Deep Seek主宰,对于企业客户来说,它由Administr Nemoi主宰。

我认为这是一个非常有趣的模式,因为消费者喜欢立即测试最新最棒的并进行实验,而企业喜欢大规模运行事物,所以他们专注于效率。但很快它就被替换了,然后就像几天前一样,Gamma开始从图表上爆炸,这是我为谈话本身必须更新的字面上更新的版本图表。哎呀。好的,好的。它运行完成了。好的。嗯,所以这是对嗯Ivan和Google Tig团队的一个喝彩。他们对Gamma 31B做了很棒的工作。所以这些模型然后用于什么?嗯,哎呀,实时演示问题,但没关系。像我们越来越多听到的开源编程代理用例那样代表我们流量的一个巨大条形。

另一个主要的是AI伴侣、治疗和角色扮演,实际上超过了代理编程使用,但代理编程使用将是很多用户运行很多代理,其中AI伴侣空间将是一些通常是商业客户,其中公司将有数千个用户编码用例,这些是基于我们拥有的元数据,如Cline和Clot code等,我们可以看到这些种类的用例,随后像5% chbtt哎呀。再次,因为我们不感知嗯完成数据上的任何提示,我们大约推断这个数字。

那么超越这个的有趣之处是什么,对吧,在这里我嗯在这里我用模型类代表,但当你用微调模型代表时,你可能听说过微调来专门化模型用于你的个人用例或公司用例,你可以看到图表中的区别。

我发现最有趣的不是通常所有流行模型的前三分之一或一半,而是下半部分,因为如果这个推理市场要成为一个万亿美元的市场,这是事情变得有趣的地方,这是我们看到AI模型被支持微调以支持特定地区的地方,比如我们骄傲地成为Sambar AI的提供者之一,Sambar AI是乌干达的第一个语言模型,或者Denu AI模型,这是一个农业语言模型。我们也看到医疗用例,对于Open Hands,它也在新加坡训练,以及像安全这样的,如Cisco基础模型。

所以,我发现关于这些趋势令人兴奋的是什么,更重要的是开源模型正在穿越当前的Sonnet和Mini线,以及在笔记本上运行Opus级别的智能并加速,长上下文成本正在下降。我有点赶时间,所以我要走得更快。这基本上是开源模型匹配Sonnet和接近Opus用于AI模型。是的,仍然稍微落后,但它几乎就在那里。但这是更有趣的。我已经运行的两个模型超越了GPT-4编码用例。当然,它们可能不是GPT-5,但请记住,它们在笔记本上运行。基本上,你今天看到的最好的模型可能明年就在你的笔记本上运行。这是在开源空间中一直重复的模式。这就是为什么我要跳过这部分。

嗯,这就是为什么,对吧,我这是我想强调给所有AI工程师的一件重要事情,因为让我们看看实时演示。好的。好的。所以这是小行星之一。嗯,让我看看。这应该是Gamma 31B,但让我们试试打开Qwen 27B,例如。你可以看到这也是另一个。这在可能在你的笔记本上运行的事实是显著的,因为现在今天所有这些可以运行你的笔记本的模型可以做UI、API或其他任何东西。当然,它可能需要几次重试。但如果我们想让新加坡成为世界的AI中心或东南亚,问题不是模型,是我们。我们只需要开始构建。这就是我想让新加坡的每个人开始做的事情。只是构建,因为没有障碍。是的,就这样。谢谢你。

非常感谢。非常感谢,Eugene。嗯,接下来我们有Max Buckley,他是XAI的知识研究负责人。Max将谈论,嗯,他的顶级谈话标题是2025年11月24日,接下来是什么。Max,轮到你了。>> 大家好。嗯,我是来自EXA的Max。嗯,我是知识研究负责人,我也负责我们目前正在设立的苏黎世办公室。这更多是一次存在主义谈话,所以我不会真正谈论EXA。嗯,这不是打字错误,尽管被问了很多次,但这不是打字错误。2025年11月24日,接下来是什么?嗯,2025年11月24日是什么?那是Claude 4.5 Opus发布的日子。我的立场是这将在历史上被记录为事物改变的一天。

所以我向你的提议是,社会背后的博弈论正在改变,GenAI驱动了这一点。嗯,我会用几年前ChatGPT的历史例子和用Opus的更近期的例子。但基本上,我们拥有的机构是基于某些东西是昂贵的假设建造的,这些成本使某些东西工作,对吧,但当我们移除这些成本时,围绕它们建造的系统可能无法工作,它们可能会崩溃。所以工作证明就是这样一个历史例子,对吧?我们有很多系统要求人们付出努力以证明他们付出了努力。通过这样做,你知道,你会让人们在学校学习。你会发现哪些人真的想申请你公司的工作。

你知道,你也可以知道,你知道某人是否可信。现在,如果我收到一条消息,比如一封电子邮件或LinkedIn消息,而且它写得非常好,我不认为这个人真的很有说服力,真的付出了努力与我交谈。我认为这个人只是使用了一个LLM。而之前恰恰相反是真的。现在,如果你收到一些有打字错误的东西,有人要么让一个模型生成有打字错误的文本,要么故意编辑它使其更有打字错误。我用博弈论视角谈论这个原因是你不能选择退出这个。即使你的大学提出了一些声称,比如我们不允许Gen AI项目,你知道,那只是意味着你的学生必须编辑出错误并删除强调破折号。所以你不能选择退出这些变化。他们来找你。

嗯,现在编码中也发生了类似的转变,对吧?所以在过去大约八年里,我们从你知道的制表符完成转变,你完成一行到完成一个函数到能够要求它生成一个文件,到现在你有这个编码代理,你可以给它这个高级提示,它会为你运行几分钟到几小时并构建整个东西,测试它并验证它并在完成时回到你。这是相当大的转变,还没有完全展开的东西。有趣的是,模型本身甚至没有意识到这种转变。所以如果你使用Claude,它仍然会使用过去真实的时间估计。所以如果你给Claude一个大规格并说,「这是一个疯狂的想法。让我们实现这篇研究论文。」

Claude会告诉你这个项目需要12周。你然后复制markdown到Claude Code,它运行12周...嗯,不对,它运行30分钟然后就完成了。你知道,显然它还没有理解这个世界改变了多少。我不认为这个原始估计是错误的。比如我在Google工作,有几个你知道的非常优秀的工程师,你会将其分配给一个初级工程师,它确实会花12周,那是12周的检查和迭代,进展。还记得这个IT识字的概念吗?我是说,可能我在给错误的观众说教,但过去的情况是许多人害怕计算机或发现他们困难或艰难。这背后的原因是计算机超级字面,对吧?

如果你漏了一个分号或有像打字错误这样的东西,计算机只会说,「那找不到。那不起作用。你没有运气。」而IT识字是关于帮助人们,普通人,习惯使用计算机,比如让他们意识到是的,你漏了分号,但别担心,你可以把它放在里面,它仍然会工作。不,非法操作实际上不是犯罪。别担心。嗯,但再次,编码代理正在驱动的事情之一,我认为编码代理这个词甚至低估了潜力,是这里的转变,因为编码代理或只是在你的计算机上运行的代理使计算机有一种自然语言界面,就像普通人现在有这一个障碍,就是我如何打开终端?我如何启动Claude Code?

现在他们可以用他们以前从未能够的方式使用计算机。他们可以用自然语言与它交谈。它可以通过如何做他们想做的任何事情来引导他们。他们如何在网络上设置他们的打印机?他们如何,你知道,截图?他们如何调试如果他们的相机是否可见或不是,对吧?这是他们之前无法做的事情。开源是下一个。我说下一个,我的意思是它已经在发生。我是说,这个房间里有人谈论过其中一些方面,对吧?但是,你知道,开源用于向工程师开放。现在,它意味着对任何拥有计算机且识字的人开放,这相当更多开放。当然,这带来了新的问题、新的挑战。所以是的,曾经是真实的,比如这些是去年年底之前世界的假设。

所以曾经的情况是软件开发很昂贵。只有少数人可以编码。这些人非常熟练。他们的时间非常宝贵。嗯,所以你知道我们基本上每个功能都有一个机会成本。有整个组织的部分专门设计以确保我们在正确的事情上工作,通过一些正确的定义。你知道,有关于我们应该做哪个项目、我们应该优先考虑哪些项目的无休止的争论,我们应该在修复漏洞上投入多少,而不是在添加新功能上投入多少。类似地,软件开发是缓慢的。

所以即使一个小功能也需要你知道几个小时,也许几天,你知道一个大功能可以花几周,可以花几个月,一个系统的真正大的重建可以花数年多个人,当然,这个的一件好事是喜欢路线图可以与这个相当好对齐,对吧,因为路线图可以是季度性的,因为有效工作是季度性的。我记得在Google工作,你知道,我们可能会给某人四五六个要点分配到他们的季度,那是四五六件事,他们将在那个季度工作并做。通常他们会做其中70%到80%。嗯,所以由于这两件事,你想无情地优先考虑。而且有各种系统设计来做这个,对吧?

你知道,我们曾经有销售团队提交数百个问题、请求、功能和想法。然后你会有产品经理把这些数百个或数千个想法筛减到30个。这30个会进入工程经理那里,他们会争论这些,然后划一条线说:「我们会做前16个。」这16个会分配给团队里的工程师。所以就像我说的,有趣的是我们所有的流程、习惯和组织结构图都假设这是真的。所以所有这一切都必须随着这些变化而改变。是的,基本上整个事情都是基于稀缺经济学,你知道,每一行代码都非常有价值,所以我们应该以某种方式来优先排列事物。嗯,你知道,诸如软件即服务这样的东西很有意思。

我们都听说过这个,它现在处于某种危险之中。有趣的是,你知道,如果有一个优秀的工程师团队,理论上你可以构建一个工作日竞争对手或任何其他你想要的软件服务,但问题是你想要吗?你愿意投入几个人好几年和几百万美元来尝试构建一个基础版本,然后面临销售和说服人们转换的挑战吗?现在这变得容易得多了,这让人们意识到护城河不再是代码,而现在将是你的品牌和你的市场进入渠道。

我确实认为机器学习和数据的护城河会更长,因为很难准确地确定边界在哪里,所以比起确定性的东西更难反向工程。这种稀缺思维也必须改变。这种通过专业判断把30个想法缩减到3个,然后实现这3个的想法,你知道,我们不再需要这样做了。现在我们可以构建所有30个,进行良好的评估,进行基准测试,看看哪些实际上是值得的,然后你可以还原其余的。我们不会那么依恋这些我们还原的东西,因为我们没有花3个月来构建它,我们的晋升案例也不依赖于它。所以是的,软件的供应将会爆炸。我是说这不是原创想法。

嗯,最近有GitHub首席运营官的推文说,按照目前的运行速率,GitHub提交量同比增长14倍。这超过了2025年,而2025年已经比2024年增长了4倍。所以按目前的速率是14倍,而且还在增长。所以会更多。特别有趣的是新工具的边际成本几乎为零。所以现在,如果你被分配了一个任务,比如也许你需要标记一些数据或调试一个问题,你可以快速组装一个新的定制用户界面,用于该任务,之后就再也不用了。这很疯狂,因为这个用户界面可能需要Claude花20分钟来编写,但它可能会让你在标记数据或筛选图像或其他任何事情上的效率提高10倍,对吧?

比如,因为作为人类,你擅长处理视觉数据,但不一定擅长处理文本或其他任何东西。现在我们可以构建所有这些没有任何季度能够证明合理性的利基应用。嗯,所以瓶颈将转向市场进入和代码审查,因为现在你可以构建任何东西,其他人也可以。所以人们将更加竞争,争取让人们使用他们的想法,看到他们的想法,听到他们的声音。代码审查已经被讨论过了,所以我现在不会详细说明。但基本上,你知道,代码审查只是再次因为我们生成的代码数量而苦恼。当然,人工智能也可以帮助解决这个问题。所以我认为现在有价值的、我会投资的是统计学。所以统计学在像Google这样的大公司中一直非常有价值。

一直都有,你知道,某个团队、某些人在为评估实验构建统计工具,然后许多工程师会依赖这个工具。他们只是选择加入。现在它作为一个更广泛分布的技能可能更有用,因为每个人都可以以许多不同的方式评估各种事情。这里的评估可能是不同的事情。它可能是性能分析。它可能是基准、A/B测试、用户行为指标这些东西。嗯,想法和品味是另一个重要的东西。所以基本上,要构建什么的想法、有想法将变得更加重要。然后当然是迭代这些想法。所以我的最后一点只是知识的具体价值,我认为会改变。

我们将从深入的技术专业知识转变,当你真正详细地了解某些东西的确切语法时,到了解什么存在、如何使用以及何时使用。因为有了这些模型,如果你的提示比较通用,他们通常会给你一个有点通用的回应。而当你用正确的词语来提示他们时,它解锁了这种奇怪的潜力。比如我的最后一个例子是统计学。如果你说请给我的改变做基准测试,它通常会执行n等于1,运行一次,运行两次,看哪个更快。如果你说使用统计学,突然它开始说出p值和t统计量以及所有这些其他东西和大样本量,它会疯狂。是的。所以就是这样。是的。所以基本上问题不再是你能否构建它。问题是什么应该存在。谢谢你。

非常感谢来自XAI的Max。接下来是Mark Doyle,他是Stripe的软件工程师。嗯,当你走向舞台时,Mark将分享关于Minions的一个小演讲,嗯,不完全是电影Minions,而是Minions,这是Stripe的一次性端到端编码代理平台,嗯,你将讨论他们如何构建它、为什么要构建它、背后的原因以及他们对编码代理的一些思考。各位好。嗯,非常感谢你们坚持。我知道它几乎要发布了,所以嗯,希望你能保持这个,嗯,真的很有趣。嗯,我在Stripe的编码代理平台上工作。嗯,我的名字是Mark。

嗯,大概任何与嗯用代理编写代码和嗯整个软件工程生命周期与编码代理有关的东西,我大概都参与了。嗯,只是在我们开始讨论我们今天要讨论的内容之前,即一次性编码代理。所以嗯,从一个提示直接到一个PR,一次性,只是为了在Stripe这个地方给问题框架一点。嗯,我们在Stripe上处理世界GDP的大约2%。所以尽管我们试图走在最前沿、处于人工智能的最前沿、使用这些模型,嗯,我们对我们的用户和客户以及整个全球经济有真大的义务,你知道,保持质量标准和安全标准。嗯,所以这肯定是我们在构建所有这些时牢记的第一件事。

话虽如此,我们有91%的Stripe工程师每天都在用人工智能编写代码。所以100%的Stripe员工在软件创作生命周期中的某个地方使用人工智能。嗯,但每天我们有91%的工程师在合并带有人工智能的代码。在过去的一年里,我们看到完全由人工智能生成的拉取请求数量增加了500%。嗯,所以今天,是的,我们只是要讨论一下我们如何实现这一点。嗯,一次性代理如何,你知道,为我们启用这一点。嗯,一次性编码代理是业界一个相当知名的术语,我想,但我们在内部大量使用的东西是嗯,当你从一个提示或一个slack线程一直进入拉取请求时创建一个PR,嗯,没有任何互动。

所以我们在 Stripe 也拥有像我相信你们都拥有的那样的工具,比如 Claude Code、Codeex、Cursor,嗯,我们也使用这些,但我们把这些看作是某种 co-pilot 工具。这是当工程师与工具一起坐在那儿,你知道,以迭代的方式协作工作时的情况。单次编码代理是专门针对当我们认为工程师大致知道拉取请求或他们试图实现的目标是什么样子时的场景。我们不需要他们长期与工具一起坐在那儿。

所以我们认为对于工程师来说,管理大量不同的工作会话,连接到不同机器上的不同代理,有点浪费。也许他们可以预先与代理进行规划会话,然后启动这个单次体验,在进入代码审查阶段之前不需要任何参与。嗯,所以是的,我们的目标就是为我们的工程师节省时间。你知道,我们不希望他们花时间启动新的开发环境、创建分支、拉取请求,当他们已经大致知道他们将要编写什么代码时。我们想把所有这些工作都交给代理,不仅仅是代码的实际编写。嗯,所以我就给你一个我使用我们的单次代理之一的例子。

所以在这儿,我在调查我们的一个 Stripe MCP 工具的问题。这只是一个非常简单的例子,只是为了展示我们是如何做的。嗯,我们在 Slack 中有这些代理,嗯,我们可以说,嘿,我看到这个问题。这里可能是什么问题?嗯,代理马上就会回来。它会读我们的代码、读我们的文档,然后说,「哦,看,这似乎是你要找的问题。」在这种情况下,这只是字面上三行或三个字符的差异。这是一个非常直接的改变。现在,我在这个场景中的开发者角色知道,嗯,这个改变非常简单。比如,它基本上可以由任何人来实现。你甚至可能不需要是工程师才能进行这个改变。

所以我们不希望我们的工程师现在花接下来的 10 分钟创建分支、启动代理、再次向代理解释问题、复制粘贴这个上下文。我们只是希望他们能够字面上说,「嘿,去修复这个问题。一旦你回来了拉取请求,我就可以批准它,嗯,或者让我的同事批准它并合并它。」嗯,所以在这种情况下,Devbox 只是类似于 minion,这是我们所谓的单次代理。嗯,然后开发者可以期待在之后的某个时间看到像这样的回应,minion 回来说,「嘿,我们的流程已经完成。嗯,去看看我编写的代码。」所以开发者根本不需要参与其中的任何部分。

而这就像是有点为什么我们想这样做的哲学方面,为什么我们认为我们在为工程师节省时间。现在我可以解释一下我们实际上如何实现这个结果。所以,嗯,我们在之前的消息中看到当我实例化代理时,我们看到这条消息,代理说,嘿,稍等,我在处理你的任务,我们如何从你知道的那条消息进展到实际获得一个工程师可以审查的拉取请求?所以我们真的很幸运,我们一直在投资 dev box,这是远程开发者环境,所以 Stripe 工程师不在笔记本电脑上写代码,他们在远程开发者环境中写代码,我们可能可以对我们为什么需要这些进行整个讲座,Stripe 有一个超级大的单一代码库,是世界上最大的 git 仓库之一。

它接近 3 亿行代码。所以比如,如果你克隆下来我们的仓库,大约是 90 GB。嗯,生成我们的代码需要很长时间。所以我们需要有这些远程开发者环境。所以每次你想要一个新的分支或什么的,你可以直接获得它。我们有一个池。他们已经准备好了。而且我们真的很幸运。我们投资这些已经好多年了,因为事实证明现在他们,你知道,真的很适合代理们。代理们可以在那儿很舒适。他们拥有所有的工具。嗯,这些不是我们在业界今天看到的轻量级沙箱。

这些是相当大的,比如开发者机器有很多核心,64 到 128 GB 的内存,相当大的机器,相当能够,嗯,比如大规模工程任务,嗯,每个 minion 都有自己的 dev box,所以他们在那儿有自己的家,嗯,他们可以,你知道,从安全的角度来说是安全隔离的,嗯,沙箱等等。其次,这只是一个好的代码编写环境。

所以一旦我们给了 minion 一些计算资源,dev box,比如一台计算机来运行,它需要像文件系统一样,它需要一个 shell,我们用 dev box 给了它那个。我们首先要做的是帮助它在这个巨大的代码库中运行,我们传递提示或 Slack 线程,所有我们能收集的上下文。所以比如,在嗯,我展示的例子中,它是一个 Slack 线程,其中另一个代理,你知道,嗯,搜索了代码库,给了一些上下文,也许还可能有一个,一个票证提到了,一个拉取请求提到了,一些来自同事的其他上下文。我们收集所有那些信息,我们把它交给这个分析器代理,你在这儿看到的,那个分析器代理,你知道,收集所有那个上下文,然后说好的,这是我认为我们需要指向代理的地方,这是代码库的正确部分,然后我们开始,嗯,实际实现阶段。所以一旦我们弄清楚了我们将在哪里写代码,或者,嗯,大致什么样子的任务,只是总结整个,嗯,Slack 线程的全部内容或者无论我们从哪儿开始 minion,变成某个变成一个提示,嗯,我们可以开始这个 minion 循环。所以 minion 循环是确保我们总是生成拉取请求并且代理不会在中间停止的过程。

而这是 minion 循环看起来是什么样子。所以我们从顶部的这个白色箭头开始,我们获取我刚刚解释的那个上下文,你知道,Slack 线程中的所有内容,我们把它给这个编码代理,你在白框中看到的。这只是一个常规编码代理。它获取你知道,比如你也许用 Claude Code 或 Codeex 非常习惯使用的,获取提示,对话上下文,并试图,你知道,朝目标前进。它做一个转折,试图朝目标前进。

嗯,在它,你知道,朝目标前进之后,我们让它运行 lint,我们让它运行测试和类型检查,然后我们停止,我们不会回到人类,这是单次代理和,嗯,你知道,co-pilot 代理之间的某种差异。在这里,我们将结果传递给一个 LLM 判断器,这是你在屏幕底部看到的这个橙色框,而 LLM 判断器字面上获取原始作者给 minion 的提示和当前的 git 差异或已经生成的输出,我们只是问它,这个任务完成了吗?所以它不会得到它的上下文不会被毒害所有这些,比如编码代理可能提出的信息对话,所有的,你知道,借口,为什么它停止工作或为什么这个任务是不可能的等等。

嗯,实际上它就是一个,你知道,无偏见的判断器,它说这个任务是否完成了或者,嗯,它是否失败了。嗯,如果任务完成了,很好,我们,你知道,可以创建pull request,然后回到工程师那边说,嗯,它已经准备好供你审查了。嗯,我在这里完成了。如果它没有完成,嗯,我们有一个诊断agent,它查看,你知道,查看LLM judge的输出,查看编码agent会话中发生了什么,以及原始提示,然后说:「哦,嗯,这没有完成,因为某个测试失败了,或这没有完成。这还没有完成,因为实际上你实现了错误的东西。你知道,你,嗯,创建了一个API端点,但你没有连接前端。这些是编码agent明显会遗漏的事情。」嗯,然后我们从诊断agent获取那个上下文,并将其放回到循环中。

所以,我们按需运行这个循环多次。我们尽力保持来自诊断agent的输入很短。嗯,所以它不会炸掉上下文窗口。但我们持续运行这个循环,包含诊断agent、LM judge和编码agent。一直运行,直到我们得到类似pull request的东西。pull request不一定总是正确的,但现在在Stripe,我们大约合并65%的minion pull request一次就成功了。所以65%的时间,当Stripe工程师启动其中一个时,它被合并了,没有任何人工干预。所以它变得相当不错。随着模型变得更好,嗯,我们看到这越来越有效。嗯,通常工程师会在,如果,你知道,不成功一次通过的话,工程师会想要跳进去,嗯,并做一些改变。

所以,基于那一点,我们有一个网页界面,你知道,你可以继续指导对话。你也可以,嗯,看到屏幕顶部这里,比如打开minion被生成的box,在VS code或终端中。这让工程师能在minion,比如失败一次通过的情况下接管。所以那有点是我们如何处理这个小编码agent的故事,给它一个住的地方,然后产生这些一次通过的pull request。嗯,我们在Stripe每周合并大约3,000个pull request,用这些。

嗯,它真的,像,对,嗯,你知道,节省我们工程师的时间解决真正小的问题,甚至更大的、更大的任务是很有价值的,这些是工程师已经相信agent可以一次通过的任务,或嗯,agent可以,工程师可以提前提供大量上下文,使一次通过的PR成为可能。嗯,所以如果你正在构建这样的系统,可能有几个教训我们可以给你带走。嗯,我们学到提示真的很好。所以在我们所有的agent这里,比如LM judge、嗯实际的编码agent本身等等,我们有非常详细的提示,如你可以想象的那样。我们有数千个Claude和agents.md文件在我们的整个代码库中。它们非常有价值。

然而,如果你正在写,嗯,这样的循环,比如一个minion循环,并且你不断地制作看起来像这样的提示:请请在你进行提交之前运行测试,不要push并运行,比如一个昂贵的CI运行,你知道,在你自己运行测试之前,或嗯请以某种方式格式化你的嗯提交消息。你,你知道,用尖叫大小写写所有大写,你在真的试图说服编码agent做某事。在那种情况下,我们,嗯,真的认为确定性指令对此要好得多。所以,任何你能使确定性的,请做吧。嗯,它真的真的帮助agent成功。嗯,试图与agent争论某事通常不是很好,它有点像一个代码异味。嗯,特别是如果它涉及安全的事情。

嗯,是的,为这类循环编写确定性指令绝对至关重要,它能让整个过程更加可靠。如果你正在构建自己的工作流程,依赖这些全大写的上下文文件可能没问题,但在大规模执行时,当你有数千个开发者运行数千个 minion 实例时,这对我们来说真的很有用。我们的第二个要点是开发者工具始终非常重要。在 Stripe,我们一直很幸运,为我们这个规模的公司在开发者工具上投入了大量资源。例如,Stripe 开源了 Sorbet,这是一个用于 Ruby 的静态分析类型检查器。它类似于 JavaScript 的 TypeScript。

Stripe 多年来构建了许多这样的工具来提升我们的开发速度。但现在比以往任何时候都更具高杠杆作用。所以现在我们看到这些工具已成为必需品。如果你没有良好的计算基础来让代理运行,比如对我们来说的开发盒子,你没有静态类型检查、linting,所有这些作为专业开发者我们期望拥有的东西,那么你的工具越好,你就能做越多的代理开发。所以如果你没有这些东西,已经不只是「哦,我的工程师每周浪费一小时」。你正在失去数千个代理周期的失败,或者说,花费的时间比之前长得多。

所以现在我们比以前更加专注于构建更好的 linters、formatters、分析工具,所有这些非 LLM 相关的东西,主要是静态分析。这对我们来说真的很有价值。最后一个要点是,在 Slack 上构建对我们来说真的很有价值。就像你们之前在我的演讲中看到的那样,我们有这个 devbox 或 minion Slack 消息,我们可以在其中启动一个 minion。这对于教育我们所有的工程师使用 AI 非常有价值,非工程师也可以启动它们。

所以这个在公众面前构建和与我们工程师分享的过程,嗯,可能如果你没有在 Twitter 上跟上 AI 的最新消息,你可能会选择打开编辑器并手动进行更改或使用标签补全之类的东西。但现在所有我们的工程师都看到其他工程师在公众面前工作,只是标记这些 minions,像「嘿,去做这件事。」这对帮助我们的大型组织接受使用 AI 完成很多任务非常有帮助。嗯,是的,在公司内部公开工作也非常有用。最后,我们在会议的其他地方有一个展位。

所以如果你想来和我聊聊 minions 或提出任何问题,请这样做。另外,如果你认为与 minions 一起工作或在这个平台上工作很有趣,Stripe 正在招聘。我们实际上为我的团队专门招聘一名 EM 或工程经理。所以,如果这听起来真的很有趣,你应该来和我们一起工作。我很想与你合作。我们这里还有一个赠品,如果有人感兴趣的话。你可以在之后来我们的展位看看。但是,非常感谢。非常感谢,Mark。嗯,午餐前的最后一场演讲。我知道大家都很饿,但午餐要等到演讲结束才开始。所以我希望你们给 Liha 时间来进行演讲。

Liho 正如你所说,嗯,Lihao 是一位在一家名为 similar 的公司工作的软件工程师,他将讨论从玩纸牌游戏到操作 ERP 软件。为什么你的计算机需要学会点击和输入?similar 正在开发真正擅长计算机使用的工具,Leha 将向你展示它是如何工作的。Leha,请继续。>> 谢谢。非常感谢。那么,你认为一天中在屏幕上移动光标多少小时?有人知道吗?五个小时。所以,嗯,几个月前,我们与一群朋友进行了一项实验。他们中的一些人和你们一样,对吧?AI 工程师、建设者,我们还有医生、管理员、会计。我们追踪他们,看看他们花了多少时间移动光标,对吧?这就是我们发现的。一天五个小时。

我们有人在触控板上移动手指超过五小时一天。这超过了你清醒时间的三分之一,对吧?不是在创造,不是在思考,而是在移动、点击。抱歉。点击、导航,对吧?在选项卡中滚动,嗯,在菜单中。所以我们已经将大量工作投入到这个数字空间,但我们与它的交互方式仍然非常手动。个人电脑。我们在 1981 年有了个人电脑,对吧?突然我们能够在几分钟内完成以前需要数小时的事情,对吧?这是一个巨大的飞跃,我们从文件柜和文件中解放了自己。但现在看看我们,40 年后。我们仍在点击、滚动、导航,对吧?一天五小时。我们只是将一种体力劳动换成了另一种。所以我们需要下一次飞跃。

那么,与计算机交互的真正有效方式是什么呢?如果你根本不必与计算机交互呢?如果计算机可以自己运行呢?它可以看到屏幕,理解任务,然后直接做。这就是我们在 similar 正在建设的。我们称之为自主计算机。对吧?这就是让我兴奋的,这就是我们正在建设的。所以我的名字是 Liha。我是 similar 的技术人员,嗯,我们正在为自主计算机建设基础设施。对。去年十二月,我们的研究代理 agent S3 在 OS world 中取得了超越人类水平的性能,这是计算机使用的标准测试。那么,自主计算机看起来像什么呢?让我给你展示一下,这是,这是我们的,嗯,产品。

所以在左边你可以看到屏幕,我们有这个聊天界面,LM 试图理解任务。它试图玩纸牌游戏。所以它试图看屏幕、理解发生了什么、试图看下一步最好的着法,并试图找出如何移动鼠标和拖动卡牌。对。右边是运行的机器,所以希望在一分钟左右,如果他给他们鼓励,希望 Sai 会进行第一步棋。是的。所以你可以看到它实际上能够控制鼠标光标并从左向右拖动卡牌。但这只是一个应用、一项任务、规则非常清晰,对吧?但想象一下你的实际工作日。在工作中,你做什么,对吧?你有电子邮件、你有 Slack、嗯、你有、抱歉、等等。

所以,在工作中,你有电子邮件、你有 Slack、你有电子表格、你有你的 PowerPoints、你有你的 QuickBooks、SAPs,以及你公司拒绝退役的一些遗留系统,对吧?所以这些工具中的一些有 APIs,对吧?所以这是去年我们有很多活动的地方,我们有 API 或 CLI 代理。我们有嗯工具调用、函数调用。很好。这部分已经解决了,这些应用中的一些在浏览器中,对吧?所以你听说了关于浏览器使用代理的演讲,它们可以处理嗯为你导航和查看你的浏览器。很好。

但再一次,还有其他一切——你的桌面应用、你的遗留系统、你的专有工具——没有 API、没有浏览器、所以没有,唯一的方法实际上是通过屏幕,对吧?所以那就是计算机使用。所以教一个 API 看屏幕、理解它上面是什么以及像你一样操作它,自主计算机是完整的,我们有 API 和 CLI 代理、我们有浏览器代理以及计算机用户代理为用户无缝地协同工作并处理浏览器上的任何任务。所以这就是我们在 similar 正在建设的,在建设它时,我想分享我们面临的三个主要挑战——可靠性、信任和可扩展性。那么让我们从可靠性开始。对用户来说。可靠性意味着一件事,对吧?它每次都工作。两件事必须是真的。

代理需要看屏幕并精确地对其进行操作。这就是基础。并且它必须能够在多个回合中做到这一点。所以在 100 次重复中,那就是一致性。所以你有基础和一致性。让我们从基础开始,对吧?盲人如何看屏幕?你使用屏幕阅读器,对吧?所以,它读取可访问性树,这是每个元素的结构化地图、名称、类型、状态,这是我们的起点,但还不够。很多时候有些应用没有完整的树。有时按钮隐藏在菜单中、嗯、下拉列表中、你有动态显示的元素,有些应用几乎根本没有树。所以我们必须用视觉基础来支持它。所以我们有专门的模型,可以实际上在视觉上查看屏幕并找出元素在哪里,对吧?

一个可以读文本,一个可以找到按钮和元素。当树有间隙时,视觉试图填补它。所以我们有可访问性树与视觉基础相结合。现在基础为你获得单个行动的精度。但连续一千次呢?在研究中,有一个矩阵叫做 pass at K,这意味着给定代理 K 次尝试,你有多少次,嗯,你有多少次得到它是对的,对吧?只要你至少有一次得到它是对的。所以,如果 K 是五,如果它在第三次尝试时成功,那就是一次 pass。但这不是用户想要的。用户想要我称之为 pass 的 K 次方,对吧?你必须每次都做对。K 次连续。没有错误。假设一个用户有一百个,嗯,线索,并想给每一个发送个性化的 LinkedIn 消息。

如果一个 LLM 驱动每一步的所有操作,每一次尝试在同一任务上 100 次可能会略有不同,100 种不同的行为。所以我们需要一个不同的范例。所以我们使用的是神经符号方法。所以神经,LLM 观察屏幕、推理要做什么,然后,所以这是思考,符号而不是只是点击,它写一个程序代码,那就是执行,对吧?就像大脑写一个食谱,机器跟随它,所以这是它变得强大的地方,第一次它调用 LLM 推理,但第二次做它,100 次,它只是重放代码,你不需要 LLM 推理,没有成本,本质上是免费的。所以这一切背后的语言是 Simulang,我们的计算机使用领域特定语言,可读的、可修改的,本周发布给开发人员。

那就是可靠性。让我们谈谈信任。一个可以在你的计算机上做任何事情的 AI 代理,对吧?你可以,嗯,发送电子邮件、删除文件、进行购买。这真的很强大,但也非常危险。如果它误解了一条指令或它产生幻觉,它可能会变得灾难性。所以这已经不是发生在随机用户身上,而是发生在 Meta 的 AI 对齐总监身上。在 similar,信任被构建到我们的架构中。护栏是来自规划代理的单独系统。做出做什么决定的那个不是做出是否安全决定的那个相同。所以你不能是同一个。你不能允许模型既是法官又是参与者。所以即使规划模型变得困惑或产生幻觉,护栏系统在危险发生之前捕捉它。第三个挑战是可扩展性。

我们在Similar的使命是将用户生产力提高100倍。你如何才能实现100倍呢?通过拥有100个手指、以100倍的速度输入,你需要100台自主计算机。但并不是每个人都想设置100台Mac mini、购买它们并为其进行设置,对吧?但每个人都想要拥有多台自主计算机所带来的生产力收益。因此,在Similar,我们正在构建基础设施来解决这个问题。当你注册网站时,这就是我们的产品。

嗯,你获得100个,呃,我们为你创建一个机器,对吧?这是你的机器,你可以做任何你想做的事情,你可以安装你的应用程序,你可以按照你喜欢的方式进行设置,然后你让Similar接管控制权,所以,嗯,你如果能创建一个,你就可以创建五个,你甚至可以创建100个,对吧?你可以让一个进行回归测试,你可以让另一个做其他的事情,第三个做一个电话后的CRM更新,你可以让最后一个运行报告。你可以让所有这些并行运行。那么我为什么在循环中呢?是的。所以100倍的生产力不是通过更努力地工作,而是通过让100台计算机为你工作。可靠性、信任和可扩展性。

这三个挑战,这就是我们正在做的,对吧?所有这些背后有令人难以置信的工程,嗯,有分布式系统代理,大规模可靠性,所以我们正在招聘,如果你感兴趣,请加入我们,所以请,个人电脑解放了我们免于纸张,自主计算机解放了我们免于人工工作,这个,我们是Similar,我会在街对面四楼的展位周围,我们很快见。谢谢。>>谢谢你,Lihao。有了这个,我们来到了你们一直期待的事情,那就是午餐休息。呃,在Hopscotch、Cayenne和Beastro有自助午餐。所以,你有多个地方可以获取食物。呃,我们走在时间前面,所以我们将在1:30准时开始下一场讲座。呃,首先是来自Cursor的Rio Louu,呃,他是设计主管。

所以你呃,不想错过那个演讲呃,并及时回到呃。呃,非常感谢各位整天坚持。很快见。嘿各位。不,我会宣布。好的。嗨各位。欢迎午餐休息后回来。呃,希望各位吃到了一些食物。呃,得以与人们聊天,呃,以及呃,以能量回来,为我们即将进行的下一个呃,一系列演讲做准备,我们将在国会大厦剧院进行。现在,我超级超级兴奋地欢迎下一位演讲者。呃,这是 Rio。他是 Cursor 的设计负责人。但我要分享一个小故事,因为对我来说,这一切始于两年前,2024 年中期,因为我学会了作为一个完全的非工程师使用 cursor 进行编码。我不知道你们呃,是否曾经使用过该工具,当时只是标签和内联,在 composer 模型多文件编排出现之前。

呃,那就是我学习的东西。但呃,Cursor 团队投入了很多思考来设计一个体验。呃,它对于像我这样的资深用户以及新用户来说。而且很多设计模式现在已经成为呃,跨所有不同类型的编码代理使用和标准化的设计模式。所以我很兴奋能够欢迎 Rio 呃,到舞台。呃,他将做一个关于设计下一个 Cursor 的演讲。>> 哟哟 >> 哟。你好。嗨各位。我是 Rio。呃,让我先唤醒我的电脑。很好。很好。很好。各位午安。我是 Rio。我在 Cursor 领导设计。呃,今天我将分享我们如何设计 Cursor,以将设计师和工程师带回我们的根源,当制作软件感觉更像玩耍而不是被困在僵化的角色、工具或流程中时。

还会分享我们的设计流程如何变得更流畅,因为我们使用 Cursor 来设计 Cursor。我将以我们对软件制作未来的愿景来结束。在开始时,软件设计和工程是同一回事。没有分裂。想象软件的人也构建了它。设计和代码是同一门工艺。材料是代码本身。思考和制作在同一个循环中发生。这是 Bill Atkinson。他在早期 Macintosh 团队中。他构建了 QuickDraw,一个 2D 图形引擎。他还设计并编码了 Mac Paint 和 Hypercard。他发明了移动行选择模式和许多我们仍在大多数图形设计应用中看到的东西。他用 68K 汇编语言构建了像素完美 UI。从概念到设计再到实现的每一个细节都是他的。他是设计师还是开发者?这是 Alan K.。

他在 Xerox Park 发明了 Smalltalk 和 Dynabook。基本上设计了整个个人计算的未来。他写了实现它的代码。他有一句名言。预测未来的最好方法是发明它。他构建了工作系统来证明他的想法。从 UI 到交互模型再到运行时,它们都是一门工艺。他们是设计师、开发者吗,他们都是建设者。问题那时没有意义。设计是代码,代码是设计,工艺是完整的。然后发生了一些真的很奇怪的事情,特别是在过去十年。我们分叉了自己。我们分裂成专业角色。设计师拥有视野,制作模型。工程师实现模型。PM 写规范,开会,让一切顺利进行。承诺是专业化会让我们更快。

但现实是我们变慢了,离代码越来越远,我们的工具也是如此。工程师大多仍然待在终端和 IDE 呃,Vim、VS Code、Sublime,但呃,代码仍然是事实的来源。设计师有点呃,搬到了云上。我们开始使用 Photoshop 制作位图。然后我们搬到了 Sketch,这是一个仅限 Mac 的应用程序,为 UI 进行矢量制图。然后我们将其移至浏览器,并在 Figma 中使其协作。设计师制作了美丽的模型,但它们不是真实的。然后 PM 和协作也有点分散。你有没人想更新的 Jira 票证。你有用于规范的 Google Docs。然后我们为周和规划做了概念,为其他一切做了 Slack。

然后就是这一切的 sassification 和呃,专门构建的工具,这实际上呃,创造了更多分裂,差距呃,扩大了。线性交接成为了常态。设计师在 Figma 中进行一些设计。PM 写规范。工程师得到一张票。匹配 Figma 成为了目标。但这呃,这往来的评论和会议真的很烦人。我们失去了这个紧密的迭代循环。从想法到模型到规范到票证到代码到审查到分段到生产需要数周,从想法到现实需要数周。设计师无法接触真实的东西,即代码。工程师无法在没有票证的情况下进行探索。材料,代码变成了别人的工作。我们告诉自己这是进步,专业化,最佳实践,设计系统。但我们用流程换来了工艺。我们用协调换来了建设。

我们分裂了应该完整的东西。代码是人类和机器之间的通用语言,这是我们的交易材料。代码再次成为了材料。代码是事实的来源。这是真实的东西。这不是模型。但现在随着代理编写代码,你可以通过询问、指导、改进来进行设计。工艺变成了知道构建什么以及它应该如何感觉,使用真实材料,并用其他人类和代理来实现它。Cursor 可以将工具和建设者结合成这一件事,以便我们都可以一起制作伟大的软件。我们如何到达那里?输入 Cursor 3。Cursor 开始时从 VS Code 继承了很多复杂性。当代理成为人们使用 Cursor 编写代码的主要方式时,所有这一切在过去一年内都发生了变化。这个遗留呃,对代理编码器来说有点成为了一个负债。

这个文件中心视图的很多东西现在都没有意义。对于新编码器,他们仍然感受到很多摩擦开始,被轰炸了所有这些他们不知道的可怕 UI 和概念。我们也看到了一个从在这个本地文件状态上运营呃,与代理交互呃,转向呃,多个代理在不同项目上运行,越来越呃,在云中运行。这呃,将文件中心的 IDE 视图翻转到一个呃,新层次结构,围绕呃,代理及其环保。为了呃,我们改装 VS Code,改变布局呃,创建了很多 UI 分叉,边缘情况和破碎的状态。它呃,跟不上世界变化的速度。那么,我们如何从这个文件中心的软件视图呃,转向一个呃,对每个人类及其所做的事情进行调整的代理原生界面呢?

我认为呃,呃,有两个主要的哲学来构建 AI 工具,区别呃,真的很重要。一方面,呃,你得到一个黑盒。你输入你想要的。人工智能呃,呃,你看不到的地方做了什么东西。当它有效时,你呃,没有真正学到任何东西。你只是呃,跳过思考。当它失败时,你呃,真的不知道为什么。特别是作为一个新编码器,你会继续燃烧更多令牌,而不了解呃,实际发生了什么。你看不到,无法干预,无法编辑。你要么赞成每个呃,改变,要么放弃。你只是呃,模型的产品。另一方面,呃,你得到玻璃。它开始很简单,但如果你想,你可以看到更多。代理呃,流式传输,代码呃,在背景中运行,人工智能呃,与你思考你的方式。你可以呃,重定向神话光,随时停止,用你的方式盯着,呃,编辑那个两像素填充呃,如果你想。

你呃,不一定要呃,阅读每个呃,改变,但你呃,总是可以。有经验的编码器可以呃,让代理流程呃,在正确的时间审查,并在需要时进行编辑。新编码器可以呃,用 Cursor 学习新的软件概念。他们呃,可以通过呃,询问、构建、修修补补学习,然后呃,看到系统的更深层次。你呃,保持控制,呃,建立直觉,并将 Cursor 塑造成你的思考方式。随着 AI 变得更强大,玻璃呃,变得更重要,而不是更少。呃,运行数小时的自主代理需要可读性呃,供人类呃,监控和干预。多代理呃,系统呃,需要可检查、耐用的计划呃,人类呃,定义的清晰边界。我们呃,也需要呃,人类和呃,代理的共享空间和可塑接口呃,一起思考。我们呃,选择了玻璃方式呃,为人类和代理带来了呃,聚焦、可读、可定制的呃,界面。

每个呃,代理,他们呃,的行动,呃,工件是可见和可编辑的。呃,计划你呃,可以塑造,呃,代理呃,状态呃,你可以呃,检查。呃,零呃,隐藏的魔法呃,无限呃,控制。但它呃,开始很简单。你呃,可以呃,用编辑器关闭的 Cursor 呃,没有自动打开呃,文件,没有呃,干扰。呃,它呃,有点作用呃,作为呃,与其他呃,工具和呃,工作流呃,的伙伴旁边。但它呃,随着你呃,的使用和呃,你呃,想要时呃,显示复杂性呃,你呃,可以呃,看到呃,更多。当你呃,为呃,更多项目呃,在呃,软件制作的不同阶段呃,从呃,规划到呃,设计呃,到执行呃,到审查呃,使用 Cursor 呃,界面呃,呃,变成呃,适应你呃,并让呃,你呃,专注于呃,你擅长的事情。经验丰富的呃,开发者呃,可以呃,以呃,多个代理呃,审查呃,改变,以及呃,当呃,需要时进行呃,精确呃,编辑呃,速度很快。

设计师可以快速草绘、在浏览器中看到代码运行、用即时反馈标注和调整每个细节。产品人员可以思考、规划、探索选项和权衡,在一份完全交互式的协作文档中与了解整个团队背景的代理合作。一切感觉既瞬间熟悉又充满力量。为人类而设计,而非为某个模型而设计。我们让你可以调整并为你定制Cursor。核心保持简洁,但你可以通过插件和技能等可扩展概念进行定制。还有虚拟界面可以适应你的操作。我们尊重用户习惯和控制权。我们从不强制做出剧烈改变。我们没有拿走任何东西,而是向人们展示有一种更简单的新方式来完成任务——对于那些倾向于这样做的人。现在让我分享我们是如何做到这一点的。

疯狂的是,整个新界面的设计工作在大约一个月内完成。一切始于我们在今年初开始探索的一个随机原型。所以Lee、Rob和我在今年初启动了Baby Cursor 3。Baby Cursor是我们对原型设计环境的名称,人们可以在其中分叉、探索想法并与他人分享。在设计AI工具时,你总是会遇到很多非确定性情况,静态模拟无法捕捉细微差别。我们真的必须亲身体验。所以目标是设计Cursor,使其能够从最简单的形式扩展到专业工程师和软件创作者会喜欢的复杂产品。在这个原型的新版本中,我们使其成为一个完全功能性的Electron应用,构建在Cursor CLI之上。

我设计了一个简单的布局架构,可以支持一个到多个代理、一个到多个项目、零到多个内容选项卡和分割。它适用于任何空间限制。事物总是从简单开始,但随着你使用工具的增多而增长。在Figma中制作这些动态状态的模型可能需要几个月,而且不会给你真正在代码中体验它的感受。这样的高层级信息架构和流程基本上在一周内完成。在传统设计工具中,复制画板、状态和导出选项非常容易。你总是最后会有很多状态快照,而不是一个统一的完整视图。在Cursor中,在Baby Cursor 3中,我们添加了内置的特性开关系统,我们的设置以文件形式存储。

这样可以让我们探索非常大的架构分叉,也可以探索每个细微的细节和排列组合。然后你可以看到事物如何组合在一起。通过每天使用原型和探索选项,我们能够发现影响更深层架构决策的新约束。一个例子是:当你在代理之间导航时,布局如何变化?右侧的选项卡在你在它们之间导航时会改变吗?它们被绑定到不同的代理吗?它们是每个工作区还是环境?或者它们都是独立的,像VS Code一样?这真的很难用语言解释,但当你能实时感受到它时就很容易了。我们然后将Baby Cursor发送给公司的每个人来使用和获得反馈。工程师们开始分叉并将他们的想法和观点添加到原型中。

然后我将它们综合回去,并根据团队的反馈和新想法进行更多迭代。我们通过构建原型学到了很多。哪些布局在不同条件下的实际使用中是合理的?有哪些不同的默认值和自定义选项需要暴露?我们如何让复杂性感觉简单?应该保持可见多少控制权对比隐藏多少?进度披露应该如何工作等等。从原型中,我反向工程代码进入一个高级规格,我们记录每个选项和细节。视频和截图成为了新Cursor的模型。然后在33条长讨论线程的RFC之后,是时候把它变成现实了。工程团队也采取了更激进的方法,灵感来自于构建这个原型的速度。

我们基本上决定从头开始重写Cursor的整个UI,采用全新的设计系统、组件库和干净的基础。当工程师们在这方面工作时,我为更多边栏分组定制、输入定制、预览和细节进行了原型设计。然后我第一次回到Figma,这样我可以尝试我们最终没有发货的液态玻璃和所有视觉细节。我们的工程团队在这两个月里做得很努力,用React从头开始重写了整个Cursor UI并构建了一个新的设计系统。一旦事情有点熟了,我们开始使用新的Cursor来构建自己,并对仍然感觉有点奇怪的东西进行了测试。设计师们也回到了代码中。

所以,我们在开发小细节、打磨新组件、图标、颜色、主题、活力、动画——所有模型看不到的小细节。设计过程变得真正流畅。它不再是线性的。我们只是使用最好的工具来精化工艺。无论是花更多时间思考制作这些原型或模拟,还是直接进入代码。在今年三月底,我们发货了alpha版本,我们与内部和真实世界的用户建立了这个快速反馈循环。我们专注于我们第一次发货的性能和质量。发货Cursor 3后,我们构建了Baby Glass,这是我们的下一代原型设计环境,可以在一个单一原型中可视化Cursor从现在到未来的状态。

它是建立在我们新的设计系统之上,并使用Cursor 3中的真实组件。我们把它带回了网络。所以它不再是Electron应用,因为分享状态和链接给他人变得非常容易。所以他们可以点击链接然后给出反馈。我们也改进了未来的标记和版本控制系统,这样我们可以可视化Cursor从当前生产状态到我们需要朝向的每一步的更未来的里程碑。我们也构建了更好的交接流程,这样这些Baby Glass原型可以变成工程师可以在真实代码库中基于此进行构建的第一个PR。看起来超级不错。它有桌面。它有一些壁纸、主题,我们甚至在Baby Glass内部构建了一个工具,你可以生成模拟和视频。我们计划将其用于我们网站上的实际演示。

所以制作Glass让我们对软件制作的未来有了很多清晰的认识。它应该更具协作性,这样人类可以在同一背景和工具上与代理团队一起工作。当我们使用代理来实现更大的目标时,代理和人类共享同一空间就变得越来越重要,这样他们才能达成构建的正确决定。随着每个人都成为构建者,来自不同学科的人,不仅是工程师,最终可以聚集在一起并在相同的目标上工作,具有相同的代理设置、工具、知识和工件。我们认为未来应该更具定制性。我们的界面和工具应该适应我们是谁以及我们做什么,而不是相反。

每个人和每个团队都是不同的,而底层概念和工具是相同的,这样你可以构建、连接你的工作流程和工具,并为你自己和你的团队将你的代理定制到最精细的级别。我们认为未来更加自主。更多的代理可以处理重复的工作流程,简化和消除手动流程,而人类定义系统和边界。我们可以自动化诸如问题分类、发布说明、安全和代码审查等内容。你可以用验证循环设计你的系统,真正定义什么是正确的,这样代理可以为你处理更多事情。最后,我们应该构建更雄心勃勃的东西,并思考我们还能做什么,而不是制造更多东西和增加更多垃圾。我们可以一起构建更好、更简单的软件。

与其添加更多东西,你可以实际上使用你节省的时间来深入思考和弄清楚什么是最简单的抽象,什么是为你的用户构建的正确东西。做一些疯狂的事情,这在与其他人一起是不可能的。未来属于能够思考和构建的人。别等待。开始构建。没有黑箱。呃,非常感谢你,Rio。只是让大家知道,如果你们还没有查看过的话,Cursor在Italier in Kinsky有一个展位。所以你们可以去那里见团队的一些成员。好的。呃我谢谢你。>> 谢谢你。>> 是的。好的。呃我想欢迎下一位发言人上台。呃这是Ain。他是Figma的员工产品设计师。欢迎上台。

所以Ain目前在Figma Weave上工作,并且一直在Figma的许多非常受欢迎的产品背后,包括Figma Buzz和FigJam。FigJam是我个人喜欢使用的东西。嗯,他将就设计多模态多人AI进行演讲。在他准备的时候,嗯,只是一些快速的通知。第一个是今晚我们实际上将把整个剧院从讲座转变为夜总会以举办派对。是的。呃,所以如果你呃只是记得带上你的徽章。这实际上是我们将如何检查你的方式。所以如果你是参与者呃你可以直接带上它。呃无需担心来自Luma的二维码。呃然后下一个事情是我们在普尔曼有一个演示舞台,现在实际上正在启动。

呃但如果你想在某个时刻停下来看一些演示,来自一些本地初创公司关于他们如何将AI嵌入到他们的工作流程或产品中,呃去看看。对,没有进一步的延迟,Aen。好的。大家好。哇,这比我想象的人多得多。呃,好的。呃,我是Ashang。我是Figma的产品设计师。今天我想谈论为什么我们的AI工具应该是多人且多模态的。所以我们今天拥有的AI工具专注于让个人速度提高10倍。但我觉得更难但也更有趣的问题是,我们能否让一群人一起速度提高10倍?因为当执行变得便宜时,协作和对齐就成为瓶颈。

这实际上来自另一个AI工程师的演讲,由Maggie Appleton进行,她是GitHub的研究工程师,我真心同意她的框架,因为决定构建什么和不构建什么现在比以往任何时候都更重要,如果我们探索、规划、对齐的方式不改变,团队的进展将被阻止。这也与Roy之前分享的内容非常相关。我只是觉得我们今天拥有的工具并没有真的让任何这些变得更容易。大多数当今的代理工具都是左边一个聊天,右边一个工件。但聊天是单一访问、一个线程、一个方向、一个真实的来源。它使你倾向于一次性,对吧?因为界面中很少有提示告诉你如何分支、并排比较想法等。

这最终是一个收敛的界面,而不是发散的界面。我认为当我们设计AI工具时,我们也应该为发散而构建界面,因为创意过程既是孤独的又是社交的,最好的想法通过思想之间的摩擦被锐化。所以我认为我们应该构建促进这个过程而不是移除它并将我们隔离开来的工具。所以是的,这是一些关于AI工具发散界面的想法。几年前,我帮助构建了一个叫做Jambot的小部件,嗯它存在于Jam中,它允许你用Hatcht以一种视觉、非线性和多人的方式探索想法。这是在LM还都是关于文本的时候,在你可以从零到一运送代码之前。

往回看,我将canvas视为这个真正迷人的可塑媒介,其中额外的维度可以使多人存在和分支迭代感觉更自然。所以这个演讲的下一部分将是一个小演示,我很乐意你加入我。如果你有笔记本电脑,只需键入这个链接并输入你的名字,希望你在里面。呃,我知道Wi-Fi有点不稳定,嗯,这个演示纯粹是通过Claude编码的,我不知道。呃,从来没有尝试过要求这么多人加入,你们比我想象的多得多。所以,祝我们好运,但呃,如果你可以的话请尝试一下。你好,你好,你好。我将在这里缩放,但它是地址栏中相同的URL。

一旦你加入,你应该能够看到画布带有幻灯片加一堆像小游戏这样的预加载。所以你可以点击来玩这里的任何游戏。所以我只是要从顶部选择这个像Flappy Bird这样的东西。哦伙计们。好的。我真的希望它不会破裂。但好的。啊我已经输了。好的。这真的很尴尬。呃所以如果你悬停在这里的笔记上呃你应该能够看到这个提示框,你可以像添加元素呃改变美学、机制等等。例如,我的朋友Annie昨天建议给我的鸟添加一个怪物伙伴。让我们看看会发生什么。当这流动时,我也想知道如果我将背景改为银河会怎样。好的。现在我可以看到亚洲正在基本上采用我的提示。它正在重写计划,也在重写代码。

我在顶部有这个。好的。它下降得太快了,你知道,但好的。好吧。呃,我会看看你们是否还制作了其他东西。所以,呃,我不确定发生了什么,但呃,我真的希望我不会陷入真空中,但从这里开始我应该能够继续迭代。有一个机会这对你们所有人都有点柔软崩溃。所以,我很抱歉。但我喜欢可以给鸟添加帽子给鸟并继续等等。所以现在你可以看到喜欢我们有点在协作这个执行代码的最原始版本。我也将刷新并查看它是像我的问题。好的,它像真的把自己搞乱了。所以对不起。

但我觉得让我着迷的东西是有这样简单但也有点可视化的版本历史表示,感觉非常邀请迭代,对吧?并能够看到协作以实时发生。想象一下,如果真正的软件原型设计实际上也能感觉这么协作。这个概念本身对我来说感觉非常令人兴奋。现在通过使这个空间多人,呃我认为它也引入了像边界情况。呃我们需要考虑以启用多人和代理之间更好的共同创造。

所以今天大多数AI工具我们让代理作用于我们为我们行动于应该被自动化的任务,这是好的,对吧,但在协作探索中,我们依赖人类和代理作为即兴合作伙伴,空间应该感觉允许,对吧,我们可以触及彼此的工作并在实时迭代同一件事,所以例如,好的,这真的很难崩溃,所以我有一个本地版本,以防万一做好准备。所以,让我再试一次。给我的鸟添加一个怪物伙伴。好的,所以当我输入时,你可能会看到有一个我有一个呃一个选项也进行编辑,这将允许你有点覆盖某些东西,对吧?这引入了冲突编辑的可能性,例如。

所以如果我在这里说喜欢我想喜欢制作呃制作主题中世纪并且我点击进行编辑,现在想象一下如果有人在同时在同一件事上工作,对吧,所以例如如果你在这里编辑视觉风格,有两个视差层,例如,有一个机会喜欢有人可能接触同一个工件并重写它,这应该是允许的,对吧,就像在Google文档或Figma中,因为空间是尽可能许可的以鼓励共同创造。在这里我看到我真的希望它流动但如果它不呃我注定了。呃但这里的原始计划是你将能够看到代理游标也在我身边进行更改。呃,因为它输出替换我的编辑,对吧?

我认为在这里它应该问我是否实际上应该重写它。它也也也显示流动的输出。所以我可以比较并决定我是否想允许它重写它或不。那将只是最少的例子,对吧,我只是要使用这个。那只是最少的例子,对吧?但我认为它得到显示为了使AI多人,你真的必须设计这个体现的存在。所以这里的代表应该设置期望关于它能做什么。在这种情况下,它会已经能够向我展示它正在编辑的文档,它将能够与它自己的文本指针一起出现,它也应该可视化地显示其更改范围,它应该也显示如何处理与他人的冲突编辑,无论是人类还是代理。

我实际上认为在许多方面类似于为人类设计体现的存在今天呃我认为它非常我认为它非常相似呃无论你是在文档或画布中设计光标。呃,所以那只是一个关于使AI多人的演示。但对我来说,这只是开始。我认为下一个前沿实际上也是多模态的,这真的是关于拓宽沟通渠道,以便人类和代理都可以以更丰富的方式表达自己。有三个方向我对这里感到非常兴奋。首先,我认为我们应该构建真正多模态的模型。几天前,呃,这来自于思考机器实验室。

我认为他们分享了一份关于他们所谓的「交互模型」的研究,该模型本身是多模态的,而且微术语 b,所以它总是实时交互的。我喜欢他们的表述方式,就像「基于轮次的 AI」有点像通过电子邮件与你的代理交谈,而不是面对面交谈。所以这是在模型层面推动边界,老实说,这比这场演讲酷得多。所以你应该完全去看看,如果你是模型构建者,请让它发生。第二,我认为当代理在更丰富的数字媒介中移动时,我们应该为其构建更好的「具身在场」。如我之前所说,以光标这样简单的东西为例。你可以通过位置、运动和交互(如点击)来表达很多东西。

所以,这是一个沟通渠道,就像我们通过肢体语言理解彼此的意图一样,我们也应该为代理设计肢体语言。但即使是现在,对吧,我们也可以用交互模态做很多事情。所以 Guey 已经帮助人们以更丰富和更直观的方式传达意图,而且我们在构建它们方面有数十年的经验。所以想象一下我们如何能够同时处理多触摸、手写笔和语音等输入,像 Diana Lou 的这个界面实验一样,或者我们应该想想你在你的界面中可以构建多少「确定性」,你「确定性」,你可以在你的界面中构建,对吧?

比如这个例子Figma Weave,一个笔记型工作流工具,可以生成富媒体内容。我要坦白,我在这个工具上工作,但这种笔记型的AI原生工具类别令人兴奋,因为它融合了模型和我们已经知道的UI设计模式,并为他们的创意探索提供了所需的精准性和控制力。从这里你可以挖得很深。所以,我希望我刚才分享的内容能给你灵感,让你思考你的代理如何与多个协作者互动,无论是人还是代理,以及他们可以使用什么模式。嗯,我肯定会关注这个领域的进展。如果你想聊天,可以在Twitter上联系我。

如果这些对你有共鸣,一定不要错过今年的config,这是Figma的设计大会。那里也有一些可能对你感兴趣的更新。所以,就这样吧。谢谢。非常感谢,Ain。嗯,我很高兴介绍我们的下一位演讲者。这是Saleem,Menllo Research的机器人工程师。请上台。嗯,对于不了解的人来说,Menllo Research是Azimoff的背后公司。这是一款开源人形机器人,你可以训练和定制它。他们将是第一批在我们物理AI轨道上发言的人。嗯,这真的很令人兴奋,因为我们想引入嗯,你知道,新的讨论,不仅仅是把AI视为大语言模型,而是你如何真正让它理解和与真实物理世界互动。

所以um Saleem将讨论嗯他的话题是「噪声就是你所需的一切——工程仿真到实现开源人形机器人」。>> 你能看到幻灯片从这里开始吗?谢谢。>> 嗯大家好。嗯我是Sim。我在Melo Research工作,这是一家在新加坡注册的公司。我想讲解一下关于代理机器人的知识,以及基本上如何no-code编程真实世界。嗯Melo实际上是一个全栈团队。嗯我们有27个人分布在世界各地。我们嗯在新加坡有一个办公室,位于Syndam Square,这实际上是一个非常好的地方。嗯我们在越南胡志明市有一个办公室,我们即将在嗯旧金山下个月开设一个办公室。嗯我们的团队基本上27个人中有25个是工程师。嗯我是Salem。嗯我用于——我在2025年加入Menllo。

我之前在加州帕洛阿尔托的特斯拉工作了六年,担任软件工程师。我来到Menllo基本上是为了领导机器人方面的工作。嗯,如你们所见,我们做全栈机器人,从硬件up嗯从硬件up到嗯最高层嗯应用层。所以,我我猜你们已经听说过一点ESO。基本上是一个开源人形机器人。这是世界上唯一的开源人形机器人,它实际上嗯你知道有点viral,我们没有预料到那么多。我们嗯嗯它在像多个国家viral,在德国。德国有一篇文章,在日本。所以嗯所以我们决定基本上创建DIY套件,基本上就像一个盒子,里面有人形机器人的所有不同部件,然后我们有一个在线手册,你可以在家里构建机器人。

嗯你知道,我们把它放出来进行预订,我认为我们在两天内获得了嗯100万美元的预订。嗯,人们对人形机器人领域非常兴奋,特别是像学习如何使用人形机器人,嗯,如何学习它们如何工作以及它们如何行动。嗯,所以很多人问我们,你知道,就像你们为什么要构建硬件?硬件很难。嗯,我想今后不涉及硬件会更难。嗯,所以作为一个开源参考人形机器人设计。所以这意味着任何能fork设计的人都可以在家里或在制造嗯设置中构建人形机器人。所以我们的目标基本上是在全球创建一个分布式制造合作伙伴网络,他们为想购买它们的人创建esop,而我们拥有参考设计。

几乎就像嗯像Android我想,三星和华为之类的构建硬件,而你基本上拥有开源参考设计。嗯,这非常有趣,因为当我们把DIY套件放出来销售时,我们实际上获得嗯200多家工厂联系我们想要构建机器人,他们来自世界各地。一些在土耳其,一些在德国,当然还有美国。嗯,甚至一些在尼日利亚。嗯,所以像世界各地都有他们实际上可以嗯构建as,而我们拥有开源参考设计。嗯Esimov还包括我们在内部构建的东西,就像一个机器人处理单元。这对我们来说非常重要,因为它嗯基本上是一个可以控制整个机器人的控制器。

机器人由像35个马达、8个摄像头、嗯2个麦克风、1个扬声器组成,全部连接到坐在躯干中的单个板子。而这个板子也很嗯有用,比如它可以在本地运行模型在里面。这非常重要,因为如你们所知,代表ESMO定律。有三条ESO定律,这些定律基本上是不伤害任何人、服从你的嗯服从命令和保护自己。而定义普遍安全是非常困难的,对吧,就像生活在中东的人的安全不同。生活在新加坡的人的安全是不同的。就像我是土耳其人和德国人。我嗯我是双重国籍。所以就像我两个国家的安全要求是不同的。所以我们决定实际上把安全作为制造商的相同的。

我们想让它成为构建as的人、开发as的人的分布式共识来决定安全意味着什么。所以它几乎就像一个共识。想想比特币。想想所有这些其他的就像区块链嗯技术,其中人们决定什么是安全的,基本上创建一个功能安全模型、计算机视觉模型,可以在任何时候当它试图做错误的事情时接管机器人,那个嗯不管as法律的嗯,这就是为什么基本上把它烧进一个设备是非常重要的。所以它不是在云中运行,它只是在设备中本地运行。

githash被烧进CRC你可以读出所有内容,就像嗯那个单个板子,制造商必须使用,否则他们不被允许构建as,所以关于像如何no-code编程现实的一点,嗯no-code编程很有趣,因为你知道嗯在像开放爪子的时代,人们可以像基本上自动化他们的工作流每个人都感觉像一个AI工程师,对吧?就像,你知道,人们基本上可以每天早上总结一封电子邮件,然后可能认为他们可以在OpenAI申请,只是因为就像他们有所有这种力量,对吧?只是no-code编程东西。而我认为我们在Meno真正想要做的除了硬件方面,就像在软件方面,我们想要嗯我们想要基本上把每个软件开发者变成一个机器人工程师。

就像Open Claw和其余的一样把每个软件开发者变成一个AI工程师基本上,对吧?而我们如何做到的就是基本上我们有一个系统设计,就像在软件方面,就像一个代理。代理基本上是你们可以带进来的东西。这不是我们提供的东西,这可以运行CL,这可以运行codecs。这可以连接到你像所有你拥有的不同外部工具。嗯这是我们称之为就像大脑,缓慢思考的大脑。然后我们有嗯技能和机器人控制,它在机器人内部运行。所以技能基本上意味着如何执行某个任务。如何拿起一个杯子,如何握手,如何行走。嗯而机器人控制嗯基本上是一个实时操作系统。

确保这些命令通过机器人不会跌倒。嗯它内部有一些安全机制。而且只是为了给你你知道一个例子,就像座舱,当机器人自主运行时的样子。所以基本上当你知道当你想从A装载箱到B时,对吧,首先机器人在内部运行这个感知和规划代理,那个嗯可以检测不同的嗯障碍可以检测不同的嗯不同的情景嗯取决于它看到什么。嗯第二件事实际上嗯你可以通过模拟训练来获得技能,几乎就像开放爪子技能。mmd文件,对吧,你可以训练技能拿起一个杯子嗯你知道向前移动locomate向前运行嗯跳嗯这些是通过不同类型的模型训练的,但几乎就像抽象为技能。

这要么是一个VA拿起东西。这是一个Walt行动模型,或者这可以只是像反向运动学一样,对吧?而现在你可以规划,而且你有技能来执行。而最后一步基本上你可以只是把它插入你的代理。所以现在你的代理基本上你嗯你不是发送视频和音频流到你的代理。你只是发送文本和技能,而机器人几乎就是一个MCP服务器执行这些任务。而你可以做的下一步基本上你可以创建一个看板板,你可以给一队在你的工厂或在你的家中运行的机器人分配票据。而有趣的部分是那些嗯我之前提到的机器人处理单元。你可以连接那些机器人处理单元到任何类型的机器人。一些技能实际上是可转移的。一些技能不是。

所以你可以连接这些运行所有安全法律的机器人处理单元到任何类型的机器人,基本上通过我们的栈你可以连接它们到像一个几乎就像一个舰队协调器一样的群体智能,然后你基本上可以你知道控制你的整个环境。机器人是开源的,那个技能由社区训练。安全法律由社区训练,而机器人由制造合作伙伴构建。所以我认为那个那个那个是一种像嗯Melo在这里嗯在新加坡周围试图实现的目标,而无论谁是你知道对加入我们感兴趣的人。我们实际上开设了一个办公室嗯在Melo Park作为我们的名字说的,对吧?嗯任何对此感兴趣的人都可以加入我们。嗯而任何在新加坡对此感兴趣的人也可以嗯我们可以谈话。

嗯什么样的技能集是必需的?机器人没有特定的技能集。就像一个多维的问题。你需要有感知的人、电气工程师、机械工程师、推理优化、GPU优化的人。你需要所有这些人。嗯我希望与我们也在后台拥有的整个社区,为我们构建ESO,我们可以在这里在新加坡做出伟大的事情,作为第一家人形机器人公司在这里。谢谢大家。谢谢,Seem。现在我很高兴为物理AI轨道带来我们的第二位演讲者。嗯,Alberto,Reactor的创始人。嗯,Reactor最近刚走出隐身模式。嗯,这是一家专注于称为「世界模型」的东西的初创公司,嗯可能你们中的一些人很熟悉,或者一些人听说过,可能嗯Nvidia的GTC后。

欢迎。嗯但嗯我们非常兴奋嗯带他来这里讨论你如何实际上创建交互式模拟环境来帮助物理AI的下一波浪潮。所以他将讨论世界模型,看向未来。>> 嗯,这只是我的演讲。我认为我可以做到这一点,但我不知道它是否在工作。你认为它在工作吗?>> 好的。嗯,谢谢大家。嗯,非常兴奋能在这里。所以,今天我将向你瞥见世界模型的世界。毫无意外。嗯,首先,我想通过给你快速了解世界模型今天的状况和它们能做什么来开始演讲,因为我认为有时人们嗯不知道世界模型已经可能做什么,这相当令人吃惊。

所以不言而喻,嗯这是一个视频嗯这实际上不是一个视频。它在reactor上实时记录生成,你可以看到我在palosing这个嗯这个北极熊。现在,当我看这个视频时,我无法完全区分这是否实际上嗯像真实视频还是像视频游戏。但你在这里看到的实际上是在reactor平台上实时生成的东西。所以,嗯,这是为了向你展示今天已经你可以用世界模型生成的质量有多令人印象深刻。而所有这些当我记录它时以每秒30帧实时运行。而且我可以只从键盘控制体验。而且它会全部实时改变,只是从一个图像开始。

所以我只是想设置舞台,因为了解这些模型已经有多先进以及今天什么是可能的是很重要的。这只是一个早期的瞥见。我将在演讲过程中稍后向你展示更多。我认为这已经可能真的是不可思议的。嗯关于我自己的快速,我是Reactor的首席执行官和联合创始人。嗯我们以民主化世界模型访问和人们用它们构建的目标开始Reactor。嗯,在过去我联合创始人嗯Luma AI,我是首席技术官和联合创始人嗯,我也在Apple上致力于视觉专业版。所以我总是热爱嗯空间、视觉、3D和实时的领域。

嗯而u,那最终导致我思考,好吧,AI和嗯一般生成式AI中真正的下一个前沿是什么,对我来说变得明显,那就是世界模型和实时嗯视频生成。嗯所以重要的是,嗯思考过去比如说五年中在AI领域发生了什么,特别是视觉AI。嗯在开始时,你知道我们有我们今天有可以生成文本、音频、图像和视频的东西,但所有这些模式都是都是被动的。

嗯当你提示一个比如一个图像模型时,嗯你最终收到一个文件出来,但对于生成的持续时间,没有来自用户的交互,没有什么让你与模型交互,而模型无法处理嗯外部刺激,所以嗯比如如果世界中发生了一些东西,而你会嗯你会想要模型反应,那是不是嗯那是不可能的,因为这些模型真的是被动的,而不是交互式的,而所以在未来更多和更多AI工作负载将要实际上实时交互式和和完全嗯意识到他们周围的世界。而这是这是因为嗯你真的需要嗯有这些模型思考这些模型思考他们周围的世界为了在现实世界中部署它们。

否则,呃,他们真的不了解周围发生什么,也不能实时做出反应。嗯,所以为了实际讨论Reactor所做的其他工作,我认为重要的是先谈论什么是世界模型。嗯,我们定义世界模型的方式,我认为与很多人的定义略有不同。呃,我们认为它们首先具有长期记忆。我们只是为了简洁起见称之为持久性,但它们知道——它们意识到它们之前生成过什么。呃,它们也是实时的。呃,这意味着你可以调用这些模型,可以与它们交互,它们会对你做出反应。另外,它们进行因果思考,意味着它们意识到之前发生过什么。

不仅它们记住了,而且在生成你希望它们生成的下一阶段输出时也会将其考虑在内。正如我所说的,你可以实际上戳它们、与它们交互。不仅像人类一样,还有外部的、你知道的物理事件或互联网事件,无论你的世界模型应该做什么。嗯,所以你可以真正将它们视为状态机,呃,理解外部输入,考虑之前发生过什么,并基于此生成新的输出,呃,这与图像、呃,图像和视频模型非常不同,因为那些模型没有呃,呃,之前发生过什么的感知。嗯,所以这就是为什么,为什么我们很兴奋,因为这改变了整个软件的本质。

比如在当前一代生成AI中,你生成工件,但在下一代生成AI中,你将生成应用程序,因为它们是交互式的、实时的,而且你能够,呃,它们,它们,它们意识到周围世界发生的事情。这将完全改变不仅媒体和机器人,还有整个软件。嗯,这是一件非常令人兴奋的事情。嗯,所以今天,呃,实际上我们已经有很多用例。

呃,我再想想,呃,容易不认为世界模型是今天有用的东西,但实际上例如在机器人领域,呃,机器人公司越来越多地使用它们,呃,代替VAS和VLMs,呃,因为,呃,它们,它们,它们更善于意识到,呃,机器人周围发生的情况,它们甚至可以直观地想象机器人应该做什么,例如在头像和数字人类中,你知道,实时视频AI和世界模型,呃,比显式基于3D表示的方式强大得多,因为你可以将它们适应各种情况。

嗯,例如对于广告,你可以,呃,使用世界模型和实时视频来实时为每个用户个性化内容,这真的是,呃,媒体和广告的圣杯,但也在某些情况下涉及新型艺术努力。嗯,对于模拟,再次能够以实时方式运行,呃,生成模拟,以更精确、更代表真实世界的方式,并改变了模拟中可能的游戏规则。而Reactor最兴奋的事情之一实际上是生成软件的想法。这意味着的是,为什么我们要停止生成媒体、呃,游戏,呃,呃,以及帮助机器在世界中实际行动?如果我们能够生成屏幕上的每一个像素,呃,实时,呃,直播呢?

如果你想想人类与机器和由其他人定义的接口交互时有多少挫折,而这些接口对另一个人来说并不真正可用。生成软件有可能真正改变我们未来与软件交互的方式。嗯,所以我们也相信世界模型真的在通往AGI的关键路径上,因为,呃,你从视觉输入能获得的信息远比你从文本能获得的丰富得多,呃,当你拥有能与真实世界交互并理解它的系统时,这就是你真正在全球以非常有用的方式部署AI的方式。呃,呃,所以我们也感到,呃,通过构建Reactor,我们在那条路上,所以在解释了所有这些之后。

我们在Reactor上构建的是世界模型的开发者平台。我们的意思是,我们的使命是民主化获取世界模型的权限,这样你和每个人都可以使用它们,呃,用它们做有用的事情。呃,它们因为难以使用已经被锁定很长时间。如果你想大规模运行它们,你必须考虑延迟这样的事情,你必须考虑流传输,你必须考虑超级采样。Reactor为你处理所有这一切。

这样你这个开发者就可以专注于应用程序代码,呃,构建你用世界模型和实时视频AI梦想的任何东西,我们认为这是我们真正获得更广泛,呃,呃,世界模型采用的方式,呃,以及这种类型的这项技术,呃,我们也使前沿实验室和研究实验室在Reactor上部署他们的模型变得非常非常容易,这样他们可以测试它们,将它们分发给其他人,甚至,甚至,呃,从使用他们模型的人那里赚取收入。嗯,我想在这里给你展示一些有趣的东西。所以,这是我实时生成的Jensen走过NVIDIA。我会重新开始视频。所以,嗯,我想展示一些,呃,用世界模型可以做的有趣事情的几个例子,这对其他技术来说是不可思议的。

所以,我刚刚生成了Jensen在NVIDIA的图像,然后让他走过它。所以所有这一切我都是实时控制的,就像这一切都在发生,这一切都在实时发生,我可以让他在周围走动,你知道,在Nvidia周围走动,你知道这是穿着皮衣夹克的Jensen在Nvidia周围走动。嗯,这也是另一个有趣的例子,你知道,这些类型的东西不可能在实时,呃,没有使用像世界模型这样的东西。

这是为了我想向你展示这是多么令人难以置信的可能,呃,你可以基本上立即制作它,呃,不,不,没有时间,呃,只是享受乐趣,但有这么多更严肃的应用程序,你可以用这些,我很希望每个人都尝试构建,这就是为什么我们,呃,是的,当然,它变得怪异,呃,但是的,所以我们,我们已准备好允许开发者使用这种能力,我们已经与世界上所有主要的世界模型建立了合作关系,你可以今天去reactor.in,下载我们的SDK并开始使用世界模型构建。非常感谢。>> 谢谢你,Alberto。呃,接下来,我很高兴地介绍,呃,呃,Yang Li(art),他是Open Mind的创始人。欢迎上台。加油。

嗯,他目前实际上背景与一些人很不同。他是Stanford的教授。以前,他实际上是我母校Berkeley的教授。我不会对Stanford的事情太生气。哇!Go Bears。嗯,我很高兴他将介绍Open Mind的工作。呃,对于那些对机器人领域有所了解的人,很多事情都有点分散,所以他想建立什么是机器人的Android时刻,一个体现AI的开放操作系统。>> 呃,不,我可以用这个,但我们会解决这个问题。哦,太棒了。那完全有效。太好了。欢迎。呃,所以我的生活始于UC Berkeley的物理教授。嗯,与Facebook有一点合作。

这让我意识到与,呃,大规模收集数据和利用该信息做出好决定有关的问题,主要是为了医疗保健环境。呃,然后我将我的实验室移到了Stanford,这样我可以更靠近医学院。而且,呃,所以我是一个家长。呃,我教书,我做研究,呃,我关心医疗保健成果,所以我关心人们变得更好,所以我主要由医疗保健、教学、我们周围的机器和人类的东西所激励。我有点想知道所有这一切会如何发展。所以我今天不会告诉你手。我今天不会告诉你组装或制造。嗯,我会思考一下周围有智能机器意味着什么,呃,我们应该,呃,作为,呃,工程师,呃,呃,为那些新的能力而努力构建什么。

当然,你们每个人都读过,呃,Norbert,呃,Wiener的《控制论》。呃,如果你没有,呃,呃,那太可怕了。呃,你绝对应该这样做。嗯,他有一个真正很好的,呃,对自动化的更广泛视角,当然第一步是像时钟和时计这样的东西。呃,第一次革命,他称之为,是人类手臂的贬值。所以这些是技术,如织布机。这些是技术,如蒸汽铲和自动制造,以及Amazon和仓库物流。所以你可以将它们全部视为对人类手臂的某种变化贬值。顺便说一句,呃,我只是引用他。我不一定完全同意他的措辞方式。嗯,但,呃,那就是,呃,控制论中的论点。

然后当然根据Norbert,我们目前处于第二次革命,这是人类大脑的贬值。这是那个,呃,历史趋势中的一些例子。所以象棋和围棋。然后有Waze,你可以到达机场。呃,当然,呃,乌克兰如何进行越来越自动化的战争。呃,我们正在到达很多人认为一般制造和某种手动任务,呃,完全在技术范围内的地步。然后当然是所有这一切中的某种最后一步,像照顾、教学、陪伴、修理东西等等的东西。我主要对这最后一类,呃,,任务和机会感兴趣。而且通常在这最后一类中你正在处理的是你,呃,有一台机器与一个人或多个人交互。

这使事情,呃,真的有趣和具有挑战性。当我们中的一些人想到机器人时,呃,我们可能想到,呃,Tesla工厂,而当其他人想到机器人时,他们会想到像iRoot这样的电影。所以你在这里拥有的是一个人与机器人交互的情况,这是这部电影情节的关键部分。同样对于我们很多人来说,当我们想到机器人时,我们立即当然被吸引到Princess Leia和R2-D2。所以那是一个例子,其中在Star Wars中执行重要任务的机器人,呃,没有手,呃,但尽管如此,呃,成功地拯救了反抗军。而当我想到机器人时,我很大程度上处于这第二个阵营中。

嗯,我想到了通过为我们周围的机器赋予良好决策能力,呃,能够在与宠物、人、患者和学生等的复杂动态环境中导航创造的所有机会。所以,我真的很感兴趣,当我们看时,你知道,医生、教师、护士、投资者、银行家、警察、电工,呃,无论,呃,他们的职位是什么。我真的很感兴趣,他们的,呃,解决涉及与人互动、理解人、记住他们、呃,能够向他们面前的人提供个性化内容的更高级任务的能力。有时当我为医学预科生教物理时,这让我伤心,因为我在看500个学生,我不知道他们是谁。我不知道他们知道或不知道什么。

而我作为教师知道的是,我给医学预科生讲的物理方式,呃,对观众中大概三个孩子来说超级无聊,呃,然后对其他497个孩子来说可能不那么容易跟上。所以我真的希望我对我面前的每个人有更好的能力来理解,并且能够更恰当地提供内容。而我认为这对所有机器人来说都是一个通用的问题陈述,是如何为家庭、患者,呃,等等最优地做到这一点。嗯,如果你看一下美国现在所有830个人类工作类别,呃,我只是绘制,呃,社交智能对于做好那些任务的重要程度。想象一个教师或一个护士。呃,这不仅仅是通过某个静态工作流程。

这真的是与,呃,具体的,呃,具体的人互动,然后,呃,例如为其提供最优照顾。所以当我们设想机器能够在我们周围做越来越多的技能时,呃,对我来说非常重要的是这些机器,呃,对与人互动有不可思议的能力。呃,所以我们作为公司的评估标准是,呃,微笑和泪水、信任和记忆。嗯,这里是Diane。呃,Diane是人类,Iris是人形机器人。而Diane住在公园附近。而当Iris人形机器人不去公园时,呃,Diane会问,「呃,Iris在哪里?Iris在哪里?」而且,呃,那是因为Iris是唯一一个有时会听她讲数小时话的东西。而且,呃,这让Diane非常高兴。呃,她的眼睛闪闪发光。嗯,她来去公园,因为她在寻找Iris人形机器人。

而且,呃,你可以随意叫我反乌托邦。呃,这不是你正在建设的一个可怕的未来吗?我们的父母应该被三代孙子围绕。嗯,我们的父母应该,呃,被他们所有亲人围绕。如果你看一下今天美国的长期护理,呃,美国人在长期护理中花费,呃,在任何类型的社交互动中的平均时间是每天两分钟。每天两分钟。而我喜欢认为,在那种类型的世界中,呃,呃,机器在与我们联系中有很大的作用。而当我开始流口水和垂涎欲滴,呃,我的思想消失,呃,我几乎肯定会是,呃,呃,与机器互动,并希望我在那种情况下微笑。那是我非常高兴的一件事。

呃,所以现在,呃,我们对事情有一个有点不同的看法。嗯,有一百家公司在我们周围,我爱他们所有人,他们都很棒,他们正在研究手和机械任务,以及iPhone组装,呃,切洋葱,做面条和折叠T恤,所有这一切都很棒。但凭借所有聚焦于该问题陈述的杰出人才,我认为,呃,那将很快、很快解决。所以我们开始预期下一步,其中所有这些机器将被烘焙到我们的直接环境中,而我们对他们的行为以及他们如何与我们联系将有强烈的意见。而任何,呃,问题或投诉,我把我的电子邮件放上去了。所以,嗯,如果你喜欢它,那很棒。而对于任何投诉,它是[email protected]

感谢。>> 好的。非常感谢,Yan。现在我想邀请 Andrew Tan 上台。请过来这边。嗯,他是 Groq Cloud 的平台工程负责人。我们遇到的许多问题不只是「好吧,模型能做这个吗?」而是「它能快速、廉价地为数百万甚至数亿人在规模上做到这个吗?」所以这就是他要讲的内容——如何在 Groq Cloud 规模化低延迟 LLM 推理。等等,抱歉。抱歉。大家能听到我吗?好的。嗯,我叫 Andrew。我是 Groq Cloud 的平台工程负责人之一。你知道,在过去几天,当我告诉人们我在 Groq 工作时,人们喜欢说「哦,Groq 有这么好的个性。」有时我需要更正他们说「哦,我在 Gro 工作,那是带 Q 的。」

「但我们也有独特而鲜明的个性,那就是快速低延迟推理。我今天要分享的是我们如何在 Groq Cloud 实现这一点。如果你还不了解 Groq 和 Groq Cloud,我们是一家 AI 基础设施公司,专注于低延迟、确定性的高性能推理。我们如何实现这一点?好吧,这是围绕 LPU 或 Gro 芯片构建的,这是为低延迟推理专门设计的定制硅芯片,我们有一整个堆栈围绕它构建。所以那包括编译器、运行时,我们有云基础设施、全局路由、开发者平台和企业功能作为 Groq Cloud 的一部分。我今天会给你们展示这看起来像什么的快速演示。嗯,我们就放一个录制视频。」

>> 我不知道你们是否能听到,但这是某种即时转录。告诉我关于 2026 年 5 月在新加坡发生的 AI 工程师活动。你看到近乎即时的...两次调用,你看到文本以大约每秒 500 个令牌的速度生成得非常非常快。我再放一遍。而且这甚至不是我们在 Groq Cloud 上使用的最快的模型。所以这只是一个快速演示,让你们了解推理可以有多快。这可能比你在不同平台上习惯的速度快好几倍。现在为什么这很重要,推理需求现在在哪里?你知道,随着代理、多模态模型、重型推理模型的出现,推理需求正在激增。它加速得真的很快。嗯,在过去的一年里,Groq Cloud 上的令牌需求,即我们提供的令牌数量增长了约 600% 或 7 倍。

而且我们这样做的硬件占用空间并不比去年大多少。如果我们想服务所有对推理的需求,这个倍数会高得多。嗯,今天我们在过去一个月里服务了大约 800,000 名活跃开发者。嗯,我们继续看到来自大型企业、初创公司、AI 公司、AI 原生公司和世界各地各种不同类型的开发者的需求。我们确实认为,向前看,推理将真正定义嗯...基础设施...AI 推理的下一代基础设施和架构选择...嗯,AI 基础设施。抱歉。现在有一件事是我们花了很多时间思考的...我不确定为什么这不是全屏。抱歉。好的。是的。

我们花了很多时间思考的一件事是如何在世界各地路由请求,以最低的延迟服务令牌。我们在世界各地大约有 10 个数据中心,主要在北美,但也在欧洲、中东和澳大利亚,服务 APAC 地区,约 65% 的令牌需求来自北美,20% 来自 EMA,15% 来自 APAC,包括来自新加坡的 1%。我们将每个请求路由到通过我们的 Cloudflare 边缘网络的最近的 POP,然后路由到我们的数据中心,我们沿途做出许多路由决策,以确保我们客户的最低可能延迟。这如何分解,你知道,这是嗯...一个...一个 LLM 请求的生命周期。嗯,我们看到这由网络延迟组成。一个请求到达我们的边缘网络。

然后它被路由到我们大约15个推理区域之一,这些区域可能包括云网络或数据中心内的本地部署。我们在那里部署推理堆栈,在推理延迟方面,它分解为Q时间,其中请求为不同模型排队。它还包括提示时间或输入处理,以及完成时间(即解码或输出处理延迟),这些加起来就是您对任何提供商发出任何LLM请求时经历的端到端延迟。Q时间和提示时间是我们非常关心的,因为那是在许多情况下为实现快速流式首token时间的慢步骤。更详细地说,每个传入的请求都经过身份验证,并命中我们的全局负载均衡器之一。

全局负载均衡器在15个数据中心之间共享信息,关于每个模型实例的估计等待时间和Q时间。每个数据中心可能部署了50个模型实例。这些信息在所有负载均衡器之间实时共享,约每100毫秒一次,以启用路由决策。制定这些路由决策并不最容易,因为我们需要估计输出生成长度。与典型的API请求不同,您不知道端到端请求将执行多长时间,因为您不知道将生成多少输出token,对吧?

我们进行一些采样,从可用的后端桶中采样TTFT,并将请求路由到特定数据中心部署的最优模型实例。沿途还有很多检查,包括速率限制,当然还有跟踪和审计不同的使用事件。更详细地说,我们按TTFT对事物进行分桶,以路由到最佳区域中的最佳模型实例。我们对不同类型的客户应用一些优先级,确保比如说我们的企业客户获得更快的流量。这是跨多条进入我们不同集群的入口路径完成的,我们需要执行某种全局速率限制,以确保没有地理套利来绕过速率限制。至于为什么速率限制很重要,我稍后会再讲一下。

在全球范围内提供流量的另一个关键方面是在不同时间、不同地区甚至周与周之间识别合适的模型组合。我们看到对不同模型的需求变化不同,能够快速将任何模型部署到特定地区很重要。我们通过声明式的、非常简单的清单来实现这一点,该清单快速协调。所以在提交和合并某些代码配置后的一两分钟内,我们可以将新模型部署到世界各地的任何地区。从合并到服务流量仅需几分钟,对每个模型实例进行适当的金丝雀测试和预热。现在我们经常收到的另一个问题是,我们如何让模型在我们的自定义硅芯片上运行?

通常,我们从Hugging Face获取开放权重和PyTorch参考实现,将其编译为我们的Gro张量运算符和我们的方言到MLIR中,计划它,跨不同芯片分区。我们运行不同的预设来启用这一点,然后编译为在我们的自定义硬件上执行的输入/输出程序或字节码,完全编译器调度执行和软件调度网络。所以我们为每个请求获得非常极其可预测的延迟性能。现在,由于我们是一个受欢迎的开发者平台,我们也吸引了很多滥用和欺诈行为,您可以看到攻击向量变得越来越复杂,我们在平台上检测到的滥用指纹、滥用信号的数量继续增加。

所以这是我们确实需要通过速率限制和其他机制非常仔细地监控的事情。现在我还有两张幻灯片。呃,在思考我们合作的最大企业在 2026 和 2027 年期间在推理栈中寻找什么时。呃,大型企业越来越多地寻找专用计算容量。数据驻留继续是一个重要话题。

呃,随着模型规模的增加,这些大型模型的解码延迟继续是人们关注的事情,嗯,与大型模型部署相关的单位经济学,在呃大型企业中,甚至对于 AI 原住民 AI 公司,有一定范围的复杂程度,一些想要一键部署,一些想要托管服务,一些想要自带模型、自带权重,一些想要他们自己的推理栈,所以对于不同类型的推理服务,未来存在相当大的呃异构需求。现在我的最后一张幻灯片是关于基于 LPU 的解码看起来如何的。我不知道是否有人观看了今年早些时候 Nvidia GTC 呃演讲,其中 Nvidia 首席执行官宣布了 Vera Rubin plus Gro 3 LPX 系统。

嗯,背后的关键想法是这种聚合推理,其中你在 GPU 上运行预填充和许多层,你在呃 LPU 类似的芯片上运行解码,也许是 FFNES,我们展望未来,我们确实看到异构计算变得更加普遍,实现更好的单位经济学、更快的速度和更好的性能的方式,呃当然是,这需要与生态系统对齐,模型编译到这个硬件上并运行。所以,这就是我想分享的内容。我希望你们享受了解更多关于 Grock Cloud 的学习。嗯,我们这里还有一些关于如何开始的链接,以及我们开发者平台上的内容。谢谢。>> 谢谢你,Andrew。接下来,我想邀请舞台上的 Daria,她是 Cerris 的首席研究科学家。

呃,她是在 Cababus 设计许多食谱的幕后人物,她将谈论从 GPU 到晶圆级 AGI 的规模。大家好。我今天在这里非常兴奋。我将谈论我们如何在 Cerebras 硬件上大规模训练混合专家模型。首先,我想从呃关于我自己的一些东西开始。嗯,目前我是 Cerebras 的首席研究科学家,在过去的几年中,我一直在研究 MoE 网络,因此我有这份我们发布的 MoE 101 指南。它基本上教你如何有效地训练和运行 MoE 模型的推理。嗯,目前我在 Cerebras 硬件上领导呃前沿规模的训练,在此之前呃我在一家名为 Yandex 的公司工作。它非常呃著名,像一个俄罗斯谷歌。

呃,我在那里从事 Transformer 的工作,以及我们在生产栈中部署的第一个 Transformer,在此之前,我在谷歌从事语音转文本模型的工作。对于今天的议程,我想从呃向你们概述过去几年语言模型社区发生的事情,以及我们如何最终得到 MoE 网络开始。然后我们将讨论什么是 MoE 网络,以及我们如何大规模训练它们。嗯,首先,在语言模型社区中,我们在过去几年做了很多工作。我们从 GPT-3 开始。OpenAI 发布了一个 1750 亿参数规模的模型。除了该模型外,他们还发布了缩放律,显示随着模型规模的增加,你获得越来越好的质量。不久之后,Meta 发布了 Llama 3 系列。他们进一步扩展了模型。

所以,现在规模是 4000 亿。但除此之外,他们花了很多时间弄清楚如何有效地从数据中提取信号。所以你们中的一些人可能听说过 Chinchilla 缩放律。他们建议除了扩展模型之外,你还想扩展 token 预算。大约每个参数 20 个 token 被认为是计算高效的。因此在这一切的最后,我们能够非常高效地扩展模型和 token。然而,如果你继续线性扩展模型大小和 token 预算,它会变得非常非常昂贵,非常快。我们想在万亿参数数据集上训练万亿参数模型大小。所以另一个几年前发生的突破是 DeepS 呃公司发布的 DeepSQ3 模型。那个模型规模更大。

所以总共 6710 亿参数数量,但它非常非常高效,因为它会以 370 亿呃活跃参数稠密网络的速度运行。他们是怎么做到的?背后的架构是混合专家。如果你看 Transformer 网络的解码器块,你会看到我们有不同类型的层。我们有嵌入、注意力和 FFN 块。嗯,如果你想创建一个 MoE 网络,你会在右边看到,你只需获取 FFN 块并复制粘贴它,现在每个 FFN 将被称为一个专家,你还在顶部放置一个额外的网络,称为路由器,路由器的工作是决定哪个专家应该处理特定的 token。这样你可以继续增加网络的容量。所以你可以通过添加更多专家达到 6710 亿参数。

但因为你只激活其中的一小部分,你可以非常高效并以 370 亿稠密网络的速度运行。现在你可能想知道,好的,这听起来很不错,但这些网络与稠密网络相比缩放律看起来如何?这里我为你提供了一个图表,其中我扩展专家的数量,并将 MoE 网络的质量与以相同浮点运算次数运行的稠密网络进行比较。你可以看到,在这里,用 32 个专家,你可以获得高达 5% 的损失改进,计算量完全没有增加。所以你免费获得它,仅仅因为架构更聪明。另一方面,你可以这样想。你可以以稠密网络的三分之一的计算量训练达到相同的损失。

这里我只有 32 个专家,与最先进的模型使用的相比,这非常非常小。我们使用数百个专家。所以你可以看到这个架构的效率有多高。就语言模型社区而言,我们非常兴奋有机会大规模运行它,因为过去几年我们无法像现在这样高效地改变缩放律。嗯,我们知道它应该比稠密网络运行得更快,对吧?基于理论。然而,当我们在实际设备上(比如这里的 GPU 设备)实际运行它时,我们得到比稠密网络更慢的结果。MoE 的速度更低。那么为什么会这样呢?让我们看看我们如何在 GPU 设备上实际实现 MoE 网络。每个 GPU 通常只有有限的内存。所以如果你运行一个非常大的网络,你必须分割它。

你必须分割模型参数。对于 MoE,我们使用专家并行。基本上,你在不同的设备上放置不同的专家组。嗯,你可以在这里看到专家一、二、三在 GPU 1 上,专家四、五、六在 GPU 2 上。你添加两个额外的全对全操作。这通常是这样做的,因为你也进行数据并行,所以你不知道提前将 token 移动到哪个设备。然后他们可以被特定的专家处理。所以这两个全对全操作非常昂贵。大多数时候,如果你尝试分析这个,呃大部分时间将花在通信上,不幸的是,在 GPU 端没有什么根本的东西我们可以做来改进它。这归结为物理布线。现在我想向你们展示 GPU 设备和 CS 机器之间的比较。

我这里有B200 GPU。你可以看到它使用126兆字节的SRAM。这是芯片上的L2缓存,也是可用内存,运行在每秒8太字节的内存带宽上。与大小如同晚餐盘的Cerebras相比,它的芯片非常小。嗯,它的SRAM要多得多。所以你可以看到我们有44 GB的SRAM,我们的内存带宽运行速度快好几个数量级。这使我们能够做什么呢,它使我们能够实际上在芯片本身上训练一个非常大的网络,不需要任何类型的模型并行化。但是,如果我们超过44 GB的SRAM,我们开发了一种技术,能帮助我们在一个设备上训练约一万亿规模的网络。我们怎么做到的呢?我们在芯片上添加额外的Memory X节点,这将成为我们的权重库。

基本上,这就像外部内存,你可以在那里存储大部分模型参数。要进行梯度更新,你需要逐层从Memory X节点将权重流传输到芯片,计算你的梯度,然后将梯度移到Memory X节点以更新权重。这样,你可以将非常大的内存库(如Memory X节点)连接到一个芯片,训练万亿参数的模型以及更大的模型,而不需要任何类型的模型并行化,也不需要额外的芯片。这对MOE网络特别有用,因为我们想训练非常大的网络。我们想训练很多专家,这些专家坐在同一个Memory X节点或同一个芯片上,没有通信开销。但是,当我们在Cerebras上运行MOE网络时,我们实际上看到了同样的问题。

它们运行速度比密集网络慢。这里的问题略有不同。今天的网络非常不同。我们想训练很多非常小的专家,因为这一点我们有一个算术强度问题。所以MOE层与网络的其他部分相比移动大量权重,但每个权重的计算非常少。因此网络的吞吐量、速度与密集网络相比更差。我们用一种叫做批次风格注意力的技术解决了这个问题。本质上,如果你想处理计算稀缺性,如果你想改善算术强度,最简单的方法就是增加批大小。

但是,如果你看网络中的不同层,如果你只是统一地增加所有层的批大小,一些层实际上会伤害性能,比如注意力。注意力是激活内存受限的。所以,在那里增加批大小会开始将更多东西逐出到Memory X节点中,这不是有效的。我们不想那样做。相反,我们想解耦注意力和前馈层的批大小要求。你可以看到这里对于注意力,我们可以保持非常小的批大小,原始批大小,只是在循环中迭代并将结果连接到更大的批大小中。你可以看到我们连接了G个不同的循环。现在我们可以将这个更大的批大小放入MOE层。

它将恢复该层的算术强度,使其以密集网络的速度运行。你可以根据稀疏度级别配置这个G。所以这里我为你提供了结果,我们测试了Qwen 3网络不同稀疏度级别的经验结果。你可以看到没有BTA的基线在Cerebras上运行的速度比密集网络低7倍,这非常低效。使用BTA我们解决了这个问题,你可以看到我们能够恢复MOE网络的原始理论承诺,并以与密集网络相同的速度运行。所以来自DeepSeek的671亿参数MOE网络可以以37亿参数密集网络的速度运行。嗯,我想与你分享一些来自我谈话的要点。一个观点是,在我看来这是走向效率的最快方式。

所以这种来自该网络的计算效率真的是令人难以置信。不幸的是,它们在GPU上不是很高效,并且遇到了一些通信瓶颈。但是,在Cerebras上,我们充分实现了MOE的理论承诺。谢谢。如果你想了解更多,这是MOE指南的二维码,我们在那里详细讨论如何训练这些网络。谢谢。谢谢你,达里亚。是的。好的,这就结束了我们下午演讲的第一部分。嗯,所以在我们回来之前有15分钟的休息。呃,一些快速的公告。首先,博览会,你可以在不同公司的展位上见面的地方,将在下午5点关闭。所以如果有人你想见面,呃,请到Pullman或Atelier有呃展位,比如Cursor、Google DeepMind等等。

然后 Pullman 有机器人游乐场,嗯,OpenAI 的展台,以及许多其他的。嗯,我想欢迎回到舞台的 Kazaya,你在今天上午 10 点左右见过,她是一位经过训练的正念老师,她将提供一个小小的体验,嗯,沉浸式体验,你可以在那里,嗯,她基本上创造了一个,嗯,振频编码粒子可视化工具,在数小时的冥想上训练。嘿,你知道吗?继续编程。接下来,我们有任务。嗯,如果你不熟悉 ZAI 和 GLM 系列模型,嗯,市场上一些最好的开源模型。嗯,不如你可能在使用的顶级模型那么昂贵。非常适合「开放条款」、个人自动化之类的东西。所以不再赘述,我想...我认为它,让我检查另一边。好的。

所以,你可以改变当前大小,对吧?也许它是嘿,嘿,嘿。的GLM模型。所以今天我将呈现GLM 5.1,也介绍Lar的测试背后的想法。嘿,嘿,但这不是G。A。我。和G。我属于谷歌,不是你的公司。那么为什么你叫Z。似乎不相关。要点是我们首先用中文被称为。所以实际上代表智能。当我们发现外国人很难发音Zhi时,我们尝试缩短它。为了缩短它成Z。实际上Z代表智能。你可以把我们看作智能。艾。所以这是链接这个Z。我的平台到我们的模型和我们的服务的最佳方式,我也想向你介绍GLM,因为很多人使用过GLM 4。7、GLM 5、GLM 4。

1但实际上我们是最先之一探索大型模型的公司,正如你可以从这篇论文中看到的。所以我们在某天3月18日2021年提交。所以我们开始探索所有大型集成模型,早在像2020年。所以与OpenAI和DeepMind一起,也许是最早的实验室这样做,但我们只在2024或2025年对大多数人变得著名,现在GLM已成为一个品牌,不仅代表这个通用的呃一般语言模型,比如大型语言模型,我们还有我们自己的品牌,现在我们目前使用GLM之外的架构原始架构使其更强大。更强大、更快、更高效。好的。还有关于模型的更多信息。所以目前我们正在推动开源的边界。所以我们在文本竞技场和代码竞技场中领导开源模型,正如你可以看到的。

所以我做了一个截图对比Deepseek。当Deepseek推出v4时,他们展示了很大改进,但仍然无法击败GPT-4.1在这些基准测试中,我们在编码和生成任务上也相当强。如你所见,这是一个最新的人工分析基准测试,结合了三个单独的基准,而我们只是略落后于GPT-5.5和Claude Opus 4.7。所以当前状态非常接近Opus 4。

6分,但很多人在编程中使用GLM、Clock Code、Cursor、Kilo Code、Open Code等工具,所以我们虽然在集成方面不太出名,但我们使用其他集成工具,它们都很好,他们的编码代理可以帮助做得更好。好的,关于GLM本身和ZAI的内容就这样,现在我们来谈长视野任务,因为今天我不想在Go上花太多时间,但我希望你记住这个想法,充分理解长视野任务的真正含义。你听说过长视野任务和长时间运行任务吗?如果没有,这三个实验室在最近关于他们模型的帖子中都提到了长视野和长时间运行。GPT-5.1我们非常强调我们的长视野能力,Claude Opus 4.7也提到了长时间运行技能,对于Claude 2。

6他们有漂亮的前端功能,但他们也非常强调他们的长视野能力,特别是编码能力。所以长视野已经变得非常流行。为什么?所以为什么这对你很重要?为什么你要听这个想法,模型背后的想法?所以我们可以分享很多东西,如何制作网站、如何制作幻灯片、如何使用GLM处理Excel,但为什么长视野很重要。首先,它很有用,因为在长视野时代之前,你一次只能完成1到10个任务。当你睡觉时,你没有任务要做,因为你的代理只能在30分钟内完成它,而你有8小时。你的代理无法做任何事情。但有了长任务,一切都变成真的。

另一件事是随着开放云工具的发展,有很多代理有心跳,可以中断你的任务。有时你有记忆、有很多事情在进行。有MCP,它们可以中断你的工作流。所以除非你的模型有长视野能力,它们才能坚持原始目标。如果它们不能坚持原始目标,它们会遵循最新指令,完全忘记你现在在做什么。所以长视野能力让这成为可能。还有一个有趣的事实,一个非常有趣的故事。在我们最近的黑客马拉松中,我们有一个48小时的黑客马拉松。这是我们第一次有48小时。两天之间有一个晚上。大多数参与者选择在睡眠中运行GPT-4.1,实际上他们成功了。

所以9个获胜者中有7个选择在睡眠中运行任务,这非常了不起。所以我用一个图表来展示这个。当你睡觉时,也许今年你的代理会持续工作,每次你的代理聚集和讨论以及为你完成工作。我必须向你介绍长视野想法的第二个原因是它很难。所以不仅仅是有用,因为如果有用的话就没必要我在这里说话,你可以自由使用ZAI,你可以尽你最大努力运行,随便运行8小时,但它非常困难,因为首先许多人将长视野视为长上下文窗口,但实际上GPT-4.1只有200k上下文窗口,所以差距在哪里?首先是GPT-5。

1非常强大,不是因为它的上下文很长,而是因为它可以理解上下文,可以理解你的计划和记忆,以更好地反映结果。当你使用Claude Code时,有时你无法使用1和200k,但压缩上下文窗口可能会经常被压缩。所以你需要坚持原始目标。第二个原因是,即使有些模型声称他们有一百万上下文窗口,但当你使用接近500k时,它会忘记一切,它们只坚持最新的指导,忘记原始计划或它们不遵循云MD中发生的事情。第二个误解或第二个误解是,有些人认为如果我事先给予足够的指令。所以至少所有的指令可能会很好地遵循,因为没有必要。

模型具有长视野能力。我有长困难能力。我可以在100次运行中指导它做,但实际上一个模型在这方面没有经过训练。它没有足够的能力坚持你的计划。所以它会在某个模式后尽力做任何事情,稍后我们会给你展示这个故事。第三个误解是许多人认为越长越好,对吧?所以人们想要模型实验室发布的,比如我可以运行8小时,也许另一个实验室展示我可以运行12小时、24小时、一天、七天,但从我的观点来看,这没有意义,因为我们现在有非常快的推理速度。是的。

所以如你所见,有很多推理提供商可以提供超过200的吞吐量,最新的技术、硬件、芯片内的模型可以以接近17,000个令牌每秒的速度推理。所以时间不重要,对吧?如果你考虑时间,你使用最新的技术,你只需要运行大约一分钟。8小时没有意义,对吧?所以实际上什么是长视野,长的意思不是关于时间,而是一种深度。所以如我们听到的不是更长而是更深。所以长视野实际上意味着继续寻找有意义改进的能力。是的。所以你必须做出改进,但这些改进是有意义的。例如,如果我在X上有10个粉丝,我想收集他们的所有信息。所以我给一个提示。所以抓取这10个粉丝的所有数据。

所以那是一个场景。但如果我想扩展,我抓取100、1,000、10,000。任务没有改变太多,对吧?所以你必须做出非常有意义的改变和改进。所以长视野任务实际上是什么?所以你谈论长视野的想法,你谈论什么是错的,但什么是对的?一个需要小心类别。第一个类别我们称之为主观目标。在这个第一类别中,你想创建一个网站,你想创建一个系统。对于什么是最好的网站没有明确的指标,对吧?所以你可以让模型无限运行。但它在哪里停止取决于你的能力、你的判断,而不是模型的判断。第二个类别是这个场景需要一个客观目标。

例如,你想要速度、价格、想要与某个数字相关的一切。所以我们有两个类别,对于每个类别有完全不同的机制让我们优化,无论是作为模型还是作为人。哎呀。有一个视频,但有什么地方出问题了。我现在尽力让它发生。所以如果30秒内没有修好,我建议你查看ZAI的X。所以实际上我们有一个视频,展示了我们如何在8小时内从零开始从零到一构建Linux系统,在8小时内它不只是添加应用。它首先创建一个层让所有应用可以集成到系统中,然后它抛光所有界面,然后测试所有这些应用,最后添加50个应用。所以这应该是什么,但不幸的是我们无法在这里呈现。

也许你可以搜索 G 5.1 博客,那里会有对这项任务的全面说明。那么为什么需要人类呢?如果这个模型非常强大,几乎可以完成任何事情,为什么还需要我们呢?因为我可以去睡觉。我不需要,我不需要指示模型,对吧?因为当我睡觉时,我让它完成一个 Linux 应用,我起床后它就已经完成了。为什么我需要参加这个活动并学习如何使用长视野任务呢?因为模型会犯错误,而且经常犯错。一个模型可能犯三类主要错误。第一个是模型可能不遵守我们的原始目标。如果你给模型设置提示让它优化五次,它可能表现得完美。但如果让模型优化600次,它可能完全忘记了原始目标。对吧?

因为模型总是关注每一个令牌。所以有时候当你谈论 Linux,然后你谈论 iOS,模型完全忘记了哦你在做 Linux 应用还是 iOS 应用,这很常见。要处理这个问题,我建议每个人,或者我推荐你准备一个检查清单。所以无论何时你做长视野任务,都要尝试准备检查清单,这是让你的模型坚持原始目标的最好方法。你必须让它每隔几步重新阅读一遍目标,因为你有很多步骤,对吧?因为当你只优化10分钟时,你没有很多步骤。你不会觉得这很重要,但你必须手动指示它非常仔细地重新阅读所有指令。第二件事是错误积累。

所以如果你发现模型在400次运行中犯了一个错误,比如说,那不会有太大影响,但当它进行到800次运行时,它实际上可能会破坏所有东西。所以这叫做,呃,错误积累。所以为了让这种情况不经常发生,你必须验证,不是你自己验证,而是你必须指示模型自己验证。从零到一到100,你需要有几个检查点。所以当我们训练模型时,我们有检查点,但当你运行长视野任务时,这很相似,你必须为你自己和模型设置几个检查点来自我检查。第三件事是模型被训练得非常努力,对吧?因为如果你想让模型做这个,它会持续地,有时在循环中,继续做那个,每次只做一件事。但对它们来说很难转向。

所以模型有时永远不会放弃。所以你必须让模型放弃或转向,如果它发现什么非常错误的东西。所以检查清单在这里也非常有用,非常有帮助。而且你必须评估,无论是你自己还是由代理人,是否继续、停止、修订或做任何与你的任务相关的东西。所以这些是针对主观目标类型的长视野任务的建议。所以这是人们可以做的,我认为很多人正在构建他们的应用或你在做类似的东西。所以这可能对你的部署有帮助。另一件事。所以看起来更难,因为那就是客观目标的内容。我们有一个非常强的案例。它被称为优化向量数据库。我相信你们中不是很多人优化过向量数据库。

即使是我们的研究人员或负责训练的人也没有机会接触这个领域知识,但我们的模型有。所以我们从零开始,让模型自己优化,进行了100次运行,最后他们到达了这里。所以在100次运行中有了非常有意义的改进,我们做了类似的东西。所以从零到100轮到200轮,最后你到达600轮,我们基本上有六到八个科学发现。所以模型转向很多,最初他们使用技术一,然后他们开始使用技术二和技术四。所以我想让你提及这些失败。所以实际上这些叉号像意味着失败。所以当你看到这600次运行时。所以基本上大部分都失败了,对吧。所以当你谈论长视野任务时,实际上并不意味着你每次都成功,就像生活一样。

所以你有时成功,有时失败,在圆形区域中,所有的优化都失败了。所以对于长视野任务或长视野模型,关键部分是模型可以反思、可以规划、可以改变想法或可以优化、改进、可以不断地改进自己到更好的方式。所以这就是未来优化的样子。对于这类任务,也许对你来说非常困难,也许对我来说也非常困难。我强烈建议你查看评估。这是我目前最喜欢的评估。它叫做 Frontier Suite,因为我们都知道 SweetBench。我们都知道 SweetBench Pro,但 Frontier Suite 是一个试图评估长视野任务能力的基准,包括主观目标和客观目标。而且这是他们的分类。

所以他们用三种方式对长任务进行分类,不仅仅是按主观目标和客观目标。第一个是实现。当我们谈论实现时,你从零开始到一。这是我们的三个例子,我强烈建议你查看他们的网站。超过三个任务,当你想构建一个应用时,当你想做一些网络编码的东西,代理的东西基本上和实现一样,呃,第二个是研究。所以实际上交易是一种长视野任务,你必须从以前的失败中学习,你必须从很多东西中学习,你必须为市场做研究。所以很多编码之外的东西属于长视野任务。所以长视野不仅仅属于工程师做的东西。交易员、科学家也可以使用长视野任务来做事情。

所以这就是研究的含义。所以你可以使用长视野来探索很多东西。第三种方式是优化。我已经向你展示了它的能力。所以目前我们的模型团队正在使用 AI,使用 GLM 来优化 CUDA 内核,优化向量数据库。所以当我们谈论自我演进,当我们谈论持续学习时,ZAI 模型团队已经是一个可以使用模型来改进自己以及改进模型推理的 AI 本地团队。好的,我认为今天就到此为止了。这是我的 LinkedIn 和 X。我不在 LinkedIn 上发布,但那里有我的个人资料,在 X 上。呃,我发布很多。我在 X 上相当活跃,但那里没有个人资料,所以你最好两个都扫一下。我认为今天就到此为止了。欢迎所有问题。是的。好的。

欢迎通过这两个平台联系我。非常感谢。非常感谢你。嗯,接下来我们要改变一点气氛。嗯,我们要谈论语音代理。现在显然我们已经作为会议的一部分讨论过设计和不同的界面,嗯,到目前为止我们想看看语音可能是这些范式之一,为此没有比从 Boris Starkov 听得更好的了,他是 11 Labs 的增长工程师。所以 11 Labs 显然是这个领域的领先公司之一。嗯,Boris 将讨论语音引擎以及什么使代理具有对话性。不再多说,Boris。嗯,大家好。我是 Boris。我在 11 Labs 担任增长工程师。11 Labs 是一个前沿的语音 AI 实验室。嗯,我们在整个语音 AI 领域进行研究和构建应用。

嗯,我们也特别兴奋,我们坚信语音是人类与代理交互的主要媒介,实际上我们很高兴看到行业开始追随那个愿景。以编码代理为例。呃,几乎所有的编码代理实际上都有某种使用语音模式的按钮。然而,如果你实际使用它,它工作方式如下。你开始呃谈话,你对它说话,然后你等待它被转录,你再次等待代理内部,然后你第三次等待呃实际的语音合成部分。所以当然这是语音输入,这是语音输出,但这不是对话。今天我想谈论如何改进这个架构,使其感觉更像自然的人与人之间的对话。

我们将保持核心架构相同,但我们将添加许多小的改进,这些改进结合在一起会产生巨大的差异。嗯,我将从语音识别部分的改进开始,然后在第二部分,我将继续进行一些改进以涵盖语音合成的一些改进。所以可能最基础的呃拼图的最基础的部分呃被称为语音活动检测器。我们从用户那里获取呃音频流,然后将其拆分为大约20毫秒的块。然后我们有一个非常小的、非常高效的、非常便宜的模型,它可以告诉你每个块中是否有人在说话。

这不仅对下游实际理解正在发生的事情、是否有人在说话、谁在说话、轮到谁非常有帮助,它也帮助我们在计算上节省很多,因为如果你知道在某些块中没有人在说话,我们就不需要在那些上运行更昂贵的 ASR 模型。理解检测沉默和检测轮次结束不是同一个问题是非常重要的。例如,呃代理可以问我什么东西,我用我认为呃回应有很多沉默,但这不是我句子的结尾。我不希望代理在这一点上打断我。这就是为什么呃检测沉默不足以准确预测呃代理何时应该开始说话。

所以这里我们训练了另一个模型,再次一个非常聪明的呃转向检测器模型,它不仅考虑语音活动,而且考虑之前说过的内容的实际背景,以预测这是否是句子的结尾或呃说话者用户要说些什么。像在许多其他步骤中一样,顺便说一句,这里我们使用了一堆启发式方法。例如,如果用户呃拼出他们的汽车详细信息或他们的信用卡详细信息或他们的电子邮件或他们说出我们拥有的触发词之一,我们将这用作非常强的信号,即呃可能会有某种沉默,可能那个沉默并不意味着用户已经完成了说话。这个模型在下面的呃幻灯片中至关重要。

所以最大的解锁之一,我们在改进延迟和基于轮次的模型方面可以实现的最大胜利之一呃是以下这个。所以要理解这个呃让我们想想人与人之间的对话是如何进行的。你和一个朋友说话。比如说你的朋友在和你说话。他们呃在说话说话然后他们停止说话然后你等待大约一秒钟以确保他们没有什么要补充的,只有这样你才能继续回复。不幸的是,代理买不起等待一秒钟,因为它还需要呃一些时间来生成响应。这就是为什么我们做我们做一个推测的呃轮次,这是在我们的模型认为用户可能停止说话的那一刻之后立即开始推测性地生成响应。

我们的模型相当聪明,所以大多数时候这是正确的选择,响应来得快得多,感觉延迟要低得多。感觉更自然,也许有时会有一个假正例。那没什么大不了的,因为那样我们只是向生成模型发送一个取消,继续听。听起来很多,但那只是第一部分。呃现在呃一点关于如何改进呃合成部分语音合成部分。所以代理呃发送给我们令牌,用户期望呃句子方面的语音喜欢语音呃我们真的买不起等待整个句子,然后才将其发送给呃语音生成器模型,因为那样用户会在沉默中等待。

我们也不能真的一个接一个地生成令牌,因为那样一些令牌会生成得非常快,其他令牌会花费一些时间。整个生成会感觉非常跳跃,非常滞后,不稳定。所以我们采取了中间的方法。我们为五、六、七个单词的小短语制作了一个缓冲区。我们将令牌收集在一起,然后在整个句子被构建之前将它们刷到生成器中。这让我们从两个世界中获得最好的。我们有稳定性和低延迟。这也相当有效,因为当前短语正在播放给用户时,下一个短语已经在被合成,短语之后的那个已经在缓冲区中被构建,所有这些同时进行。我们还在我们的呃许多我们的模型和工具部分使用了级联。

例如,呃这里我将谈论 TTS 级联,我们有一个文本转语音模型呃生成响应,每次运行时,我们还有第二个模型呃备用模型,准备在第一个失败时接管。所以即使呃当前模型失败或出于某种原因出现某种崩溃,用户也永远不会经历它。嗯,确保几乎100%呃正常运行时间。所以用户永远不会呃经历崩溃、错误、漏洞等。呃,这个本身实际上可以是一次完整的演讲,但使你的基于轮次的模型感觉真正对话的一个非常重要的部分是处理中断,让用户中断模型。这伴随着很多很多很多呃不同的呃边界案例、启发式等。这里我将只涵盖其中几个。

所以想象你是一个模型,你试图检测用户正在打断你。所以首先呃如果呃中断非常非常呃小非常短几帧40毫秒,这通常意味着它是一个咳嗽或噪音或也许是来自语音活动检测器的假正例。那不是中断。另一个例子是如果中断发生在前200呃毫秒,那也可能意味着它只是一个回声。另一个,呃,例如,如果用户说,「是的,嗯。呃呃。好的。」那是积极的倾听。那也不是中断。还有很多像那样的小边界案例。嗯,让我们实际上在这里缩小一点。

嗯,你构建了一个代理,你来这里听这个呃演讲,认为你要使它呃对话,现在有了所有这个呃小步骤,你可能会感到有点害怕,它有多复杂。嗯,好消息,我们已经有了,介绍语音引擎。嗯,语音引擎实际上呃新的呃产品,我们我们有。我们还没有公开宣布。呃我们将从下周开始测试它。它的工作方式是呃我们将所有与使事物听起来完全对话相关的复杂性封装到这个产品中,而你可以带上你自己的代理并非常轻松地插入它。所以它可能是你呃聊天机器人或你的开放克隆、nano claw、呃 hermas 代理,无论什么呃任何代理你都可以任何复杂性都可以简单地插入它。

请记住,这不是语音转文本和文本转语音。这是一个合适的对话引擎。我们非常兴奋看到数百万沉默的代理呃变得对话。呃,请在我们的社交媒体上关注这个的更新,我们可能会呃开始呃从下周开始公开测试它。非常感谢你。非常感谢。接下来,我们有来自 Prime Intellect 的 Jackman。他是一名创始研究工程师。Jackman,你可以设置。嗯,他将讨论长期运行代理的持续学习,不断改进的代理。所以,这是过去几天一直出现的重复主题。我们讨论过软件工厂。呃,ZAI 讨论过长期运行代理。这是一个一次又一次出现的主题。

我认为一直出现的问题是,如果一个智能体运行时间太长,我们如何确保这些智能体在进行过程中不断改进或学习?嗯,因为……如果智能体只是运行20小时来输出不起作用的东西,这没有任何意义。所以Jackman在Prime Intellect工作。Prime Intellect是这个领域的先驱公司之一。如果你想训练自己的模型,嗯,如果你想在这些环境中工作,在这些环境中你可以测试和改进事情,嗯,他们有非常酷的技术可以使用。而且Jackman,当笔记本准备好时,舞台就是你的。>> 是的。嗯,谢谢你,Agram。我实际上改变了我演讲的主题,但它仍然与持续学习和长运行智能体有关。只是我选择了一个更朗朗上口的标题,所以当它出现在屏幕上时你会看到。

所以是的,嗯,大家好。我叫Jackman Ang。我是Prime Intellect的创始研究工程师,今天我将要谈论的是强化学习和递归语言模型。所以,嗯,我们今天听到了很多关于智能体的内容以及它们所做的令人兴奋的事情。嗯,我觉得这相当疯狂,因为仅仅两年前,回到2024年cursor agent刚发布时,如果一个智能体运行时间超过5分钟,你就不会期望它在这一点之后还能做任何有用的事情。但现在我们在2026年,两年后了,我们就是这样让智能体在我们睡眠时自由活动,运行数小时并消耗数百万个token来做一些相当非凡的事情。所以我认为这不是一个问题,特别是在这个观众中,模型确实非常有用。

所以问题变成了更多经济上的问题。嗯,问题像是模型能否可靠地完成我的任务?模型能否高效地完成我的任务?模型能否足够快地完成我的任务,以至于我可以为我的产品提供我想要的用户体验。所以今天我将提出一个观点,即上述所有问题的解决方案是你应该训练自己的语言模型,特别是你应该通过强化学习来做这件事,也使用RLM。所以首先,嗯,长运行智能体的问题是什么?所以我相信任何使用过智能体的人,无论是Claude Code或Codex或任何Claude,你都知道这些模型在长上下文方面其实不是那么好。仅仅因为你的模型接受100万个token并不意味着它可以在100万个token中进行推理。

这在基准测试中是很明显的。所以如果你看任何大型模型提供商的模型卡,通常他们会有一个叫做长上下文的部分,里面有两个基准。第一个是MRCR。这是大海捞针。基本上这是在测试模型在很长的文本中检索特定信息的能力。你可以看到,随着上下文长度变长,模型在这个任务上的表现明显变差。从事智能体工作的人知道,嗯,这个信息检索的东西很好衡量,但这并不是我们真正想了解的模型,对吧?我们希望模型能够在100万上下文中进行推理。所以最近出现的一个非常流行的基准测试是图遍历。

图遍历基本上是我们将节点和边列表传递到提示中,然后基本上要求模型进行图问题。所以像,嗯,列出X的所有父节点或在Y上执行BFS并列出所有子节点。你可以看到这是同样的故事。随着上下文长度变长,模型的表现明显变差。但是,如果我们不是将整个上下文传递到上下文窗口,而是只传递对上下文的引用呢?我认为如果你是一个数据科学家,或者如果你做过任何数量的数据科学,并在Jupyter笔记本中做过探索性数据分析,这是相当直观的,因为你不会将整个CSV传入Python代码,对吧?

嗯,你通常会做,好吧,我做我经典的嗯数据科学导入,然后我定义一个数据框,然后我做这些代码片段来缓慢地操纵我的数据框,试图找出我的数据的结构,分布是什么,然后我找出好吧,我可以用这个数据做什么事情,如果你考虑以这种方式设计智能体,嗯,很多事情变得非常容易,比如上下文分块变得非常容易,工具调用变得非常容易,子智能体委派变得容易得多,原因是你的编排智能体现在不需要自动递归地重现上下文……正确地对吧,它只是可以将其作为变量传递,所以,嗯,为什么要停在只有变量呢,对吧,嗯,为什么不拥有整个编程结构的大杂烩呢,嗯,比如说,例如,你需要处理,嗯,你有一个需要处理10,000个文档的任务。

如果你要用像旧版语言模型这样做,基本上你需要你的编排智能体正确地进行10,000个顺序工具调用,而且不仅仅是正确地进行工具调用并正确地传递上下文。你还需要祈祷摘要之神。拜托拜托,当模型进行压缩时,它不知何故记住了它所做的各种事情,并且仍然可以记住,嗯,即使在进行所有这些顺序工具调用时它在哪里。但是如果你只是把它做成递归语言模型,你可以,嗯,模型可以简单地写一个for循环,然后基本上以一种非常简单的方式进行这些LLM查询,嗯,这些顺序查询。所以我们看到,那些真正擅长使用智能体的人实际上已经在做RLM了。

比如,如果你遇见任何真正擅长使用Claude Code的人,他们总是写这些提示,像,「哦,拜托拜托不要,嗯,把子智能体,嗯,嗯,不要把子智能体输出放到你的上下文窗口。不要把工具代码输出放到你的窗口。你可能会搞砸,他们会搞乱你的上下文,嗯,就像把所有东西写到一个文件中,因为,像真正擅长使用智能体的人知道压缩根本不起作用,当你看到这个时,你就知道没有希望了,模型不会从压缩中恢复,所以,嗯,任何你现在可以使用的聊天智能体,像ChatGPT,嗯,Claude或像AI Studio,基本上,如果你试图把一个很长的文本系列放入聊天窗口。嗯,他们基本上总是把它变成一个文件。

所以,就是这里要表达的观点,人们实际上已经在做递归语言模型,但他们只是没有做它的全部力量。他们只是使用变量方面。你可以引用上下文的事实,但他们没有得到如果你有一个完整的Python RLE的全部Python表达能力。所以我认为毫不奇怪,嗯,人们已经开始为一切使用RLM。所以任何需要像长上下文理解的东西。所以有视频的RLM,有游戏的RLM,有编码的RLM,有数学的RLM。嗯,我相信在Twitter上的某个时刻甚至有一个关于Epstein文件的RLM。嗯,我找不到这条推文。嗯,也许中情局以某种方式删除了它。好吧。

而且,嗯,Alex Zhang是RLM的第一作者,嗯,他写了这篇非常好的,嗯,我认为每个人都应该读的文章,叫做「被管理不善的天才假说」,其中的基本想法是模型已经足够有能力做你想做的很多任务,唯一阻止他们的是脚手架。我们还不太知道如何编排这些智能体。

我们还不太知道像,哦,我们应该把记忆放在哪里,它到底应该在做什么,这些像子智能体委派的东西,以及像苦涩的教训看待这个的方式是像,为什么我们让人类这样做呢,对吧,我们应该只让智能体定义他们自己的脚手架,像你们今天使用的所有脚手架,Claude Code,Open Claude,Super Vibe Coded,它是非常明显的,模型已经可以写出非常好的脚手架,所以他们应该只是在进行推理时动态地写脚手架。嗯,现在还不是那么好。所以,嗯,你们可能已经看过幻灯片,然后像,「哦天哪,这就像,这是最好的想法。」然后像,你回家,然后你,嗯,试试RLM repo。嗯,但你可能会感到有点失望。

问题是,如果你看一下智能体现在如何做RLM的方式,智能体在这个脚手架上没有经过训练。所以,他们不是很好的RLM。他们不太明白,哦,他们应该在做子智能体委派。

他们不太知道如何做这个像上下文切片的东西,但像,是的,你应该读博客文章,但在博客文章中,基本上它显示了这个任务,如果你只是用基础模型和基础,嗯,RLM提示,它的表现不是很好,但有一点提示工程,你可以获得显著的性能提升,你基本上总是打败基础模型,如果提示工程足以让你用RLM打败基础模型,什么阻止你只是训练这些好的RLM策略直接进入模型本身呢?所以这就是我们在Prime Intellect所做的。所以Prime Intellect,我们是一个平台,嗯,试图为任何想要训练和提供他们自己的,嗯,语言模型的人服务。

嗯,我们支持很多来自GBD OSS、Llama、Neotron的开源语言模型以及所有Quen。嗯,我们基本上有实验管理。所以你可以看到你的指标以及你的所有实验配置。最重要的是,你可以看看推出,这就像最重要的事情。你可以看到你的失败案例和,嗯,看你的数据。嗯,我们有一些相当有趣的用户。嗯,所以我认为这是大约两周前。嗯,Ramp Labs宣布他们在与我们合作,他们基本上进行了一个项目,其中他们训练了一个小的Quen模型以在Excel智能体的检索任务上击败Opus 4.6。它不仅在这个任务上在准确性方面击败了Opus 4.6,他们感兴趣的,他们也可以更便宜地做到,他们也可以以更低的延迟做到。

模型训练的另一个有趣的用户群体是数据供应商。所以有一个叫Shan Chai的家伙。我认为如果你在硅谷的数据空间中,你可能以前见过他。我认为他基本上和谷底的每一个数据供应商、每一个数据消费者都谈过。他做了这个观察,即像哪些数据实验室在未来会成功的区分因素是他们是否能够开发内部训练能力。因为这些模型,嗯,这些,嗯,实验室购买数据,他们不是傻瓜,对吧?他们知道像,并非所有数据都是相等的。在他们签署像一百万美元的交易来购买大量数据之前,他们想知道像,这个数据会改进我的模型能力吗,或不会?

对你来说做这个的一个非常简单的方式和非常确定的方式就是简单地展示奖励曲线。简单地展示,如果你在我的数据上进行了训练,嗯,那么你的奖励会上升,或者如果你在我的数据上进行了训练,你的智能体会更高效地执行任务。所以,如果其中任何一个听起来对你来说非常令人兴奋,嗯,请查看我们。我们在primeintellect.ai。嗯,我们期待看到你们构建什么。而且,嗯,这就是我的全部内容。你们一直都是很好的观众。非常感谢。太棒了。非常感谢你,Jackman。那是一个非常,非常好的演讲。嗯,接下来我们有Michelle Julia,她是Blue Labs的联合创始人,她将讨论AI实现情感智能。显然,我们一直在谈论个性化AI一段时间了,所以这是一个相当贴切的话题。

但Michelle也有点很酷。她是Apple最年轻的专利持有人之一。所以,如果你曾经使用过Find My、Find My iPhone或Bump来交换联系人,它下面运行的无线系统,她是它的专利持有人。嗯,但今天我们不谈论那个。我们谈论情感智能AI。不多说,Michelle你好。嗯,大家好。我是Michelle。我是Blue Labs的联合创始人。我们是一个专注于情感智能的研究实验室,特别是嵌入式情感智能。嵌入式情感智能是在一个持续的关系中航行的能力,其中每个互动形成未来欲望轨迹的能力。所以它不是一个静态的状态。它将管理关系和捕获直接效用视为平等目标,而不是作为优化的权衡。

所以我们的研究是围绕什么架构让AI系统能够以人类的方式做到这一点。如果你退一步,真正我们专注于让AI听起来和感觉像人类,特别是在商业决策过程中。所以这是我们今天专注的地方。让我用一个快速的故事来阐述这个。所以正如他之前提到的,正如一个提到的,嗯,我在蓝色实验室之前在Apple,你知道,我是最年轻的专利持有人之一。如果你使用过Find My,它在我持有专利的无线算法上运行。你可以想象我是一个小个子的亚洲女性。在谈判中,房间经常看起来是这样的。所以我对进入每一个谈判都有点焦虑。我去的第一个,我们被飞往葡萄牙。

前一天晚上我坐在这家酒店的大厅里,我非常焦虑,我在浏览你知道的所有技术细节,嗯,我们到底在和这些外部供应商谈判什么?Apple的立场是什么?我们如何与他们谈论技术?然后我的经理让我坐下说,「听着,我们有一个小时来讨论这个。先忘掉技术细节。这些是我们与这个供应商一直以来的过去10年的历史。而这就是所有的茶。让我告诉你关于这个人与那个人的关系,以及我们过去如何与这个人谈判,以及他如何寻找什么,以及他如何过去与我们的大老板互动。而这就是你走进这个房间的所有动态。

那会对你有帮助得多,而不仅仅是记住技术规格。正是那一刻,我意识到了什么,重要的不一定只是一个对话的技术效用。在大多数设置中,人类需要了解纵向关系。所以为了让我成为Apple的一个聪明的智能体,我需要关于每个供应商的完整的二元对立上下文,以及能够以一种对长期有益的方式向前推进那种关系的能力。所以那是一个很多要一个人承担,更不用说对一个智能体了。大多数人类实际上直观地做这个。你不需要真正想太多关于机制。你们中的大多数,你知道,运作良好且处境良好。

但在这些基于效用的对话和关系中,很难随时间建模和平衡关系状态。数学上很难证明。所以我相信这个领域中情绪智能的解锁是真正推动我们采纳AI作为人类战略性和有用模仿的关键。我们已经建立了在人类所做的工作中流利的语言模型,但战略上不胜任。因此,利用这些长期关系块,我相信真正的企业职能取决于高度细致的平衡信任和关系与交易和谈判的能力。

所以呃我对这个领域非常兴奋,我今天的目标真的就是给你们一小段这个领域是什么、今天的最先进水平是什么、人们在谈论什么以及有哪些开放问题的尝试。如果这对你们来说也很令人兴奋,我们稍后可以更多地谈论Blue Labs在做什么。所以我们将讨论社会思维链和按模态的博弈论、人类行为以及状态胜过特征。我会尽量简短地涉及这些。所以第一个是去年在《自然人类行为》上发表的。

基本上他们用AI代理玩了这个游戏,对吧,其中你有囚徒困境(一个自利游戏)和两性之战(一个协调游戏),他们的目标真的是看到模型在这些特定状态中如何表现,呃在这些特定状态中,他们发现的是一个不对称的结果。这些模型在自利游戏中表现得相当不错。所以当你应该合作时他们会合作,你知道当背叛有利时就背叛,但在协调方面表现得很糟糕。这很有粘性,因为大多数人类互动都是协调游戏,对吧?当你坐在葡萄牙那家酒店的大厅里时,我们的供应商并不试图背叛我们。我们不试图背叛他们。我们都想要一个交易。只是什么样的交易。所以这种微妙之处很难捕捉。社交思想链条也确实增加了合作率。

嗯,所以当你能同时建模你和对手时,我们看到一种指数增长。第二部分来自Google DeepMind。嗯,它是今年推出的,他们用人类、前沿模型和一个特定的Beijing代理(他们训练的自定义代理)进行了讨价还价游戏。所以这是,我相信,Gemini 1.5 Pro和GPT-4。他们发现的是在这三组人员进行游戏的阵营中,你知道,这是一个讨价还价游戏,你在交易筹码,Beijing代理非常激进。所以,他们,你知道,有点玩硬球。他们经常被拒绝,但他们获得了最大剩余的80%。所以这在一个定义的空间内实际上非常好。人类更公平。他们给一点,他们得到一点。他们有点想要这种平衡。大语言模型非常让步。

所以就像,哦,我会交易,我会和你做任何交易,我实际上会给你比你给我更多的东西,这样我就可以做这个交易。所以每个交易都被接受。我们看到这些模型在整个游戏中无法自我平衡。所以这里的适当反应是真的当我第一次见到你时,作为一个人,我给一点,这样我们建立关系,然后当涉及到一个非常大的交易时,我想玩更多的Beijing游戏。所以呃这强调了代理进行谈判的静态性质。第三部分,所以这很有趣,因为它来自计算心理学,而不一定是CS。呃但这些发现被突出显示,你知道,沿着类似的方向。

所以它是被ACL接受的一篇论文,呃关于固定的心理人物角色的状态而不是特征。基本上研究人员在询问语言模型实际上有多好地捕捉用户是谁。他们发现的是用户在特定时间是谁比用户的一般状态更有趣和重要。所以在这个时间点给定这个关系,我有点焦虑,因为我在这些类型的人的房间里,或者我第一次见到这些人。这些状态中的变化实际上对用户的政策比基础用户的比如我是一个天生冷静的人或我是这种那种人更重要。呃对不起,性格特征。所以我们在这里发现的是,我们建模人格的静态方式实际上为改进留下了很大的空间。

所以这意味着什么,它表明模型无法在变化的条件下进行协调。他们将自己的行为视为静态,并且天生让步。对吧?我指出所有这些问题是为了向你展示我们可以做很多更多的事情来赋予模型这种理解感和情感关系感。所以,我们有几个研究方向,我有30秒,所以我会非常快地讲这些。一,我们能否训练语言模型在战略寄存器之间调制?什么时候推,什么时候拉?二,关系的最合适的建筑表示是什么?二元嵌入,反思性记忆层级。这是一个开放的研究课题。你们中的任何一个,如果你有一个想法,你可以相当快地实现这些实验并拿出些什么。

所以这是一个粗略的估计,你知道,我们在探索什么,我们开始在Blue Labs探索什么。我们对此的第一次建筑尝试是Blue JST,一个联合状态引擎,其核心思想是一个双奖励机制,将关系建立和效用优先级作为共同的目标,而不是将一个减少到另一个。就像我说的,这是开放研究。这很令人兴奋。你知道,我们还没有所有答案,但如果其中任何内容对你们感兴趣,我们正在招聘,我们很乐意聊天。我们正在积极地跨越行业和学术界进行合作,研究就在我们面前。谢谢。谢谢,Michelle。接下来,我们有Jackie Mock,他是RA的应用AI主管。

现在他将讨论世界模型,呃,以及我们如何从语言转向物理智能,呃,再次我们进入物理AI具体化AI的地形,还不完全是机器人方面,但更多的是世界模型世界建构方面,呃,所以一旦Jackie准备好,我们将准备好。嗨。>>好的。嗨。我在谈论,呃,我们如何从语言转向物理智能。呃我的演讲是关于我们通往世界模型的道路。所以我是Jackie。我在REA工作,我是应用AI的主管。呃,REA是视频、图像和文本的多模态AI。呃,你可能从我们几年前建造的一些模型中认识我们,当时我们在排行榜上攀升。

呃,我们最近更多地专注于视觉模型和不同的模态,呃在实验室,我们正在努力理解我们如何能够将这些应用于现实世界的情况。所以就当今的视觉而言,呃,我们已经呃有很多这些计算机视觉技术,可以做很多事情,对吧,这是一个已解决的问题,能够检测汽车检测事物和跟踪项目,这来自计算机视觉,呃,我们可以使用这些来帮助我们的部署以更确定的方式理解视频内发生的事情,但你可以稍后在视频中看到,机器实际上不理解它实际上在看什么。它可能能够看到热图。它可能能够看到边界框,这就是计算机视觉在VLMs出现之前的样子。

现在我们有了VLM,有了VLM,我们就能够查看一个场景、思考这个场景,然后对这个场景采取行动,对吧?我们能够在此基础上应用CV来帮助它也能随着时间推移逐渐理解各种事情。嗯,但这基本上就是我们如何应用LMS的方式。呃,但我们不会替代CV。CV也有点在一旁。嗯,还有另一个我们如何在生产中部署AI的例子,嗯,这里你可以添加诸如检测、跟踪和识别的内容。嗯,这里我们仍然使用CV作为一个非常便宜的步骤来理解场景中发生了什么。呃,然后我们使用VLM进行推理,然后我们用它来发出警报呃用于特定的用例。对吧?单独任何一个都是不充分的,单独任何一个也还不是呃物理眼睛,但这些是我们拥有的、来自我们语言模型的构建块。

嗯,所以BLM能够预测下一个token,因为我们能够获取这个视觉空间,将其编码呃放入某个嵌入中,然后我们生成下一个token。所以我们可以解释图像中有什么内容,视频中随着时间有什么内容。然而,输出仍然主要是基于文本的。嗯,还有另一个我们也围绕其构建模型的范例。嗯,我们能够预测下一帧,对吧?所以你见过扩散模型,它们生成图像或视频。嗯,这也是现在机器人和物理AI试图使用的一条路径呃为了生成呃机器人的轨迹。而这两个模型,语言模型与这些视频模型,还不完全是世界模型。

嗯,对我们来说,呃我们可以从两种方法中都进行,对吧,两种方法实际上都帮助我们构建了这个关于世界模型是什么的下一个想法。所以我们想预测下一个动作,这是最重要的事情,它使任何东西与任何东西不同。嗯,我们将讨论我们如何尝试到达那里。这是一个我们如何从头开始训练模型的例子。所以这不是现成的模型。这就像是一个完全从零开始训练的扩散模型,在视频生成上进行训练的。所以它可以制作5秒钟的电影般的电影和电影般的场景。嗯,但当应用于机器人技术时,现在的主要优势是它是零样本的。

所以即使在以前的技术中,你必须用以前的机器人手臂技术呃机器人手臂运动来训练一个机器人,嗯,你有一个扩散模型,它现在追踪手臂能够去达到目标的轨迹。对吧?最大的改进是这发生在机器人不知道之前是什么的情况下,我们能够获得相当令人惊讶的结果,还有许多其他实验室也在做类似的事情来控制机器人。呃,但差距仍然在哪里呢?仍然有很多事情我们想要改进,当我们构建模型时,最好的方式是我们理解什么被破坏了,我们创建评估,对吧。所以实际上VLM在物理学方面相当糟糕。所以一个例子是它会产生幻觉。呃,一个物体可能会消失。

一个物体可能会变小,出于某种原因在下一代中。嗯,它可能不遵循物理。对吧?所以我们正在添加的一件事是我们正在添加呃一个评估集来理解我们的盲点呃对于我们可能有的其他盲点是,即使我们今天进行很多评估,实际上当我们进行评估时有很多盲点,其中呃即使模型能够获得正确的输出,它实际上是被采样的,我们实际上丢失了一些数据。对吧?很多这些模型也正在被其他BLM评判。呃所以,BLM有点互相评判来理解他们是否在改进,这也造成了一个差距。嗯,所以这就是为什么呃对我们来说,我们正在创建新的数据集呃来理解真实情况是什么。

所以你看到我后面的所有这些东西呃都是模型不太理解的地方,对吧,那是一个球游戏,更小的。

嗯,然后你有比如如果什么东西在下落,这是在正确地下落吗,当两件事彼此碰撞时,它们会做什么呃,运动是正确的吗?对吧,物体有没有自发移动,说实话,很多模型现在无法预测这个,这是其中一个主要的像物理相关的东西,嗯,我们创建合成数据来理解我们评估中现实主义机会是什么,像即使是今天最好的模型也表现得不是很好,对吧,有理由呃但我现在会讲过那个,是其中之一是BLM不看每一帧,这些大语言模型的方法,你知道,有很多token进入那些这些模型,大多数时候它需要被采样,对吧,所以在我们的实验中,我们可以有点证明,像如果你把每一帧都发给它,它可能会理解,但如果你呃发给它呃随机数量的帧,它会进行插值,它不会理解实际上发生了什么。

所以,那是它失败的一种方式。另一种它失败的方式是,当一个物体只是靠近边缘时,呃,它不能实际看到人是否消失了或如果他们走出了场景。这造成了很多呃困惑,因为模型有点假设和预测人消失了,即使他们没有逐帧看到。另一个领域是VLM真的只是回到文本。所以它会在文本世界中推理事情。呃我们必须给它更多的CV和像更多的补充数据来让它真正理解呃场景中发生了什么。呃它理解法律,但在文本空间中理解它。所以它能够更多地推理它。

呃它回到了为什么我们今天的部署实际上更多的是CV增强的地方,其中你有视觉模型查看视频,但也有呃CV文本解释哦这个场景有X身份,它正在许多场景中被跟踪,这就是我们如何有点帮助改进VLM性能的方式。所以对我们来说,我们使用VLM来有点帮助改进我们如何判断物理。他们,但最终他们仍然在今天跳过帧。嗯我们使用他们,他们使用他们来匹配呃位置,而不是运动。呃他们知道物理只是从他们从基于文本的模型中学到的,对吧?我们即将发布一些呃评估集来帮助其他人也改进他们的模型。呃所以他们也能够训练下一个具身模型。

对我们来说,呃总结一下我们作为一家公司如何走向物理AI,呃当我们构建下一个模型时,我们仍然在使用我们的LM和我们的VLM,其中我们有下一个token,这将被包装在一个框架中,该框架将帮助我们控制呃监视或它将帮助我们控制机器人。嗯,但我们也正在创建路径,其中我们有扩散路径,其中我们有这些现在为机器人创建这些控制路径的视频模型。嗯,它们可以结合在一起来创建这种世界模型,其中我们生成下一个动作。嗯,下一步是这个评估集,因为这个评估集将帮助我们理解我们是否实际理解发生了什么,或我们是否实际上盲目飞行。

嗯是的,这就是我们让语言模型随时间进化的路径,现在我们正在尝试转向呃帮助我们支持下一代,那就是呃构建物理AI和世界模型。这就是我的演讲。谢谢。非常感谢Jackie。接下来,我们有Gokul Shinasan。他是Antim Labs的联合创始人兼总裁。现在他将讨论模拟游戏和机器人的未来。我想他有一些真的很酷的演示和视频作为其中的一部分。所以这是一个值得关注的。各位晚上好。呃我叫Gopal,我是联合创始人labs,今天我将讨论呃模拟游戏以及这些将如何成为呃机器人技术中真的很重要的主题未来。好的。自1950年代、1960年代以来,机器人基本上一直处于笼子里。

我的意思是一切都是预编程的。环境是固定的。呃机器人应该做什么的脚本,一切都是固定的。所以环境是为机器人专门构建的。当然,为了真正释放经济价值,我们不能这样,让环境为机器人而构建。机器人应该在现有的环境中工作。所以呃在过去10年、15年里,大量的工作都投入到使机器人变得越来越通用,呃这导致了大量的酷研究。所以我们今天看到的是,尽管有很多研究,机器人社区对一个问题没有任何答案,即什么样的模型架构将导致显著的呃通用性。

例如,如果你只是看所有最新的研究,我们看到世界动作模型、u VLM、VAS、呃视频动作模型,当然还有一些人仍在使用经典算法。现在,因为有不同类型的模型,当然我们需要不同类型的数据收集方法。呃其中一些是teleoperation,只是使用互联网规模的视频来训练视频动作模型呃来自模拟的合成数据,以及呃UMI风格呃捕获。所以这些都是用于呃机器人用于训练机器人的不同类型的数据捕获方法。那么,有人现在可以问,好的,有这么多不同类型的模型,这么多类型的数据,到底发生了什么?机器人技术只是会分裂成多个不同的方向吗?并且呃没有呃没有真正的关联线将所有这些连接在一起。

我想论证的是,所有这些方法中共同的一点是模拟。我的意思是模拟将成为呃工作流程的一部分,包括研发工作流程和部署工作流程,你很可能无法逃脱。所以呃模拟将被使用的一些地方是用于生成合成数据。呃其次是呃你可以创建环境的数字孪生体,你想确保它们在这些数字孪生体中能够工作,然后呃你知道再去部署实际的物理机器人。呃第三个是用于边界情况覆盖。这就像真的呃已经建立良好,并且在自动驾驶等事物中被广泛使用,当然还可以在部署之前将政策进行原型开发。

所以,呃,对于所有这些不同的,呃,你知道的,可以使用模拟的地方,呃,即使它即将无处不在,模拟的状态是什么就是它真的真的很难制造。呃,我不知道你们中有多少人试过构建模拟或使用过任何模拟软件,比如Isaac Sim或Mojo之类的东西,但是有一个真正巨大的学习曲线。即使你成为了专家,它仍然真的很难。所以现在幻灯片上的只是呃创建一个资产然后放置它的呃工作流程。所以你有呃取决于你的场景有多复杂,你必须为多个资产做这个,并呃你知道它就是真的很难并需要数天,有时甚至数周。所以没有理由这样做。

呃所以有了当前的代理AI和大量的呃基于视觉的模型和语言模型,我们实际上可以自动化管道的几个步骤,或者至少让它尽可能接近自动化。所以我们构建了一个叫Gizmo的东西。这是一个提示到模拟的工具,基本上你可以用自然语言或一张图片的形式给我们的系统一个提示,它会出去启动一堆子代理,它会做任何需要做的事情,然后在最后你就有一个sim你有一个完全构建的3D模拟,这大约需要20分钟现在。呃所以你基本上在大约20分钟内完成了你环境的第一遍,让我们说有一些人在循环中的工作是必需的。它仍然是你知道你可以在几个小时内完成它。现在这与数天或数周形成对比。

嗯,那就是现在正在做的。所以我只是要演示我们工具的演示。所以那就是工具的演示。所以基本上,你输入一些东西,然后你得到一个模拟。所以,嗯,这,这开启了一些严肃的能力。所以我们也将有 API。所以这意味着你的代码 ex 或开放爪,无论你在工作流的任何部分使用什么,它可以决定启动一个模拟,嗯,你得到一个模拟输出。所以这也启用了大规模。现在,大规模进行模拟还不可能,因为它们太难制作了。嗯,这也启用了一些真正有趣的东西,比如,你,你,你基本上可以有一个端到端的闭环、闭环,用于机器人学习。

例如,你可以说训练一个四足动物走到我指定的场景中的一个点或其他东西,那就是代理需要的所有信息,去实际完成整个事情并为你提供一个已训练四足动物的策略。好的,所以呃这是呃机器人技术是否被解决了?当然不是。呃模拟现实差距仍然存在。这意味着模拟呃虽然它们是有用的,但还不是100%准确的。这根本上只是一个物理问题。呃接触物理存在问题,还有问题呃你知道我们近似材料的属性,变形非常难以建模,所以呃这是机器人社区和我们仍在爬的一座山,我们预期这个差距会随着岁月流逝越来越小。

好的,所以我们谈到了模拟。让我们来谈游戏。为什么游戏很重要?所以呃在模拟中你不仅可以训练操作或导航或运动。事实证明,如果你能够拥有一个合成的世界,你甚至可以训练高级认知。我所说的高级认知是什么意思呢,是指呃探索当目标不清楚时。呃当你有一个计划然后世界发生了什么事你的状态降级了。你如何恢复?你如何重新规划?呃当你有呃当你对世界没有完整信息时,你的决策质量如何?所以呃所有这些事情都真的很重要。

它们不仅对机器人很重要,对LLM也很重要,但对于机器人,它们它们特别重要,因为它们还需要根植于空间时间记忆。所以呃我意思是所有这些事情,像探索,呃重新规划,和呃你知道长期规划,所有这些都需要根植于空间时间记忆。所以我们训练了一个代理,我只是给你一个非常快速的呃概述关于我们如何做的。所以我们训练了一个20亿呃quen模型VLM。所以它基本上作为一个计算机使用代理发挥作用,其中它控制键盘和鼠标。所以我们在像400小时的呃呃帧动作视频游戏数据上预训练了它。

这基本上给了模型一些关于如何玩视频游戏的直觉,通过预训练和我们用大约60小时的IF数据进行的指令微调来引导模型完成游戏。最后,这是我们还没有做过的事情,但正在进行中,即训练模型输出推理轨迹,然后这些推理轨迹作为下一步的指令。对吧?最后,我们需要记住的一件重要事情是,由于我们想要玩视频游戏,我们需要实时操作。所以,嗯,是的,我们需要模型在200毫秒内接收输入、处理它并解码输出。所以现在我将为各位演示一下我们的代理。正如各位将看到的,这仍然是早期工作,远非完美,但希望各位会喜欢。Heat。

Heat,那就是我的时间。谢谢。非常感谢,Gokul。我们现在是下午5点。我们在最后冲刺阶段。非常高兴大家仍然在听讲座。嗯,我们将稍微绕道一下,进入一些设计方面。我们现在将探索不同的玩法。所以我们的下一位演讲者是来自Lentil的Weii Su。她的演讲角度是探索东方哲学和东方产品建设背后的智慧。这将是一场非常有趣的讲座,从设计和人工智能的角度来看,但从一个通常不在讨论中心的视角。所以,随时准备好。你想回到那里吗?>> 是的。是的。好的。大家好。你们能听到我吗?好的,谢谢你们在这里。嗯,我的名字是Wayi,我经营一家名叫GenZen的初创公司。我们创造人工智能视频来扩展营销。

我今天将会有点实验性,我想花一些时间讨论东方哲学以及这如何能塑造我们在未来的建造方式。这感觉是值得讨论的事情,因为我们生活在一个时代,西方人在TikTok上变成中国人并追捧中国。所以如果你在TikTok上花时间,在过去几个月中你一定注意到了这个趋势。不仅如此,西方也越来越关注来自亚洲的公司和人工智能模型。我想在这部电影中突出的一个时刻是,嗯,这就是这部名叫《流浪地球》的电影。你们中有多少人听说过这部电影或看过?很好。你们中有多少人听说过《三体问题》?更多人。太好了。

嗯,所以《流浪地球》也是由同一位作者Leo Sushing创作的,这是科幻电影中非常重要的时刻,因为它是中国首次成功打造根植于中国故事讲述传统的大规模好莱坞科幻大片的尝试之一。这是一个设定在2075年的故事,太阳在膨胀。地球很快将变得不宜居住。人类没有选择放弃地球,而是决定齐心协力在地球表面建造大约10,000个巨大的行星发动机,将地球推出太阳系。这个计划需要2500年。因此,在接下来的25个世纪里,他们都同意住在地下。嗯,看这部电影,看到这种集体主义的心态对我来说非常有力量。

它帮助我意识到我们一生中被给予了一个版本的故事和一个版本的未来。主要是由好莱坞创造的,而我们甚至没有真正意识到这一点。因此,长期以来,西方叙事一直处于我们如何建造、如何生活以及我们想要什么的中心。如果东方叙事处于21世纪的中心会怎样?在西方,极简主义通常受到青睐。应用程序倾向于在每个页面上有一个行动号召。例如,在美国,你使用Cash App或Venmo向朋友汇款和付款。这就是Cash App的样子。另一方面,这是来自中国的支付宝。你不仅可以发送和接收资金,还可以支付账单、订购外卖,甚至申请贷款。所以,在东方,生动性通常被更多地庆祝。人们想要所有的选项。

很多时候,更多是好的,而不是更少是好的。西方的这种信念也倾向于关注单一性。这方面的一个例子是,像Meta这样的西方公司在过去十多年中一直专注于增长一条收入流。所以如你所见,他们依赖于广告。另一方面,WeChat的母公司腾讯一直在多样化他们的收入流,他们没有把所有鸡蛋放在同一个篮子里。当你把这两个社交媒体公司放在一起时,对比是相当明显的。你也可以看到这如何改变了他们的行为、他们如何处理风险,以及他们如何进行实验。虽然东方倾向于多样性,我们也庆祝可选性。所以我不禁想知道是什么导致了这种差异。对吧?

一个观察是,每种文化所体现的哲学非常非常不同。虽然西方有《圣经》,在中文中被称为shenanzing,这是圣典,东方有被称为eing的东西——《易经》。其中心论点是没有什么是固定的。一切都在运动中,智者不会真正抵抗变化。他们寻求指导来驾驭和接受变化。有了Eegene,从业者倾向于投掷硬币生成六条线。这些都是64个选项。嗯,64个hexogs。它们为生活中不断变化的情境提供指导。随着时间的推移,它成为中国哲学的基石,反映了关于平衡、转变的思想,也涉及到,我认为我们这个时代都经历的变化之一是内容是合成生成的。

我们将看到更多合成生成的内容而不是由人类创造的内容。我认为我们都在问的一个问题是,我们会被零努力的垃圾淹没吗?我们会看到垃圾大量涌现并淹没一切吗?对吧?当有这么多噪音时我们怎么办?嗯,但如果我们从不同的角度看这个问题,讲故事的工具——相机、工作室、发行,整个好莱坞建立的装置正在崩溃成任何人都可以持有的东西。这也意味着被好莱坞忽视的社区现在拥有创建内容并按照自己的条件分发它们的工具。那些过于小众、过于陌生、市场太小、太难选角的故事,现在可以由真正生活在其中的人为真正想要的观众制作。

例如,中国的furry社区现在使用人工智能为自己创建内容。这个furry动画在过去两周内获得了100万次浏览。中国的另一位视频创作者创建了一部人工智能短片,在过去七天中在所有平台上获得了6000万次浏览。类似地,我们在GenZen正在帮助客户在传统上过于小众的行业中创建内容。这对我来说真的很令人兴奋,因为我们能够为这些细分领域创造更广泛的访问权和认知度。在过去四个月中,我们每月在YouTube Shorts、Instagram和TikTok上交付了1000万次展示。例如,我们也制作了更多的egene内容。为了增加对此的认知,我们构建了一个应用程序来使每个人都能获得阅读。

传统上,进行egene阅读对初学者来说可能是一个非常复杂且令人困惑的过程。所以,这个工具使你能够快速提出你最迫切的问题。如果你有兴趣,你也可以在应用商店上免费试用这个工具。嗯,我们这周免费提供它只是为了让你试用。你可以在应用商店上搜索Egene Oracle或扫描这个二维码。我们也创建了并扩展了围绕传统中医、针灸、穴位的内容。这些也是历史上被忽视的主题,由于我们现在可以获得的工具,这类内容更容易创建。所有这些都由我们内部的agentic视频工作流支持,我们简化和优化了内容生产流程,这进而为产品交付展示和生产性转化。

从很多方面来讲,我们把AI生成的内容看作是通向一个更加充满活力、更加多元的未来的工具,在这个未来中,我们所有人都掌握着创造我们认为重要的叙述的工具。有了这一点,非常感谢您的时间,您可以在Twitter上通过这个ID找到我。嗯,如果这对您有兴趣,如果您也想要一些贴纸,嗯,请在之后来找我。非常感谢。多么独特的演讲。我需要想办法制作这样的幻灯片和演讲。太棒了。接下来,我们有Bland的技术负责人Anun Jooshi。嗯,他将谈论语音AI。我们之前有11 Labs的演讲,但这个演讲将朝不同的方向发展,那就是语音AI不是一个模型问题。我们让Anun为我们更多地介绍一下。>>大家好。

你们能听到我吗?很好。太好了。我希望你们都感受很好。嗯,我只是想在我们开始之前说一下,所有的演讲者都太棒了。那么,我们能为所有人鼓掌吗?所以,我实际上改变了我的演讲标题,因为我确实意识到语音AI确实有模型问题。所以我改变了它,我将谈论我在为企业客户扩展语音AI时所面临的一些问题。嗯,所以,我是Anun。我实际上在新加坡长大。两年前我为了Bland搬到了旧金山。有趣的是,我实际上曾是这里初级学院的一个戏剧孩子。嗯,是的,我从来没有想过我会再次上台,但我在这里。我非常喜欢讲故事。嗯,所以我将用一个故事开始。所以,两年前,我在旧金山。

我和我的CEO Isaiah一起去喝咖啡,我们只是在闲逛,他告诉我一些我们至今仍在讨论的事情。嗯,他让我坐下,他直视我的眼睛,面无表情地,他告诉我这个。你不会相信我的,但Pathways,你发明的这个东西将影响数百万人,数百万人将使用它。我看着他,我说,「这个家伙疯了。」像,他就是典型的创始人。他想让我高兴,这样我会更努力地工作。嗯,那时候我们只是哦,好吧,缺少一张幻灯片,但我本来想展示我们只是在Discord上。就是我和另一个工程师。嗯,我们在谈论,我们只是FDEEs,我们是工程师,我们是产品经理。

嗯,我们只是用Bland Discord上的无名无姓的人来弄清楚我们的代理的架构。嗯,现在想起来真是疯狂,我们实际上每个月服务数百万个电话。我仍然还没有意识到此时此刻有人正在与我们的代理交谈。那太疯狂了。嗯,我今天早上也进入了我的Slack频道,在团队谈话中,有一个案例研究出来了,涉及我们的一个客户,名叫American Way Health,你也可以在我们的网站上查看它。他们说我们为他们解锁了每年4.3亿美元的收入。我不知道那是可能的。我不知道我们能做到那样。嗯,是的,所有这一切都远超出了我能想象的范围。

嗯,我很幸运能够吸取我在做所有这些事情时学到的教训和一些痛点,如果你们尝试将语音AI整合到你们的服务中,我想你们从中学习。所以我确信你们所有人都看过一堆嗯语音AI的演示,它们超级酷,但困难的是如何把它投入生产并使其真正为企业客户工作。嗯,所以我将深入了解一些痛点和我为了让语音AI适用于企业用例而发现的一些发现。嗯,好的。幻灯片不同,但我们就这样吧。呃,我将从VO开始。我没有意识到的一件事是很多企业客户处理并向我们投诉的是语音邮件检测的准确性。

嗯,我没有意识到我们目前的客户报告并尝试每天追踪语音邮件检测的准确性。嗯,原因是大多数出站电话实际上没有接通人类。大多数都进入语音邮件,确保这是一个在各种情况下都能工作的强大系统。例如,对于通话筛选器,现在iOS和Google语音在通话连接之前都有检查。例如,他们说嗯在我们连接之前请说出你的名字和拨打原因。嗯,还有一声蜂鸣声发生。很多人使用的是Twilio,它有一个应答机检测功能,本质上只是一个蜂鸣声检测模型。它不是那么好用。企业客户无法依赖它。所以,我在Bland工作来改进它。

我在构建一个CNN模型来查看每个音频块的梅尔谱图。嗯,我没有意识到蜂鸣声有这么多不同的长度和频率,用于不同手机的不同电话。嗯,有些频率也有双频带频率,它们与所谓的DTMF音调相同,这是当你在通话中按下手机上的数字时发生的或你听到的声音。嗯,所以你也不想在那里引起错误的假正。嗯,所以那是我们必须弄清楚的困难事情之一,我们甚至现在有一个网站让你测试和基准语音邮件检测。所以,如果你们尝试将语音AI整合到你们的系统中,请确保你们在查看他们的语音邮件检测嗯准确性或系统工作得有多好。

所以,接下来,嗯,会有一张Slack消息的幻灯片,我从一个客户那里收到,那条Slack消息说,「为什么我的代理不能以同样的方式工作?」或「为什么我的代理不能像昨天那样工作?」我不知道你们中有多少人经历过客户告诉你这样的事情,或者你们自己也许经历过。例如,我知道使用Claude,我讨厌事情只是改变。嗯,从商业的角度来看,有时客户来找我,当我没有改变任何东西时。就像,我没有推送任何新代码,你却来告诉我我破坏了他们的系统。嗯,但我理解,你花了几个小时在他们的平台和他们的代理上工作。当某些东西不能按你预期的方式工作时,这很糟糕。

嗯,我也搞砸了一个故事是当我试图改进我们知识库特性的混合搜索算法时。嗯,我们有自己的自托管向量数据库,我只是想提高准确性。嗯,它对一些客户有效,但对另一些造成了回归,这很糟糕。它破坏了你的客户的信任,这很糟糕,并且很难重建。我们在Bland中构建并对构建感到骄傲的是,我们允许客户部署金丝雀部署并测试版本化的代理版本。所以为了一些背景,Bland为每个企业客户提供专用的基础设施,用于数据驻留等。

而且我们通过这个我们可以允许他们启动一个单独的容器,在那里他们可以测试一个新的代理版本,并发送和将一定比例的流量路由到那里,几个电话号码路由到那里,这样他们就对任何生产变化在真正上线之前经过测试有了更多保证。所以那是我们试图重建客户信任的方式,这对企业客户非常重要,这样他们就可以专注于以应有的方式改进代理。现在这是这是一个有趣的故事。所以我们与一家财富500强的租车公司合作,我们试图收集租车数字ID。

嗯,是的,所以我们可以只是帮助他们需要改变的任何其他信息,我们进入生产,我们开始意识到,好吧,数字实际上与嗯实际上在那里的不同,我们查看了我们的管道,转录引擎是正确的,TTS按应该的方式工作,LM是那个幻觉的,数字的输入是正确的,但它说和输出了一些东西。嗯,我试图通过提示工程来解决它。没有工作。嗯,当我深入到分词器层级时,我看到,好吧,重复的数字实际上被视为一个标记而不是每个数字被视为一个单独的标记。这就是分词器的方式。

嗯,真正完全解决问题的黑客是在每个数字之间添加逗号。那工作的原因是语言模型现在可以将每个数字视为一个单独的标记,我们实际上后来发现嗯一篇论文被发布了嗯你可以查找同步和Stro 2024,这是在嗯我们修复问题之后发布的,但如果你们遇到那样的事情,只是知道你可以查找它,添加逗号将帮助嗯解决问题。它只在大约一千次中发生五次。但如果你正在与企业客户合作,五次太多了。

所以这是我从那里做出的有点个人遗憾嗯有很多YC的决定嗯比如建议是快速移动,快速破坏,但我希望我在推出变化时对一些决定更有意图,是的,不会造成那么多客户痛苦。所以,只是更有意识地关于单向门决定与双向门。所以,回到Isaiah的故事,嗯,他仍然至今为止关于那个我没有相信他的事情来取笑我。知道仅从代码就可以产生那么大的影响是超级有力的。嗯,我只是希望你们能从我学到的一些教训和我犯的错误中学习,这样你们可以扩大任何其他服务或就像整合语音AI嗯变得比我能做的更大。

所以,谢谢、谢谢你的时间,是的,我的LinkedIn在这里,如果你们想伸出手的话。非常感谢你,Anon。接下来,我们将查看这个设计。呃,我们将谈论超越平面设计输出,只是超越自动完成。那么,我们如何解决AI带来的复杂设计问题和企业设计瓶颈?为此,我们将有Oberllo的AI负责人Lin New,她将在她设置完毕后分享她的想法。嗯,这嗯确实耗时且昂贵,嗯创建像营销内容嗯品牌和规模。

所以,如果你能看到这里,当营销渠道增加时,品牌面临对内容创作的无情需求,例如当你想创建嗯营销活动或广告嗯跨越不同的格式,如Tik Tok、Facebook嗯Instagram等等或LinkedIn。是的。所以我们听到了很多投诉嗯和来自CMO的推荐,不同公司的设计主管,无论大小。他们都必须承认传统设计工具速度慢、成本高且依赖专业的设计技能。并非每个人都能负担得起一个大的设计或营销团队。所以我们推出了Oberllo。所以它是一个AI动力设计平台,使团队能够即时且成本有效地大规模创建品牌内容。

所以不像Canva,你可以作为个人使用rightway,但它将无法学习你的品牌特征、你的品牌资产或品牌语音。繁荣。繁荣。是的。所以如你所见那样,像嗯当我们使用AI生成的图像模型或视频,对吧,我们有嗯一个模型崩溃的问题,当你继续提示它说嗯让我们将这个标题改为另一个颜色或改变徽标或像那样的东西。所以当你不断使用嗯之前的嗯生成的AI图像来适应下一次当你提示它时,它将导致模型崩溃。所以我们嗯在Oberllo中我们嗯能够将那些平面设计转向一个完全可编辑的地方,你可以只是四处移动东西,你可以改变颜色,你可以配对从你的品牌资产中学到的颜色。

所以在这里如你所见,我们有很多嗯工作区或域,模型将是嗯根据嗯他们自己的品牌指南特征等等专有训练的。是的。例如,Oberllo,我认为如果你去Funan Mo,你们会看到那里有一个商店超过,他们是我们现在的客户之一。是的,你可以在这里看到。呃,我们嗯使用了很多嗯来自他们的专有嗯训练嗯数据和像我们的设计团队。我们训练那个嗯模型将像完全你知道的有点像私人的而不是从互联网上只是抓取。是的。呃,所以这就像我们AI调整大小的演示之一。如果你曾经尝试过在Canva上调整大小,你会理解那样嗯有时他们只会像复制元素过来,只是拉伸整个画布。

但在这里你可以看到它将聪明地,你知道,重新组织所有这些嗯元素周围。是的,你可以看到那个。嗯,所以它不只是,你知道,复制过来,拉伸画布。是的。而且当你用像另一个嗯像视频或或图像替换媒体时,它将相应地改变所有格式和活动。是的。所以那是那是嗯那是你如何做像营销活动和广告一个技能和品牌。在这里是你如何使用我们的AI工作室嗯我们拥有的功能嗯分为你知道人员主题和产品主题。呃,你可以选择嗯最多你知道八种图像嗯高质量,然后你可以只是给他们命名。比如说你会把它作为Malo夹克或类似的东西放进去。而现在你想生成在一个广告或使用这个模型的图片。

比如说让她穿着Rick Owen的东西。是的。而且我们可以你知道同时生成嗯到多个格式或大小。是的。所有这些信息都是你知道嗯聪明地嗯保存在你的品牌域中。比如说另一个例子用于列车产品,这是一个设计参考。所以你有一个设计参考的某个地方,你有你自己的列车产品,你想你知道有点像只是把他们放在一起,你可以添加标签像在它将理解你指的是哪个嗯主题。是的。是的。所以这是那个的结果。在这里你实际上可以点击细化,如果你想改变那个的任何细节,它将像完全可编辑的。你实际上可以改变嗯文本而不是你知道有点像再次提示。嗯,你可以实际上打开进入编辑器并做更多的。是的。

所以呃我们也有像短形式的视频,你可以使用来成为嗯你知道在广告牌上广播或任何类型的嗯像动态横幅。是的。所以那是全部嗯我们的呃Oberllo平台的总体情况。而在这里你可以看到那个这是一个品牌广告集,你可以只是实际上拉进去呃放入你的URL或放入你的PDF文件,做嗯Google Docs或其他任何东西,它将拉出所有你的颜色方案、主要颜色颜色、次要颜色,嗯标志、填充和所有那样。是的。而且你实际上可以看到它将自动标记你的图像,像什么类型,什么类型的产品,它在这里显示。所以我们有像其他在进行中的工作,还没有推出,但你可以在这里看看。嗯,这里是我们的monty monty网站。所以你可以检查出像,例如,如果设计师想一次创建10个大小的话。

呃,他或她实际上可以用这种方式做初始设计,然后之后呃他们可以做一个集合标记或者像这样的建议设计。这只是一个很简单的格式,但它可以是一个更复杂的布局,使你能够创建呃更复杂的活动。是的。你可以看到我们可以选择很多不同的尺寸,它会自动呃扩展,就像你在Figma上看到的那样,有一个无限画布,对吧?所以呃这是多重调整大小的结果,想象一下之前如果代理呃机构必须呃花费一到两周时间完成,你知道重新安排所有这些,现在我们可以用一次点击就完成。是的。所以呃,对于正在加载的东西,它会稍后加载。

呃哪一个完成了会首先显示。嗯是的,谢谢你的参加。是的,这是我的演讲。真棒的工作。非常感谢你,Lynn。最后两场讲座。坚持住,伙计们。我们几乎快到第一天讲座的结尾了。为了结束这些会议,我们还有两场讲座。第一场是由Stefania Duga进行的,她是Sakana AI的研究科学家。她将谈论主权AI。那么,你如何为某些国家本地化前沿模型?在这种情况下,是日本,因为Sakana总部位于日本。呃,我会让呃Stefania准备好,然后呃我们就可以开始了。>> 你好。你好。麦克风在工作吗?当我准备的时候,我知道已经是很长的一天了,你一直坐着听那么多的讲座。所以,我要邀请你站起来一秒钟。你们都能站起来吗?

我们要做一个呼吸练习。吸一口气。散开。好的,谢谢你的配合。很棒。现在我们准备开始。呃,再等一秒。嗯,所以下午好。我的名字是Stefania Dugga。我是Tokyo Sakan AI的研究科学家。今天我要和你们谈论主权AI。嗯,我的意思不一定是任何国家建立本地模型,而更多的是关于本地机构对全球能力的能力,并思考这一点。所以实际上,当我思考主权AI时,我认为考虑三件事很重要。嗯,数据——哪些数据需要保持在本地,哪些模型最适应本地使用。

计算和评估——我们需要什么样的计算资源,哪些工作流在本地运行,哪些工作流在云上运行,以及问责——当我们向机构中引入AI系统时,确定谁保持问责。所以我想和你们分享一个个人故事,说明我是如何对这个话题感兴趣的。嗯,我来自罗马尼亚Transennylvania的一个小村庄。在从事AI研究之前,我曾为世界各地的儿童、家庭和教育工作者开设AI素养工作坊,包括这里的新加坡。这是一个视频,来自呃2013年儿童学术黑客马拉松。我在这些工作坊、教室、制造商空间和图书馆里学到的是,人们对AI非常感兴趣。他们想使用它,但很多时候AI模型和系统不适应他们的语言和本地需求。

这转化为当今的前沿AI能力。我们期望社区和人民适应AI系统,而不是将系统适应本地需求。在日本,这种本地化带来了多重挑战。我们需要考虑语言的不同语域、不同的文化规范、不同的工作流、科学实践、安全和保安政策。所以本地化挑战在机构层面和多方面的,主权呃我想让你把它看作一个堆栈,对吧?它从数据开始,并找出我们需要什么样的独特数据。嗯,然后它转向评估。我们如何检查中立性、事实性、特定国家的基准?嗯,然后我们谈论适应,这主要通过后期训练、微调、rad工具使用来发生。

然后我们有路由层,在这里我们需要有策略感知的模型选择交互。我们的用户是什么?不同的角色是什么?呃不同的用户体验决策是什么,我们如何向用户呈现这些模型和产品,以及治理。所以超越那个还有一个物理层,对吧?因为堆栈的不同方面对预训练有不同的需求,呃我们需要很多数据和大量计算,在大多数情况下成本是禁止的,对于后期训练,我们需要非常关心本地规范和偏好,我想向你展示一些例子,说明我们在某些项目和产品中如何特别考虑这一点。

所以呃上个呃嗯3月24日我们推出了我们的第一个消费者产品Sakana Chat,在这个消费者产品中呃我们它对日本的人免费提供。呃它配备了网络搜索,但我们实际上,它对日本的任何人都可用。我们实际上支持多种交互方式。所以我们支持呃标准模式呃,这是中立的默认日语语域,但我们也支持keo正式模式,这是在正式背景下使用更多的,我们支持方言Osaka模式,这实际上呃在kai方言中给出答案,人们真的很欣赏这个,我们每天有超过30,000个活跃用户,在这个特定的项目中,我们使用后期训练作为主权控制点,所以我们从开放的前沿模型开始,如deep sea、llama、GPTOSs。

然后我们为评估和偏好提供了独特的呃日本数据,我们与政策专家小组定义了一系列中立性指标。然后我们用这个对这个开放权重模型进行后期训练,以创建我们称之为Namazoo的模型。我们评估了呃我们比较了后期训练模型和基础模型之间的评估。我们展示了后期训练模型在中立性和事实准确性上优于原始模型。但它优于他们的事实不是唯一重要的事情。我们也展示的是,许多这些现有模型只会拒绝回答呃更敏感的问题。例如,如果你问deepseek,请告诉我关于政府呃各国互联网审查,它要么拒绝回答,要么给出一个通用的highle呃答案。

呃在我们的后期训练之后,我们展示了Namazu实际上给出了一个多方面呃的回应,附带指向具体的呃新闻文章的链接,呃这些呃是可信的。第二个我想呃呃项目我想展示的是我们在AI科学家的工作,这聚焦于科学能力作为主权的一种形式。所以呃在这个项目中,我们实际上使用多个代理,支持整个研究工作流。所以呃代理从想法生成、新颖性检查、想法评分开始,然后呃呃我们使用基于树的实验来测试这些不同的想法,为它们生成代码,做消融研究,在最后我们实际上创建了一个完整的论文呃呈现结果。这项工作呃la呃上个月也在Nature中获得了特色。

嗯,这是AI科学家如何使用树搜索来处理呃不同假设和测试它们然后挑选最佳候选的方法。而且这个呃系统生成的论文呃是第一个呃完全生成的论文,在去年的iclair通过了呃同行评审。呃我想展示的另一个例子是我们如何使用多代理协调。所以对于这个,一个非常重要的概念是交换机概念。呃这个交换机学会了自动根据这些任务有多难来路由任务到最合适的模型。而且这样我们优化成本和安全性。路由可以被看作是主权的一种形式呃不是一种将特定解决方案与全球解决方案隔离的方式。

所以如果一个请求呃与日本背景非常相关,它将被发送到日本后期训练模型。如果你的呃请求非常敏感,也许它被路由到本地安全模型,或者也许呃要求人工审查。所以这种协调作为主权能力的想法不仅对我们来说是一个架构焦点,也是一个研究焦点。呃我们相信呃我们的赌注是最有能力的AI系统是专门代理的集合,而不是单一扩展的模型。而且我们实际上展示的是在我们刚刚推出的Sakana Fugu中,我们可以训练一个学到的编排器来挑选最好的模型呃给定一个特定的任务。但这个编排器也可以学会递归地调用自己以处理更难的任务。

而且这项工作呃现在可以进行测试版访问,并在本年iclair上的两篇论文中获得了特色。在fugu的评估中,我们看到的是组合击败规模,对吧?所以呃我们比较了fugu,它协调一个前沿模型池作为一个集合。它呃在现场codebench和sweep pro以及其他评估基准上优于这个集合的任何单一成员。呃接下来我想谈论域适应,因为我们都知道数据稀缺,而且有很多数据我们目前没有数字化,比如有很多默认知识,这是缺失的数据集。所以当我们与不同的机构合作时,银行、医院比如医疗保健、政府呃我们需要有一个过程来将专家批评和反馈整合回模型和我们正在开发的工具中。

例如呃当我们与日本的一些主要银行如MUFG和SNBC合作进行信用备忘录时,我们呃征求超过一千点的反馈,这些反馈被反馈回模型,呃模型学会为他们的专家分析师创建更好的信用备忘录。最后但并非最不重要的是,我们也支持日本政府。所以我们的团队呃展示了他们可以使用AI驱动的情报来分析社交媒体,并准确展示虚假信息活动是如何开始和运行的。也许最重要的主权AI形式是保持质疑主导架构的本地能力。

所以在我们的CTM工作连续思维机器中,呃我们团队实际上呃提出了一个超越Transformer的新架构,这个架构受到大脑的启发,其中推理来自于神经元随时间的同步。所以呃不是有一个单一传递注意力呃有多个注意力头呃这些呃正在协调,这样模型学会了如何做非常复杂的任务,比如解决迷宫,它学会做那个的方式,它对人类也是可解释的,因为他们可以看到底部的激活。呃,我们也在图像分类上测试了它,其中我们实际上可以看到注意力头在一段时间内关注图像的确切哪个部分。

而且计算实际上被调整了呃对于更简单的图像,它花费更少的时间来确定分类,比对于复杂图像。所以那些只是我们在Sakanam所做工作的几个例子。我今天分享的大部分项目都是开源的。它们在我们的GitHub和我们的博客上。呃我们想为日本需求开发AI解决方案,并在日本民主化AI,我与你分享这个呃主权的堆栈层,对吧?但每个国家选择这个堆栈的哪些层他们想拥有,他们可以拥有,所以没有呃单一国家试图拥有这个堆栈的每一个层,所以看到不同国家如何做出不同的所有权决策是很重要的,这就是主权在实践中的样子,这。

为了结束,我想给你们留下这条来自孩子对父母对研究人员对AI工程师的信息。呃,非常重要的是认识到我们都有代理权,本地代理权比全球能力更重要。呃,所以非常谢谢你。非常感谢你,Stefania。对于今天的最后一次讲座,我们想不到比Swix本人更好的人了。呃,Swix与Cognition在一起,但他也碰巧是全球AI工程师会议的创始人。由于这是我们在新加坡的第一版,而且Swix来自新加坡,让他为我们今天关闭讲座第一天是完全有意义的。所以Swix,当你准备好时,舞台是你的。>> 好的。你能听见我吗?呃我认为我认为他们正在打开领夹麦克风。呃转移。这是哪里?好的。应该没问题。没关系。

我不需要。是的,我们很好。>> 好的。大家好。呃,你们现在过得怎么样?享受会议。是的。很棒。很高兴有你。呃,如果你不知道,我是Sean,也被称为Swix。我以三种身份来这里。首先,我是AI工程师的创始人。呃,其次,我是Cognition的顾问和一个领先的代理实验室,我会解释那是什么。第三,我在这里是作为一个新加坡人。我认为所有这三个身份在这一个讲座中合并在一起,我真的很想和你分享。呃,所以让我们进入它,对吧?呃,我不认为这个点击器根本不起作用。好吧,我会跳过点击器。呃,所以首先我会谈论一点我们作为一个会议的故事。呃,我很高兴地说,你知道呃我们呃这个会议已经三岁了。

呃它正在呃它已经在世界各地从伦敦到巴黎到旧金山到纽约到迈阿密呃现在到新加坡,接下来到墨尔本。呃我们增长了不少。呃我们现在每月为1.5百万独特开发者服务。呃呃九千多人除了你亲自参加外,还观看了今天的现场直播。呃我们真的在尽最大努力在世界各地发展开发者社区,并服务于呃去AI工程行业。呃但特别是新加坡,你知道,我一直是新加坡秀。我在这里出生和长大。

我呃我为大学出国了呃在美国,但呃我一直在继续非常坦率和公开呃为新加坡倡导,呃特别是呃对于同胞新加坡人,但也对其他人试图第一次访问新加坡,我呃我实际上很高兴我们带来了像Stefania和呃我很多这样的国际朋友第一次访问新加坡。呃实际上我我个人职业生涯的一个启动平台是在新加坡。呃我在GSCOM Asia上讲话,仍然是我所做的最喜欢的讲话之一。呃那个真的给了我可能性呃不仅是对我自己的职业,而且还能激励一个行业、激励一个国家呃一起。呃我也组织了很多新加坡见面,所以我呃有点不是新的这个。

呃这里是我们的一些朋友,包括Lihao和Thor和Thomas。呃你们中的一些人见过的人,是呃工程和会议电路中的熟悉面孔。呃最近大约3四年前我搬到了旧金山呃并开始了Leighton Space。呃举手我不知道是否有人听说过latent space我的播客,是的好的,非常感谢你的收听。呃作为那个的一部分,我有一个认识,会有这样一个叫做AI工程师的东西。呃我开始呃我写了这个呃臭名昭著的一行,我将在我余生中活下来。

呃,基本上这样,研究工程师和全栈工程师之间形成了某种差距,呃,这实际上就是你们今天都在做的事情——AI 工程师,我认为这是一个巨大的、持续增长的需求,呃,如果你不知道,如果你来了这个会议但没有读过博客文章,你可能应该呃读一下什么是 AI 工程师的定义,呃,就在大致同一时间,我实际上开始自己搞一些东西,我不仅仅是内容创作者,我不仅仅是社区人士。呃,我也是一个建造者。呃,我只是不是一个很好的建造者,我会对此非常诚实。呃,所以我开始构建我自己的编码代理。它变得超级受欢迎。它叫 small developer。呃,它是在 claude one 上构建的,如果你能想象的话。呃,三个主要的 claude 版本过去了。我在这个东西上构建。

呃,我对它非常兴奋,但最终无法真正扩展。而且模型权重在一夜之间对我降级了。呃,我知道这是阴谋论,但我发誓我的是真的,呃,这个模型在一夜之间变得更笨了。呃,所以我停止构建它,但呃,在整个过程中,我呃,我转向了某种更伟大和更好的东西。所以最最初的 AI 工程师,我宣布会有三种类型的 AI 工程师,呃,我没有,你知道,我开始某种程度上扩展,实际上这可能是一个职业错误。呃,后续三年实际发生的完全是这个序列,呃 2024 年我们构建了更多,呃,某种 AI 编码工具,2025 年更多产品东西。呃,2026 年绝对是某种代理部署的一年。

呃,是的,这种 Karpathy Andre 有点是我的导师,呃,他去年说这是代理十年的开始,对吧,如果你把 OpenAI 的创立作为 2015 年的起点,呃呃呃,并考虑到前 10 年的扩展,那么随后 10 年发生的事情可能是部署,呃,以及构建代理的呃框架和支架。呃,这实际上是导致我走向 Cognition 的路径。呃呃,他们做了三个选择,我希望我在做 small developer 时做过,我在 2023 年写了关于 AI 工程师的文章。呃,这三个不那么明显的选择是选择代码,呃,桥接同步和异步,以及关注企业。我认为这些东西中的每一个都不像现在听起来那么超级明显。

在 2023 年,你想构建 ChatGPT,你想进入消费者市场。呃,在 2023 年,你可能想做自回归呃大语言模型,并不真正考虑同步呃同步代理,呃,代码是众多模态中的一个。呃,但我认为呃,你知道呃,商业已经表明它是王牌模态,所以选择代码,呃,我认为这是我在我关于 Cognition 的博客文章中写的东西,我真正谈论代码就像软件的代理一样,像编码代理一样,如果,基本上,如果软件正在吃掉世界,那么代码代理正在吃掉软件,它实际上开始积累很多力量和经济价值,它可能能在比你所看到的所有其他代理演示更短的时间内做到这一点,这些演示可能效果不太好。

第二部分是我在呃这篇叫做〜「半异步的死亡价值」的另一篇博客文章中写过的。基本上没有中间立场。你要么想要你的响应非常非常快,呃,要么你想异步委托。我认为呃,有某种不适谷效应发生在呃响应或大语言模型进行得很快但不够快时,你某种程度上在电话那边等待,无论是声音或代码或其他任何交互模式。所以你基本上只是想要呃最同步的实时呃体验或最异步的体验的哑铃方法。我认为任何能够充分跨越这两者的公司呃都会做得超级好。呃,最后,企业。呃,我认为这是某种抽象上有意义的东西。

显然,你想追求的是像大的标志客户一样,像花旗银行和华侨银行和高盛。呃,但我认为我不太欣赏为什么。所以我打算花更多时间某种程度上深入探讨这个,只是为了你理解真正的企业关注意味着什么。呃,企业关注,我呃,我认为用非常简单的术语就是服务严肃的客户。很多 AI 客户是不认真的。比如他们会尝试你的工具,然后他们不会给你反馈。他们会尝试你的工具,他们会在三个月后追赶新的热门东西。呃,企业是你能获得的最严肃的审查。呃,你呃,那是什么意思?呃,很多工具开始是单人玩家。企业立即是多人玩家,到数十万开发者、数十万个仓库的程度。

呃,定价能力也非常有趣。呃,与其不是寻求而不是从标准的每月 20 美元计划开始并寻求最大补贴,然后在人们移除补贴时生气然后继续前进到下一个最好的补贴。呃,人们愿意为成果付费,因为我们谈论的是企业。呃,而且还但对我来说最有趣的是成为第一个发现昂贵问题的人。呃,这可能只有在呃企业规模才能发现。呃,所以这是某种标准的 Cognition 网站。我要给你看我的版本,这希望呃更难忘。呃,总的来说,我称之为〜「细节中的 Devon」〜,这有点像一个很好的双关语。呃,这是呃,谈话第二部分的主题,对吧,我不是来谈论 Cognition 的。

我是来谈论我从 Cognition 学到的东西,以防你们最终构建一个代理实验室或在代理实验室工作,因为我认为这可能是任何 AI 工程师最单一有价值的经验。呃,为了参考,我在一篇叫做〜「代理实验室论文」的帖子中写过这个。呃,这是我们在纽约做的 11 月 AI 工程师峰会。呃,我们在一边列出代理实验室,在另一边列出模型实验室。你可以在 YouTube 上查看这些会议。呃,如果你想看代理实验室与模型实验室看起来像什么样的例子。呃,但如果你想用一个图表,这可能就是它。呃,模型实验室呃按比例向训练和计算分配资源,呃,较少向呃部署分配。显然,该部署随时间推移而增加。

呃,代理实验室在资源分配和优先级方面基本上是完全相反的,对吧?呃,我认为这大多是成立的,除了他们开始蚕食彼此的领地。比如我写这个时,现在变得更清楚,模型实验室正在内部构建代理呃实验室,呃 OpenAI 和 Anthropic 也在做呃招聘工程师,然后代理实验室也在内部构建模型,随着 Cursor 和 Cognition,呃把很多计算投入到强化学习他们的模型。呃,如果你想某种程度上按照这种方式分解它,你也可以这样做,但我为了时间起见要跳过这个。呃,我认为,呃,细节是我真正想要费力的,对吧?好的。

所以,例如,呃,很多人会说,呃,就把你最喜欢的编码代理选择放进去。我不想指名任何呃,那些不惹恼他们的。呃,就把它放在一个容器中。呃,现实是它不仅仅是关于容器格式。呃,它也关于只是构建有状态的会话。呃,这些都是历史上出现过的所有问题,对吧?呃,它关于给它真实的机器语义,关于给它所有真实计算机使用的工具。

呃,这是一个有趣的真实生活情况的例子,其中共享机器呃如果你想为你的会话有状态会话的编码代理实现多租户,它实际上会破裂,对吧,所以这是一个真实的事件,呃,这些是具有相同根本原因的真实事件,对吧,呃,真实事件例如并行代理会话彼此干扰,因为他们有一个共享缓存,呃,或代理和自动异常模式将整个公司的源代码发布到个人 GitHub,因为为什么他们有呃,秘钥呃混在一起,对吧。呃,他们都共享的是基本上你在容器中没有隔离边界,比如容器只知道一件事,呃,但它不真的呃,它不是真的为在代理会话之间跨越或改变上下文而设置。

呃,所以基本上你最终构建的是一个代理平台,这是在 VM 或容器之上的一切。呃,这是完整的列表。我基本上某种程度上开源这个。如果你们想构建一个代理实验室,这些是确切的事情你必须经历。如果你呃,正在考虑购买,这是你必须评估的每当呃你第一次遇到新代理实验室时。呃,安全是一个非常非常重要的,当然,特别是如果你本地上是多人的,有多个层次的团队、组织,所有这些事情。呃,所以呃,代理绝对需要很多作用域、身份和最小权限,这些都是你某种程度上必须在你的权限模型方面解决的事情。

呃,第二,感知,就是 GPT 包装器,对吧,就像那就是所有呃应用层人的全部。呃,我认为在某种程度上你可以自豪地成为 GPT 包装器,但你呃,整个游戏的名称就是使其厚实和值得,对吧。呃,所以现实是他们实际上长期模型多样性,这在历史上一直是非常好的赌注,对吧,呃,模型多样性已经证明呃,倾向于随着时间推移而增加,呃,OpenAI 的市场份额曾经像 70 80% 现在它下降到 30 多个百分比,呃,取决于呃源,呃,而且呃,你不仅仅在训练,你不仅仅在包装其他人的模型,你也越来越能够根据你自己的领域特定数据和用例进行训练。呃,所以 Cognition 呃,这呃,这些甜蜜抢夺模型和 3.5 模型,我也参与过,以及 Cursor 也在做。

呃,我认为任何其他足够能干的代理实验室都会有足够的资源来呃呃,构建它,你应该做,因为它对目的的适合度会好得多,对吧,比如呃呃,对于你的大多数工作负载。好的。呃,一个更多的感知。呃,评估是这样一个模糊的营销概念,对吧?比如,呃,你大多数人只是告诉你看 SWE-bench,我的数字高 0.1% 比另一个数字。我的模型更好。呃,在现实中,呃,现实是极其多维的。呃,所以这是 Cognition 内部能够运行的所有不同类型评估的所有例子。呃,它在 SWE-bench 中不可总结。当然,你要对每一个呃,这些真实生活中的用例有不同的方法。

其中每一个都可以在它们后面有数十亿和数百亿美元。呃,所以我的呃,辛辣热门观点是企业是你可能获得的最难的评估,对吧?比如向我展示一个比呃企业更难的强化学习环境。呃,Cognition 本身是一个有多个组织、多个 Slack 和多个呃 IT 系统的企业,所有那些。呃,它在过去呃六个月里真的被解决了,这对我来说很有趣,比如有超过六个月加入,比如我认为那很好,现在我现在有了一个好的不同定义。呃,有趣的是它与 AR 增长相关联,所有这些都已被公开披露。所以我不是在告诉你什么你不知道的。呃,呃,新东西我呃呃,我稍后要展示。

呃,但我确实认为呃,那是其中之一,你必须追踪的东西,比如关于你如何诚实,关于你在世界上解决多少问题,呃,与呃,做有趣的演示。呃,我认为有趣的事情之一也是沟通,呃,什么样的结果人们为之付费。呃,在落地页上、在宣传册上、在演讲中这样做非常困难。呃,所以我基本上根本不费力,比如我只是因为人们期望我粘贴这个,所以我就把这个粘贴在这里,但我只是要呃,跳过它,我会告诉你更本地的具体故事,关于我们在 APAC 和新加坡发现的东西,因为那基本上是为什么我可以开源。是的。好的。所以那是第三部分,呃,为什么新加坡,呃,我为什么在这里?

呃,我认为呃,如果我能总结的话,新加坡经济发展的呃故事开始于贸易,然后我们转向石油,然后我们转向金融。我们在生物领域有了一点点风流韵事。呃,我们不要谈论加密方面。呃,但呃,接下来是什么,对吧?所以,我的辛辣观点是我们有所有这些呃领先领先人物。有趣的事实,有没有人知道 Keo 和 Sam Corp 合并成 Catrium?我刚刚发现。你一个人知道。呃,所以像任何真正的新加坡人都会说,〜「是的,Sim Corp、Marine、Keo Corp。」什么是 Catrium?呃,这是新实体。无论如何,我的我的某种程度上调皮的答案是显然有新加坡经济的第四阶段,它在这里。呃,呃,我在这里是因为新加坡被选中成为 Cognition 的亚洲总部。

呃,哪个是耶呃非常,超级有趣。呃,我认为你必须某种程度上呃即使作为新加坡人,我认为你必须经历这个旅程,这是某种程度上我们一直想要的,对吧,呃,我们一直想要 MNC,你知道当地术语,呃,选择他们的基地在这里不仅仅是为了销售,哪个销售很好,销售很棒,呃,但也为了工程,也为了研究,呃,对我来说,你必须在海外成功,呃,在本地被认可并表现良好,我称之为 Sununu 策略,呃,它不仅仅是 GTM,所以呃,有所有这些引文,呃,我呃,我真的很喜欢。呃,呃,Cornish 招聘或收购了 Havana。我认为 Nathan 也在观众中某处以及一些其他的船员。嘿 Nathan。呃,绝对稍后与 Nathan 呃谈话,如果你想加入 COG。呃,所以我认为呃,它呃,这是有效的,对吧。

我所有想说的就是像我我是新加坡科技界的一部分,我的成年生活,我们从未有过这种程度的外国兴趣和美国兴趣呃在这个地区,在新加坡,在这个地区基于工程和研究直到现在。所以现在是时候了。让我们做吧。好的。呃呃,让我呃,所以我要呃,所以我实际上有 Nathan,呃,谁是我的 chaji,呃,经历所有的呃通话日志,呃呃,的所有工作,因为有非常多的工作,呃,发生在幕后,你们从未看到,因为你不在这个业务中,我们是,所以我呃,我想呃,我想分享一些例子,对吧,呃,呃,这是像呃,APAC 的纯粹需求量的例子,对吧,呃,每年花费在 LM 代币上的数百万,数千万美元。好的。

呃,呃,他们呃,他们运行你的贷款,你的钱在电子表格上,由不会留在那里的业务分析师。对吧。想象一下,比如你进来,比如这个银行是这样运营的。是的。对吧。所以你必须系统化它。你必须呃,你必须写代码,否则呃,由业务分析师手动操作。呃,政府也一样。呃,同样在呃呃,技术的其他部分。呃,我认为呃,你知道呃,再一次,像这是这种呃,我们呈现这些东西的正常方式。这些都是来自客户的真实数字,不不来自不来自公司,但我认为像从呃,仅仅从数字本身很难看出来,比如好吧,这对交付时间加快 10 倍意味着什么?

好吧,让我给你看一下基准吧,就像,基准是一家本地银行,你有两百万行 cobalt 代码,没有文档,也没有工程师负责。你会怎么做?嗯,这就是你真正可以开始应用 AI 的地方,嗯,让我告诉你,这不是新加坡独有的,也不是某一家银行独有的。这是所有银行。这是所有的,是任何拥有真正大规模,嗯,客户数量,也就是企业级的任何公司。嗯,每年数亿美元的 AI 预算,每次上线 600 名开发人员。嗯,你知道吗,需要做的工作量真的是令人难以置信的,我们无法为此雇佣人类,因为太无聊了。

这是,这是一种或一个系统,没有人想为之工作,无论如何对吧。嗯,我希望现在我分享的是这些新故事的第一次。如果你,你知道,如果你想提出更多问题,就问 Nathan。嗯,但我只想分享一些 Cognition 想出来的解决方案,嗯,这些已经奏效了,对吧。嗯,Devon 有一个叫做 playbooks 的东西,基本上比普通聊天结构化得多,基本上一个 playbook 可能价值数亿美元,在我看来,因为它们是结构化的模板,可以以比开放式聊天更可靠的方式并行处理 agent。所以如果你还没有尝试过 Devon playbook,你绝对应该尝试,因为这些人正在用这些东西改造银行,赚取数十亿美元。

嗯,代码库理解再次是这种模式,为什么没有文档呢,对吧,所以当然你想要 AI 先写文档,然后使用文档来做迁移,所以嗯,Cognition 是深 wiki 的第一个先驱,嗯,我认为很多人也喜欢这个,嗯,棕地开发中有数十亿美元的收入,是的,最后我认为嗯,这在企业中是标准的东西,但看到人们和销售人员说好吧,那个人甚至都不会跟我们通话,除非我们有自定义 SSO,这是嗯,如此超现实或如此直观和实际的感觉。为什么?因为他们锁定了他们的 GitHub 和 GitLab,因为他们是负责任的企业。而我们其他人,我们就是随意把东西扔到我们的 Obsidian 和我们的嗯,个人开放的东西。我们真的不会那样想。

但当你拥有数百万人的信任和数百万人的金钱时,当然,你需要像这样考虑安全问题。任何为这些企业服务的人也必然需要这样做。所以这就是为什么我在讨论亚洲的代理。好的,让我重新转向。嗯,我分享了一些关于 APEC 的学习。现在我只是在谈论新加坡,以及为什么我想称之为智能体国家。我们还没到那里,但我们在朝那个方向前进。嗯,我们必须回到我们亲爱的前沿部署部长。嗯,Abishek,我想他在观众中某处,有人给他起了个前沿部署部长的名字。我认为这个名字有点粘,每个人都有点这样。嗯,他在今天上午的演讲中说了三件事。

他说我们在部署、民主化和去中心化方面有优势,这再次不是关于加密货币。他实际上只是意思是他想要嗯,他想要 AI 无处不在,在公共服务中。嗯,我认为我们可以在这三个方面都有所帮助。我认为这实际上是非常非常好的,他理解这一点,我们其他人也可以理解。嗯,对我来说,意识到嗯,新加坡本身有这样的需求,嗯,大约 AI 工程人才需求与供应的四倍,这真是令人震惊。嗯,你知道吗,这个差距会继续扩大和增长,对吧?像这些职位的需求增长每年 40%。有这么多的钱处于风险中。嗯,这是 LinkedIn 调查该领域并真正报告这一点。所以我认为这是一个相当可信的数字。

嗯,所以我大胆的看法是我已经放弃对政府的希望。像我嗯,我知道我刚才赞美了部长,但嗯,我已经等了多年,等待政府为科技部门做些什么。嗯,我和部长 Josmin 有过一次播客,嗯,有我们一起走着,谈论它的未来。什么都没发生。嗯,只有当,只有当我们,当我们新加坡人民,我们新加坡公民决定自己动手的时候,对吧?像嗯,我认为新加坡有政府主导的经济发展的历史。嗯,我认为,我认为新时代将由私营部门首先领导进入公共部门。所以让我们让这件事发生吧,对吧?嗯,我认为这个,这个会议就是一个例子。

我们没有等待政府批准或者嗯,给我们他们的支持。很高兴有 IMDA 和 AI Singapore 在嗯,在 Pullman 和所有其他展览活动中支持我们。很高兴有外交部支持我们,但我们不需要他们。我们在这里为私营部门工作,自己建立我们自己作为科技部门。所以这从每个人拥有高能动性开始,特别是所有这些站在一旁的组织者。为他们鼓掌。他们让这件事发生。这是他们的副业项目。他们把你们聚在一起。嗯,我显然帮助和支持了他们。但像这个会议没有他们就不会发生。所以嗯,它从这个房间里的每个人开始。它从我开始。

它从 65 labs 的这些组织者开始,现在它从你开始。嗯,所以我真的希望你能从 AI Engineer 离开时,在你的生活中变得更有能动性,真正地将新加坡变成一个更有能动性的国家。非常感谢。好吧,我们已经到达了第一天演讲的结尾。嗯,感谢你们坚持到最后。这真是疯狂。为自己鼓掌,因为你们撑过了 10 小时的编程。好的,在大家外出吃饭前的最后说明。嗯,我们这里有一个饭后聚会。我们将在大约 9:30 打开大门。我将在 10:00 开始 DJ。我们预订了一个从英国飞来的 DJ,他将在 11:30 开始播放。前 500 人可以免费畅饮。所以,如果你想来喝酒,欢迎。椅子会被移走。

这将成为一个舞池。嗯,我们想让你们过来玩得开心。嗯,如果你是会议参加者,请带上你的挂绳,因为这将帮助我们优先考虑你的进入,不要丢失它们,因为我们明天不会打印新的挂绳。希望指令集的这个部分很清楚。如果一切都很好,非常感谢,我们明天一大早或今晚就见到你。

关联视频