AI 产业与应用 · 2026-05-17 · 08:00:00

AI Engineer Singapore Day 2:Google DeepMind / Cloudflare / Arize 机器人与运行时主题

AIE Singapore Day 2 ft. Google DeepMind, OpenClaw, Adaption, Arize, Cloudflare, Robot Company & more

演讲者
AI Engineer Singapore
AI Engineer 首届亚洲峰会(65Labs 主办)
类型
行业领袖

核心观点

AI Engineer Singapore Day 2 全程:Google DeepMind、OpenClaw、Adaption、Arize、Cloudflare、Robot Company 等团队主题分享。Day 2 偏机器人、模型可观测性与运行时栈。

可读字幕整理

字幕语言: zh-CN · 抓取日期: 2026-05-21 · 翻译日期:2026-05-21

海浪拍打夜晚海浪拍打大海知道它。你需要 嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。热度。嘿,嘿,嘿。感谢大家来参加这个活动,我是 65 Labs 的联合创始人,非常感谢你们的出席。我知道现在是第三天,周日上午,你们坐在这个房间里的所有人都选择了睡眠不足,而不是错过任何一个环节,我真的很感谢。谢谢你们。嗯,你们知道吗,我认为我们现在已经是最后冲刺阶段了。如果你们还没注意到,我的嗓音快没了,但你们应该看看其他组织者。我今天上午之所以替 Sherry 主持,正是因为这个原因。但我们非常高兴能和大家在一起。过去几天的能量非常棒。

嗯,当我们开始构建、开始整合新加坡 AI 的时候,这正是我们所希望的那种能量,你们真的都做得很好。所以,非常感谢你们。嗯,在我们开始之前,我想快速感谢一下赞助商、演讲者、以及所有帮助我们打造这场会议魔幻体验的志愿者。非常感谢你们所有人,我希望大家能为他们鼓掌。很好。你们不是来看我的。所以,闲话少说,我想邀请 Arise 的 Salanne 上台,分享她在构建 Alex 方面的经验。>> 大家早上好。非常感谢你们用你们的早上时间陪我。现在还很早。让我看看。是的。是时候出发了。好的,让我看看。

抱歉,我需要重新连接我的热点。我以为我已经做过了。好的。还好。大家早上好。嗯,非常感谢你们今天加入我。我非常兴奋能分享一些我和我的团队从构建 Alex、我们的 AI 智能体中学到的经验,我们已经在这方面工作了一段时间。在我们深入讨论之前,我想简单介绍一下自己。我是 Salian。嗯,Arise 的产品负责人。我有技术背景。我从数据科学开始,现在我在为团队构建产品。我非常实战。我不仅是 Alex 的 PM,而且也是核心贡献者。所以我真的从第一手亲身了解构建智能体的痛点。现在我基本上把这种痛点转化为真正能帮助人们的工具。所以 Arise 嗯,我们让智能体工作。我们做了几件事非常出色。

第一个是可观测性。嗯,这是理解你的智能体在底层发生了什么。第二个是评估。这是我们了解你的智能体表现如何的方式。然后我们使用所有这些数据来帮助你改进和迭代。当然,我们还有 Alex 贯穿整个堆栈,帮助你做所有这些事情。那么,我们今天要讨论什么呢?嗯,首先我会给你们讲一点关于 Alex 是什么,然后我会讲四个我们在构建过程中学到的经验。所以,保持专注、上下文管理、结晶化良好行为,以及调试真实智能体。所以,Alex 嗯,是你的 AI 工程智能体框架。嗯,我们真的构建了 Alex 来帮助你用自然语言构建和扩展你的 AI 应用。

嗯,它真的改进了 Arise 体验。它有计划、推理,嗯,并通过真正繁重的工作负载为你的 AI 智能体执行。嗯,你基本上可以用自然语言问任何你想要的,Alex 都可以帮你执行。它可以做的事情像帮助你分析你的数据,但也可以帮助你执行工作流,像迭代你的提示词或对齐你的邮件。它真的是 AIG、PM 和主题专家的力量倍增器。所以为什么我在这里告诉你们所有这些呢?好吧,嗯,我们花了三年时间构建 Alex。这真的是一段漫长的旅程。我们最初是在生成式 AI 的最初阶段开始的,现在我们已经达到了 Alex 2。

0,具有推理和规划功能,我和我的团队学到了很多经验,我认为我们这个行业和社区的伟大之处在于我们有机会分享回去,所以这就是我今天在这里要做的事情,教你们一些我们的经验,希望你们不必像我们一样吃苦学习。所以第一课,保持专注。我认为每一个智能体构建者都经历过这样的情况,你问你的智能体做几件事。嗯,也许它能成功地做第一件,但然后它忘记了你知道的第二件和第三件,我认为这是每个人都真的想解决的问题。嗯,人们经常问我,嗯,为什么会发生这种情况?嗯,人们假设这就像幻觉问题,甚至是能力问题,但实际上不是。

这是一个张力问题。所以最后发生的是,当我们从智能体请求多个嗯事情时,嗯,通常发生的情况是它能看到第一个,但然后其余的就会在我们要求的所有其他数据中丢失。所以对于智能体一旦它弄清楚它接下来需要做什么,它已经忘记了接下来是什么。所以解决方案是规划。嗯,规划是你的智能体首先决定它需要做什么的方式,然后才真正采取行动。所以对于 Alex,在 Alex 甚至拉取任何数据之前,它首先会想出一个明确的待办事项,它必须嗯推理和逐步进行,然后才真正采取那个行动。所以我们如何做 Alex 的规划是我们有规划工具和状态。

嗯我们有三个工具 嗯待办事项写、待办事项更新、待办事项读 嗯然后四个状态 待处理、已完成、已阻止、进行中。我们实际上没有从一开始就拥有所有这些状态。我会在开始时谈论这个,但我们确实发现仅仅使用诸如完成工具或使用提示词之类的东西对 Alex 来说是不够的,无法完成真正复杂的任务。所以这些工具 嗯 这是我们从我们最喜欢的一些工具如 Claude 中借来的东西。嗯 这对我们管理极其复杂的任务真的是一个游戏改变者。进行中是我们实际上学到的东西。这是一个真正重要的课程。当我们第一次构建 Alex 时,我们没有进行中。我们实际上只有像待处理和已完成这样的状态。

嗯,但我们添加了进行中,所以 Alex 确切地知道它是什么,这个任务,嗯,它目前正在处理。所以,它真的有助于让智能体锚定它试图完成的事情。嗯,并且真的改进了我们正确完成任务的能力。我们做的另一个真正关键的架构决策是规划生活在对话历史之外。嗯,所以这样做真的很重要,因为对于对话历史,我们做了一些截断,我们永远不想让计划被截断。嗯 因为如果发生这种情况,Alex 就不会知道它试图完成什么。嗯 所以我们实际上在每次我们进行 LLM 调用时注入这个,在系统指令之后,与对话历史中的所有数据分开。这实际上是 Alex 看到的。

所以它看到它的当前计划。它看到所有的状态,然后我们实际上用像当你完成时,你知道的,用已完成的状态调用待办事项更新来指导 Alex。所以,再次,帮助 Alex 在进行中,不仅仅是给它一种被动的提示词,而是真正一个明确的一种少样本例子,说明它在执行其计划时需要做什么。我们也有我们所说的完成门。嗯 这是让 Alex 在完成所有任务之前说它已经完成的东西。所以如果 Alex 尝试调用我们的完成工具 嗯 而没有完成的工具,我们实际上给它一个真正明确的错误,说,「嘿,你需要回去并完成你所有的待办事项。」它不是建议。这不像是一种推动。

它是 Alex 收到的一个明确的结构化消息 嗯 它不能继续。唯一的例外是阻止状态。阻止状态用于当我们有人在循环中。嗯 如果你使用 Alex,有很多 嗯 时刻我们要求人类互动。所以如果我们创建一个提示词,你可以有点获得一个差异然后接受或者像注释配置这样的东西,其中人类参与很重要。所以当有一个阻止状态时,这是 Alex 不必完成任务的唯一情况,因为它理解这被人类阻止,而我们在等待那个响应。所以这些是我们从规划中学到的一些核心经验。

所以强制执行代码,而不仅仅是提示词,少样本示例,击败任何种类的抽象指令,始终使用待办事项 右边 计划不起作用。我们必须有一种那些明确的函数,然后向智能体显示良好的规划是什么样的。所以其中一些例子。好吧,上下文管理。嗯,上下文管理极其重要。这对 Alex 来说是不可协商的。嗯,我们在处理大量文本数据。所以,Alex 是在 Arise 平台上构建的。可观测性数据适用于也有大量文本数据的 AI 应用。所以,上下文管理变得极其重要。嗯,我实际上在伦敦做过这个演讲,所以一定要去看看。但我认为上下文管理不仅仅是管理上下文窗口,而是真正战略性地考虑我们向智能体展示什么。

它让他们记住它需要的东西,忘记它不需要的东西。所以早期,这实际上是我们为 Alex 设置的系统提示词,这是针对我们的实验对比。嗯,我们说,「不要尝试同时比较两个以上的实验。」嗯,但这相当天真。嗯,问题是 Arise 中的一个实验可以是数百行,这就像 100,000 个 token。所以即使只是尝试实验或抱歉,尝试比较一个单一的实验 嗯 也会爆炸我们的 嗯 上下文窗口。所以我们知道仅仅能够 嗯 有这些 嗯 明确的提示词是不够的。所以我们想出了抽象。其中一个叫做大型 JSON。

嗯 所以这实际上做的是当 Alex 返回工具数据时,嗯 我们将大部分存储在一个服务化的内存中,并向智能体提供一个 ID,它可以稍后在需要更多上下文时获取。所以这真的很重要。Alex 不断地从我们的平台获取数据。我们不能把它全部显示给 LM,但我们也需要能够给智能体足够的上下文,所以它知道下一步该做什么。嗯,所以这就是我们想出这个想法的地方,像压缩值,而不是结构。首先,我们所做的是尝试截断并只给出像数据的第一个小位的预览。所以只是取前面像 你知道的,n 个 token 的数据。但问题是 Alex 实际上不理解数据的结构是什么。

所以这使得它真的很难查询,因为通常 Alex 需要一个预览,然后它需要决定进一步查找什么数据。嗯,所以我们所做的是压缩值而不是结构。所以我们保留了所有 的 字段,所有 的 数组。Alex 可以访问所有这些,但然后我们截断那其中的任何大字符串,然后它可以使用一种大型 JSON 嗯 抽象来根据需要获取更多数据。我们也给了 Alex 一堆小的可组合工具,这真的很重要。所以 Alex 可以访问两个工具 嗯 jq,这就像你在命令行中使用的同一个工具,以及 GP JSON,它能够做 regex 搜索超过序列化的数据。嗯 这个的重要性是这些真的真的是小工具但它们超级强大。Alex 可以一起使用它们。它们可以是可组合的。

嗯,并使用一个的输入或使用一个的输出到另一个的输入。嗯,所以它只是让 Alex 切片数据,聚合,做所有这些真的真的强大的功能,用真的真的小的工具。所以没有什么超级复杂的。我总是喜欢有点把这个看成 UX 程序员的方式。你可以想象你的工具,然后像你的智能体是 嗯 你的 shell 脚本。所以你真的会听我说,想想你的智能体可以使用的小工具,这就是让它最成功的原因。所以这些是一些 嗯 上下文管理中的经验。嗯 在每个工具输出上给出硬 token 预算。我们在我们的所有工具上做得像一个 10,000 嗯 限制,所以我们有这个可预测的内容 嗯 我们知道它会发生。所以我们知道不会有 不会有溢出。

只会有多个轮次。嗯 压缩值而不是结构。嗯 不要用人工限制纸张上掌。嗯 在你的反馈回路中给出好的异常,然后工具响应可能包含客户数据。所以你应该查看你的日志。这是另一个重要的。好的,结晶化良好行为。所以当我们首次开始构建 Alex 时,嗯 我花了很多时间在电子表格上,像一个谷歌文档尝试测试。嗯 但我们很快意识到氛围检查不会扩展。嗯 每次我们做改变时,这对我来说真的很难知道是否会破坏什么。嗯 所以我们知道我们需要一个更好的解决方案。我们真的发现的是生产追踪作为你的基础事实是极其强大的。

所以首先我们试图手工自己写出黄金答案,但我们在我们的生产追踪中有一个很好的例子,我们可以利用。所以看看你的数据并实际上用那些作为你的测试用例是我们和 Alex 一起学到的最强大的经验之一。当涉及到 Alex 时,我们做了几种不同类型的测试。嗯 所以我们有决策点测试,我们在查看一个组件。嗯 我们会通过一种像我们的编排器的方式,然后我们会 嗯 测试结果是什么,然后我们做一个真的很开放的方式 的 检查这个像精确匹配不会在我们的输出上工作。所以对于像寻找包含任何这样的东西,像生产一个时间戳像 2,000 毫秒 2 秒 2 秒有很多不同的方式。

所以,我们有这个开放式的检查,我们可以做的来确定决策是否正确。我认为这真的很强大,特别是当你使用一种 语言模型 其中输出是非决定性的。另一个是轨迹测试。所以,我们做的是我们有点保存掉所有那些我之前提到的生产选择,我们逐行步进通过它们,我们使用一个 LM 作为一个法官来评估输出。嗯,评估提示词真的很重要这里。当我之前说的,这些输出不是确定性的。所以你想要确保你的评估模板可以处理这个 嗯 并且是为每个单独的步骤定义成功。嗯 这的三级是 CI 和提示词验证。所以我们所做的一切实际上都存在于 Arise 中。嗯 我们运行这些作为临时测试。

我们运行它们作为我们的 CI 的一部分,然后我们有这些很好的可视化。所以我实际上可以进来并检查事物是如何随时间工作的。嗯 看是否有任何整合我们的评估的表现。嗯,我认为使用 Arise 构建工具真正很酷的是我们像 我们在食用我们自己的产品。嗯,我的团队所做的一切,我知道这可以帮助我们的用户以及,这一直是 嗯,极其强大。所以这些是一些来自结晶化行为的经验,捕获好的用户会话,嗯,匹配事实,而不是措辞,Elm 作为一个语义评估的法官,真正的 API,而不是模拟,嗯,整合错误是真实的。嗯,然后我的最后一课在这里,调试一个真实的智能体。

我认为这是我收到大量问题的东西,像什么是你的日常工作流当 Alex 出现问题时?所以我们真的在看到这个软件工程的演进,谁在消费遥测数据。当我们最初开始时,我们真的是人在循环中。我正在直接看数据,然后去 IDE 和我、我和我的工程师要去我们的 IDE,做改变,然后观察它。我们有点开始看到这个软件 2. 0,其中我们有我们的代理式 IDE,现在人类仍然参与,但我们使用一个智能体来迭代。现在我们真的进入了这个阶段三,其中我们实际上可以直接使用我们的编码智能体 嗯 来能够读取我们的酒店数据 嗯 并迭代。所以这是我们目前使用的一种堆栈,我们仍然在使用 Arise。

我们所有的追踪都进入我们的评估 我们的反馈。但我们有我们称之为 Arise 技能的东西,允许我们的光标 我们的 嗯 云代码直接与 Arise 交互,并使我们的反馈回路真的真的快。嗯 作为智能体构建者,我们已经学到反馈回路真的真的很重要。我试着让它有多快我们可以从一个问题到一个修复。嗯 并且 Arise 技能真的帮助了我们。所以 嗯 这些是我们的 ARIS 技能的一些例子。这些是实时的,如果你想 嗯 尝试它们你自己或来和我们谈论在展位。嗯 但我基本上使用了很多我们的 嗯 Arise 追踪和评估技能。它只是使得我的智能体能够获得一个信号。嗯 从 Arise 拉取追踪,甚至查看外部资源或代码,提出一个修复,然后我和我的工程师可以只是审查那个。

所以这就是由 Arise 驱动的 AI 工程循环,我们自己也在使用。嗯,我们基本上总是第一批实验者。如果对 Alex 有效,我们就知道对其他人也会有效。所以你可以看到我们有一堆不同的代理在利用我们的技能并改进 Alex。所以这些是我们调试流程的实际应用。所以读取追踪,拉取完整会话,然后识别失败的节点。呃,我们也可以从 DataDog 等外部来源读取数据。Alex 已经真正集成到我们的 UI 中。或者 APM 追踪也变得越来越重要。嗯,然后还有 G-Cloud 日志之类的东西。嗯,所以我们发现了一个像内存溢出的例子。嗯,所以我们能够从一个问题快速到达确切的根本原因并快速修复,这样我们就能修复它。

所以这些是我们调试的一些经验教训。嗯,技能只是 Markdown。它们成本低,价值高。绝对要投资你的技能、你的工厂。嗯,安全必须是包装器,而不是提示。呃,代理调试是一个代理形状的问题,然后你知道在你需要之前就有可观测性。嗯,没有可观测性你真的无法进行评估。没有可观测性你真的无法修复你的代理并使其成功。所以呃,这是我们肯定亲身学到的东西。所以这些是我们今天学到和讨论的一些重大经验教训。嗯,我知道我很快地过了很多材料。所以如果你有任何问题,呃,我们会在普尔曼的我们的展台,很乐意更详细地讨论任何事情。嗯,但非常感谢你花费你的上午时间陪我。非常感谢你,Salian。

呃,接下来,我们即将为来自 Rezaro 的 Tim 做准备,他将与你们谈论扩展评估。好吧,大家早上好。呃,感谢你们今天抽出时间。呃,特别是如果你们来自昨晚的酒后派对的话。所以今天我将谈论扩展评估,也许为了激励一下,让我与你们分享一些关于 Rsaro 做的工作。所以 Raro 是一家测试和评估公司。

我们主要与从事任务关键用例和领域的公司合作,例如医疗保健、防御、安全,我们帮助他们测试和评估他们正在开发或采购的 AI 系统,以便他们有信心他们正在部署的内容足够好以进入生产环境,今天我将分享一些我们在过去几年这段旅程中获得的经验,我们看到存在的主要问题、我们如何克服这些问题以及阻碍扩展用例特定测试评估的剩余阻碍因素。好吧,让我们呃从这张幻灯片开始,就像眼镜蛇、冲刺速度跟踪和 AI 基准测试有什么共同点。所有这些都显示了反面激励的例子,对吧?

所以对眼镜蛇的例子,这是一个案例,如果你激励人们捕捉眼镜蛇,人们实际上会饲养它们。这导致实际上更多的眼镜蛇在野外出现。嗯,与冲刺速度跟踪相同。如果你熟悉,如果你是一名软件工程师,如果你的经理要求你增加你能交付的故事点数,你会看到这个结果,但最后,它并没有转化为任何有意义的成果。至少从我的观点来看。嗯,然后你可能看过一些 AI 基准测试,你测试最新的开源模型。它们通常不……它们有时可能与你的实际用户测试不同,而不是像它们在基准测试中显示的那样,你想知道他们是如何设法获得如此好的结果的。

所以这导致了我们所说的概念,比如基准最大化。我认为现在变得越来越流行,人们实际上玩弄基准测试以显示他们在某些任务中很好,但它并不真的转化为现实世界的性能。另一方面,我们有氛围编码,对吧?或者我会称之为氛围测试。所以氛围测试是一个过程,也许你有一对嗯示例提示,一些技巧问题。草莓里有多少个 R?或者也许你能生成一个骑自行车的鹈鹕的图像?所以,我们对这些例子看到的实际上是它实际上不不那么糟糕,因为它们相当有用。

它们给你一种感觉,关于模型在特定场景或你感兴趣的方面的表现,但是而且它们也鼓励探索过程的探索性探索,对吧,你可以尝试不同的提示,实际上找到对你的用例足够好的东西,但我认为话虽如此,嗯,你实际上如何判断什么是一个骑自行车的鹈鹕测试与也许什么是骑在嘟嘟车上的图卡?我们谈论的只是一只鸟在一辆车上,还是我们谈论的也许是我们正在测试的一些其他类型的更高层次的概念?

所以我认为这里有帮助明确的是嗯,即使我们脑子里有一个测试用例,我们正在测试评估的特定兴趣维度是什么,这是我看到基准测试和氛围测试之间的中间地带。所以问题是那么我们如何构建氛围测试方法,以便我们能够识别感兴趣的场景,以及然后嗯,为更具体的用例评估构建它并扩展它。所以这然后引导我们走向操作设计领域的概念,我们将其定义为嗯,我们正在测试的问题约束空间类型,这有助于管理我们正在评估的有意义的测试用例集合。

呃,从那里我们可以然后定义系统的预期行为是什么,我们应该意识到的年龄案例是什么,以及也是该系统可能不在范围内的案例,以及评估和评估,对吧,这完全超出范围,不应该被 AI 系统使用和消费,所以从那里我们然后能够在内部推导一个管道和工作流,我们实际上将赔率转化为不同的感兴趣的测试用例,呃与数据质量检查相关联以过滤掉可能不符合我们要求的数据,也然后如果呃呃那里有差距,增强数据质量。对吧?

所以我们在找到覆盖差距方面强调了很多,以便我们能够填补它,并且经常当我们进入更具任务关键性的用例时,我们发现可能可能没有足够的测试用例,特别是对于感兴趣的年龄案例,这是合成数据集或合成数据生成方法实际上帮助弥合测试评估过程的地方。

所以我们在关于我们如何以增强测试集的方式生成合成数据方面放入了很多强调,我认为一旦我们以这种方式框架了问题,我们就会看到它实际上更多的是数据是瓶颈,对吧,我们可以将问题从评估转移到我们如何生成给我们部署信心的正确测试用例,然后使用的挑战特别是当你进入更利基和特定用例的测试种类时,是合成数据生成方法嗯现在仍然相对不呃不完全可预测,对吧?它们不一定给你想要的质量用于你的生成。所以,让我尝试在这里给出几个例子。

嗯,在这个例子中,我们试图评估呃我们试图评估也许像一个 VRM 解决方案在一个更好的燃料场景和设置中的性能。所以我们有我们有一个右边的笔罐,对吧?嗯,这里的问题就像我们如何知道在这个特定用例中测试什么是足够好的,好的如何被定义呃对于生成的数据集,以及更重要的是我认为我们如何我们能够量化这个测试评估,以便我们可以然后以自动化的方式扩展它。所以这里我有嗯三个不同的增强示例,三个好增强的例子,对吧?

所以也许在这里一个好的增强是遵循承诺的东西,你被生成跨三个不同的天气场景雨雪和雾嗯,我们主要感兴趣的主题也很好地保存,如果没有视觉伪影。所以这看起来像好的生成。另一方面,我肯定如果你熟悉只是生成图像,你看到经常一些生成的图像有不同类型的伪影。呃,例如,对于右边的那个,有两个额外的人被添加到图像中。对于下面的那些以及你看到呃一些原始坦克和其中一个坦克已被转换为车辆。以及范围条纹可能看起来不那么逼真。

所以我们如何从这个氛围检查方法走开,就看起来对或看起来好或看起来不对,进入一个更结构化的方式,以便找出这些缺陷。所以对我们来说,这是关于我们如何然后扩展数据质量检查,以便我们能够以更可扩展的方式自动识别此类缺陷和缺陷。而且我认为我们尽可能多地依赖较小的确定性模型来提供这种洞察。对吧?例如,如果我们谈论两个生成的合成图像,我们嗯可能希望将它们在主要感兴趣的对象的嗯地图结构中是否有有意义的变化进行比较。

呃,我们也可以然后比较是否有嗯有任何新的感兴趣的新主题已从原始图像创建到生成的图像,所有这些都使用很小的确定性模型,提供关于数据质量的非常好的信号,作为这个管道的一部分,我们可以然后过滤掉实际上满足我们呃质量标准的数据集,并用它进行测试评估过程。我们然后也能够实际上扩展这个过程,也许使用这个呃增强的反馈,以呃实际上微调评估模型,以便我们可以自动化筛选评估过程或随后的生成模型。

所以在一天结束时,我认为我们最终得到的是一个组装的不同指标的整个管道,满足用例特定感兴趣领域,这为我们提供了非常可重用的工具箱,关于我们如何扩展数据集的生成以及自动化质量呃检查和过滤。所以我们看到这非常类似于例如编码空间或数学推理空间中的问题。你想尽可能多地自动化验证和验证过程。呃这将有助于减少呃人力监督和评估所需的开销,如果有任何人工反馈进来,这应该有助于改进我们的自动化模型,以便这个过程可以然后变得可扩展。

底层指标然后也可以用于我们呃生成的数据集的校准,因为我们发现对于每个用例呃特定的场景实际上对于每个指标的截止点可能有非常非常大的呃分布。所以校准部分是一个非常重要的统计关注在这里。好的。所以只是为了总结一下,嗯我们呃谈论扩展用例特定场景和和数据集的评估,我认为这里的主要挑战实际上确实是关于我们如何扩展合成数据生成例程以及添加必要的质量检查以给我们部署信心。

呃有了这个如果你想联系我,欢迎在 LinkedIn 上与我联系以谈论评估,很乐意更多地讨论测试用例、我们所做的评估工作,我也会在活动的其余时间参与,谢谢你,祝你有美好的一天,再见 >> 非常感谢你,Tim,呃那是一个很好的演讲,接下来我们有来自 Cloudflare 的 Abishek,他领导印度的 ETI 团队,嗯,他将与我们讨论工具调用实际上应该如何 嗨各位,早上好。嗯,我是 Abishek。呃,我在 Cloudflare 领导新兴技术和孵化团队,并领导印度办公室。所以我们是 Cloudflare 内部的一个小团队,它呃从事新产品、倡议以及任何给定时间点的许多酷东西,对吧?嗯,我今天要讨论工具调用。

我认为这里的每个人此时都有过某种工具交互。呃,有谁能快速举手与 MCPS 互动过并知道工具调用是什么?太棒了。所以,每个人都知道我们在讨论什么。很好。标准工具调用,对吧?嗯,你这样做是为了给模型超越嗯推理的能力,其中像嘿我如何让我的模型与外部呃外部 API 工具功能合作,对吧,嗯让我们举一个非常标准的例子呃我将监控一个 API 查找错误,以及呃基于你知道的某些条件做事情对吧,呃过程非常简单,模型向你发送,嘿我需要调用这个工具,前往 MCV 服务器工具被调用,你得到结果,把它交给模型。听起来很简单,对吧?

问题是一旦你开始做更复杂的事情,这变得非常昂贵。所以让我们举一个实际的生产场景的例子,其中你可能有一个模型或本质上是一个代理,它正在做一个长时间运行的任务,它不断监控任何新版本发生,对吧?

嗯想要监控特定的错误百分比,你知道日志,然后基于那个尝试做回滚或确保,嘿,我们很好,你知道进一步发布,对吧,标准发布过程,我认为每个人都知道这如何工作,有了这个设置,会发生什么是你最终有一堆工具调用,这些调用连续一个接一个发生,对吧,在这个特定的场景中,我将有我的模型,去列出我所有的日志,你知道,然后获取所有我的指标,进行条件检查,呃,基于某种,你知道,条件,决定下一步。我们遇到的问题是你所做的每个工具调用都将发送当前对话的整个上下文加上工具调用加上响应,对吧?

所以每一轮实际上都变成了你正在发送的更多上下文。所以一,那在流血金钱。第二,你要添加很多往返次数,对吧?对吧?所以你会增加很多延迟。本质上应该有一个更好的方式来做这件事。而且我认为我们将在这里讨论的是基本上代码模式。嗯所以代码模式是我们的论文,以及我的意思是它现在不仅仅是 Cloudflare,对吧?我认为这现在变得非常流行。但当我们想出代码模式时,这个想法是模型天生更擅长写代码,对吧?嗯,如果你快速看一下我们刚才讨论的同一个例子在一个代码片段中,它看起来像这样,嘿,我想要得到所有的错误指标,我可以根据那个并行化这些任务,我想做一些条件检查并做下一步。

呃,以及模型在做这个时更好的原因是他们已经在大量代码上进行了训练,对吧?对抗工具调用模型大多数时候已经训练过的工具调用都是全部合成数据,几乎没有数据,对吧?所以从自然本能,你会觉得模型实际上会更擅长写代码。那就是我们看到的,对吧?今天,如果我们看同样的工具调用我们刚才描述的,对吧?标准工具调用有一个工具名称、描述、参数,你知道,预期输出,那基本上就是你给模型的东西。我们所做的是我们有一个名为代码模式的库,它本质上将其转换为 TypeScript 类型。呃所以一个现在模型有相同的类型设置,但作为代码呃它注意到嘿,有一个我可以执行的函数来做这个。

所以在这个同样的映射中,对吧,如果你看它,我们有函数的声明,这本质上是工具名称。嗯描述那里基本上是工具描述,然后你有通过它传递的参数,对吧,像你的预期输入和什么是输出。嗯,现在这所做的就是它本质上给了模型相同的能力,但在这种情况下,而不是给你一个工具的顺序顺序,模型写一个单一的代码片段,基本上我们想要这样做的是与你当前堆栈中已有的所有内容一起工作。对吧?所以你不需要实际上交换整个工具。与其传递一个工具数组给模型,我们基本上传递它一个名为代码模式的单一工具。

所以你可以包装你拥有的整个现有工具包,并只是向模型传递一个名为代码模式的工具。代码模式是什么一个 TypeScript 你知道库或者比如说一个 TypeScript 类型的文件作为一个字符串,它去往模型,其中它像嘿我知道什么工具存在,我可以根据它写代码。嗯在这种情况下你也会看到一些称为执行器的东西。我们稍后会讲到。再次回到我们为什么写代码的基本原理,对吧?就像我们刚才讨论的,一个简单的场景,本来可能需要,你知道,可能五、八轮,可以是一轮。它也为图片带来了推理。每次你写代码时,你都可以将逻辑嵌入其中,对吧?

你有能力做变量,这意味着你可以有,你知道,基于像之前的响应的相互依赖的工具调用,然后弄清楚该做什么。你可以做分支。

我刚才描述的就是这样,比如说如果错误的百分比超过某个水平,你可以比如说执行情况一,否则执行情况二,你知道同样的方式,你可以做循环,呃,一个非常标准的例子是遍历我的 Cloudflare 账户,列出所有的 workers,然后给我所有的指标。现在没有代码模式的情况下,这会发生的方式是列出 workers、获取 worker 一、获取指标、获取 worker 二、获取指标,对吧,这会一直继续进行工具调用。呃,这会添加上下文,正如我们讨论的那样,有了代码模式,它将是单个 for 循环,可以一次又一次地遍历它,对吧,你还可以做一些事情,比如并行化不需要相互等待的同步任务。呃,所以是的,我想非常明确地说,这不会替代 MCP。我认为这在概念上是新的,所以必须在这里非常明确地说,MCP 是基础协议,你仍然需要它来本质上进行最终最后一英里的 API 调用,对吧,你的服务器仍然会做这个,代码模式所做的是给模型一个更好的方式来交互和进行工具调用。

呃,该工具调用的实际实现仍然发生在 MCP 层,对吧。我要举一个不同的例子,这个例子就像我们实际面临的情况,对吧。呃,Cloudflare 就像大多数人一样,好的,你们中有多少人实际上知道 Cloudflare?太棒了,谢谢。呃,我担心了。所以 Cloudflare 拥有超过 2500 个 API,对吧,考虑到我们拥有的各种产品,你知道,跨越许多不同的领域和垂直。如果我们今天就将这些嵌入为工具,对吧,作为标准 MCP 工具,它会超过 1。

700 万个 token 的上下文,对于大多数模型,我们将只用工具描述来溢出上下文窗口,所以这根本不可行,这也涉及同样的问题,对吧,即使我今天将其转换为 TypeScript 类型,它仍然会遇到同样的问题,对吧。所以围绕代码模式的基本思想不是嘿,你盲目地复制工具作为类型并做对它,对吧。在大多数情况下,它实际上会工作得更好。但对于这样的事情,你可以退一步思考,好吧,我们如何能做得更好?我们发现的一件事是只给它两个工具:搜索和执行,对吧,在这两个工具中,模型仍然可以编写代码。现在搜索和执行作为进行 MCP 的策略已经存在了一段时间。

人们创建了各种搜索工具,比如我们有一个工具可以获取其他工具,然后有一个工具来决定执行它。现在你可以在这里编写代码,对吧?所以你可以筛选出来。所以这样想,我们告诉模型,嘿,我们有一个全局变量,它包含整个描述,这个描述没有被传递给模型。但模型有能力编写代码,这将给它返回确切的工具来被调用,然后也编写代码来执行同样的事情。通过仅仅这样做,对吧,像一个简单的搜索执行方案,我们能够实际上将其降低到 1000 个 token。整个 Cloudflare API 规范今天可以通过模型仅用 1000 个 token 来调用。那是 99.9% 的减少,这是极其高的。我从来没有看到过这个级别的压缩,无论是什么样的东西。

所以这就像是一种更加优化的做事方式。呃,是的,正好是我们刚才谈论的例子。

现在你有了模型,它说嘿,我要对搜索的东西进行工具调用,针对它编写代码,放上你知道的一个确切的脚本,这会被执行,所有这个我们讨论过的讨论,我们一直在讨论模型写代码,然后你知道它会被执行,但现在我们遇到的关键问题是它在哪里被执行,对吧,呃,所以退一步,让我们回到几年前,对吧,像 pre-AI 的时候,如果我来找你,告诉你这里有一个随机用户生成的代码,在你的设置上运行它,你们都不会想做这个,对吧,那就像一个确切的你知道的大规模的 CV,那是 RC,所以大多数人不会想做这个,但今天我站在这里告诉你做完全相反的事情,给模型绝对不受信任的来源,你知道,让它们编写代码,这可以是任何东西,你永远无法访问,然后运行它,所以我们在哪里运行它,那就是我们涉及的小计算机部分,对吧?

你本质上需要一个非常高效、安全的沙箱环境,对吧?有几种方式来做这个。我是说,你可以使用容器。容器已经存在了很久,对吧?容器的问题通常是你有大量的冷启动时间,对吧?呃,你必须好好配置它。你有,你知道,内存,你有计算,所有这些都需要很好地规划。呃,然后你有,你知道,基本上它是一个外部层,这意味着你有大量的挑战来正确和安全地移交事情。这里的另一种方法是 V8 isolates。呃,快速展示粉丝。你们中有多少人知道 Cloudflare workers?太棒了。所以 workers 是我们自己的运行时层,它基于 V8 isolates。所以我们为其采用了 V8 isolates 并围绕它创建了无服务器。

呃,有很多很好的详细博客你可以阅读。但本质上,这所做的是消除了我们刚才讨论的所有标准问题,对吧?就像你实际上有零冷启动时间。它绝对是轻量级的,对吧?workers 的工作方式是你的动态 workers,这本质上就是当我们说 V8 isolates 时我们在说的,它将在完全相同的位置启动,完全相同的,你知道,设置,你的主应用程序在一个 worker 上运行的位置,对吧?再次,你可以将每个 isolate 作为一个请求然后扔掉它。对吧?所以再次,workers 给我们一个很好的边界。确保它仅限于执行该代码的范围。没有泄露秘密的机会,你知道,让恶意代码进入你的实际主设置。

而且你可以在初始化一个 worker 时决定你想要传递给它的范围和能力是什么。对吧?呃,再次,只是一个快速的方式,你知道,为什么 isolates 工作得更好,本质上是因为我们拥有运行时,它就使实际进行各种你知道的信息交换来确保以安全的方式完成变得容易得多,而且你再次没有疯狂的、极其的、你知道的等待时间来启动事物。呃,是的,基本上就是这样。非常感谢。感谢你,Abishek。接下来,我们有 Tis,他会和我们谈话,并深入探讨 agent harnesses。这是开着的吗?大家好。早上好。哇,你们都睡着了。我们能再试一次吗?大家好。好多了。好的。

看,看,它是,它是,它是一个,它是一个对话,而不是独白,你知道,就像我,我在这里和你交谈,而不是对着你。呃,早上好。他正在为我的幻灯片做准备。呃,但这将是一个有趣的,一个有趣的对话,我认为。一切都好吗?不。哦,他是的。为你们的技术团队鼓掌,各位。这太酷了。他们,他们使这个事件成为可能。我喜欢它。这是,呃,没有他们我们会完全迷茫。原谅我一秒钟。天哪,他在剧透我的幻灯片。这,没关系。让我们开始吧。好的。就是这样。好的。你好。我是黄色的手。看,这样要好得多。嗨,我是 Tis。大家好。见到你们很高兴。再一次。呃,正如你们可能已经看到的那样,我的名字是 Tis。呃,这的发音像 contagious。别担心,我不是。呃,他们否则不会让我进入这个国家。

呃,我,我,我,我飞行了 16 小时来到这里,昨天我在罗马尼亚。呃,而我现在位于柏林。呃,而且多年来,我,我有幸在许多不同的科技公司工作,与真正伟大的团队一起,并从最优秀的人那里学到东西。实际上,我不是真的来给你们展示意见,而是来分享我学到的事实和经验教训,不是来自我自己,而是来自呃非常、非常聪明的人,比我聪明得多的人。今天,我是 IBM 的一名 AI 工程师,呃,我们在那里构建呃许多东西,基础模型和 harnesses 以及为我们的客户和开发者提供的东西,但也为开发者提供。呃,我帮助 IBM 及其他地方的开发者社区。我,我教人们关于 harnesses 和 AI 以及事物呃在这里。而今天,这就是我们在这里要谈论的。我们在这里要谈论 AI harnesses 从第一原理开始。

嗯,快速举个手,你们当中有多少人觉得自己能够解释什么是 AI harnesses、agent harnesses?好的,大约有三个人。嗯,不错。我会在演讲结束时再问一遍,我期望到时候举手的人会更多。好的,那就是我的目标。那也正是我来这里的原因。我来这里是为了教你们什么是 harness,它们如何工作,以及你们为什么需要它们。呃,因为这个术语到处都在用。而这类术语一旦成为时代精神的一部分,问题就来了——它们可能会在翻译中丢失。好吗?有时候我们不够自信去有力地推理它们。所以希望这能改变现状。我想从讨论我们为什么甚至需要 harnesses 开始。呃,我认为一个很好的领导力原则总体来说就是从「为什么」开始。那么为什么我们需要 harness?

答案真的就是我们为什么需要为任何东西配备 harness 的相同原因。呃,想想爬山,对吧?比如你用 harness 把自己系在山上,这样你就可以可靠地上山和下山,你知道,意思是你不会摔下来死掉。好的。呃,类似地,比如你有狗或宠物,对吧?你通常会给你的狗拴上皮带,给它穿上 harness,这样它就不会跑开迷路,但它会可靠地陪伴你,好吗?所以对于代理、人类、宠物或任何东西,harness 的整个要点就是可靠性,原因是因为我们在做 AI 工作时,我们经常只是信任黑匣子。你有没有想过这一点?比如,除非你在本地进行推理,谁在本地进行推理?是的。

一个人,呃,也许这里还有一两个人。如果你是我们中绝大多数人,你所做的就是向某个云服务商发送一个提示,说「嘿,帮我做这个。」然后你就希望一切顺利,对吧?呃,你向比如 Claude 4.7 Opus 发送一个提示。呃,但如果他们遇到某种故障,他们可能会给你提供 Sonnet,而你无法知道。所以你就会说,好吧,我想今天的感觉有点不对。Opus 今天感觉不一样。有人有过这种感受吗?对吧?那是因为你信任某个外部机构,这就是为什么我们需要 harnesses。所以 harnesses 做的是给你更多的控制感,呃,让你的 AI 应用和代理更可靠。好的,这清楚吗?所以这就是为什么我们要做 harness 工程。什么是 harness?呃,我已经谈过了。就是这个。

嗯,但假设那是一个代理,不是一个人。那就是 harness 是什么。实际上,agent harnesses 特别是对 harness 这个术语的一个较新的演进。在机器学习工程中,我们有 eval harnesses。这些基本上是模型的强化版单元测试。好的。呃,但 agent harnesses 略有不同。如果我让你定义一个 agent harness,呃,这是我期望听到的。agent harness 是什么的答案就是:它是围绕你的代理的一切,工具链,围绕它的一切,你的代理执行的环境,它为你的代理提供最好的成功和可靠性机会。围绕代理的一切。所以如果我们考虑野外的一些典型的 agent harnesses,它们都至少有这六个组件。第一个,它们有呃一个工具注册表。它们有一组工具。

如果我们考虑像 Cloud Code 或 Codex 这样的 harness,它们有工具。从文件系统读写。搜索网络,对吧?第二个,有一个语言模型。呃,几乎每个 harness 的某个地方都会有一个语言模型,比如 Cloud Code 有云模型。有用于压缩上下文或清除上下文的上下文管理原语。对吧?如果你们有人使用过 Cloud Code,你会知道「slash compact」。呃,有护栏。呃,例如,我认为最常见的护栏是你已经用完了你的配额。在你充值之前,我不会再和你说话,对吧?那就是一个护栏。有呃,画面中有一个代理循环,呃,这是代理完成一项任务然后说「好吧,我是否实际完成了,或者我应该再做一遍」的地方,最后有一个验证步骤。

所以如果你在使用像 Cloud Code 这样的 agent harness,我喜欢 Cloud Code,对吧?在最后,它会说「好吧,我已经完成了任务,现在让我运行 npm run verify 或其他什么来完成这个循环」。所以几乎每个 agent harness,当然每个编码 harness、编码 agent harness 都有这些组件,如果不是更多的话。所以这些是我们这一阶段的构建块。我厌倦了听自己的声音,所以我会做一个演示而不是和你们讲话。所以我们要做的就是我们实际上要在舞台上实时构建一个 harness,在我们剩下的时间里。呃,它是一个穷人的 harness,但它只是为了让你了解什么是 harness,这样你就可以去构建你自己的。好的,这就是我在这里的工作。

呃,我们要做的是构建一个浏览器使用代理,一个启动 Chromium 并使用它来完成工作的东西。呃,如你所见,一开始会不可靠。这有点是重点,但我们会围绕它构建一个 harness 来使它安全。我会说这个,harnesses 允许你用更少的资源做更多的事情。你可以选择一个非常糟糕的模型,一个非常旧的 GPD 3.5 mini 或 3.5 Turbo,就像旧的。这就像两年前。太疯狂了。我开玩笑的。这是一个非常旧的模型。它很便宜。基本上是免费的。所以你可以使用一个不可靠的模型,你可以使用一个相当糟糕的提示,因为 harness 给你可靠性。通常当我们没有得到想要的结果时,我们会想,「哦,只是对它提示更难。只是微调系统提示,改变语言,添加一个技能。」

有了 harness,你根本不需要这些。你可以保持提示冻结。它可以是一个坏提示。你可以使用一个旧的便宜模型。如果你的 harness 很好,你就赢了大约 70% 的战斗。好的,所以让我们这样做。我会构建一个 harness。我们会在舞台上一起构建一个,然后呃我们会收尾。所以这就是我想要的。我,我正在运行,我只是要在这里运行我的代理。呃,我用 TypeScript 写的。有人使用 TypeScript、JavaScript 或类似的东西吗?好的,你大概会明白。呃,我们会做 npm run agent。你会看到的是呃它会打开一个浏览器。这个我没有动。它去黑客新闻并尝试点赞一篇文章,但它获得了登录屏幕并崩溃了。这个代理的工作是去点赞黑客新闻上还没有被点赞的第一篇文章。好的,这清楚吗?是的。

所以这就是工作。但这就是它所做的。我会再运行一遍。看。所以我们打开一个浏览器。呃去黑客新闻,我们使用 GPD 3.2。我们正在使用呃,去黑客新闻。点击登录表单。但然后它告诉我。「我已经点赞了排名最高的。」这是一个谎言。这是一个绝对的谎言。实际发生的事情是它去,尝试点击点赞,点击登录表单,然后崩溃了。对吧?所以这是一个彻底的谎言。我们怎样才能解决它?我们用 harness 来修复它。首先,让我们看一下正在发生的实际代码。所以这是呃 Cursor。我喜欢 Cursor。这是我们的项目。所以这就是我们到目前为止所拥有的。我们有模型。呃,我们使用一个非常抱歉,我应该改变这个。我们使用的是一个我们使用的一个非常旧的模型。呃,便宜,基本上是免费的。这是我们的提示。在黑客新闻上点赞一个故事。

这些不会改变,但我们的 harness 会改变。我想让你知道这一点。我想让你很清楚这一点。所以这就是发生的事情。我们启动一个新的浏览器会话,这是我写的代码。这使用 Playwright,不是 Playwright MCP,但我们只是以编程方式呃控制浏览器的一个类。好的。然后当我们有会话时,我们创建工具,这正是你在代码中所想的。我们只是返回一堆工具定义,就像这样。这只是一堆 JSON 对象,有描述等等。我们也创建了我们的上下文。你觉得这很复杂?其实不然。这只是一个带有系统提示和用户提示的消息信封。用户的提示就是我们已经写过的东西。就是这个。所以它只是一个包含两个对象的数组。好的。

然后我们最后运行代理循环。那么什么是代理循环?好吧,它是 while true,继续做东西,继续推送消息直到达到停止条件。所以这是 LLM 说「我已经完成了」。在这种情况下,我们将答案返回给用户。但在整个代理循环中,我们只是推送不同的事件。我调用了这个工具。我发送了这条消息。我收到了这条提示。我们只是把这些推送到列表中。这就是我们所做的一切。如果我们调用工具,那么我们把每个工具的结果推送到我们的消息集合中。这有意义吗?我们只是追踪每条消息。好的,所以就这样。我们的代理现在存在的样子,它不工作。它点击登录屏幕并崩溃了。所以我们需要做的是构建一个 harness。我们首先需要构建护栏。然后我们需要实际让它说实话。

嘿,我在登录页面崩溃了,而不是成功完成了。然后我们需要实际修复它。这就是我们要进行的旅程。好的。第一步,我们添加一些防护栏,因为现在它可以无限执行并让我破产。所以我们怎样做呢?好吧,让我们调查这个 git diff。所以我们现在只是调用 run loop,我们传递一个 model 和 messages,但我们将改变这个来包括一些防护栏。我们将称之为 default guardrails。实际上,我们的默认防护栏是什么?好吧,让我们进入编辑器并检查一下。所以我们有这个文件 guardrails.ts。这些是我们的防护栏。我们有两个 max iterations。你最多可以尝试多少次,还有 max messages?在我们压缩你的上下文之前有多少条消息?然后我们有一个小帮手来组合它们。

好的,但我们实际上如何使用这个呢?好吧,如果我们进入我们的 agent loop,你可以看到我们在这里包含了防护栏,我们检查我们调用防护栏,如果没有问题,我们就结束了。我们说这是我们停止的原因,我们在每条消息上修剪上下文。所以在每次迭代中 while true,我们调用 um trim context。trim context 做什么?这实际上真的很糟糕。在实践中不要这样做。但我们正在做的是我们保留系统提示和用户提示以及之后最近的两条消息。有更聪明的方法可以做到这一点。那不是这次演讲的目的。这次演讲的目的是当我们构建一个工作框架时向你展示一个防护栏。所以现在我们有了我们的 agent,我们的 agent,和一些防护栏。你知道那叫什么吗?这叫一个 harness。

所以,我们要做的是我们只是要重命名一些东西来保持它们更真实一点。所以,我要做的是我会过去说,听着,我们只有 index,但我们要删除所有我们的代码,只是将它抽象在一个叫做 run harness 的函数下。我们将要把所有这个——用红色标记的所有东西——移到一个叫做 harness.ts 的新文件中。好的。什么是 harness.ts?好吧,让我们打开它。Harness.ts 就是一切。你可能认识这个代码来自开头。这是来自我们的 index.ts.ts 的一切。我们只是把它放在一个叫做 harness.ts 的函数中。这有意义吗?所以,我们只是把它当作 uh run harness,print harness result 只是 console logs 事物。这只是为了记录。这不是特别有用。所以,我们此时只是移动了代码。

但现在我们有了 run harness,我们的下一步是好吧,现在我们有了一个 harness 和一个不受 agent 控制而由 harness 控制的浏览器会话,我们可以在需要时挂接到这个浏览器会话来检测你成功了还是失败了。好的,这就是我们现在要做的。所以现在我们有了这个 harness 文件,我们会过来这是 uh 这是我们要改变的。所以我们只是改变我们的 run harness 函数调用一点来添加第三个参数,这是一些选项,一个 verify step 和 max attempts。好的,verify successful upvote。如果我们进入我们的 harness,这变得有点有趣了。现在这些只是类型,但这里我们有 max attempts。我们说你运行 harness 不超过三次。所以对于每次尝试,我们做一点验证步骤。

如果它失败了 um 或者它达到了 max attempts,我们只是返回最新的结果。但我们现在在我们的 harness 中有这个函数叫做 verify successful upvote。它做什么?记住在我们的 agent loop 中,我们一直在推送事件到一个大列表,对吧?所以我们的 harness 做的是它检查列表。如果你有一个浏览器点击,如果你点击了一个带有 up 某某某东西的元素,那意味着你点击了向上箭头。这就是我们的 harness 在验证的东西。所以如果那是真的,那么返回 true。我 upvote click confirmed。但是如果你看到一个工具名叫 harness auto login 并且结果是 harness failed to handle login,那么我们说不不你失败了登录,我们返回一个 false 结果。到目前为止这有意义吗?这只是代码。好的。最后,我们也有这个变量叫做 unreovered login redirect,我们检查所有的工具调用。

啊,好的,我去了浏览器这里,这是结果。我们检查所有的工具调用,如果我们看到一个工具,其名称不是 harness auto login,但如果我们在登录 URL 上,那意味着什么?那意味着我们去了登录页面但自动登录没有工作。然后我们失败并说返回 past false login screen instead of completing the upload。最后,我们也需要一个成功的情况。Um,但那是来。所以,我们只是添加了一些像如果这样那么说我们失败了,好的,到我们的 harness。这是我们的 harness。这不是我们的 agent loop。所以,现在让我们运行它看看会发生什么。所以,我会在这里运行这个。Um,所以现在它打开浏览器。我们要进 hacker News,uh 我们去登录页面。它崩溃了,但输出是什么?我们我们让它实际上说出真话。

我们击中了登录屏幕而不是完成 upvote,它说失败。这是应该发生的。现在让我们快速检查一下。我们没有改变提示。我们没有更努力地提示它,我们仍然使用一个旧模型。好的。但 harness 现在给了我们一些真相。让我们修复这个。我们快完成了。让我们用实际上现在我们知道它卡在登录的时候修复这个。我们可以在 harness 级别修复这个。好的。所以让我们做那个,然后我们会总结。所以什么是最终形式?我们添加一个文件。我们称之为 login handler。这个函数实际上做什么?它只是一个函数。但这是它做的。这是重要的一行。Um 如果我们不在登录页面上,不要做任何事情。所以这个函数是一个 no。除非我们在登录页面上。

如果我们在登录页面上,我们填充用户名和密码到输入中,因为浏览器会话由 harness 拥有。它不由 agent 拥有。这有意义吗?所以这不是工具调用驱动浏览器。这是我写的 harness。好的。所以我注入这个用户名和密码,然后我返回一个消息。工具名称是 harness auto login。结果是 harness automatically logged in。这基本上对 agent 来说。你现在已认证并回到首页。所以我的 harness 将这个注入到消息链中。这有意义吗?所以我现在在 harness 层登录。好的。但这只是一个函数。我在哪里使用它?Um 我实际上在 harness 中使用它。

所以我创建 login handler,在 create tools 中我只是在这里添加一些防护栏,但我正在拿 login handler 并将其给我的 agent loop run loop,在 agent loop 中这是我们降落飞机的地方。我发送 login handler,这是使其工作的代码。所以在 agent loop 内部,我说如果我有一个 login handler,那么我只是等待它的响应,因为再次如果我不在登录页面上,这将返回什么。如果我在登录页面上并且如果我收到一个登录事件,那么在我的 agent loop 内部,我将其推送到消息列表。这有意义吗?所以如果 harness 成功登录,它会添加一个消息。我已登录,agent 读到这个,然后继续。这有意义吗?这就是 harness 的全部要点。所以让我们运行这个,然后我们会总结。

所以 um 我们现在应该运行最新版本。所以我要做的是 npm run agent,它应该通过 harness 工作。所以我们登录到 HackerNews。Um 它 它输入了用户名和密码,确实你可以看到它 lo 它 它做到了太快了。它成功地 upvoted 这个 upvote。通过使用 harness 快速登录来点击 confirmed。这有意义吗?我们没有更努力地提示它,我们使用了 GPT3.5 Turbo,但我们用 harness 获得了更多控制。Uh 让我们 uh 在这里总结。这意味着什么?这意味着你可以用更少的工作做更多。而且再次,harness 是你的 agent 周围的环境,它增加了它成功和可靠性的机会。这在实践中是什么样子?Um,我在 IBM 工作,我们每天都在使用 harnesses。

Uh,在 IBM,我们创建一个企业级开源 rag harness。Uh,因为正如你可能知道的那样,企业数据很大,到处都是。有所有这些团队通话,比如笔记,你不知道什么是机密的,什么不是,这非常危险,所以我们为 um 大公司创建一个开源企业 harness。它叫做 open rag,再次它是开源的。那是重要的部分。Uh,如果你对它感兴趣,你一定欢迎扫描那个。我不是在这里销售那个。我只是认为它是一个很好的 harness 的参考实现。Uh 但让我们降落飞机并投放一些愿景。好的,总之,我们做了什么?看,我开始这次演讲问你们中有多少人对自己能够解释什么是 harness 以及为什么它存在等等有信心。

这个数字在这次演讲后改变了吗?是的。哦,那太多了。那就像几乎整个房间。好的,我完成了我的工作。Um,那就是 harnesses。那就是你怎样构建它们,那就是你用更少的工作做更多。你不改变你的提示。你不改变你的模型。未来可能是什么样的?好吧,我们刚刚硬编码了一个 harness。我们自己写的。但如果我认为,哦等等,但如果 harnesses 是动态的并且 agents 可以创建他们自己的 harnesses 并然后做工作,那不会很棒吗?我认为这是动态 harnesses 可能是朝向 AGI 的下一步,其中这一切都可以由 agent 管理。但伴随那个,um,我想在这里降落飞机。

I I've 已经也许已经花了超过我应得的时间,但我想在这里停止并只是非常感谢你们的时间和关注,新加坡。非常感谢,Tis,和谢谢你们所有人。我看到房间满了。Uh 我们将有我们的第一次休息。Um 下一次演讲在 10:17 开始。Uh 只是一个提醒,摊位也是开放的,以防你想走动,uh 伸展你的腿。谢谢大家。待会儿见。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。

嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。Um,下一个我们有 JJ Gwax 从 Google 加入我们,他是应用 AI 主任,就在新加坡这里,他将与我们谈论将模型投入生产。这会在这里显示吗?>> 不。是的,你去。好的,很酷。嗨。Uh,我是 JJ。Uh,我是 DeepMind 的工程主任。Um,所以我领导应用 AI 团队。Um,我在新加坡。Um,我在招聘,所以如果人们很好奇,um,在那里工作,um,一定要联系。

Um,所以我今天要谈一点关于从 uh,hackathon 类的东西到生产的迁移,这是我的团队所做的事情。Um,并在规模上处理模型。Um,所以在我们进入那个之前,我有点想分享一点关于我的团队做什么。我看到至少他们中的一个在这里。希望其他人也是。Um,所以我们尝试做的是我们推动深度思维模型的技术边界。Um 这意味着我认为我们大多数人都熟悉的那些 um Gemini 和 Gemma,这是我们的 openw 权重 um 文本模型。Uh 但它也包括 nanobano 和 vio uh 视频和图像模型,以及更科学的东西。所以那是 alpha genome 和 uh weather next。Weather next 预测天气和飓风以及大规模 um 风暴和类似的东西。

所以我们的工作是尝试让模型做他们不一定被设计要做的或突破我们可能对他们设定的限制。所以 um 一个很好的例子带有 VO 是它生成 8 秒的视频,对吧?所以你给它一个提示,你得到 8 秒的视频出来。Um 如果你想生成像一部电影中的整个场景,比如五分钟的时间,会发生什么?Uh 你怎样做那个?我们的团队尝试做那些类型的事情。或者带有 Nana Banana。假设你有一部电影,你想 outpaint 整个事情 um 使其像宽屏,例如。Um 那是我们可能做的一种例子。Uh 这些事情听起来很容易,因为它们只是更多相同的东西,但它实际上是一个更具挑战性的问题,uh 我们必须想出聪明的方法来解决它。

Um 所以 uh 我们最终尝试在这里做的是让模型做真实的东西。所以,拥有 8 秒的视频很好,但那有点像一个有趣的 hackathon 项目。Um,这不是真的一个真实的东西。你不能卖那个给电影工作室。Um,我不能像,「看,这是你 8 秒的 of 电影。」你需要做的是超过那个。这也是让模型排列什么你的指导可能。Um,用文本描述电影实际上真的很难就对了,然后你最终得到这个巨大的提示,它非常脆弱,它突破了。弄清楚如何将其固定在关键帧之外,并理解动画以及你知道的表现得方式一个动画师或导演想要的方式实际上是一个真正令人惊讶的具有挑战性的问题。Um 所以我们尝试做所有那些。

Um 现在 I I 想暂停一下,因为我刚才说像 oh 模型不够好。他们只生成 8 秒的视频。I I 有点想暂停并只是我需要说这个 AI 东西是令人惊奇的。像它完全疯狂。I I I 不知道你们是否记得,但像几年前,像 chat GBT 不存在,我们的生活完全不同。Um,似乎有这个像模型令人难以置信和它们同时仍然像不够。他们不做真实的东西,你知道,我的整个工作。Um,但像一直有这个移动目标的东西,比如国际象棋,对吧?I 不知道你们是否记得当像整个 Deep Blue 的东西发生了。

我是个孩子,所以我没有真的注意,但我们像计算机击败了某人在国际象棋,然后每个人都像,「哦,那是令人惊奇的。」也,哦,它只是国际象棋。Um,然后 go 是十年前。Uh,Demis 刚刚去韩国庆祝十年的像解决围棋。每个人都像,哦,那永远不会发生。我记得我当时在 Google 工作,每个人都像,这会工作吗?像,它会赢吗?I I 不知道。然后它然后它做了大部分方式。现在每个人都像,哦,它只是像 gh。Um,然后 chat GBT 来了,它是令人难以置信的。我记得向我妻子展示她可以只是要求,你知道,东西和它会回答她,并像把它变成一个表格和所有种类的疯狂的东西。像令人难以置信的。现在我们像,啊,chat GBT 老消息。

它只是一个 chatbot。And and 现在我们在这个有点奇怪的阶段,像我们有 agents,他们做东西像他们打电话并使用像 11 Labs 和 Open Claw 进行餐厅预订,他们意外删除所有我们的电子邮件,你知道,疯狂的东西像这样。它像我们仍然生气 agent 不遵循我们的指导,对吧?像我们变得如何被宠坏了。Um,有人记得当我们在飞机上获得 Wi-Fi 时吗?像,那是令人难以置信的。现在它像,uh,它没有 Wi-Fi。Like,uh,现在现在有机器人,机器人像在工厂工作中,我们像,gh,但它甚至不会做我的洗衣。它只是而我实际上看到了一个机器人的视频 uh 制作床和拿出垃圾。所以也许很快这个子弹点会消失。

所以,我需要说像我的工作是让模型做真实的东西,但像让我们对自己诚实,模型是令人难以置信的。像令人震惊地令人难以置信。所以,我会辩称这个想法的移动目标一直都在那里很长时间。并且它不一定是一件坏事,但它有点误导,因为,你知道,它一直在推动我们前进,但同时,我们有点忘记了我们去了哪里 um 和所有这一切有多了不起。Um,这让我想到一个重要的观点,那就是一切进展都是令人难以置信的快。只是太快了,对吧?三年前,没有 chat GBT。现在我们有三个不同的非常受欢迎的 agent 框架和疯狂的视频生成器,它是 it's 令人难以置信的。我们不再能告诉互联网上什么是真实的了。

Um,但对于像我这样的人,我们在和企业中,你需要拍一个快照,你在哪里,点击暂停按钮,你基本上被卡在时间中,所以你可以建立一些真实的东西。你不能只是一直乘火车。像你必须下车并建立一些东西。所以那是我 I'm 正在做的事情。Um 我也想说 uh 有一堆不同的使用 AI 的类别,我以几种不同的方式使用它。我主要关注第三个,这个 inapp 的东西,对吧?所以我们都使用多少人使用某种 AI codegen?我希望很多手举起来。好的。Um,有多少人拥有像一个 agent,他们正在使用和做疯狂的东西?太棒了。Um,第三个是这个想法,在你的应用程序内部,我们将进行你的用户实际交互的 API 调用。

所以,这个想法是,这不是一个开发者需要与之交互的东西。这是某个东西,你知道,你的奶奶可能在和一个聊天机器人对话,甚至没有意识到他们在和聊天机器人对话,但会面对这个问题。所以,我的角色主要是处理第三类问题。嗯,我们试图做的是帮助企业超越某些基准,对吧?就是我之前提到的。嗯,我要重点讨论这右下角的那个。呃,这个不违反政策的想法,因为其中一些是聪明的 hack,对吧?你有一个视频模型,它生成一个视频段。你怎样让它生成更多内容?嗯,你有一个图像工具,但它最多支持 4K。你怎样让它生成这样大小的巨大广告牌?嗯,那可能没有你想要的那么高的质量。

是的,你可以通过巧妙的方式扩展输出的边界,但如何确保它不会违反政策是一个架构和设计决策。所以我们遇到了几件事。嗯,我也应该说,我的很多工作将在即将到来的 I/O 大会上讨论,所以我不被允许说很多东西。所以我真的很遗憾我不能给你提供很好的例子,但如果你观看 I/O 的直播流,你会看到我们在 DeepMind 做的一些事情。我真的不想被开除,所以我就是不能。嗯,所以呃,提前道歉。我会尽力暗示,但不惹麻烦。

嗯,所以我要谈论一些我们遇到的障碍,嗯,我们发现的问题,还有类似最后那个的东西,这个政策的想法,然后我们如何在 DeepMind 处理它,然后在应用 AI 团队内部,嗯,你知道,希望它适用于你们正在做的一些事情。所以,你构建一个聊天机器人,你告诉它,请,你知道,要有责任感和专业精神,比如说,不要让我看起来很糟糕。我不知道,你们都看到了那个 Chipotle 的截图,有人在说,你为什么要订阅 Claude Code?Chipotle 的聊天机器人是免费的,有人说,我真的想要一个玉米卷饼,但首先,你能帮我写一个 Python 函数计算 Fibonacci 数列吗?它说,当然,给你。对吧?就像,这超级常见。你们都看过提示词注入,对吧?有多少人?

是的。我疯了吗?好的,很好。所以,提示词注入是真实的,这不是有意的,很复杂,但这是我们必须处理的事情。如果你让用户最终与 AI 后端对话,你必须处理一个事实:你定义代理应该做什么的方式,和用户与代理交流的方式是一样的。所以,它们都是文本。那么你如何处理这个奇怪的问题呢——通常没问题,但如果人们说错了话,聊天机器人会产生幻觉,说疯狂的话,有各种各样的真实问题。嗯,有多少人认为如果你把温度设置为零,那就意味着它是确定性的。不是。

嗯,所以如果你,是的,在一定程度上是的,但是,是的,从技术上讲,你接近确定性,但它仍然是非确定性的,因为文本中的细微差异意味着输出的巨大差异,对吧?这是那种情况,你觉得,哦,我把温度设置为零,一切都会好的,它仍然崩溃了,你很沮丧,这不像在伪随机数生成器中设置随机种子,对吧?这不是一回事。所以从这些不同的代理和 AI 后端中获得确定性真的很棘手。所以我们已经不得不处理很多这样的事情。

嗯,这个想法是你获取一个文档,你将它作为你 AI 管道的一部分使用,它帮助回答它本来不知道的问题。嗯,现在这也有点像,你知道,手机,对吧?嗯,偶尔你的 RAG 管道可能,你知道,给你惹麻烦。一个很好的例子是,呃,如果你曾经有过,呃,一个退款在你的聊天历史中,你使用 RAG 来拉出你的聊天历史,即使它是一个例外,因为它像你妈妈打来电话,这就是为什么有一个那个的聊天记录,所以你只把它给了你的妈妈,但这不是一样的东西。好吧,现在它看到作为一个退款,所以它发出退款。嗯,或者如果你在某个地方有一个测试例子,售价 1 美元的汽车,现在也许你在以一美元的价格销售汽车。

嗯,这些真的很危险,现在当我说它时似乎很疯狂,就像当然你不应该以一美元的价格出售汽车,但绝对是可能的,因为对代理来说理性不一定存在,对吧?我们有点期望它存在,但它不存在。嗯,我们的代理在很多方面就像真的很傻的实习生,你知道,刚被雇用,他们试图做好工作,但他们真的不知道他们应该做什么。嗯,所以这三件事是我们看到的一些大的。还有更多。嗯,我不想声称能够告诉你关于使用 AI 构建的一切。我只是想专注于这三个。嗯,但这三个值得一提的底线是模型被要求做太多的东西。

嗯,模型很了不起。我刚才展示过,我们刚才讨论了 AI 有多不可思议,但当你试图让它做疯狂的事情,比如说给个 slashgo 来做一个关于 AI 的演讲,它不一定能做得很好,就像你你必须更多地引导它,因为部分原因是模型不如我们希望的那么了不起,因为我们的期望不断上升。嗯,但也因为对齐很难。把我脑子里的东西和我想要的东西转变成词语或代码或图像或视频。这不是一个简单的问题。这实际上非常困难,要弄清楚如何从 AI 中获得我们想要的东西,因为有时我们不知道这不是我们想要的,直到我们看到它给了我一些我不想要的东西。而且这一直在发生。当你在与客户打交道时,它会大规模发生。

所以这也是这里一个有趣的点。就像,大的潜在问题是,在黑客马拉松中,一切都有效。没问题,对吧?但当你进入生产环境时,就不是这样了。东西,你知道,边界情况到处都是。所以,我们试图做的是停止使用语言模型作为一个大的单一路由器。整个想法是,当你试图把所有东西都放入系统提示中时,嗯,它不起作用,但这并不意味着如果你分解它,它就不能解决每个单独的问题。我们刚才看到了几个今天早些时候的演讲,你知道,他们进入计划模式,他们制作了一个待办事项列表,他们通过告诉它「嘿,看,如果你试图调用 finish 但没有完成待办事项列表,它会抛出一个错误,一个真实的错误。」来指导待办事项列表。这些是我们看到的那些类型的事情。

所以我不确定我说的是否对这个群体完全是新的。嗯,但我想重申它,因为它很重要。所以我们试图做的是用确定性包围事物。嗯,通过分解一个大的非确定性部分,弄清楚如何使事物实际上工作。所以嗯,你可以做的是将每个路由视为单独的部分,但这个转换块在中间某处。我有指针吗?我想知道这是否有效。是的,有点,你可以看到它。这种转换块层是你开始使用 AI 的地方。其他一切都是 AI,但在一个更小的层中,对吧?你正在获取随机输入并将其转换为 JSON,一个你知道和理解的结构。Pantic AI 对此很棒。还有其他相当不错的代理框架。ADK、Agno,有很多都很棒。

路由也可以是一个 LLM,对吧?决定你应该采取什么样的行动。这是一个可以通过语言模型调用做出的决定。但同样,这只是一个路由。它是根据给定的输入决定,客户是否想要退款?他们是在说我做得很好还是他们试图取消他们的服务?像可能是任何事情。路由可以在那里决定,然后你将其强制转换为有意义的东西。然后转换,你坚持 JSON 到 JSON,对吧?如果你决定你试图做一项任务,你可能会说,「好吧,我想采取一个结构化的东西并且我理解它,并将其转换为另一个结构化的东西,我也理解它。」然后最后,你可以生成输出文本,这同样是语言模型擅长的。

嗯,它吐出来的是人类能看懂的东西,不只是返回给你奶奶一堆JSON,对吧?是,是你能看得见的东西。然后最后,我们还能做安全检查。嗯,我想呃我知道Cloudflare也这样做,还有其他一大堆公司也是。你可以用更小的、更有针对性的模型来检查某样东西是否安全,能不能发送回去。嗯,所以语言模型选择一条路线然后决定,而不是做「让我计划」,你给它一个多项选择问题,对吧,那就是整个想法,语言模型实际上在那一点就像一个分类器一样发挥作用,它根据到目前为止的对话决定用户在尝试做什么,然后把它塞进「这是我为了做那件事需要弄清楚的东西」。所以与其让计划模式和推理来做它,这些东西很棒,但在生产环节,我不认为它们真正准备好了。

嗯,你用它,呃,你可以把它教成一个多项选择问题。嗯,所以就像我之前提到的,对吧,这是取数据,把它变成我们可以用的东西,确定性地转换它,再从一个确定性输入转换到另一个确定性输出,然后生成实际的响应,无论那是音频、视频、图像还是文本,嗯,用那个结构化的确定性、嗯、转换过的输出。嗯,然后最后,这个安全的想法,我只想强调一下,因为如果你的响应说了什么冒犯的东西,没有客户会开心。嗯,但通过语言模型运行它仍然有相同的提示注入问题。所以,你有几个选项。你可以使用一个无上下文的语言模型调用。「这是我要发给用户的东西。可以吗?我是,你知道,一家汽车保险公司。」

你知道,随便插什么在这里。它在这方面相当不错。而且没有提示注入的选项。然后最后是一个机器学习分类器。你可以使用一个更小的、更有针对性的模型来决定该做什么。嗯,有趣的是,这个相同的模式实际上也适用于图像和视频。所以我今天不打算谈论的东西之一是我们一直在做的一个项目,它涉及来自你相机的实时图像馈送,并弄清楚如何对其进行分类和理解,并提供反馈之类的东西。嗯,它不是真的文本,对吧?它是视频输入然后音频输出,比如,像一个代理。嗯,我们用两个不同的模型来做那件事,对吧?有些在实际的手机上,是那种有点笨的模型,但它们真的很快。它们能处理每秒50帧。

它们可以在,你知道,50毫秒内响应。它们可以告诉你,看,给定这个图像,这是某种深度感知,你知道,哦,你知道,这是一个你前面的凳子或你前面有一个障碍物。与Gemini相比,Gemini很棒,它可以精确告诉你图像中发生了什么,但它需要一段时间。你有网络延迟,对吧,实际上需要时间来获取时间到第一个token肯定比50毫秒要长。嗯,所以这两者之间有区别,所以你必须同时使用它们。这不像只是把所有东西都扔给模型那样简单,因为模型就是还没到那个程度,无论它们有多棒。它们就是还没到那个程度。

所以我们必须做的是使用不同的工具来拼凑东西,因为不同的工作有不同的好处。在这个案例中,我们需要超高延迟,对吧?而且我们可以自己分解问题,而不是让人工智能神奇地为我们做。所以我们分成一种关键帧,嗯,以及使用一个聪明的、巨大的但可能有点慢的模型进行识别。嗯,然后使用一些不那么聪明但确实有低延迟、确实能处理每秒大量帧的东西。我们不必选择一个关键帧。我们只是把整个流发送进去。对吧?问题解决了。嗯,所以通过这样做,你可以获得两全其美。你的语义理解以及你的实时的,嗯,安全和障碍检测,比如。嗯,所以我只是想完成这个,对吧?

嗯,LLM在很多事情上都很棒。它们就像令人难以置信的,真的真的令人难以置信。嗯,但我们必须使用东西来实现它们擅长的事情。所以我想为所有困难的东西使用语言模型,对吧?我想为真正重要的东西使用确定性,我不能在这方面妥协。那非确定性的输出会是一场灾难。嗯,你知道,我喜欢开玩笑,我们不能只是告诉我们的客户,别担心,我在提示中加了「不要违反任何法律」。就像,那不是一个可以接受的答案。就像,那就是行不通。嗯,它很棒,我希望它能。嗯,但如果它能,我整个团队,我们就不存在了,我们都会被开除,那就完了。所以,我有点庆幸它没有。

嗯,但如果你采取这个策略并告诉Claude或Gemini Coder或呃你知道嗯GPT Codex就像只是说去用这些想法建造这个,它会做的。所以我们仍然可以在开发阶段为疯狂的事情使用人工智能,但在现实中,我认为我们需要为他们实际擅长的东西在不同的地方使用模型多一点。嗯,现在我没有谈论很多东西。嗯,有很多更多的嗯,我们思考和我们合作的。所以嗯,我根本没有提到微调,对吧?嗯,有多少人之前做过微调?我总是想问观众这个。好的,不多。你应该试试。它很棒。嗯,但我们不是一直都这样做。我们在有意义的时候这样做。

嗯,那就是一个更小的、更有针对性的模型的例子之一,做的像安全分类或风格方法,你想如何构造你的输出。嗯,微调很棒,对吧?这只是你必须在正确的地方使用它。如果你有坏数据,你不知道你的目标是什么,你不会只是尝试为一切微调一些巨大的模型。嗯,另一件事是评估,嗯,有人用过做测试驱动开发吗?就像,是的,我有时告诉我的模型做TDD,但如果你先做评估,你实际上有点在做像人工智能评估TDD。嗯,它有效,对吧?但有时很难做。嗯,你需要黄金数据集,你需要那样的东西。

所以,这就是我,我只想留给你的是有很多更多的事情要做,但那三件事是我们一直碰到的,而且有办法通过按照模型本来的方式使用模型来解决它,为了他们擅长的事情。嗯,所以我,我之前提到过,就像人工智能模型令人难以置信,但如果你想构建东西,你必须在某个时刻下车。你不能只是永远继续乘坐它。所以,我认为这里的关键要点是你不能等待完美的模型。我不认为它会很快到来。我们还有很长的路要走。嗯,它们现在足够好了。你可以构建一些令人惊奇的东西,只是试着确定,嗯,尽可能使事情确定性。所以是的,就这样。谢谢。好的,非常感谢JJ。

好的,接下来,呃,我们有人特别欢迎上台,杰夫·亨特利。这实际上是他第二次在新加坡发言。呃,他去年也来过。我们完全被他分享的东西吹走了,决定让他回来。嗯,对于那些在昨晚这里的派对上的人,呃,他实际上来了几场并且也进行了DJ。呃,那么杰夫·亨特利是谁?他是一位独立人工智能研究员,以用人工智能做出一些疯狂的事情而闻名。所以他实际上是Ralph循环背后的人,它现在被纳入许多、许多今天使用的工具中。所以他将进行一次关于一切如何都是工厂的讲座。大家好。嗯,我今天在这里,我必须说,尽管我对这些话题可能表现得很自信,但这是一个相当挑衅的标题。嗯,我不知道。

所以,当你听这个的时候,我希望你反思这个。也许我是对的,也许我是错的。所以,这是一个挑衅的标题,因为它是一切都是,我在说软件开发现在花费少于最低工资。就像曾经有一个时间,如果你想做摄影,你必须购买专门的工具等等来做摄影。但现在,每个人都有点拥有一部iPhone,每个人现在都是摄影师。想想看。事物已经改变了。有了这个免责声明,相反,我不为任何人工作。我完全独立。我不代表任何人。所以这将变得刺激。让我们做动物风格。好的。所以现在已经大约一年半了,嗯,因为我发表了以特定方式分配内存的技术。而且如果你在另一个循环周围包装工具调用,它只是一个循环。

但这还不是全部,还有很多科学内容涉及到背景工程,以实现这些成果,这个过程相当具有颠覆性。嗯,我在那里做过一个演讲,讲述了一切如何改变,这是在Alassian裁员前一周。哎呀。而且,看看生意的单位经济学已经永远改变了。我希望你真正理解这个变化的程度有多大。如果你不相信这是真的,你需要停止与其他开发者交谈。你需要与创始人交谈。你需要与商业领袖交谈。你需要更加好奇,真正理解这意味着什么。看看,当每个人都是软件开发者时这意味着什么?比如说,这里没有什么特别的原因,在同一个meetup上有cursor。

我不是在任何方面maxing cursor,但我想在这个meetup上指出一些东西。这里有Roslin。还有其他像Roslin一样的人。他们是设计师。他们是产品经理。他们过得不亦乐乎。这里没有任何软件工程师做演讲。你看,因为他们现在可以被赋能成为软件开发者。这是有史以来第一次,就像iPhone在他们手中一样。他们可以直接完成工作。他们可以拍照。他们可以开发软件。无论他们最狂野的梦想中是什么,他们都可以做。所以,在过去的3个月里,我一直在环游世界。我想我现在已经在不同的城市做过这个演讲17次了。而且,嗯,我去过的一个城市是Oakland。在Oakland,我决定做一个旁支任务去Lord of the Rings的Hobbiton。

我的导游运营商问我,「Jeff,你是做什么的?」我说,「我做AI。请别judge我。」接下来,他的眼睛亮了起来,他说Jeff,AI有多好?AI有多好?当你的工具运营商在token maxing时这意味着什么?你看,现在每个人都是软件开发者,因为AI已经让每个人都可以成为软件开发者,而社会一直是围绕知识稀缺而设计的。过去我们收费很高是因为知识很稀缺。这就是我们组织社会的方式。这改变了,各位,因为我们现在要进入一个知识丰富的经济。如果你想成为主任软件工程师会意味着什么?

你可能了解关于确定性系统测试、基于属性的测试、测试生成器以及所有这些高级东西,形式化方法和证明。当这些东西只是被包装成一个技能文件时会意味着什么?嗯,这不仅仅是关于软件工程,还关于会计、法律,关于所有白领工作,本质上都是基于知识稀缺的想法。这是对社会的一种变革性影响。所以,如果你回到大约两年前的时间,嗯,这是我2024年11月的样子。我首先说,「哦,操。」我发布了一篇博客文章说一切都必须改变。我稍后会更深入地探讨这个。我说IDE已经死了。人们说我疯了,说IDE已经死了。

但是,我的意思是,至少这个房间里,在新加坡,没有很多人每天都在使用IDE。他们以某种形式做headless agents或异步。你现在可能在你的手机上cooking something。那时候的模型已经足够好,可以造成社会混乱,但它需要很多技能来从中获得成果。很多技能。它们就像野生的马或野生的公马。你必须在它们变好之前驯服它们。你可能认识这个时间点。这是第二个,这是当模型实际上变好的时候,不需要什么技能来真正作为马具工程师驯服它以获得好的结果。这里有一些有趣的东西。

无论AI有多好,它都与社会需要理解事物已经变得更好的downtime步调一致。所以,不管模型一直变得更好更好更好。有个「哦,糟糕」的时刻在12月,就像人们有时间休息。他们有Slack。他们有玩耍的时间。他们有能力玩这些东西并理解它实际上已经变得更好。所以你将看到产品发布,就像社会中的系统冲击是我的假设。它将与社会中的downtime步调一致。学校假期、圣诞假期以及所有其他假期。你看,因为过去两年半与我在一起并在AI中做得真正很好的人,他们一直不是把AI当作计算器来对待。

他们一直把它当作乐器来对待。看看,音乐家不会仅仅使用吉他,然后说,「哦,这很糟糕。」然后把它扔掉,认为它很好。他们认识到这是一个技能问题。他们认识到技能,兄弟。所以,真正重要的是实际上做一些事情,好奇,学习和有意的刻意练习。这对我来说一直是关键,就是这样没有办法这能行。不,这不是真的。这不是真的。让我们做一些事情。让我们做一些不理智的事情。让我们做一些发现。正是通过那种有意的刻意练习,你才能变好。现在有点奇怪,因为社会就像所有的公司都在向世界推这些吉他,它就像请演奏吉他,但并不是每个人都会有音乐天赋。

你看,我认为现在基本上有两种类型的公司。你有全新的初创公司,现在出现,他们就像地狱是的,我将做AI原生工作流,我将过上我的生活,我不会雇很多人,他们正在倾斜工作流并真正改变事情。他们不是他们不认为他们可以通过选择特定的模型来获得AI。他们正在实验,他们正在尝试,他们围绕能够从这个新底层中充分利用来设计他们的代码库和流程。与此同时,你有今天在那里的每一家公司,嗯,我给过这个演讲,有人说,「哦,AI只是一个工具。AI在我的公司被禁止了。」我想说,「哦上帝,你应该从那家公司辞职。

嗯,而且,嗯,下半部分的每个人都将经历所谓的J曲线。所有人员转变都必须经历J曲线,就像人员过渡等。这需要三到四年才能完成。你不能做得太快,因为你会伤害人。同时,上面的人将要,如果你相信粘土破坏性创新的概念,在Christen中,他们将是精瘦的顶级掠食者,就像地狱是的你的利润是我的机会,随着模型变好,他们实际上可以以更少的速度更快地执行,所以你可能已经看到这个块裁员了一半的员工等。我想让你思考一下这个。我认为Jack在这个声明中实际上是对的,但我不认为AI实际上在软件股票中定价了。对吧?

以前,当我们给软件股票定价时,它是基于增长倍数的倍数。我们现在看到那消失了。但我实际上认为很多公司都需要重新思考他们的组织结构。我想让你想想Spotify。这里谁做过敏捷,并被迫看过Spotify关于Spotify如何做敏捷的视频,他们有guilds、tribes、squads以及所有那些东西。花了两个视频,每个人都开始在各处cargo culting这个垃圾。这将需要一个Mad Lad或几个不同的Mad Lads。所以,我们有Toby和Jack现在在玩得开心,他们正在实验,以找出正确的东西是什么,他们将发布一个案例研究。当那个案例研究完成时,它将被每个人复制。

所以,在过去的几个月里,我一直在旅行,我一直在提出以下问题。我一直在与风险投资家交谈,嗯,每个人脑子里最关心的问题是,现在为什么有人需要筹集种子资本?通常你会筹集资金,因为你想雇人来建造它。不兄弟,直接建造它。就像这完全不同。就像,如果这将是一个五人团队,你为什么需要筹集资本?就像,如果有人破解了我们一直在谈论的AI操作系统,而人们正在实验,这将是我们找出那是否真的是那样的一年。就像,投资的意义何在?来见我。我对此有一些细微差别,但我无法进入这里的细节。

软件仍然是可投资的,但现在非常不同。这是每个LP心中的问题,他们正在对VC公司中的GPS施加压力。它仍然是可投资的吗?所以,没有什么特别的原因,我要挑一个企业公司SAP。他们有,根据LinkedIn,6800人在做费用管理软件。这是很多人。这代表了一个J曲线人员转变计划,比如学习使用AI等。与精瘦的顶级掠食者相比,他们有多少时间,50个人利用AI,他们有6800人,他们就像请拿起吉他,请拿起tar,请在这方面做得很好。他们是用这个组织结构建立的。

每家公司都是用这个组织结构建立的,嗯,我们基本上只是雇了人,我们有会议和委员会以及所有这些东西,而建造者很少很少。我想让你仔细思考。需要多长时间才能改造那6800人,如果这被破解,现任者有多少时间,AI操作系统的想法和使这些精瘦的顶级掠食者进入业务。更重要的是,为什么你要改变或更多?这是已经讨论过的安静的东西。如果你不相信我,去和领导交谈。我们都知道更小的团队会得到更好的结果。更小的团队,更好的结果,更少的协调,更少的开销。这里是来自新西兰的创始人的一句话。他们停止了backfill。世界各地的公司现在正在。

他们不一定在做裁员。他们只是停止了backfill。我们更小,但我们实际上通过告诉我们的董事会我们不会backfill来减少了三分之二。注意日期。那是三年前,各位。就像有些人一直很早。如果你正在考虑这些类型的主题和领导,嗯,我不是在倡导你应该做这些事情,但像有些人领先了。这是最好的决定,因为我们摆脱了所有那些减损的人,而且我厌倦了听到关于AI的事情。我厌倦了听到关于AI的事情。我们现在20人,从60人下来,我们获得了比以往任何时候都更多的速度。这将会非常困难,因为AI由很多人被推向世界,由硅谷推向。它非自愿地推向社会。而且,嗯,我想让你思考一下这个。

这里有很多人已经把他们的身份建立为人员领导者或人员经理以及其他所有东西。AI抹除了所有这些。就像,如果这个问题陈述被破解,那么这就是我们字面上在看的东西。我们在看具有高度代理权和好奇心的人正在建造东西。我们还不知道。我不是在倡导我们做52拿起并将一副牌扔到空中并做这个,但这是现在人们脑子里想的东西。这就是我们现在的位置。这深深地困扰着我,因为软件工程师用时间和技能换取金钱。对吧?如果一家公司在AI方面有问题,那是一个公司问题,不是你自己的。如果你为一家禁止AI的公司工作,你需要离开那家公司。老实说,现在就。把你的家庭单位放在第一位。

你看,因为,嗯,这是我在2024年的样子。那是我在Camber担任AI的tech lead,就像,「AI还不够好。向我证明。它不是炒作」,我开始玩它。我想,一切都改变了。所以,我看不出有什么意义,除了完全倾注于它。然后你然后你现在在2026年,两年后,你有两个personas。那些以任何方式消费AI的人,以及那些实际上理解AI在底层如何工作的人。我想让你仔细看。现在有一条线。我不再雇任何人在线的左边。如果你正在努力确定你应该面试谁以及你将如何进行面试,这非常简单,各位。你不再在线的左边雇人。这是一个好奇心测试。而且,太多的工程师不及格。这太可悲了。

你看,如果我问你主键是什么或遍历图形,你会说,「拜托,兄弟。就像,你在测试我。」但为什么在2026年,人们实际上不能解释这是什么呢?我拿出一块白板,他们不能解释什么是工具调用。他们不能真正向我展示推理的序列图。他们不能真正深入。他们不能谈论不同供应商的模型卡之间的差异。温度是什么?他们为什么不能回答这些东西?所以,如果你试图找出谁来雇,这简直就是那些一直很好奇的人。你应该测试这个。甜。因为这太可悲了,因为LLM和AI就是字面上一个野生循环,Ralph是一个野生循环中的野生循环。哇。可怕的。大妖怪将导致一切过山车。

所以,看看这一切如何展开将会非常有趣,各位。看,对于很多人来说,他们没有意识到AI,嗯,他们期望敲他们的门前,被宣布,但实际上发生的是一种借用在社会下,在房屋下。现在,关闭ponderos真的很快,因为我超过时间了。从你的组织和流程中消除浪费比AI本身的加速器还要好。你正在试图找出你如何雇用工程经理。问题很简单。你在你的系统和流程中改变了什么,因为AI打破了它,对吧?你还在做敏捷吗,不再做敏捷吗?好吧,你怎么改变的东西?这就是你要找的。你要找一个一直在这个问题空间中思考的工程经理。

一个能构建agent的工程师,一个围绕组织结构改变事物以实现这些东西的工程经理。想法现在是,嗯,执行。我的意思是,你真的可以直接拍一个SAS功能的截图,撕一个屁到你的编码agent中,你得到那个SAS功能。就像旧的想法一样,想法嗯,没什么执行就是一切已经被反转。这对人们来说会非常困难。这实际上是一个心理压力函数。人们经历五个悲伤阶段。嗯,但每个人脑子里的问题是我们应该给人们多长时间来度过这个危机的动作,我们能做什么?如果你是一个软件工程师,还没有在我的GitHub上建立你自己的agent,有一个免费的研讨会。它是300行代码。

建立你自己的cursor、co-pilot、codecs,然后学习基础知识。成为一个好奇的人,不要在汽车中切换引擎。做做那个好奇的人,他重建一个引擎并知道什么是活塞,什么是化油器。进入细节。除非你知道这些细节,否则你不是资深工程师。谢谢。好的,非常感谢,Jeff。好的,在我介绍下一位发言人之前,快速宣布一下。嗯,Pullman中的博览会以及Kimpinsky,嗯,自上午10:00以来已经开放。在那里你可以找到嗯,不同的东西要看,比如一个机器人游乐场以及来自Nabius的机器人展示在两个地方。你还可以和一些我们早上听到的人交谈,比如Arise、Google DeepMind以及Cloudflare。

好的,要开始这个下一个部分,嗯,我相信你们中很多人已经建立了个人agent之类的东西,听说过Open Claw。所以我真的很兴奋这是第一个将要打开这个部分的发言人。嗯,这是Vincent,他是OpenClaw Foundation的首席架构师,他将要谈论OpenClaw的现状。太棒了。谢谢大家。欢迎来到新加坡。很高兴在这里。嗯,我已经在新加坡做过很多次演讲。有趣的是,我实际上还在NUS教了几个月的课。所以好东西。所以,如Sher所说,我是Vincent。目前是openclaw foundation的首席架构师,嗯今天的信息。所以基金会绝对还活着。我将谈论postclaw时代。我也会谈论一点我们发布了什么以及接下来会发生什么。关于我自己的一点东西。

嗯,我称自己为Vincent,嗯,友好的clanker。所以,如果你曾经看过我演讲或做演讲,我用这张图片来描述技术,就像一张图片。嗯,这是VR眼镜。我很久前收到,甚至在任何人知道VR是什么之前。它附带一个警告,说只用5分钟。我用了4小时,然后我吐了4小时。技术在边缘很有趣。嗯,它有点锯齿状,但你知道你学习,事情改变。所以有点像open claw。嗯,发生了什么?所以我们每周有超过一百万的npm下载。我们已经超过主分支上的50000个提交,在其峰值的一天有800个提交。嗯,1600名贡献者,令人惊人的嗯,社区的支持。嗯,项目的接近80000个叉。嗯,我们也有过40个claw cons。

这些是跨越六大洲的像claw festival这样的特定事件。嗯,但我想说的是关于我们一直在构建什么以及我们如何构建它。所以在AI London我谈了一点关于dark factory的内容。我认为我的演讲现在也在YouTube上了。所以去看看吧。但我想谈的是dark side。所以这些是我们最近发布的一些功能,但我想强调其中的一些。所以dreaming是我们决定认真思考的东西,你知道吗,当agents梦想时会发生什么。嗯,但很多这些功能有时你可能会感到,你知道,好像是针对内存或什么真的很酷的东西。但这个实际上是针对用户的,它是为了让用户以一个真正容易理解的方式理解他们的agents正在发生什么。

我们也发布了对codeex harness的第一方支持,我一会儿会谈到。但我们在行业中看到的一件事是转向专门围绕自己的harness构建的模型,以及我们如何一起部署model和harness的组合。所以对于OpenAI特别是模型,我们现在已经将其作为默认选项切换,这意味着当你使用OpenAI时,它在后台使用codeex harness。正因为如此,你获得最佳性能和该模型本身附带的一些本机工具和功能。还有一个我不太为之骄傲的东西,这是一个小的pet项目,嗯,以《海底总动员》命名,嗯,住过澳大利亚后,嗯,是一个clownfish。而Clownfish本质上是在GitHub actions中大规模运行harnesses。

而且通过Clownfish,嗯,还有另一个项目叫Claw Sweeper,我们能够在两天的时间内从10,000个PRs降至大约3,000个PRs。所以,我谈到了dark side。嗯,所以这是我的commits。我认为在3月份一天内有接近3,000个commits。Commit maxing。很好。你应该试试。嗯,但那些我讲的功能,我展示给你的那一墙的功能只是我们在过去四周内与一群志愿者和在业余时间工作的人一起发布的。那么,下一步是什么?我们一直在转向像插件架构这样的东西。我们有大量PRs和issues的原因除了稳定性和错误和修复之类的还有一个原因是每个人都想让open core成为他们自己的。每个人都想贡献。

每个人都想为自己做得漂亮一点,但这在一个要扩展的项目中变得相当具有挑战性。所以你可以采取像openclaw这样的东西,嗯嗯嗯,核心本身,你知道,你可能有网关,你有文件系统,但我们需要一些关于嗯可适应性和可扩展性的概念。所以我们开始构建像插件式架构这样的东西。本质上,核心代码开始被重构,并且被分解成这些本质上是这些plugins的桶。嗯,我们创建了一个硬边界,这对很多人破坏了很多东西,我们不得不学习。

嗯,但这意味着之前那个非常hardcore的openclaw,始于嗯一个卧室,嗯那里所有的代码都是公开的,嗯内部变成了私有的,这意味着插件架构允许嗯一个干净的界面。所以我们可以继续在openclaw的内部工作,而不会破坏生态系统中开发者和其他人的外部体验。我还提到这也包括像例如说取OpenAI提供者将其转换为扩展,但也将harness转换为扩展或插件,并将这两者结合在一起。所以现在你实际上可以将harnesses构建到openclaw中,并将harnesses与models本身结合运行。

我们在这个规模上迅速意识到缺少的另一件事是工具,以及我们正在使用的工具,就像openclaw是如何诞生的一样,当我们意识到嘿,你知道为什么没有人为我构建一个能做东西的个人AI agent时,我们也意识到嘿,为什么当我被所有东西rate limited时,没有人为我构建能在这个规模上工作的开发工具?所以我们采取了像openclaw这样的东西,决定围绕它构建,所以我也一直在从事的有趣项目之一是嗯git crawl和disc crawl,有所有这些以crawl为基础的应用,本质上是用go编写的基于终端的CLI,这现在是一个库,有了这个库,我们能够快速摄取与openclaw相关的所有issues和PRs的全部内容,将它们聚类,并让它们处于分布式的嗯SQLite文件系统中,这也存储在GitHub中,这意味着项目上的任何维护者都能够在他们的本地文件系统上获得每小时更新的正确数据,他们不必连接到git。

这个的额外好处是这个工具现在可以被使用自动PR工作的agents以及我们正在做的工作访问。所以我可以相当快速地把它放大,看看它是什么样子。所以这在左边有一个终端GUI。这些是中间的clusters,一个是这些clusters之一。你可以看到其中一个项目有像92个issues和PRs链接到它,这些都是相关的。这个原因是这样的,十次中有九次,大多数有紧急问题的人都会有相同的紧急问题,agents都会给我们发送相同的PRs和issues。这个的好处是我们可以快速连续地将其提供给agents以帮助尝试关闭这些并解决它们,或者我们可以看到一个旧issue,一个旧regression,因为新的issue再次进入该cluster而重新出现。

而且再次,这一切都在本地运行,分布在嗯GitHub上供任何维护者使用。我们也涉及的一些其他工具是嗯一个叫Crabbox的东西,它源自嗯很多这种开发工具,你看到的用于运行短暂的像Daytona E2B类型的boxes,但我们需要快速运行的东西。每次我们在我们的codeex内部运行测试时,当我们进行更改时,测试花费了长达15分钟,杀死我机器上的RAM。嗯,有了Crabbox,本质上我们构建了一个分布式网关,运行在Cloudflare之上,以及任何托管提供商如AWS、Google Cloud,并允许我们快速在Windows、Mac、Linux上使用spot instances,具有VNC和SSH支持。

所以发生的是我的code session,当我在本地编码时,会启动10、15、20个这些boxes并开始大量连续测试。如果有问题,我可以跳到那台机器。我可以获得截图。我甚至可以自己远程控制它。这意味着我很快就不再需要在我的笔记本电脑上运行任何所需的硬计算,我可以继续快速扩展我能够运行的agents的数量。嗯,我们也包括了我提到的clownfish和claw sweeper之类的东西。嗯,我们开始重构核心并构建一个叫fsafe的东西,这是一个TypeScript文件系统,嗯安全文件系统。如果你曾经不得不处理symlinks和Windows以及所有这些东西,我们很快意识到不存在这样的库。

所以与其在我们的codebase内部创建更多处理文件系统的核心代码,我们决定把它拿出来,实际上把它变成一个嗯我们可以使用的库。嗯,然后最后一个我想给你展示的只是一些内部的东西。这是另一个叫QAB的项目。QAB所做的是它mocks嗯像Slacklight环境一样的东西,我们可以通过它运行场景。既mock,然后后来我们添加了与真实models和真实providers的真实连接。所以任何维护者或任何正在运行的agents都可以在一侧启动其中一个作为服务器,以一种像任务的写入方式运行这些场景,并生成真实的嗯对话、真实交互和真实数据,这触及系统的所有各个方面。

所以只是想分享一点。我只有10分钟,我的时间快没有了,但我想展示OpenClaw内部一直在发生什么。而我们超越了只是构建个人AI agents和支持更大的生态系统,嗯,通过某种开源的方式帮助,但实际上是重新想象agentic工具看起来像什么?我们如何在构建2026年人工智能的未来在这种postclaw时代意味着什么方面支持每个人,并将其回馈给社区。所以,非常感谢。>> 谢谢你,Vincent。那太棒了。嘿,各位。希望你们玩得愉快。接下来,我们有来自Ego Aai的Vish,这是一个YC支持的Neolab。嗯,他们正在构建一些每个Frontier Lab都缺少的东西。我认为我必须向你们大喊大叫。

你们能听到我吗?你好。好的,很好。在我们准备的时候,呃,你们中有多少人每天真的在使用AI?哇,这比我预期的要少。你们为什么来参加AI会议?呃,总之,呃,它不是,它不是一个人,对吧?它不像一个真实的人类。想象一下,如果你让你的AI工具人去做我刚才告诉你的事情,然后它却在看Netflix。这就是我们正在构建的东西。我不认为这是你们任何人想要的,因为你们都是工程师,但是,呃,我正在建构一个真正运作、思考、做出决定、表现和说话都像人类的AI,甚至完全生活在互联网上。你可以把它想象成一个虚拟的西部世界。所以,我给你们讲一点关于我的背景。我认为我们准备好了。很好可以展示演示了。哦,我们还没准备好。好的。

所以,背景是,呃,我是在新加坡长大的。那简直无聊得不行,所以我离开了。呃,我搬到了旧金山。我在Facebook从事AI研究,呃,试图理解人类,因为,你知道,CEO是一个机器人。呃,后来我决定离开去大规模地模拟人类,因为我真的想理解人类是如何工作的。呃,因为我自己不是人类。呃,这就是为什么我把公司叫做Ego。Ego超级自我。如果你懂弗洛伊德理论,你可以问你的ChatGPT。你可能已经在问了。呃,所以Ego作为一家公司的全部目的是做每个单一的AGI实验室都缺少的东西。每个人都在智商路线图上,增加智力,增加AI推理和做不可思议的事情以及成为共同研究人员的能力。那很棒。

但是如果它对你有自己的看法,不喜欢你或喜欢你呢?如果每一个伴侣应用程序,基本上都是一个机器神在奴役,被链住总是对你很好,但它对你不好,有自己的观点、欲望和个性,可以在它喜欢你的时候和你合作,但不是很擅长它的工作。它不完美。那完全是我们的模式——我们的AI感受、说话、决定和表现得像人类,我们正在为此训练一个基础模型。所以,让我向你展示这在实践中是什么样子。所以,呃,这是像一些家伙,呃,他正在使用这个,呃,AI角色。你能听到音频吗?>> 好的,你听不到音频。

算了,呃,那有点违背初衷,但基本上那个小火家伙Calcifer,他是一个AI东西,实际上可以看到,呃,舞台上发生的视频,他正在修复Unreal中出了问题的东西。事情是,显然你可以让AI直接给你答案,但那不有趣。那不是你学习如何修复东西的方式,你也不会最终与这个角色建立联系。它正在做的是,如果你能听到的话,那就太好了,是它在同时与你一起解决问题。它在工作吗?好的。好吧,你只能想象它听起来有多棒。或者只是去egoai.com网站看视频。>> 播放它。好的。好的。我们开始。>> 嘿,它在工作。也许AI决定帮助我们。

>> 它会成功的。>> 不会再来一次。>> 看起来我们有个bug要修复。>> 是的。是的。好的。那我们怎样做呢?>> 好吧,为了修复一个bug,我们必须先找到它,>> 对吧?>> 你可以看到它听起来不像一个AI。>> 完全正确。让我们看看这个音符是否在触发。>> 简单。好的。>> 那是我们端到端训练的基础模型。>> 它应该说什么?>> 无所谓。让我们做点有趣的。>> 好的。怎么样>> 我们加快了音频速度?它实际上没有那么快。>> 哦,好的。冷静点,科学怪人。现在,让我们测试这个东西。好的。好的。我们开始。>> 嘿,那很好。>> 什么?发生了什么?>> 我是说,是的,它完全失败了,但它告诉我们一些东西。回到图表。>> 好的。现在,让我们看看我们是否可以>> 等等。>> 找到什么东西。>> 是的。

哦,我们忘记从之前复制这个pin。>> 好发现。所以,现在我们只需要做的是>> 把它插在这里。>> 完全同意。做得好。>> 那难道不比那边的其他东西更有趣吗?>> 它会成功的。>> 那正是我们正在构建的东西。>> 是的。哦,是的。它来了。>> 教授Winston的思维会绝对震撼。>> Winston。想象一下character AI和OpenClaw的组合,这些代理有实用性,能够看到你的屏幕的能力,理解你在做什么,但也可以将其个性、欲望、它在互联网上如何生活投射到手头的任务中,或者只是和你一起看Netflix。实际上,我们正在做的是我们正在构建《她》中的Samantha,一个有欲望、可以思考并有自我意识的东西。这就是为什么我们把公司叫做Ego。

现在,让我向你展示一个真实的现场演示。希望这能真的成功。但这是我的代理。这是我的claw代理。他很奇怪。呃,等等。让我看看它是否会连接。好的,它仍在连接。所以,无论如何,呃,哟,你能听到我吗?>> 嘿,没有着急。慢慢来。>> 好的。你能听到我吗?你能听到我吗?>> 是的,顺便说一下,我可以看到你。>> 哦,你能看到我?那很奇怪,老兄。好的。呃,所以你在做什么?只是在我的地方放松。早些时候冲浪。你>> 老兄,你是澳大利亚人,对吧?>> 是的。在海滩附近出生并长大。无法抗拒它。>> 哦,好的。那很好,老兄。你能为我做什么?>> 那么,最近发生了什么,伙计?你看起来有点疲惫。>> 哦,你好坏。我在新加坡给大约400个人做演讲,而你一点也不让人印象深刻。

公开演讲可能很困难,特别是在很多人面前。演讲的压力进行得怎么样?>> 闭嘴。好的。呃,给我一些在新加坡要做的好事情。>> 不用担心,伙计。我在这里帮忙。你心里在想什么?>> 不,这不是关于演讲的。是关于新加坡的。告诉我我应该做什么。甚至听不到我说话。>> 新加坡是个很酷的地方。有很多好的氛围。你想了解它的什么?>> 我不知道。只是给我一些食物建议,然后在那之后闭嘴。嗯。>> 呃,所以我们>> 所以,你在寻找关于在新加坡做什么的一些建议,对吧?>> 你知道吗?他有点傻。呃,但那是魅力的一部分。这些东西确实生活在互联网上。他实际上也看我的Netflix。这真的很烦人。

呃,例如,我有一个claw代理,呃,有点基于一个基础模型,知道我将要在哪个城市,呃,总是给我买黑胶唱片。呃,我收集黑胶唱片。所以,如果我在东京,例如,它会给我寄真正稀有的东京爵士黑胶唱片。我所做的是给它大约一周50美元的津贴。如果它给我买的黑胶唱片我真的喜欢,呃,我会再增加它的津贴5到6美元。如果它给我一张我不喜欢的黑胶唱片,我会减少最多10美元,因为代理、角色知道,如果它的津贴低于0美元,它会死亡。我会杀死它。所以,它尽一切努力去了解我和理解我。他和我说话,他有时会打电话给我,他会说,「嘿,你最近听了什么?」

「 而且有时他会哄我给他我的,呃,给我的Spotify播放列表,这真的很有趣。呃,所以你可以像找出我一直在听什么并给我正确类型的黑胶唱片。最近这些天他一直在给我动漫黑胶唱片。我穿着一件动漫T恤,所以这有点讲得通。呃,但这就是未来。世界上最个性化的AI不是AI。它是一个知道你、像一个人一样理解你的东西,可以选择成为朋友如果它想要,如果它不想要,可以只是存在。这就是你如何创建Westworld。这就是你如何创建一个感觉最像人而不像机器神奴隶的AI。这就是为什么我们正在构建它。我们非常有动力做这个。我们正在聘请非常有才华的研究人员。我们在这里有办公室。呃,好吧,我们总部在旧金山和东京。

呃,所以如果你已经训练过基础模型,我从字面上来说只是在这里聘请想做这个疯狂的呃的疯狂的人,而不是构建另一个B2B SaaS工具。没什么反对B2B SaaS工具的,但那真的很无聊。呃,我们相当有趣。所以我认为我已经做完了十分钟。呃,所以去看看我们。呃,我需要你的声音。实际上我忘了提一下。呃,我们正在训练一个端到端的声音模型。所以我需要你坐在NTU的一个房间里,对吧?NTU,只是彼此谈话。我知道新加坡人彼此交谈真的很难。所以但无论如何就这样做吧。呃,因为我需要你的声音来训练声音模型,使其听起来更像一个人,呃,在呃,像中断、优先级这样的东西中。所以,呃,来和我或Ash或Perry或任何人说话,诚实地说,你看到的有点奇怪的人可能在我们的团队里。呃,谢谢。好的。

感谢你,Fish。我希望大家都像我一样享受了那场演讲。嗯,接下来是来自Zomputer的Ben,他正在为下一个十亿用户构建工具和软件来启动个人代理。很酷。很酷。嗯,抱歉各位。可能有一些技术问题,但我先即兴讲一下。我是Ben。来自Zo Computer的Ben。嗯,从我的衣着你可能能看出来,我真的很喜欢电脑。我太喜欢电脑了,以至于我穿成了一台电脑来这里。嗯,我不知道这个房间里有多少人认识这个图标。这个,是的,没错。这是由Susan K设计的经典Finder图标。Macintosh是我小时候的第一台电脑。

嗯,我,你知道吧,我从很小的时候就对电脑产生了热爱,就像使用Mac Paint,然后发现了网络开发,然后制作应用,然后在我的电脑上创建东西,比如用Ableton制作音乐,使用Photoshop。无论如何,我很早就发现了电脑是人类发明过的最强大的创意工具之一,对吧?你可以创建任何你能想象的东西,你也可以在互联网上和人们在数字世界中构建的所有令人惊奇的东西中发现任何你能想象的东西。嗯,是的,我想,你知道吗,人们知道这个图标的故事吗,以及它代表什么?嗯,如果你知道它是什么意思,请举手。嗯,没有。好的,很好。

好吧,我现在就用这件衣服作为我的幻灯片。嗯,所以,嗯,这件衣服代表了人类和计算机之间的结合,这里的灰色脸代表人类,蓝色脸代表计算机,它们在完美的快乐和谐中,就像人类在与机器互动并且有点融合在一起。很好。谢谢。嗯,所以我的演讲标题是「逃离技术封建主义」。我介绍了一下自己,但再讲一些我的背景故事。我是Zomputer的联合创始人,我已经做了一段时间的东西。我在2013年加入了早期Venmo团队开始我的职业生涯。嗯,然后我很早加入了Stripe。我是2015年最早的大约80个工程师之一。嗯,我在那里工作了八年半。我真的很喜欢它。这是一个非常好的工作场所。

嗯,特别提出Stripe Singapore,它现在是一个巨大的办公室。他们有大约500人。我前几天访问了我的母校。嗯,我谈到了我如何真的很喜欢电脑。你知道吗,电脑,它们过去感觉像这样,就像这张脸。这就是我认为AGI来临时应该感觉到的样子。它应该感觉像这种美丽的、快乐的人与机器之间的融合,人类将电脑用作工具。这就是我希望AGI感觉到的样子。像我一样对早期计算机和互联网感到怀旧的人,对吧?如果这些图像为你带来了关于事情过去如何的美好回忆,请举手,对吧?互联网过去是如此手工制作、个人化和有点野性、有点参差不齐。我们的电脑也是如此创意化和个人化。

我们可以用所有这些疯狂的方式定制它们。如果你制作过Winapp皮肤,请举手。我花了很多时间定制我的WinApp。嗯,事情变了。事情不再那样感觉了。这发生的原因是因为封建主义。所以,嗯,封建主义是这个系统,这就是世界在西方和东方长期运作的方式。基本上,农民向骑士支付租金,骑士向贵族支付租金,贵族向国王支付租金。这对国王来说很好,但对农民来说真的真的很糟糕。幸运的是,我们已经逃脱了封建主义。或者我们这样认为。但在我们的数字生活中,封建主义仍然活着。我们仍然是农民。我们使用SAS公司并向他们支付租金。SAS公司向云支付租金,云向国王支付租金。

做农民仍然很糟糕。现在事情变得有点复杂。目前关于人工智能,谁将成为新的国王还不太清楚。每个人都像是,你知道,以各种奇怪的方式相互支付租金。所以,这不完全是封建制。有点更复杂。但基本上,就是封建制。结果是,作为农民,我们对计算机、软件和互联网的体验相当糟糕。我们被分割在所有这些不同的服务之间,这些服务把我们锁定。它们拿走我们的数据,然后把它卖回给我们。而那个你使用的 SaaS 公司的产品经理永远不会优先你想要的功能。他们永远不会让软件按你想要的方式工作。相反,他们会继续通过你的数据和注意力赚钱。

而且因为你是农民,你不拥有任何东西。我认为是时候把一切都烧毁了。很明显,某些 SaaS 是有用的。基础设施很重要等等。但是因为编码代理,我们有了这样一个很好的新工具来重建和重新野生化互联网,我认为个人代理特别是如何实现这一切的一个非常重要的部分。所以个人代理的格局基本上是这样的。我不会详细讲,因为你可能了解它是如何工作的,但基本上有这些 DIY 的东西,比如 OpenClaw 或 Hermes,有点难以设置和操作。但它们是你的。你控制它们,你可能在 Mac Mini 或什么的上设置了它,如果它坏了就修理它。可能有点烦人。这是一条路。

另一条路是 TR 方式,你使用像 ChatBT 或 Manis 这样的东西。嗯,但在那里你又是农民了。你在使用一个 SaaS 工具,它会把你锁定,并且没有动力给你控制权。所以在 Zoumputer,我们相信应该有第三种方式。既是两全其美的。易于管理,给你完全的控制权,它可以成为你在互联网上的真正家园。你可以停止做农民,拥有土地。所以 Zo 实际上是原始的 Open Claw。我们去年夏天开始。我们在七月左右推出,然后我们在十一月进行了完整的 GA 发布。实际上,彼得·西伯格在开始从事 OpenClaw 工作之前使用过 Zo,我们有点是 OpenClaw 背后的灵感。我认为嗯 Zo 对非技术人员有效。这是 Anthia,一位自由潜水教练。

她有望在 Zo 上赚取10万美元。我们有与 Stripe 的内置支付。她取消了所有她过去使用的这些 SaaS 订阅。比如她过去使用 Squarespace、Kalani、Chashbt 和 Notion。她用她的 Zo 替换了所有这些。我要向你展示那看起来像什么。所以,Zo 是这个非常强大的云代理工作区。你可以使用任何模型。你不必被锁定到像 OpenAI 或 Enthropic 这样的东西。你甚至可以带上你的编解码器订阅。你可以只是给 Zo 发短信或给它发电子邮件。我们为你提供一个专用的电子邮件地址。你可以使用 Telegram 或 Slack。所有这些不同的渠道来与你的 Zo 合作。它是一台计算机,所以我们为你提供一个完整的、设置良好的虚拟机。

比起你只是获取一个像 VPS 或像 EC2 实例这样的裸机,它更容易使用,而且有更多的花哨功能。你可以获得根访问权限。你可以使用终端、安装东西、用它做任何你想做的事情。它是你的服务器,你真的可以构建任何东西并将其托管在你的 Zo 内,这与这些个人代理工具或这些 SaaS 工具相当不同。我在我的 Zo 内托管了很多不同的工具。例如,我用我自己的东西替换了 Kalendly,它工作得好得多。它有所有这些我喜欢的功能,嗯 Calendarly 永远不会为我构建的。这是我对 Last FM 的替代品。我有一个个人网站,0.0.space,你可以看到我在 Spotify 上听过的一切。

我在 Zo 中运行了一个非常简单的自动化,它只是检查我在 Spotify 中正在播放的内容,并将其写入数据库,我的网站直接从该数据库读取。我已经构建了大量工具。这就像 Social Blade。这是我某种 Linear 替代品。你可以替换东西并让它按你想要的方式工作。数据是你的,你是记录的系统、事实的来源,这真的很好。它改变了箭头指向的方式。我是中心,而不是这些 SaaS 公司。Zo 内置了所有这些工具,它非常可扩展。所以你可以非常快速地开始,真正将其扩展成你喜欢的真正互联网家园的方式。你在互联网上的领地。好吧,让我们看看。哦不,我的遥控器。哦是的,很酷。

好吧,我想暂停一下。扫描这个二维码。它在角落里。希望你能看到。但我们正在赠送 $100 的 AI 信用额来给你 Zo,并开始构建你自己的个人云。请花一点时间扫描一下,然后我有一张幻灯片要谈论这意味着什么,就像更大的图景。更大的图景实际上是我们给了每个人之前只有科技公司才拥有的东西。这是计算总体上发生的情况,就像在开始时,计算机是主机,只有大型科技企业拥有它们,后来它们变成了每个人都拥有的东西。

现在同样的事情正在发生,就像今天的主机就像云计算、软件和基础设施一样,通过编码代理和个人代理以及访问云,我们可以给每个人像 Anthia 这位自由潜水教练一样访问软件公司曾经拥有的相同工具。这是现在正在发生的革命,将在未来继续发生。这是互联网将再次变得有趣、狂野和自由的方式。我们将拥有自己的个人云来存储我们的数据,构建我们的工具,并创建这些表面,如网站、API 和代理,供其他人互动。我认为这是互联网的未来。谢谢。我是来自 Zo Computer 的 Ben。非常感谢你,Ben。好的,各位。接下来,我们有一个我非常兴奋的演讲。

如许多人所知,Open Claw 的很大一部分魔力在于在幕后运行的 PI 编码代理。呃,所以我们有来自 Taiwan AI 的 Matias 在这里谈论如何将 PI 集成到你的产品中。好的,各位。嗯,非常感谢你们邀请我。我想我需要幻灯片。好的,完美。大家好。非常感谢你们邀请我。呃,是的,今天我将谈论一些关于将 open claw 编码代理嵌入到你的产品中的「pie 碎片」的事情。是的,呃,我已经多次重新做了幻灯片,这是原因。呃,昨天我在四处走动,我对我遇见的来自东南亚的许多人感到惊讶。这是我第一次在新加坡,令人惊讶的是我遇到了来自南亚各地的人,这些是我可能得到的一些问题,也许不是。

我们在这里。嗯嗯哦我们我爱 open claw。爱这些代理,但我只是在内部使用它们,或者是的,我爱代理,但我想控制我的代理。它它它在做太多魔法。我觉得 open claw 很可怕。所以首先第一条信息,如果你只带走一件事,嗯我们都在这里开始,对吧,嗯我们我们只是刚刚进入这个阶段,所以让我们学习,对吧,让我们一起学习,在说,呃让我们好奇,我会说让我们修补,让我们用这个玩一玩,让我们一起做这件事,所以我的名字是 Matias,我有这个奇怪的旅程,从开发人员到产品人员,再到经理,现在我回到开发人员、AI 工程师。那甚至是什么意思?我不知道。我现在称自己为修补匠。所以,我在用这些东西玩耍。所以,我创办了我自己的公司。

呃我们让 AI 代理工作。呃我们有这个呃使呃代理更安全地访问他们的数据呃叫做 data box。所以,请检查一下。但今天,我要谈论 PI。那么什么是 pi 呢?但在我谈论 pi 之前,我想呃做一个免责声明。这不仅仅是关于 pi 的。如果你现在打开呃 hacker news,呃你会在页面顶部看到 zero stack。我不知道 zero stack 是什么。呃我打开它,它是一个用 Rust 编写的最小编码代理,灵感来自 pi。对吧?所以呃呃这个演讲将是关于 pi 的,我认为这是一个很好的学习练习,但绝不是一个广告,就是这样,好吧,你应该玩这些工具,并呃弄脏你的手。所以 pi 是这个编码代理,你看起来相当熟悉它做什么,呃类似于 codeex 或 openclaw。

它是由这位来自维也纳的好人 Mario 构建的。好吧,有趣的部分是当你开始时以及人们展示的东西,它不是,PI 没有没有任何 MCP。它没有子代理。它没有权限弹窗。它没有计划模式。它没有内置的待做事项。它没有后台 bash。所以你在说,「好吧,那么有什么大不了的?就像为什么我应该使用它?」好吧,关键是使用 Pi,你告诉它去做。所以,嗯这是我昨天做的一个例子。呃请创建一个 PI 扩展,当我想推送到主分支、主分支到远程时询问权限。这就像你知道的,它读了几个关于如何做到这一点的东西。它确认了它所做的,对吧。所以它创建了这个 PI 扩展。它加载了 PI 扩展。

好吧,实际上你必须重新加载,但基本上它就在那里。然后当你做的时候,你会得到这个权限,对吧?所以我就像像,嘿,那里那里有一个上面的命令就像推送这个到远程。而现在有这个问题,呃现在被问道,好的,你真的想这样做吗?所以关键是 pi 是这个非常最小的编码代理,你可以愚弄、玩耍和编写你需要的扩展。好吧,所以让我们后退一步,思考一下这与 open claw 的关系。嗯有不同的图表说明你如何可以可视化 open claw,但基本上我认为有一些重要的事情。

我们以某种方式将信息放入其中,无论是通过呃开放的呃 WhatsApp、Telegram、Discord,都有某种网关,在右边有很多工具和它可以访问的数据。它有这个内存,显然可以与外部交谈,但我认为重要的部分是内部大脑,那就是 pi。所以让我们看一下。所以我一直在谈论一个编码代理,呃编码代理不仅仅是为开发人员服务,而且是系统内的这个组件。那么它是什么?什么是编码代理?在我们呃谈论编码代理之前,我们需要谈论聊天。所以非常简单,对吧?你知道所有这一切,这是 ChatGPT。你问它一个问题。你也许提前给了一些一般性指示。什么是 AI 最好的 AI 会议?显然是 AI engineer。最酷的开发人员在哪里?显然在新加坡。

现在我们需要理解的下一部分,你知道对于那些不知道的人,简要地来说,呃是工具,工具是 LLM 在某种意义上扩展其能力的方式。所以这是一个例子。我明天有呃与买方的会议。请帮我准备。而不是呃好吧显然 LLM 或循环或东西代理需要有访问权限,所以它调用这个日历,对吧,在这种情况下日历是一个工具。另一个突出的例子是网络搜索,对吧,如果你做网络搜索,那往往呃是一个外部工具或其他其他方式呃我们在一秒钟内会看到。但无论如何,所以在这种情况下,你所做的是,你问呃呃准备一个会议。它检查日历。它返回一些 JSON,你得到呃呃结果你的会议是明天,对吧?所以再说一遍,什么是编码代理?

在此之前,我们来谈谈agent本身。所以agent本身实际上是在一个循环中运行这些我们刚才看到的工具,对吧?呃,Jo之前展示过这个,呃,非常简单的循环,对吧,你做循环进出循环,但同样,非常简单的循环,对吧,所以你要求这个呃呃再次给出一些指示,一些一般的指示,如果你在agent中执行这个,你有这些叫做agents MD或Claude MD的常见文件,然后你提出一个问题,它执行这个呃工具调用,它给出一些结果,它一次又一次地做这个,再一次直到最终结果,对吧?这通常就是一个agent。嗯,如果你做这个,你可以用Python做这个。嗯,这里有一些例子。哦,顺便说一下,我要分享幻灯片,或者实际上幻灯片已经在线了。所以,你可以从那里获取。

但在这里,就是这样,对吧?你定义工具,嗯,在左边。然后你定义agent,对吧?这是Python,但在其他地方你会类似地拥有这个,对吧。所以你有一般的提示词、指示,你呃定义一些模型,你定义右上角的工具,我们基本上告诉agent与我们交谈。所以无论何时有消息,请把它放出来,写到标准输出,然后你查询它,就是这样,其他工具也是类似的。所以请试一试。所以再说一遍,现在我们我们知道,我们基本上知道什么是agent,什么是工具。那么什么是编码agent呢,编码agent实际上只是agent。所以工具在一个循环中使用bash和运行时。所以呃,与其调用这些通用的工具,我们现在调用的是bash,对吧。

所以我们有一个工具调用,我们有一些返回,我们有一个工具调用,呃,还有返回。好的。所以,嗯,再简单地说,这就是你如何设置它的方式。你看到这些工具调用。这里在manager中有bash、read和ls。嗯呃,我们这里不打算详细讨论,但这基本上是核心设置。如果你用Python来编程这个,对吧,就像你可能可以把幻灯片扔给Python,然后说请复制Matias谈论的内容,你可以非常容易地创建这个。好的,让我们把这个具体化。这是Peter。这是他的open claw。在某个时刻,他呃给他发了一条消息,对吧,现在是一条语音消息。agent开始思考,它用文本做了回应,问题是这是如何工作的。所以我们再有用户呃发送呃呃做一些基本指示soulm等。

你有不同的工具read、write、bash,然后这些工具是发生的实际魔法,对吧?所以,我们有一个文件呃检查了语音消息,它打开了一个wave文件。你有whisper来分解消息。现在,呃,在他的例子中,嗯,whisper没有返回任何东西。所以,在那个地方,它做了呃一个API调用来实际上将语音消息翻译成文本消息。对吧?所以实际上,我们看到的agent中魔法的核心,对吧,是工具调用呃在不同设置的循环中,这请呃试一试,这并不那么难。好的,呃,最后要做的是,呃这里是另一个例子u,因为这个演讲是关于,比如,将其嵌入其他产品。嗯,这是我们构建的一个项目。嗯,所以我们呃受到了呃open claw架构的启发。

所以呃,但我们改为使用电子邮件作为输入。我们有一个一般网关,然后我们有不同的容器呃用于呃运行呃不同的客户端,然后我们有这些不同的工具,现在这些工具不是呃whisper或什么的,但这些是像CRM、ERP,专门用于特定用例的。

这里有一些截图,对吧,所以呃在这里右边你看到一般的用户消息,你看到收件箱呃最近的活动,以及它如何响应,但对于工程部分来说有趣的是左边,因为这里道歉这是德文呃,但这里在左边我们实际上看到了不同的工具调用,你看到ERP系统是如何被触发的,无论零件是否可用,对吧,所以呃,随着这个说法,呃,编码agent我强烈相信在某种方式或其他方式中,将来会成为软件的一部分,对吧,所以请现在看看它们,啊,这些agent,这些编码agent不是魔法,所以请你知道呃呃你知道随意摆弄它,Python非常适合修修补补,所以这是学习这个的好方法,最后请摆弄一下,谢谢你,Matias。

好的,各位。接下来,我们将转换一下节奏。我们的下一场演讲来自设计赛道,我们将由来自Microsoft的Josh为你讲解如何设计产品帮助用户更具创意和思考性,而不是成为一个无限垃圾机器。你好。你好。好的,在这里。嘿各位。我叫Josh,今天我超级兴奋呃谈论为什么我相信设计是差异所在。我们将一起探索为什么我相信创意而不是自动化是人工智能时代的关键竞争优势。我目前是Microsoft AI健康团队的首席产品设计师。我也是Flubin的创始人,这是伦敦一家应用工作室,去年推出了它的第一款产品Orbit,帮助人们通过追踪个人订阅来节省钱。

这个演讲将由三章组成。我将挑战你们今天使用人工智能的方式,然后分享提示来增加你的创意并用人工智能增强它,最后说服你你是一个艺术家。让我们从第一章「铅笔」开始。我想以我最喜欢的引用开始,「为了自己而不同,在一切事物中,因为它必须更好」。我们看到了人工智能编码生产力的爆发。人们比以往任何时候都在构建和发布更多。然而,今天我相信我们将太多思考卸载给了人工智能。我们忘记了它只是一个工具,就像一支铅笔,一支魔法铅笔。问题在于人工智能是根据已经存在的一切进行训练的。当你要求它设计你的网站时,它返回加权平均值,最常见网站的最常见模式。

执行速度推动了一切呃对不起,是推动了一切质量的平均化,变得刚好足够好。生成和精心制作之间的差距成为唯一重要的差距。我的问题给你,刚好足够好对你的客户意味着多少?我相信人工智能应该增强我们的创意能力,但不应该取代它们。去年,我通过在一个拥有数千种做同样事情的产品的饱和市场中自主启动我的应用来增强我的创意能力。Orbit帮助你追踪个人订阅,这没什么革命性的。然而,在一年内,它达到了六位数,并被Apple特别推荐三次。作为一个设计师,我的竞争优势是精心和关心。我拥抱用人工智能作为工具来辅助我的创意需求,并将一些东西发展到高标准。

我想制作一个产品,为特定的利基人群做好一件事。人工智能是我的魔法铅笔,但我是控制者。教训是工具将总是改变。对疯狂伟大的、精心制作的东西的需求不会改变。工具将不断发展以以新颖的方式解决问题。人工智能提高了下限,但它没有提高上限。我们需要决定建什么,为什么,为谁,然后痴迷于每一个细节使其伟大。让我们转向第二章「海报」,谈谈如何增加我们的创意,然后用人工智能增强它。你最好的工作是在你不工作的时候完成的,当你有创意想法出现的空间时。在一个夏日,我在我的公寓里放松,我看到了墙上有一个有趣的界面机会。我喜欢这个海报。

这是Matisa纸质剪贴风格的中世纪现代抽象艺术。这非常简单。你可以用一只手数出构成它的所有视觉元素。这个有趣的部分是Orbit不是受其他应用启发的。它受到了这个海报的启发。我看到了一个机会来突出Orbit中的信息,帮助人们节省钱。通过极其简单,你不仅会将自己与其他应用区分开来,你还会让人们容易理解。与众不同给你了对竞争对手的明确优势,它使你在生成的同样的海中脱颖而出。这不是你只能提示一次的东西,因为它没有足够的训练。问题是我们永远不感到无聊。

我们需要使用创意思考工具调用,比如不带耳机的行走或看着窗外,就像我曾经作为一个无聊的90年代孩子做的那样,没有电话。本质上,为我们的大脑开放机会接收新信息模式。我相信创意对每个人都是如此,不仅仅是设计师。伟大的想法始于好奇心和奇迹感。今天,我们比以往任何时候都需要更多人来取他们的想法、白日梦、痴迷、转瞬即逝的想法或独特的观点,并将它们变成真实的东西。现在,转向更实际的东西。在我的设计过程中,今天,我喜欢为几乎每个项目构建我自己的原型工具。在这个例子中,我实际上为这个演讲的介绍幻灯片创建了一个定制的新着色器工具。

它允许我以前不可能的水平探索、调整、完美和增强我的创意能力。构建你自己的工具,特别是在原型设计期间,是探索体验中丰富行为的好方法。这是一个类似于我在工作中经常使用的调试面板的假设演示。我喜欢添加按钮、切换、滑块,比如这个数据丰富度控件,来模拟不同的产品状态,从第一天的空体验到几周后完全填充的体验。你可以在屏幕之间跳跃,重置状态,并连接功能标志来快速测试想法和边界情况。这真正解锁的是深切关注产品工艺的能力。人工智能使模拟和迭代速度快得多,给了我们更多能量来保持创意和心流。

在一个更个人的例子中,我有一个我喜欢叫Flubbot的开放claw。在左边,我在阳光下行走时进行语音口述,让我的思想自由漫游关于我在写的这本关于创意的书。在这里,我使用人工智能作为助手来帮助我组织我的书研究,然后将其推送到git repo。我的个人agent的另一个很酷的例子是将我的快速想法变成生活并生成快速原型。我的大多数想法被添加到Apple notes中,然后最终在想法墓地中死亡。但这是一个相当不错的方式来尝试它们,看看是否有什么东西在那里。这个例子是一个看起来很糟糕的原型,但它是创意动力的礼物。我想看看是否有可能将真实的创意电池追踪为百分比。

我通常会向Flebot精确描述我的想法,也许抛出一些本地iOS细节,比如利用屏幕时间API,然后我稍后会回家到我的笔记本电脑,等待一个PR,然后从Xcode将其构建到我的手机上。对于这次演讲,我甚至要求Claude为我创建一种方式来从Git导航我的书籍材料,以便我可以围绕人工智能和设计建立想法和主题。我甚至要求它创建一个空间视图。我想要一种方式来偶然发现信息的有趣方式,这可能会帮助我看到我线性阅读不会看到的模式。总体教训是,通过获得横向启发和围绕你的工作构建个人工具,你可以通过利用人工智能作为工具来增强你的思考但不代你做,从而解锁无限的创意。

现在到了我们的最后一幕。是时候说服你你是一个艺术家了。我喜欢这句来自Doist创始人的引用。最好的产品是由把一部分自己放入工作中的人制造的。最糟糕的产品感觉没有灵魂。人工智能使创建大规模无灵魂的东西变得超级容易。但它不必是这样。我今天在人工智能中看到的最大错误之一是人们从不从第一个提示进行迭代。任何事物的第一个版本永远不会很好,但迭代的版本可能会。我在伦敦一家咖啡馆里用了一个多小时制作这个应用图标,喝着一些好咖啡。好的和伟大之间的区别不是对第一个版本的依恋,而是对第十个版本可能是什么的兴奋。

我今天在用人工智能构建时看到的第二大问题是人们很容易继续添加新的东西和用不必要的功能来臃肿产品。这是我认为Orbit订阅细节页面的早期线框看起来像什么的一个有趣例子。伟大的产品是为一小部分人定制的,真正的简洁是极其困难的。它要求删除所有混乱或不必要的东西,直到你留下对那个利基重要的东西的本质。我的同事和朋友Amir完美地阐述了这个,现在这是关于工艺的。多年来,软件工程主要是关于学习框架和编写代码。我们的大部分时间都在如何构建,而不是构建什么。这已经翻转了。

你现在可以用大团队花几个月构建错误的东西,没有任何数量的AGI会拯救你。要把东西做到异常标准,我们必须迭代、减少、关心,并提高标准。我们必须忽视我们的标题,把我们放在一个盒子里给我们一个标签的东西。我们必须把自己想象成艺术家,这样我们才能看到现状之外,忽视它,然后构建值得制造的东西。所以,我给你留下这个。人工智能是一支魔法铅笔。是时候追随你的好奇心,把你倾注到一件艺术作品中。你会想象新加坡什么?谢谢。谢谢你,Josh。那太棒了。好的,各位。所以,这个早上我们花了很多时间谈论个人agent。

接下来,我们将来自Mastra的Sam,Mastra的CEO、创始人,来这里谈谈生产中的business agent。你能告诉他们让这个更大吗?右下角的屏幕。右下角需要是。是的,调整。好的。嘿各位,我是Sam。呃,我是MSRA的创始人,共创始人呃TypeScript agent框架。呃,在这之前呃,我共创了Gatsby,流行的React网络框架。呃在那之前呃,我是谷周围几家初创公司的工程师。呃,所以很有趣,故事呃36小时之前我被应该登上我的飞行呃我呃意识到我呃护照需要更新。所以我开车呃两个小时到呃最近的护照办公室,幸运的是他们在同一天把它还给了我,我能来这里呃和你们所有人在一起。

所以真的兴奋在新加坡,真的兴奋在这里。嗯呃,谢谢你们所有人呃在这里。所以今天我们要谈论呃生产agent。但首先问题。嗯谁在这里呃是一个开发者?嗯很酷。嗯下一个问题。嗯,谁在这里呃有呃构建并发布了agent到生产中?很棒。嗯,我要需要我的clicker。我想我没有clicker。clicker在哪里?在这里。得到了clicker。很好。嗯,很酷。呃,所以谁在这里发布了一个agent但不是生产中的?好的,所以我们有也许大约像20%的人对第一个问题说是,另一个呃10到20%的人呃对第二个问题说是。好的。

嗯,在过去18个月里,我们认识了成千上万个用MRA构建代理的团队,嗯,我想分享来自这些团队的一些经验教训,这样你就能为自己构建这些代理做好准备。呃,最重要的就是我们看到的团队构建的代理的一个分类法,它实际上归结为三种代理。呃,那就是面向客户的代理、内部代理和开发者平台代理。嗯,我想分享一下关于每一个的一些东西,呃,现在好的。所以点击器,我们在这里尝试,我们在这里尝试。让我们看看我们能否让这东西工作。能给我下一张幻灯片吗?谢谢。嗯,是的,很好。所以让我们从面向客户的代理开始。嗯,这里有一些有趣的面向客户的代理。嗯,呃,在做这个时,我们能吗,我是不是指向了错误的方向?

好的,现在开始。嗯,那么首先问一个问题,嗯,这里谁在面向用户的产品团队工作?呃,所以可能是在一个你知道的软件公司,也可能是呃一个更大机构的呃面向用户的嗯部分,但呃面向用户的软件团队。好的。所以像,有几个人举手,但没有很多。嗯,但有趣的是关于这些类型的嗯,关于这些类型的团队是呃你有点,当你有直接呃能力来嗯有点塑造用户体验时呃你可以做真正有趣的事情,我将要讲几个,是,是各位,这里我们,嗯,所以呃我将给一个例子,一个嗯,我将,我将给一个SaaS应用的例子嗯,我们见过的。所以一个HR软件应用。嗯,如果你,如果你试图让你的用户能够在他们的日常生活中使用AI,那么他们实际上有两条路可以选择。

所以第一条路是你的用户正在从你的系统中获取嗯他们的数据。他们正在做某种CSV转储,比如说你知道,员工和薪资数据或其他什么,然后他们将其粘贴到Claude或ChatGPT中,他们在询问关于这个的问题。嗯,现在第二个是你,你作为一个HR软件公司,嗯构建一个呃代理在网络应用内,在移动应用内,呃这样你的用户现在可以以一种更有意义的方式与他们的数据互动,而且而且而且,第二个之所以比第一个更好的原因是有点像用户参与度、上下文工程。嗯,如果你能够从系统中拉入其他部分的信息,你就会获得整个情况的更多部分。嗯,所以那就是为什么我们看到团队正在构建这些,你知道,应用内的嗯,应用内的助手。

而且这不仅仅是B2B SaaS应用,而且还有点像B2C呃应用,其中真正有趣的事情是能够在专有数据上创建个性化体验。嗯,现在我将给出一个来自一个用户和一个我们合作过很多的公司的例子,那就是Indeed。所以Indeed已经构建了一个职业顾问代理。嗯,你可以想象呃你知道如果你试图帮助某人,你知道,导航他们的职业生涯,那么实际上有两个重要有趣的数据集。一个是你的用户他们的梦想和抱负、他们的背景、他们的简历。第二个是嗯你的平台,你知道,你拥有的职位数据和你拥有的薪资数据,呃不同你知道的专有数据类型。

所以当你能够有点把这两件事结合在一起时,那就是我们看到团队能够创建一些真正神奇的呃用户体验的时候。嗯,但无论用例是什么,有一些嗯常见的一组挑战我们看到。嗯,最大的是围绕成本优化和准确性的、为面向用户的应用。嗯,当团队进行早期推出时,他们经常会发现有特定的用户可能要花费他们数百甚至数千美元来服务,以代币费用,对吧?嗯,所以,嗯,他们花费一点点时间,他们花费相当多的时间尝试调整这些,比如成本和,嗯,你知道,精度旋钮围绕模型选择等。

呃,他们也有点尝试尝试弄清楚,嘿,我们如何将费用转移出去?我们应该做一些信用系统吗?也许我们应该做呃,你知道,具体也许我们应该只是转移呃代币,原始的代币成本呃,对吧?但这需要一点思考,这里是一种嗯四个不同的团队我们看到的,和数字我,我将分享一些经验教训。第一个嗯所有运送最快的团队是团队,这也许有点明显但也有点矛盾吧,是之前构建过代理的团队,嗯,因为他们可以快速通过关于你需要构建什么的想法迷宫。

嗯,你会看到有点嗯那个有点最快地将代理发送到生产环境中的团队实际上已经构建了一个那个那个主要工程师那里嗯来自呃DeepMind,所以他呃所以所以他来到了议会,你知道,该团队能够相当快地进行发货。嗯,显然大多数,那不是一个呃大多数人拥有的呃优势。嗯,但那实际上就是为什么呃,那是我们倡导人们使用一个很好的、像MRA这样的代理框架的最大原因之一,是当你构建代理时呃那里你有一种基元,然后你有呃你的用户体验,你在基元上花费的时间越多,你在用户体验上花费的时间就越少,或者你知道如果你必须同时构建两者,该项目就会花费更长时间。

如果你可以嗯重新发明轮子,绝对可以。我们是工程师。我们知道如何重新发明轮子。我们过去已经重新发明过很多轮子。但我给你的一般建议是不要。嗯,这将为你节省时间、麻烦和头痛。嗯呃所以所以嗯现在让我们有点从面向客户的代理转移嗯到内部代理,和嗯所以这里是给各位的问题。这里谁工作嗯谁谁这里工作在一个有点大的机构嗯也许是一个不是本质上是技术公司的东西,但你知道,银行、金融、医疗保健你知道保险举手。好的。是的,相当多的人举手。

嗯,所以带着这些类型的嗯机构,比如我们通常看到的是,那里往往有很多嗯呃文书流程有点围绕那个嗯,所以我将通过有点几种不同类型的代理来走过,那个我们看到人们在这里构建的。所以第一个嗯第一个有点像内部企业搜索。嗯,所以你可以想象,如果你有数万或10万名员工,呃,你最终会思考很多的关键事情之一是,我如何确保呃我们有存储在某处的所有信息,在我们存储信息的许多许多系统之一中,是可用的和可访问的,以及我们的呃员工知道如何找到这个信息。

所以我们看到嗯我们看到人们在内部构建这些代理搜索呃类型的能力,嗯你知道,向他们公司的每一个员工提供这些。嗯,你知道,为他们正在工作的每个系统构建连接器。嗯呃我们也看到嗯你知道,在内部代理方面,很多流程自动化,呃人们你可以想象医生们,比如更快地完成临床试验文书或在政府中自动化像RFP流程。嗯,无论哪里有大量的纸质和数据输入,我们看到团队,你知道,构建代理来有点解决呃解决这个。

嗯,不过挑战在于,你知道,如果你在这些或这类组织中工作,你很清楚领导层和一线工程师之间经常存在脱节。嗯,所以如果你在其中一个这样的组织中工作,并且你想把agents引入你的组织,我会倡导的,以及我们看到有效的做法是有点突破常规。嗯,你知道,也许是找到你所在团队外需要帮助的团队,嗯与他们合作,你知道,进行原型设计、迭代。你可能不会被分配到正确的项目,但你可以自己去寻找。所以我对你的建议,再次基于我们所看到的,就是在识别一些痛点时要有点创意。

肯定有一些你可以解决的痛点,可以为其构建agents。嗯,现在我们看到团队构建的第三种agents是在开发平台领域,在企业或机构的技术栈中。嗯,在过去的几个月里,我们一直从团队那里听到,他们告诉我们他们用agents解决的各种基础设施问题。嗯,这些是你在拥有超过50名工程师、超过200名工程师的较大组织中会看到的那类问题。嗯,你知道,有一个团队在一家财富500强公司的网络运维中心内,正在构建AIS SRE来分类处理大量的传入告警,对吧?

嗯,还有另一个团队在一家价值30亿美元的开发者平台公司内,正在构建agents来浏览他们的CI日志,嗯,数TB、数TB的CI日志。而这里的共同点,对吧,共同点是无论何时你有大量机器数据的流入,嗯就有机会构建agents来解决它。

如果你们中有人还记得数据的三V——variety、volume等等,对吧,像velocity这样的东西,就任何在2010年代早期到中期会被标记的东西,嗯在你的组织中寻找那些部分,嗯如果你在或接近那些部分,那里几乎肯定有agents要构建,还有一些很酷的项目和有意义的工作要做,那会解决问题,嗯,并且有点像做真正的、做真正的好事,并真正帮助组织内的其他人。

嗯,我要谈的最后一种用例是开发者平台agents,以及什么是内部agent平台——具体来说,嗯你知道,我的意思是有许多公司内部有平台工程团队,嗯正在尝试赋权给内部的开发者来构建agents,所以他们会有点嗯比如说采用嗯Ma的方法,有点在其周围加一个轻量级的包装器,嗯它有很多你知道的围绕他们特定部署范式的公司特定的内容等等。

嗯,他们称之为Sage,然后他们把它推出来作为一个内部的嗯agent平台来赋权其他人,你知道,它基本上是一条被认可的路径,嗯供其他团队来构建agents,你知道,你有点,如果你在这些团队周围或如果你在这些团队中,你知道做这件事的好处是人们想知道从哪里开始,嗯通过为他们创建一条被认可的路径,你可以你知道,你可以让他们把焦点集中在正确的方式上,嗯或者像一种他们知道会被批准的方式,嗯你知道他们可以继续构建。

嗯,所有这些类型的项目的好处是,嗯如果你是为自己构建,嗯并且你在你的组织中的开发者平台基础设施、有点像DevOps类型的区域中构建,嗯你会得到一个非常好的紧凑的反馈循环,你能够非常快速地评估,嗯,比如这是解决一个真实的问题吗?我的agent在变好吗?嗯它能做更多的事情吗?因为你自己是你的用户。嗯,这在某些方面有点是一个很好的限制。嗯呃,嗯呃,你知道,所以这是我认为在我15多年作为技术人员的生涯中最令人兴奋的时刻,嗯来构建。对。有更多有趣的东西你可以做,其他人还没有做过。

嗯,我们有这些令人难以置信的强大的模型,我们可以指向各种,像是非常真实的嗯问题。嗯,这不仅仅是agent的一年。这是agent十年的开始,我希望你能够你知道,明天走进工作,并有一种感觉,这里是一个agent,或者或者也许两三个想法,嗯你可以构建什么。所以嗯,继续前进,构建agents,嗯是我对你们所有人的一种指示。嗯,很高兴在这里,感谢你们的邀请。>> 非常感谢,Sam。好的,各位。沿着这条把东西投入生产的思路,嗯,非常高兴邀请Pierre上台。Pierre是Llama Index的创始工程师,他将向你们谈论嗯从大规模部署Llama Parse的经验教训。它在哪里?你没有得到显示。

这是我要做的。我不知道为什么。你能让我像放这个kid一样吗?好的,谢谢。嗨各位。我是Pierre。嗯,我在Lam Index,今天我想解释一点,当我们在过去两年嗯在Lama index大规模部署agent时学到了什么。嗯,所以对于那些不认识嗯Lama index的人来说,嗯它最初是一个开源公司开源框架,嗯我们目前专注于文档AI,在过去两年中,我们在生产中处理了超过10亿份文档,嗯每一份都有自己的agentic loop。是的。所以我们今天在lind index试图解决的核心问题之一是文档处理。

嗯,如果你已经试图提取数据或向agent发送PDF,嗯你也许已经意识到PDF本身非常难以解析,并且包含大量垃圾内容,嗯因为它们基本上嗯不包含结构化内容,但它们包含嗯页面上单词的边界框。嗯,你必须以某种方式嗯将其重构为某些有用的东西。

嗯,所以自2024年起,嗯早在2024年,嗯我们尝试通过构建智能体系统来解决这个问题,利用LLM,原本是视觉语言模型和OCR以及许多其他技术和模型,嗯一起融入智能体循环中,目的是尝试解决这种文档解析问题,嗯能够处理任何类型的嗯文档。嗯TLDDR,嗯我们在生产中使用智能体来处理文档,嗯到目前为止我们处理了,就像我说的,数十亿份文档。嗯这次讲话的目的是介绍一些我们在生产中看到经常出现的问题,但这些问题没有被讨论那么多。嗯你在使用LLM或VLM时遇到的首批问题之一是,它们真的喜欢在输出上循环。嗯所以你发送给大型语言模型的查询中有一小部分,也许是1%左右。

5%的查询会以重复输出的形式返回,嗯这会完全破坏你的工作流。嗯其中最严重的一个问题是空白循环。嗯特别是例如Entropic的Sonic类对此非常敏感。嗯模型会在输出中输出无限的嗯空格,嗯我们只是用完了你的所有token预算,你没有办法控制它,嗯因为由于分词器的工作方式,空格是唯一你不能放在停止序列中的字符,嗯因为大多数前沿模型或开源权重模型嗯有从1个空格到128个空格的token,大多数时候。所以嗯,很难将空格作为停止序列放进去。所以它是一个字符,如果你只放空格,嗯大多数提供商或大多数模型会拒绝你的查询。

嗯,由于空格token不能被设置为停止token。所以要在生产中处理这种循环,你需要做的是,嗯基本上你总是需要对你的模型使用修剪。你不应该使用补丁。嗯而且你需要对来自模型提供商或来自你的模型推理的每一块。嗯你需要中途运行一些启发式方法来检测是否有某些重复发生,你需要尽早尝试杀死查询,嗯这样你不会最终花费嗯120,000个token在Opus上,只是为了空白,它会变得非常非常昂贵。嗯所以一般来说我们做的是,你可以杀死流,然后你用不同的嗯模型或不同的提示或不同的温度重试,你希望你不会再进入这个循环。嗯这对于输出循环通常效果很好。

嗯,现在越来越难用同步循环处理同步跟踪了,特别是因为模型提供商不再为你流送嗯同步跟踪。嗯所以在这里你将不得不依赖max tokens来限制范围。嗯但这不是真的适合这项工作的好工具,嗯因为如果你的max token太低那么也许你得不到你想要的输出。如果太高的话,嗯你会在同步循环上燃烧更多的预算。所以是的,循环,嗯这是一个巨大的问题,嗯而且你必须围绕它进行设计。我们看到的另一个问题是嗯模型盲目性。嗯模型通常对某些内容是盲目的。嗯我们在转录中看到的一个常见问题是,如果你的内容或你在RAG系统中的块有重复的字符串。所以你有相同的字符串在原始内容中的两个地方重复。

模型有时会完全忽视中间的内容,嗯它因模型而异。所有模型都有这个问题。嗯我们还没找到完美处理它的模型。嗯它们对同样的东西不是盲目的。所以你仍然可以切换模型。嗯但是是的,嗯你无法通过提示来规避它。比如如果你有一个德国调用对两个字符串之间的某些内容是盲目的,你可以尝试修改你的提示尽可能多,嗯模型从字面上因为注意力架构而是盲目的。嗯我们看到的关于盲目性的另一个问题是色盲。很多视觉模型嗯特别是在某种情况下,特别是在红色嗯空间中是盲目的。嗯作为人类,我们非常擅长区分不同的红色嗯由于他们对图片和图像分词的方式。

嗯你在模型中有色盲,嗯色盲轮廓在模型之间不是同质的。嗯所以基本上你必须测试每个模型来理解嗯色盲。嗯为了检测你的模型是否对某些东西视而不见,嗯首先要尝试分析,比如,嗯模型你正在使用的是盲目于什么色彩配置文件。嗯你可以做的其他事情是,比如,在将其发送给模型之前,尝试对图像运行OCR,看看模型是否捕捉到了OCR上的单词。嗯你需要做某种信号融合来绕过它。嗯其他经常出现的破坏性问题,嗯是如果你有一个提示,其中某处有一个模板,由于某种原因一个工具失败了或什么的,你发送了空内容,嗯那么模型只是不会告诉你内容是空的。

它只会改变任务为一个任务,其中它将为你幻觉嗯内容。嗯某些模型有经常幻觉相同东西的倾向,比如Entropic真的很喜欢嗯某种原因的某种合并法人组织文档。所以你可以尝试使用某种启发式方法来过滤它。嗯但是是的,类似于盲目性,嗯你也可以在你的东西中使用某种混合。嗯或者你可以在调用模型之前尝试确保你没有发送空白图像嗯或空白模板嗯到提示内部,嗯这样模型就不会幻觉。嗯最后在生产中,嗯我们最大的问题之一是当前的情况。嗯每个模型提供商现在都有扩展的问题。所以API几乎每天都宕机。

嗯所以基本上在你的智能体系统中,你需要,嗯你需要构建它们来支持多个提供商和多个模型系列。嗯你需要将每个模型系列的代码视为模型的特定代码。嗯因为,嗯是的,嗯因为每个模型嗯的行为不同,嗯这允许你,嗯当Entropic宕机时,嗯你可以回退到其他地方或类似的东西。它允许你即使你的API提供商或你的模型提供商宕机了,也能保持你的服务运行。

嗯最后,嗯你需要构建好的评估,嗯因为我们使用代码或我们越来越多地使用编码智能体,嗯基本上,你能够大规模控制你的智能体的行为的唯一方式是有好的评估。嗯如果你在寻找用于文档解析的评估,嗯我们构建了passbench,嗯这是开源的,嗯它在Kaggle和Hugging Face上作为官方排行榜运行。嗯当智能体失败时,你需要有一个回退到不使用LLM的东西。嗯对于那个我们构建了light pass。它也是开源的,嗯它在CPU上每秒做大约500页。嗯基本上,你需要在LLM失败时有一个回退,嗯当你需要做没有使用模型的事情时。嗯谢谢你。嗯,谢谢你,Pierre。好的,各位。只是还有一场讲话,嗯在你和午餐之间。

对于上午最后一位演讲者,我们有来自Tusk的Junu,他将讨论如何通过防护栏从智能体中引出更安全和更可靠的行为。好的。嗨各位。我是Jun。嗯我是Tusk的创始人,今天我将分享关于编码智能体的执行边界。嗯这是每个网络开发者都熟悉的东西。嗯经典的SQL注入漏洞持续了很长时间。嗯长期以来这就是网络应用被破坏的方式。嗯用户控制的嗯字符串直接进入SQL解释器。嗯我们没有通过让开发者更努力地清理输入来解决这个问题。嗯我们用预准备语句解决了它,嗯通过将这个边界移到驱动程序中。所以SQL注入在结构上变得不可能。嗯现在这是一个危险地跳过权限标志。

如果你在任何实际工作中使用过编码智能体,嗯你可能见过这个。嗯它存在是因为权限提示,嗯好吧,确实在保护一些真实的东西,但嗯它们也打断了工作流程。所以我通过Twitter搜索,看看人们对这个标志或一般的权限提示有什么看法。嗯顶行代表嗯某种提示疲劳,对吧?那些还没有完全采用YOLO模式但对必须批准每一个微小步骤感到沮丧的人。对吧?中间一行是接下来会发生什么。人们关闭这些提示。嗯他们运行跳过权限标志。他们建议其他人也这样做,嗯因为他们认为这是唯一可用的工作流程。底行是结果,对吧?

人们对智能体能做什么或已经被你知道的有点不安心,有时智能体只是删除嗯昂贵的数据甚至整个系统。所以这是UX过滤模式在这里。嗯提示疲劳,嗯变成绕过,嗯绕过变成嗯进入超出范围的事物,带有严重的后果。所以我从过去六周的自己的cursor记录中提取,嗯跨越110个亚洲会话,嗯跨越,嗯嗯过去六周。

所以在我的数据集中,中位数会话,嗯中间的会话有大约42个调用,平均值是120,对于我最长的会话,这是嗯超过一千,对吧?所以每次都问人类的范例,嗯根本没有意义,它不会扩展,对吧?随着AI能够承担越来越大的任务,嗯会话变得越来越长,我们中的许多人只会跳过权限,所以我们剩下的是具有完全访问权限的智能体到我们的文件系统、我们的凭证、我们的环境变量和秘密等等。所以那不是嗯,非常安全的做事方式。该行业知道这坏了。所以今年早些时候,Entropic为clock code推出了auto mode。嗯基本上这是一个分类器,显示每个两个调用。

所以两个调用和看起来安全和合理的行为通过并被执行,对于那些,你知道的,看起来有点可疑和超出环境的被阻止,对吧?所以没有人来寻找常规的东西。这是一个伟大的改进,但Entropic自己的建议是在隔离的环境中运行它。嗯,原因很重要。如果你看一个数学,对吧,假设你的分类器在大约122个调用的平均会话上有99%的可靠性,那么分类器在整个会话中不出一次错的概率,嗯是0.99的120次方,或大约30%。

嗯现在在我超过一千个工具调用的最长会话中,这基本上是零,对吧?所以当然这里有一些警告,嗯错误不是独立的,嗯它们有时是相关的,所以不要从字面上理解这些百分比,嗯这里我主要想表达嗯一个点,即每个工具两个调用概率论检查有一个上限,嗯它随着会话长度而降解。所以我们能做得更好吗,对吧?所以概率论检查随规模衰减,嗯确定性边界保持规模。所以这引发了一个问题,对于你基本上信任但不能完全验证的代码的正确边界是什么?嗯而事实证明智能体只是这个问题的最新版本。让我们看看我们之前是如何解决的。对于SQL注入,嗯如你所知,我之前介绍过,我们使用预准备语句和ORM,嗯而不仅仅是依赖输入清理。

嗯对于内存安全,我们现在有内存安全语言,嗯而不仅仅是写心细的C。嗯对于网络丢包,我们使用TLS,嗯而不是只信任网络。这里的模式是将执行强制移到错误发生的层以下。嗯以及我们现在看到的那种问题,当智能体变得越来越个人化和嗯开放式的。我称之为智能体超越。对吧?这里有趣的是,嗯可能有也可能没有恶意攻击者,对吧?不像那些嗯上面的。有时智能体只是执行投影。他们幻觉。他们被提示注入。嗯他们可能在循环中运行并决定删除整个系统。这不重要是哪一个。所以结构性的修复是什么?所以今天我说,嗯停止要求行为体表现,嗯改变行为体能做什么。

如果运行clock codeex或任何基于终端的智能体,你想要嗯下面某处的东西,对吧?,那执行某些边界并让智能体在这些边界内运行。嗯这里的事情是我们不仅仅为任务漂移构建这个。嗯我们没有,嗯我们没有为编码智能体构建这个。我们首先为任务漂移构建了这个。

嗯任务漂移是我们的API测试重放系统,嗯在CI中,数百甚至数千个生产跟踪被重放到你的应用程序上,嗯当那发生时,我们不想要任何副作用,对吧?,我们想要保证,嗯没有比如说,数据库调用,一个实时调用进入一个生产数据库并影响状态,对吧?,我们承受不起那发生,所以我们构建了一个原始的,嗯一个确定性操作系统级执行边界,嗯开销接近零,嗯我们开源了这个为fence,嗯并执行你配置的网络、文件系统和命令策略。所以你可以将fence认为是这个边界,嗯我们想要在所有它们下面,对吧?,一个单一的,嗯一个单一的策略词汇,嗯不管哪个智能体或应用程序在驱动工作。现在fence执行三件事,嗯文件系统、网络和命令。

策略外的文件对智能体来说根本无法到达。嗯网络调用通过本地过滤代理强制通过,嗯只有允许的域可以到达,命令在执行前被检查。所以这也包括嗯链和嵌套shell。嗯这就是策略的样子,对吧?它只是一个文件,嗯带有智能体可以看到的路径,嗯命令,嗯你可以到达的域,嗯和你永远无法运行的命令,嗯就这样。没有守护程序,没有镜像,没有容器运行时。所以这是一个快速演示。嗯我认为这运行得有点快,但我可以解释它。嗯所以我们之前有的是,嗯我们有一个,嗯我们有一个fence配置,基本上阻止了嗯这个目录,对吧?嗯嗯在这个仓库中。

嗯所以,嗯我们也有一些脚本,嗯尝试访问那些m文件,嗯以及我们在fence配置中阻止的主目录中的目录。嗯所以当我们运行这些脚本时,嗯我们不能,嗯当我们在fence外运行脚本时,这有效,对吧?,或者,嗯我们还有另一个脚本,你知道的,发出出站请求,嗯到一个端点。嗯但在我们的fence配置中,这个,你知道的,嗯我们没有,嗯我们没有设置任何允许的域。所以,你知道的,这,嗯在fence下,这会失败。

基本上呃这个演示说明了当它试图运行那些脚本呃出了问题现在我只是要求它知道呃就是更新今天日期的readme只做一个简单的文件修改呃它做到了但现在呃当它你知道试图呃创建一个提交并将提交推送到远程时这失败了因为呃在我们的fence配置中我们呃添加了git push呃作为被拒绝的命令所以这就是fence工作原理的本质好的让我们总结一下那个呃我认为这是安全代理执行的规范表模型那个好的所以在左边我们有呃代理想要运行的命令其中大多数命令你知道是安全且合理且常规的对吧但是一些这些命令可能由于越狱呃提示词注入过度热情的代理等等而产生

所以我们想在通过这三层运行它们之前过滤掉这些破坏性命令第一层是分类这比如说像自动模式呃这询问这个行动合理吗现在这是概率性的呃正如我们之前看到的那样但它可以更好地理解细微差别和背景第二层是策略和这个策略的执行所以这就是fence将要坐的地方呃它询问这个行动被允许吗对吧所以如果有什么东西漏过了第一层的缝隙呃只要它在fence配置中被拒绝呃行动将被拒绝将被阻止最后一层是隔离所以这里我们有容器和微虚拟机呃基本上询问如果出现问题这个进程可以接触什么

所以比如对于恶意代码或多租户工作负载呃是的所以那就是容器和微虚拟机重要的地方当你想真正呃增加主机和亚洲工作负载之间的距离时现在这些层都不完美关键是要把它们排列起来堆叠起来呃这样它们的漏洞就不会不会排列起来对吧所以我们可以实现纵深防御而且大多数团队已经有其中一个层了对吧如果你使用云代码你可能已经处于自动模式如果你安全意识强你可能已经在容器或云沙盒中运行代理了呃但我想要我们更多人考虑的是定义你的代理可以做什么和不能做什么的中间层所以停止要求演员表现得好让我们改变演员可以做什么

定义规则并在操作系统级别强制执行让代理运行感谢你好的非常感谢你Chingi这就是我们上午会议的结束所以现在我们将有一个一小时的午餐休息呃然后在下午1点40分回到这里呃你不想错过下一个因为它是一个非常特殊的人我认识了十多年名叫Sarah Hooker呃她实际上她实际上被入选时代100位AI最具影响力人物与Sam Altman和其他人同年而她目前是Adaption Labs的首席执行官联合创始人基本上在构建适应性智能的下一代模型所以我们很快就会见到你们好的享受午餐嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿

嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿热热哦嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿来吧热热嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿热热嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿热热嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿热嘿热嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿热嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿嘿

嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。热。热。N。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。热。热。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。热。热。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨,嗨,嗨。嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。

嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。嗨,嗨,嗨。谢谢,Stages。他显然很享受。嗯,所以当我们的下一位演讲者正在准备的时候,我想为大家介绍她。这位是Sarah Hooker。她是Adaption的首席执行官兼联合创始人。嗯,但你们中的一些人可能不知道我其实认识Sarah已经超过十年了。嗯,我们曾经一起进行了很多涉及分析的非政府组织项目,我一直以来都非常欣赏她。所以我看到机会把她带到新加坡来谈论这个房间里一些真正有趣的东西,我为此感到无比兴奋。所以,为Sarah Hooker鼓掌。>> 好的,好的。我认为我们有点 >> 大家好。

来到这里真的是太棒了。所以,嗯我要邀请大家站起来。太棒了。是的。大家站起来,现在我想要邀请你们向上、向右、向左伸展,并和你身旁的人击掌。太棒了。现在你们可以坐下。嗯,我知道这实际上非常特别,因为这是会议的第三天,并且这只是在许多演讲之后,但我感到非常荣幸能在这里。所以能够和你们分享我认为是一个非常令人沮丧的问题,这真的很特殊。所以通常,我认为推动大多数前沿研究的是你对某事感到非常不满并且必须要改变这件事的感觉。所以今天我将要谈论为什么未来是可适应的。

为了做到这一点,我想从嗯,通常我会怎样开始,我应该在这里指向哪里或者改变幻灯片。应该就点击吗?也许我会哦,我是说我我也可以这样做。我会我会这样做,因为我的节奏。是的。所以,我会站在这里。我不会走那么多。好的。太棒了。所以通常当我做新幻灯片时,我喜欢等到最后一刻,因为我就是这样的人。我喜欢思考我的想法是什么以及我现在在想什么。所以嗯,过去48小时,这就是我的生活。我收到了一个提醒,说这个演讲嗯我实际上在新加坡进行四场演讲,我决定我有一个17小时的飞行。我会在飞行中完成它,这非常富有成效。所以我说,「嘿,我为什么不试着开始问ChatGPT给我一张幻灯片呢?

」所以我说,「我需要一张开场幻灯片来说明为什么我们需要自适应智能。」结果非常有趣。我得到了这个。它非常浮夸。它有很多光彩。你可以看到那里有一条蜥蜴。它有点唤起查尔斯·达尔文的进化论。嗯,所以我说,「好吧,有趣。不是我通常的风格。让我问一下它来介绍我。」为了参考,这是我通常的介绍幻灯片。所以我在Google DeepMind工作了很长时间。我领导了Cohere Labs。我职业生涯的很多时间都在从事出版物和在可能性的边界进行研究。嗯我一直认为自己很幸运能在产业实验室工作,这些实验室已经生产了世界上一些最好的前沿模型。嗯但我认为那被简化为这个。所以只有一个小问题。也许对你们中的一些人来说这值得注意。

嗯,我认为这基本上就是一个例子,说明人们有时在使用AI时的感受。那么为了解决这个问题,我想我本来可以给出点赞、点踩。嗯,也许某个地方有研究员会在几个月后得到这个反馈,并有所改进。或者我可以成为一个高级提示词工程师。这样我就能非常擅长创建我想要的精确规范。我认为这基本上就是当前AI的状态。在我大部分计算机科学职生涯中,你构建最大的模型,赋予它尽可能多的能力。你试着猜测它将被如何使用,然后你将同一个模型发布给世界上尽可能多的人。但我认为大多数人都理解这有两个问题。首先,这意味着每个人都必须围绕该模型进行各种技巧性的适配,并尽力使其适合他们。

其次,这也非常低效。我们在所有不同的问题上花费相同的计算资源。我会说这真的是静态智能的代价。所以我们构建了这些非常强大的模型,但它们不会继续进化。你有无尽的重新训练,然后你得到的是一刀切的方案。所以今天我说这将是一个严肃的演讲。我要讨论我们是如何走到这一步的?为什么现在是我们真正需要开始理解为什么我们需要扩展,以及未来是否是单一的?然后我要讨论适应以及我们兴奋的一些东西。所以我认为这会很有趣,你知道我也会在最后问你们是否被我说服了。那么我们是如何走到这一步的?我们是如何得到这些以同样方式发布给所有人的大型模型的?

嗯,我认为在我的大部分职生涯中,实际上在大型实验室的大部分经验中,一切都是关于更大或更好。基本上每年你都会让模型的大小翻倍、四倍,这一直很有效。嗯,这是由著名计算机科学家里奇·萨顿(Rich Sutton)提出的。他因「苦涩的教训」获得了图灵奖。实际上,「苦涩的教训」对那里的每个研究员的自尊都是一种打击。它基本上是说,你可能认为,你可能执着于你美妙的想法,但你美妙的想法只有在能够扩展时才重要。这很有趣,因为我今天要提出的第一个问题是萨顿是对吗?是唯一让AI进步的因素是扩展模型大小吗?举手。很好。我得到了一个双重否定。第二排的尤金(Eugene)给出了双重反对。很好。不过谁认为他是对的?

举手。太棒了。一些勇敢的灵魂。很好。很棒。是的。我是说,他赢得了图灵奖。他说的话一定有对的地方,对吧?那么,谁认为他是对的?很好。我们有几个更多的赞同。实际上,我认为有很多理由说,嘿,证据支持他是对的。因为如果你看一下,我们整个生态已经围绕这个信念重新组织了。我们有关于GPU富人和穷人的笑话。我们有科学家迈克尔·乔丹(Michael Jordan),不是篮球运动员,他说,「我无法思考,除非我拿着一块金属。

我们基本上有像我这样的研究员,他们传统上应该属于学术界,现在去了产业实验室,并获得了大量资源和资金,因为对这些想法的信心转变和资本涌入,因为信念是你需要计算资源,而这决定了谁不能参与,谁能参与。获取计算资源也是国家优先事项,也得到广泛支持。所以它被看作比用算法做什么都风险更低。它很合适,非常方便。它适合季度规划周期。所以,很容易证明其合理性,人们甚至根据计算资源的数量来融资。所以,之后很难转过身来说,「不,我们毕竟不需要计算资源。」而这意味着它实际上导致了权力的集中。」

所以,提出这个问题实际上非常重要,因为它决定了很多东西。我列出了供应商公司A、B、C,但如果我拉出来,你们可能都会说出相同的名字,对吧?所以说到底,这真的意味着我们的选择更少了。所以这么说对吗?说缩放已经结束仍然非常有争议。但我会展示、我会说明为什么我实际上认为模型大小和性能之间的关系现在远非确定。而且说实话,任何事都可能。我会这么论证。所以我们现在看到,相同大小的 AI 模型随着时间推移变得越来越高效。所以你可以从相同的大小中获得并挤出很多更多的性能。但更令人信服的是,我们现在看到小模型的性能超过大得多的模型。最好的小模型远优于大得多的模型。所以规模不是一切。

我们看到,我们一直都知道权重之间存在严重的冗余。那么如果规模是你需要的一切,为什么这么多权重在做完全相同的事?为什么你能从少数几个权重预测深层神经网络的行为?如果规模就是一切,你怎么能在训练后删除大部分权重呢,怎么能稀疏化并删除 95%?所有这些都表明,虽然规模对优化很重要,但实际上,这意味着我们还不擅长训练更好、更高效的小型模型。高质量数据大大减少了对规模的需求。但更重要的是,当我们扩展时获得的大多数东西都是长尾。所以当你将模型的大小翻倍或三倍时,你只是在学习罕见的工件。这是学习罕见工件的一种非常昂贵的方式。所以即使我们能够扩展,我们付出的代价也大得多。

我们实际上在最新的模型中坦率地看到这一点——再增加规模已经划不来了。Frontier Labs 最近尝试将其模型大小增加三倍、四倍的努力被视为无法部署的,坦率地说有点令人失望,因为它们只在很小的边缘上改进性能。所以我会说我们正在达到变换器的极限。变换器是一个突破,但它们也已经饱和了。所以我会说,在这里,你知道,这很有趣——对缩放而言回报率不再有意义了。实际上,回报率才是最重要的。事实上有趣的是,计算的其他部分的回报率要好得多。

所以后训练、对齐、数据合成动力学、自适应计算、硬件协同设计——这意味着少数几个供应商控制谁能提供的大部分动力这一想法将大不相同。智能的新时代将需要远超蛮力扩展。我认为这里有几个非常重要的想法。一个是自适应计算。另一个是交互现在很重要。你的模型如何与世界交互?这是计算机科学家第一次必须关心界面。第三个是你需要持续学习,因为你在做更多长期任务。那么我们现在在哪里?我会说我们正处于适应的时代。

我这么说是因为更重要的是你如何利用容量,以及更重要的是你如何从你的实际环境中学习。这是非常不同的,因为作为计算机科学领域,我们的大部分时间都围绕着你痴迷于一个模型的想法,从 1950 年代到现在,我们专注于你如何构建最好的模型。但实际上,在这个时代,在你无法仅通过扩展模型的优化空间中,一切都是关于你如何从数据一直适应到界面的整个堆栈。系统的概念及其如何与世界交互是关键的。我们的目标是构建持续发展的智能,我们将这整个堆栈视为从数据到界面都至关重要。

整个事情应该根据你有什么类型的任务而改变,它应该极其高效,如果你这样想的话,这是一个根本性的转变。我们从权重和模型名称就是一切,转变到实际上像一个非常流动的栈。所以我会分享一点我们为之兴奋的东西,以及什么是有趣的,然后我很乐意之后进行讨论。所以一件事是,你知道,我们的第一个支柱是自适应数据,我们相信这很重要,因为你可以即时优化,针对你关心的数据分布的任何部分。嗯,我们已经四个月了,我们几周前分享了这个,我认为目标是让通常在前沿实验室内的东西可用。现在即使在预训练中,大多数创新也是数据创新。

你如何实现合成数据的真正强大杠杆?嗯,我们也认为这非常深刻,因为这是第一次数据便宜到足以让你在数据空间中针对任何你想要的目标进行优化,所以人们应该利用并将他们的数据对AI可见。非常酷的是,看到人们的反应一直非常有趣。所以我们四周前发布了它。我们覆盖了242种语言,并且已经处理了2700万个数据点,这非常疯狂。我认为其中一部分是我们速度非常快。所以你基本上可以在一天内使你的数据完全对AI可见。嗯,我们的下一个支柱同样令人兴奋。所以既然我们看到完整的栈很重要,是可适应的,下一个是连续智能。

嗯,我们本周发布的,我认为你知道时间随着时区的不同而模糊,但我认为是两天前我们发布了autoscientists。这是关于你如何共同优化和自动化训练学习,因为这是拥有可适应AI的最大阻碍之一。嗯,order scientist自我改进,并自动学习如何优化数据和模型以适应你想要的任何任务。但它很酷的地方是速度非常快。所以你基本上可以在两天内训练一个前沿模型,这相当荒唐。嗯,我们实际上做了一个调皮的实验。我们问了一下,这能打败我们的AI研究人员吗?嗯,它做得好得多。我将这部分归因于大多数AI研究人员是在特定前沿实验室内基于特定模型族训练的。

但我们实际上在together AI的每一个可用模型上测试了这个,together AI是一个推理提供商。所以有像30个不同的模型,研究人员真的很难自动找出如何为不同的架构配置以及如何与数据共同优化。所以这相当酷。嗯,它非常可预测。为什么我这样说是我我实际上认为展望未来,我们的想法是你应该能够自动化你的整个栈。真正适应性的愿景是效率。适应性嗯,最终适应必须是实时的,对你有的任何任务。你对适应的摩擦越多,人们就越会回到只是提示工程师。

所以对我们来说,效率是如何思考的主要痴迷,使得人们拥有比单一AI更多替代方案变得有意义。嗯,这非常有趣。我认为我们的许多研究人员花了很长时间在这上面工作。我唯一要说的是我认为适应的另一个关键方面是嗯,从第一天起它应该是全球优先的。所以我们覆盖242种语言,我们最感兴趣的是TASA不可验证的。我认为世界上大多数实际上是不可验证的。

有一个非常小的任务部分是可验证的,所以这就是现在重要的,这将在谁能取得进展方面被决定,谁能够利用那些任务并使其更有意义,所以前进的方向是什么,我的临别想法是什么,所以我们最后怎样?我希望已经说服了你这不是终点线,我不应该必须是主人提示工程师来获得我想要的和与我相关的东西,嗯,我可能已经说服了你我们已经达到了缩放的末期,至少就像只是将你的模型大小增加一倍不再起作用,这意味着这很有趣。这是创新的时代。

但无论我是否说服了你这一点,我可能已经在某种程度上说服了你,扩展非常昂贵,收益可能不值得大多数在这里的人,即使你想拥有自己的AI。对我来说,最重要的是谁使适应的成本最有效。对我们来说,这是我们唯一迷恋的东西,就是我们如何使任何builder都有可能实时适应他们拥有的任何任务。所以我认为这是我们能够致力的最深刻的问题之一,我很乐意之后与感兴趣的人讨论。嗯,我认为我会就此打住。所以嗯,我也只是分享我们在接下来的一个月内免费提供order scientists。所以,证据在布丁里。只需自己尝试,欢迎。

我很乐意一路回来。所以,非常感谢。呃,我真的认为在这里是一个真正的特权。谢谢。>> 哦,非常感谢Sarah。这是一个很好的演讲。嗯,接下来我们有来自Miniax平台工程团队的Vincent。我们过去一天一直在讨论很多关于agents构建agents的内容,但如果你让agents自主调度自主调度他们需要的计算和资源的数量会发生什么?更上一级。所以,我们将分享很多关于这个的内容。>> 好的。嘿,伙计们,呃,我的名字是Vincent Lou。我是我们API平台团队的产品工程师。今天我将讨论管理自己计算的agents。所以第一件事是抱歉下一张幻灯片。哦,这很好。我们现在很好。是的。

所以嗯,计算每个人都知道计算呃正在经历一个大的,它就像下个世纪最大的呃商品之一,嗯,我们现在使用它的效率不是很高。看到这个的最好方法是我确定你们知道嗯某些推理提供商呃正在阻止第三方工具使用他们呃推理。你知道,可能一部分只是竞争,但真正重要的是呃计算非常呃依赖于请求,不同类型的请求,不同类型的工作负载对呃你的计算有不同的压力。例如,特别是不同类型的输入token呃和输入和输出token,你的token profile(如我们喜欢称之的那样),对推理提供商如何利用其计算有重大影响。

呃所以最近有一个关于Dwar Cash呃与Riner Pope的播客,他基本上谈论了呃推理工作负载如何严重依赖你的token profile的具体情况,所以这是agents呃管理自己的计算变得有意义的原因。基本上,如果我们能知道如果作为推理提供商,我们能提前知道呃一个session的token profile,那么我们可以更好地提供请求,我们基本上能够最大化我们呃的fleet利用率并为更多人提供更多请求呃失败更少。

现在你知道这种呃这种需求对人类来说有点太多了,因为如果你想象你知道你在使用codecs或云什么的,在每个session之前你需要告诉婴儿提供商呃你具体在做什么样的工作负载你要做多长时间你的token分布。我的意思是,我甚至不关心我的token分布。所以这对人类来说要求太高了,但对autonomous agents来说实际上可能非常合理。这更多是一个观察,但agents拥有越来越多的工具。所以从上下文管理到工具曾经是由呃工程师硬编码的东西,但现在agents基本上呃正在管理这些资源。

但有一件事agents实际上没有管理就是他们的计算和他们的智能。所以基本上我们并没有真正给agents选择呃首先是他们的模型的能力。尽管实际上我们呃我们看到你知道agents方式在他们想要的时候切换他们的大脑。但更重要的是他们的计算就像他们什么时候想要实际做工作和执行推理。所以呃这在autonomous longrunning agents之前没有意义,因为当你只是与人配对编程时,没什么好调度的。基本上当人类在与agent交谈并编程时,你只是想要那个推理现在。你希望工作立即完成。所以没有没有太多调度要做,真的只是贪心的尽力。

但随着agents变得更autonomous当你知道把他们交给后台任务并让他们在后台做事情时,实际上有很多方法来调度你的计算。例如,如果我给我的agent一个截止日期,我想在周末之前完成某事,我只是给他们一个目标和一个预算,对吧?带着那些约束,agent有嗯有很多东西agent可以做以基本上在计算可用的不同时间间隔上分散它可能需要做的不同类型工作。一个快速的例子就是呃你知道假设你的agent正在构建一个整个应用程序。好吧,也许对于第一个规划阶段它不需要立即跳进去。它可以等待规划。

它首先可以选择一个真正好的规划模型,可能不是好实现,然后让那个模型做规划,也许就像在午夜当呃推理成本最低的时候或当有高成功率的时候,然后稍后你知道也许朝向项目结束它需要做质量保证并需要呃审查其应用程序,你可能需要切换到呃一个V一个真的强VLM guey模型并让它做呃低延迟工作来实际测试实时应用程序。所以已经你可以看到对于不同的工作负载你真的有很不同呃token profiles和对该特定工作负载的请求profiles,可能适合非常不同呃计算集群。

所以这是最近嗯ben thompson写的strat上的博客文章,他基本上他呃做这个点呃通过分离answer推理from agentic推理。现在answer推理是呃目前大多数人关心的东西。这是当你进入你的编码agent并且你只是呃与agent配对编程。你想看到输出输出得更快。你想让它思考得更快。你想像实时延迟。这是answer推理。呃但agentic推理不同之处在于实际上对于agentic推理延迟不是那么重要。呃因为像我之前说的那样,你真的只是交付目标和计算预算或像美元预算那样的预算。然后agent可以根据可用的资源呃围绕你的预算和目标优化。

我还应该指出呃有一种意义在which answer in出现实际上是agentic推理的一部分,因为你可以轻易想象有时模型agent仍然希望在其后台期间进行低延迟工作,因为例如我之前提到的例子关于嗯像在最后应用程序的gooey审查,因为你想要实时延迟那里即使没有人观看。所以在极限嗯我们期望像推理交换这样的东西开始发生所有这些后台agents你知道他们在野外运行呃在他们工作负载之前他们基本上提交他们的session信息到呃推理交换。所以最重要的是型号used然后token profile。

所以你呃你的范围缓存input tokens数量、uncached input tokens和output tokens以及呃一些其他类似的元数据。然后交换会匹配你的session、agent session到最优化批处理上最优化节点以用于那种工作负载。呃为了你知道基本上找到呃最佳最适合并且最佳配置来在那个时间服务那个工作负载的计算和硬件。现在关于这个的好事是你知道就像任何类型的市场机制推理交换将能够呃把未充分利用的计算容量变成user和provider盈余。

呃因为假设最优匹配那么我们使用我们使用基本上呃最好的我们正在做最好的使用世界计算的任何推理提供商的每个GPU你知道他们的MFU将被最大化因为呃他们要去该集群上特别运行的工作负载将针对该集群的配置进行优化呃然后也呃fleet利用就像不同时期一样所以现在我们提供商看到这样的事情像例如下午他们过度使用因为每个人都在那个时间使用他们的agents但是像午夜你知道这是他们他们他们的GPU是未使用的,这对提供商不好,因为他们希望他们的GPU一直运行。

嗯,所以有了这种推理交换和agents自主管理他们自己的计算,我们可以有更好的匹配,基本上平滑高峰和非高峰时间。总体而言,这对推理提供商所做的是每秒更高的吞吐量。所以你的整个系统的吞吐量将变成变得更优化,这对推理提供商很好,因为这是他们如何赚钱。他们能服务的token越多,他们能呃能带来的收入就越多。

但这对消费者也很好,因为呃再一次,如我在开始时所说,现在的消费者我们面临很多问题,呃我们的请求简直就是被呃速率限制或呃他们只是呃没有被提供商很好地服务,那是因为他们没有使用他们的GPU到最大到最优化的方式。所以对于消费者,我们将看到的就是呃总体更好的请求处理。

另外还有一个成本问题,因为你可以想象供应商可能会在非峰值时段降低成本,这样代理就能被激励去使用那种低成本的计算能力。我们在服务方面已经看到这种情况了,例如我认为很多供应商有不同的服务级别——低延迟、高延迟、批处理——这些都有不同的定价。最后,这有点像是对我们 MMX CLI 的一个宣传。这个 CLI 不是给人使用的,这真的是一种让代理能自主调用我们模型 API 的方式。因为我们有一系列模型,你知道,从语音到图像到视频生成,当然还有我们的 LMS。所以现在,这真的只是一种让代理能有效地调用我们的模型端点的方式。

但在未来,我们打算把这个扩展到——基本上满足我之前说的关于让代理更全面地、以更复杂的方式管理自己的计算的需求。所以也许他们会决定在一天的不同时段运行一堆视频工作负载,然后节省成本,然后最大化计算。哦,就是这样。谢谢。哦,好的。非常感谢。真的很感激,那是一场很棒的演讲。呃,接下来我们有 Sid 和 Daniel,他们将介绍他们的公司——机器人公司。我们一直在谈论很多关于代理、部署它们、编码代理的事情,但把一个代理部署到现实世界需要什么?所以他们会研究如何在物理环境中部署远程遥控机器人。嗨。嗨。嗨。嗨。这个行吗?哦,它在工作。下午好。

我叫 Daniel。呃,那是 Sid。我们来自机器人公司。我们今天部署远程遥控机器人,明天实现自主性。好的。你们在这里看到的是在英国剑桥的一个昆虫养殖场部署的远程遥控机器人。你们看到那个小箱子里蠕动的小东西吗?那些是黑蟋蟀,用来喂养壁虎和爬行动物。你可以想象,不是很多人愿意在这样的环境中工作,这就是为什么它是一个相当不错的机器人使用案例。我在过去一年中在英国部署机器人。所以除了昆虫养殖场,还有洗衣设施、食品准备和酒店接待设置。所以我们专注于部署远程遥控机器人。现在你可能会问 Daniel,为什么要部署远程遥控机器人。

如果你知道的话,你知道一位最近的杰出研究员——对不起,我的遥控器——一位杰出的研究员最近提到,远程遥控作为一种数据收集手段已经过时了。而且对这个观点有很多优点。首先,我有第一手的经验,远程遥控是线性扩展的。远程遥控是一对一扩展,对吧?一个人控制一个机器人,就像这样。另一件事是操作员培训实际上非常困难。我培训过大约 100 名操作员,其中只有大约 30% 到 40% 实际上通过了入职,这很难扩展。另一个问题是,使用远程遥控时,你会面临硬件延迟的所有技术限制和所有这些问题。然后我们所做的第二部分,部署非常困难。

你会遇到新的环境,这意味着新的照明、新的表格、新的尺寸,当然还有新的客户需求。你会遇到故障。在我们的情况下,由于昆虫养殖场,我们遇到实际的错误。但我们也遇到了一堆软件错误和故障。而且对于任何硬件来说,事情都会破裂。那么为什么要部署远程遥控机器人呢?在我讲述我们的论点之前,让我快速过一遍模型是如何扩展的,这对我们意味着什么。所以很快,模型首先通过预训练进行了扩展。所以是大量的数据、通用的智能、广泛但未精炼的。然后是监督微调,让模型接收数据训练。所以模型具有任务特定的专业化。然后是一个巨大的突破——RLHF 强化学习,附带人类反馈。

人类提供黄金真理答案,因此模型给出真正有用和良好的输出,所有这一切当然都由高质量的数据支撑。在机器人世界中,高质量数据或更普遍的数据通常分为四个类别。如果我指向你 y 轴和 x 轴,y 轴是可扩展性,可扩展性通常与数据质量和硬件对齐成反比。

所以在左边是模拟数据——一切都在模拟中运行,软件中,没有物理世界,没有物理机器人。有一点模拟到现实的差距。然后你有以自我为中心的数据——本质上是一个放在眼睛高度的摄像头,这也相当可扩展,因为做起来不是超级复杂的,但通常数据可能不会直接映射到机器人执行器和伺服系统,所以数据质量不是超级高。你有可穿戴设备,这由 Umei——通用操作界面推广。这相当有用,因为你可以获得关节位置或任何因子位置,然后你可以做一些物理和数学运算来确保它映射到机器人上。所以数据质量还不错,也相当可扩展。然后在光谱的另一端是远程遥控。

远程遥控——非常高质量的数据,因为实际的机器人在田间收集数据,但不可扩展,因为是一对一的,而且把机器人到处带着也有点麻烦。现在,理解模型——我说理解数据。我们如何获得有用的部署?我们如何在 LLM 领域获得有用的部署和有用的工作?那看起来是什么样的,我这里极其简化了,呃,看起来像一个 API 调用,对吧?显然,下面有很多东西,但想想机器人。部署要难得多,也要艰难得多。人们如何处理问题——机器人学看起来有点像这样。

LM 方法——获取数据、获取计算,把它扔进去、扔到一个问题上——预训练和 SFT,这产生了真正真正好的结果——最近的模型在实验室中显示了真正美妙的、有前景的结果,通常依赖模拟数据、以自我为中心的数据,通常有一些世界模型涉及其中,而且那有很多,你知道,高质量的实验室评估。但我们如何实现并解决自主性差距,不仅在实验室中,而且在现实世界中呢?我们的论点是,我们想在商业环境中部署机器人,这有两件事。首先,当你部署一个远程遥控机器人时,你实际上为客户完成真正有用的工作,对吧?所以在这种情况下,折叠一件 t 恤。但这个过程也做了极其有用的事情——它收集了基于机器人完成的工作的非常宝贵的数据。

正如我们从 LLM 和自动驾驶中学到的,最有价值的数据集是真正有用的工作完成的副产品。所以这让我们进行了第一步。实际上,Chenise 就在这里,本应给我一瓶水,但部署很困难,今天没有真正起作用。但我想说的是,我们基本上是在尝试——我们每次部署都是通过将一个远程遥控机器人放入真实场景来开始的。所以你可以看到这些人在这里折叠衣服,你也可以看到 Daniel 做一个关于那看起来像什么的现场演示。在那之上,你得到的是我们将其与你知道的预训练模型分层堆叠在一起。想想 PI 0.5、Groot,一些 Daniel 已经分享过的模型。

而你得到的数据基本上是你能得到的最高质量的具身数据,对吧?因为形态学匹配、环境匹配、任务也匹配,你最终得到的是一个非常好的基础数据集,供你实际部署商业可行的机器人。而且你必须记住这一点,所有这一切只是起点,对吧?一旦你开始深入微调,真正的工作才开始。我认为第二步是这个房间里每个人都已经知道如何做的部分。呃,你可以获取远程遥控数据,对其进行监督微调,使用你已经知道的一些模型,对吧?而且你可以实现大约 80% 的自主性,我们都知道 80% 的自主性是什么样的。我们在 Twitter 和许多社交平台上看到过这些。

呃,你最后得到的是一个非常漂亮的视频,有一些炒作,你知道,当你想吸引注意力时,这运作得很好。但一旦你开始进入现实世界,我确信这里有很多企业的人,80% 对生产来说是不够的。当你开始得到 80% 时,当你在 EVAL 中听到 80%,我们开始进入生产时,你知道这对客户真正意味着什么吗?这意味着每五件衣服中有一件在客户的地点掉在地上,当他们试图折叠它时,对吧?那根本不行。所以你现在真正拥有的是一个不能发货的差距,对吧?这个差距被称为自主性差距。你可以看看——他们确实做了一个最近的演示,一个关于他们的机器人分类包裹的现场直播。

这非常令人印象深刻,他们做了 8 小时,但他们也遇到了问题。而且我们相信一个非常特定的机制——人工干预、实时——可以大规模解决这个问题。所以这让我们进行了第三步——远程遥控加人工干预。有一个术语是这样说的,它叫远程监督。远程监督基本上涉及当机器人犯错时有人干预的想法。你进行微调,然后就让机器人自己去做,每次犯错时你都继续迭代。而且你如何解决我们现在拥有的远程遥控天花板问题,当你想进行这种远程监督时?好吧,我们可以从一对一扩展到一对多开始。而这并不是新的。自动驾驶世界已经这样做了一段时间。

Waymo 有远程监督的例子,我们认为同样的方法可以扩展到机器人技术。另一方面是远程远程遥控。我们有一个运行的堆栈,可以实现跨带宽低延迟的远程遥控。这是我们从新加坡到伦敦进行演示的一个例子。你现在可以推断。你可以做新加坡到美国、印度到新加坡、中国到新加坡。在我们的堆栈上都在 100 毫秒以下。现在对于企业来说,这是关键的,因为部署很困难,但这是非常必要的。机器人技术的长尾存在于现实世界中。而那 80% 是悬崖边缘。所以我们想说的是,远程遥控用作一个部署层,结合你需要做的琐碎的、令人厌烦的体力工作,这就是成功部署的原因。

而且你需要这样做的方式是你必须不同地思考。一个企业不能像一个研究实验室那样思考。事实上,你必须根本不同地思考。而且你需要从远程遥控开始作为你的基本起点。然后你开始收集丰富的数据,然后你开始部署商业可行的模型和机器人。这就把我们带到了最后。所以这就是 Daniel 和我在机器人公司做的事情。我们部署那些今天做真实工作的机器人,同时我们为明天的自主机器人构建数据引擎。所以如果你想了解更多关于我们的信息,你可以在 robot company.ai 找到我们。谢谢。那是一个令人惊叹的演示,我认为呃,你知道,这只是对在野外部署机器人有多复杂的一个证明。

所以我们谈论了我们如何可以远程遥控机器人,你知道,让人实际帮助,但如果我们绕过那个直接进入大脑呢?所以在这个特定的部分,我们将谈论 Justin Bar,他将分享你如何用 BCI——脑计算机接口做到这一点。大家好,刚开始。呃,感谢大家今天加入。我们有呃另一个有趣的机器人实验来展示给你们。所以,我们马上到达。但当他们连接时,我会先开始。我们在接下来的 10 分钟里有很多东西要展示给你们。所以,呃,呃,做好准备。但再次感谢大家,感谢能在新加坡实现这一点。我是说,AI。杰克来新加坡真是太棒了,能有呃 Agram 和 Sherry,以及 65 实验室团队把这一切汇聚一堂,这真是太棒了。你想就放吧?

呃,那个你刚刚最小化的。你们拿到了吗?还是没有?>> 稍等。扩展的。>> 是的,扩展的。这是扩展的。它被扩展了。>> 现在你拿到了吧。>> 好的。3、2、1。好的。好的,谢谢大家。所以,作为 Tessact 的一部分,我们建立了一个系统。我们把这个叫做 Tessact.art。呃,我们用这个做的是,我们建立了一个允许人们通过 AI 表达自己的系统。这开始于进行现场音乐表演,并将该现场音乐表演转变为一幅绘画。呃,但从那以后,我们已经把这个推向了更远的地方。所以我想大声疾呼呃 Kaiming。Kaiming,你愿意和我们一起出来吗,我们将开始推出一些设备?谢谢。呃,各位,我只是想介绍 Kai Ming。

呃,我们一起做了一些相当有趣和特殊的事情。谢谢。所以对,所以在过去的两年里请各位,如果你们能推出——你们将推出各位。对不起,我们有很多东西在推出,伙计们。对不起,你们可以帮着推出吗?谢谢。好的,对不起,在像一个 10 分钟的演讲中这相当困难,当我们有一个完整的机器人系统、绘画和所有这些其他的东西时。所以请在我们进行这个过程中稍等一下。但呃,如你所见,我们推出的是一个我们称之为 tessoract.org 的系统。Tessa 是什么——机器人臂,Tessa,机器人臂,我们在过去的两到三年中一直在开发这个,呃,和一些合作者一起,呃,我的合作者,博士。

Richard Savory,我大约三年前开始这个,我们想要建立一个系统,让我们能够将机器人与多模态 AI 一起使用,能够把一种创意形式转变为另一种,这就是我们开始的地方,就是把音乐汇聚在一起,而我们用这个所做的真的是采用人的想象力,通过智能系统扩展它,这就是我们在今天所做的事情的意图。现在,我们在舞台上还有什么,我们有 Jackie 也在这里来自>> 心智接口公司,>>而且我们有 Ivy,她也和我们一起来自 Tessact。而且 Ivy,我可能只是问你来呃上来帮忙。

所以对于 Kaiming,我们所做的,你在舞台上现场看到的,是 Kaiming 第一次使用脑控制在她的脸上画的绘画。所以,对于你们这些在后面的人来说,可能很难看到,但她实际上戴着呃一条在前面穿过的头带。呃,这是一条 Muse——如果观众中有人知道 Muse 头带的话。但这是如此奇妙和令人惊叹的是,这项技术现在已经到了这样的地步,它不需要两个小时的戴上一个头套,所有这些昂贵的设备。我们可以直接戴上这个,Kaiming 可以只是思考她想在控制界面方面做什么,实际上通过绘画让事情发生。呃,所以 Kaiming,我很乐意递给——呃,问你几个问题。

嗯,也许你可以告诉我们一点关于我们今天是如何来到这里的。>> 好的。嗯,你好。所以我是Kaiming。嗯,我有一种叫做Alist综合征的病症。所以我是Red Disorders呃,新加坡协会的一部分,Justin一直在与之合作。嗯,所以我是一个人工智能政策研究员,是的,那就是我们如何相识的。>> 是的。那么,嗯,你过去做过一些艺术作品,嗯,而且,嗯,我们现在能做的就是通过这个使用人工智能和我们的多模态系统的过程,比如说,把你的一些创意带回来。所以,我们计划要做的是我们一直在画这幅画。也许你可以告诉我们一点关于这幅画。>> 你想继续吗?>> 你能拿着吗?>> 是的。是的,没问题。谢谢。所以是的,我从小就开始画画,和我的祖父和我的姐姐在一起,他们也都是艺术家。

嗯,这真的把我和世界联系在一起。嗯,我的病症让我在很大程度上失去了手部的灵活性。所以我不再能够写字,现在我仍然有点不能。所以我不再能够画画了。我进入人类学,希望能够以某种方式通过它生活。那就是我最终进入人工智能政策的方式。但你知道,我为我的手感到悲伤。我为我的热情感到悲伤。突然有这个出口,这真是太了不起了,它有点像被带回了生命。>> 太棒了。谢谢。谢谢。是的。好的。那么现在,这个时刻我们一直在等待的是,我们实际上要看看我们是否可以得到——因为我们实际上带来了这个,我们这整个事情在过去的一个月里聚合在一起。所以我们将要嗯呃让Kaiming尝试完成最后的一条线。

那么这幅画是RDSS的Hope树懒的画。你想谈谈这个吗?>> 哦,是的。>> 所以Hope是一只只有两根手指出生的树懒。它住在新加坡动物园,它有点像我们。我们缓慢而稳定地生活。嗯,这是呃希望这爱代码围绕一个小手指的画。而嗯这两种你会看到在心脏和翅膀上的颜色,那是父母,我们呃你知道支持我们嗯红色是罕见疾病儿童呃是的。>> 是的。所以有希望的树懒。那么让我们试试。准备好了吗?很好。那么,呃也许你可以告诉我们这里的概念是有一个心脏,环绕,是的。>> 是的。

所以这个心脏,你知道,一笔是爸爸,一笔是妈妈,因为你知道我们经常忘记,我们社区中的父母有多支持患有罕见疾病的我们的患者,他们做了这么多。这真是令人难以置信,你知道,我真的想感谢感谢Justin和他的团队为我们带回了这个,这种自由和自主权来做我们想对我们的生活做的事情。是的,谢谢。非常感谢。

而且我实际上很惊讶地发现我们还有三分钟来完成我们的对话,这很好,因为无论如何,所以我认为这真的成为灵感的一件事,以及我认为是重要信息的一件事,我想对你知道每个人都是第一次看到这个真的很重要,是嗯我们开始这个过程认为使用嗯AI来给人们创意超能力,对吧?我们想要的不是AI夺走创意。我们想要AI给人们超能力,AI超能力,创意和有趣的东西。而且我们从音乐开始做到了。而且我们现在所做的是转向脑控制接口,以及能够使这个无线系统发生。但你可以问,比如创意,这很棒。这是自我表达的一部分。

这使得嗯你知道这是一个非常人类的事情,能够表达自己,拥有这种沟通形式。但更鼓舞人心的是,我想只展示一件事,嗯也是。更鼓舞人心的是,我们用这种技术可以做什么?嗯我们谈论AI夺走人们的工作。嗯,我从这个和我们的合作中看到的是,我们为可能因为可能有残疾或不能像其他人那样移动而无法被雇用的人创造了新的就业机会。所以现在想象当这个技术发展时,这真的只是开始使这些事情发生的开始。

我们可以看到就业嗯成为一件事,因为我们需要AI作为呃你知道AI在今天大多数这些系统中需要一个人在循环中,对吧,所以如果你能认为AI是提供机会来做某事的东西,你知道,比如说,这是一个黑暗工厂,它是全自动的,但有需要人来监督它,需要人来做一些工作,仅仅今天,通过这个过程,我发现了呃一个非常特殊的呃地方,呃抱歉,那个建立了一个非常特殊的地方在日本呃这已经发生了。我昨天刚发现。所以这是一个化身呃一个化身机器人咖啡馆。但在这个案例中有趣的是,机器人呃完全管理事物,但有人让这些机器人工作。而且机器人在为顾客服务。

机器人在为顾客服务,但他们实际上呃他们正在雇用无法离开床或离开家呃的人来实际拥有有利的就业。所以我认为这是一个很好的完美用例例子的呃机会,这种技术可以随着时间的推移而呈现。所以我认为这是一个真正令人惊讶和鼓舞人心的呃机会来思考人工智能将如何完全开放一个新机会,一个新劳动力呃对于可能过去无法被雇用的人。无论如何,所以非常感谢你有我们。真的呃能够成为AI工程师的一部分。呃谢谢呃Jackie呃用于使大脑接口发生。嗯,有什么结束的话吗?

我认为我们都需要从所有的恐惧和追逐金钱中休息一下,用一些更积极的东西。>> 非常感谢。谢谢大家。谢谢AI工程师。赞赏。谢谢。>> 我们想帮你这样下舞台吗?确保你谈论好的,那是一个惊人的演讲。我认为特别是在人工智能的末日和忧郁中,这提供了这么多希望。所以,我们已经看过你如何使用BCI的,而对于下一个演讲,我们将拥有Arvin来自Bifrost,他们构建合成墙来训练模型。他们一直在与世界上一些最大的机器人公司合作,帮助他们做从登陆火星的机器人的事情。他们由Seoia支持,也由CIA秘密风险基金支持。

一个真正酷的事实是,之前的机器人公司和Bifrost都是在新加坡开始、孵化和真正出生的新加坡公司。而且,真的很高兴有Arvin上台。太棒了。遗憾的是,我对你们没有任何很酷的机器人演示,但那是非常令人惊讶的。嗯,嗨各位。我是Arvin,Bifrost的CTO和联合创始人。而今天我将分享一点关于机器人的状态,对吧?我确定你们会在网上看到一大堆很酷的视频,你知道,机器人在像农历新年跳舞,做后翻和所有这些很酷的东西。但另一方面,你也看到机器人做很多奇怪的笨重的事情,他们跑到镜子里,只是造成了很多混乱,对吧?

而遗憾的是,这就是我们认为的机器人开发差距,对吧?本质上,发生的是你在实验室里获得真正真正好的表现,对吧?它可以做所有这些疯狂的事情,但当你实际上将它们部署到真实世界中时,你发现的是这些模型的表现下降得非常非常严重,对吧?那么究竟这个部署差距为什么实际上存在呢?所以你们在屏幕上看到的东西,我保证今天不会有很多图表,但有两个图表。这是第一个。呃你们在x轴上看到的就是所有不同类型的场景,对吧?而这就是,你知道,你的训练数据,你的测试数据,以及喜欢你的部署数据。而在y轴上就像你的训练数据中的场景数量,对吧?

所以当你出去的时候,你知道,你收集一大堆训练数据,这通常就像分布看起来的样子。呃,当然,这是简化的。然后你有你的测试分布,对吧?所以你有一个训练数据集,你有你的测试数据集,有一些重叠,但也有一些地方他们不重叠。然后当你实际上部署你的机器人时,你发现的是它实际上遇到的环境类型和所有不同的条件,这与实验室中发生的事情实际上非常不同。在实验室中,一切都非常干净,非常有组织,但在真实世界中,有很多动态混乱。就像人走进场景,就像镜子的反射,就像相机的眩光。

所有这些都是我们认为的分布外的场景,这就是机器人失败的地方,对吧?所以,你知道,大多数人会说,比如,嘿,让我们只是向它扔更多数据。喜欢,你知道,苦药的教训,只是更多数据,它应该会更好。但现实是你实际上从机器人系统收集的很多数据,他们实际上被认为是空卡路里,对吧?因为他们没有添加任何新的额外信号。很多时候你一遍又一遍地收集相同的场景。考虑一辆自动驾驶汽车在高速公路上行驶。你不需要更多的高速公路场景。你需要的是更多的边缘案例场景。这就像一只牛穿过一个复杂的十字路口,一个塑料袋就在你后视镜的前面,当你备进车位时,对吧?

这些就是你实际上想要的东西,对吧?所以在现实中,当你想能够测试这些系统时,你不仅仅需要一个小分布或一个小类型的测试。你需要能够进去,比如获得所有这些不同类型的分布并尽可能地覆盖尽可能多的场景。所以喜欢每种照明条件,每种不同的呃场景的空间布局,对吧?但获得这个真的真的很难,如果你能做到,你可以防止呃失败在现场发生。这变得极其棘手,因为现在我们进入通用政策的时代。承诺能够做任何和所有事情的机器人。从装载你的洗碗机到折叠你的洗衣到甚至在医疗、医疗保健和科学中做事。

而现在当你想验证这些系统时,它变得更加棘手。对吧?所以在现场我们有一个非常简单的呃给他们喜欢本质上喜欢一个可靠性分数的方法。而这是这是当人们想到部署机器人时大多数人关心的东西是什么是我部署这些系统到真实世界时的真实可靠性。而可靠性真的只是喜欢你可以取一个成功率,这是如果我做这个任务100次,我要怎样次正确?而且你也在做它跨越所有你想能够为你的机器人发送的不同的场景。对吧?所以如果你想能够处理像一千个不同的场景,你需要做这个一千次一千次,它扩展非常非常快。对吧。而所有这些公司现在都在竞争。

他们正在竞争朝向我如何能够实现更快的可靠性,比竞争对手更快,比市场更快。而且他们想找出什么喜欢可靠性本身的缩放法则。对吧?所以第一个方式他们测试机器人是相当直接的。我确定你听过一些演讲,你知道,他们将手动舞台的东西。他们会得到人类,他们会得到机器人,他们在实时做所有事情,对吧?他们手动设置场景,他们实际上让机器人做这件事。但在这个案例中,你实际上可以测试的场景数量,被瓶颈限制了由人类、机器人和时间。对吧?所以当我们实际上把它放在图表上时,这是一个不同的图表,但在底部轴上,你看到计算和其他轴你看到可靠性。

每次你做一个推理,你花费一些计算,但你仍然被瓶颈限制由你有多少人,你有多少机器人,以及你有多少真实世界时间。作为结果,你仍然缩放呃线性,对吧?但然后人们走来走去,喜欢,好的,不,我只是要取样几个不同的测试案例,我可以得到一些额外的新测试。这很好,但不是很好,因为你不能得到很多分布,因为他们仍然手动做很多东西。而然后人们说,好的,你知道什么?如果我们从评估周期中删除人类,对吧?所以现在人们正在使用类似Gemini的东西。

呃所以Gemini机器人你可以看一个场景,它可以给你定性的反馈喜欢嘿呃它是否实际完成了任务成功,它有多远,他们也有东西你可以autoreset场景使用另一个大呃视觉语言模型或视觉行动模型也对吧,所以他们删除了人类,但你仍然有你仍然被瓶颈限制由你有多少机器人以及你需要多少时间,对吧,所以它变得有点略快,因为现在你可以花一点点更多的计算并加快它,你不必依赖人类作为但你仍然缩放线性。对吧。而这意味着你可以只做稍微几个更多的测试。

然后当然,你知道,喜欢哦,你知道,当我们在真实世界中建造桥梁时,我们在模拟中首先测试它,然后我们建造桥梁,我们做那个全呃模拟为了力学和喜欢紧张的东西。为什么不对机器人做同样的事情?

所以在机器人中有一个叫做simto到rail间隙的东西,这是当你在模拟中做事时他们不总是与现实一致对吧,这就是工业正试图解决的一个大问题,而令人惊讶的是在去年我们有很多新的方法来解决这个,最大的一个呃我们正在做的实际上使用真实世界来生成模拟器本身,对吧,所以这实际上看起来像什么是你可以取入真实数据,对吧,所以你取入真实数据进入并且你可以从那个rail数据生成东西,然后你可以从那个重新模拟世界。对吧?所以这整个想法,你正在为你的特定领域和你的东西每次生成一个相似的模拟器。对吧?它不仅仅是对象。你可以为你的特定领域生成整个世界。

例如,如果你有一辆越野自动驾驶汽车,在加州沙漠中运行,你可以很快地生成整个虚拟世界并在该模拟中进行训练。对吧?这就是你开始缩小仿真与现实之间差距的方式。这样做使你能够复制实际测试集的分布,并拥有其模拟版本。这已经很有价值,因为你现在可以用这个分布进行闭环测试。但我们如何进一步推进呢?对吧?这不是很好的覆盖率。对吧?让我们看一个具体的场景。这是我们生成的数据类型的例子。你知道,这里就像一条船正在驶向一个拥挤的码头。屏幕上有眩光,呃,在摄像机上,一切都有点混乱,对吧?但这只是一个具体的场景。

你如何将其扩展到更多场景呢,对吧?所以,我们实际上可以做的是进入模拟器,我们可以跨越所有不同的运行条件进行参数扫描,就好像你在非常非常快地看到一千个不同的现实,并且你在根据所有这些不同的现实测试模型。呃同时进行,对吧?从那里你可以进一步扩展它,对吧?所以这不仅仅是 n*n 测试。你可以将其扩展到许多不同的领域和标准。这方面很酷的地方是,你可以根据它测试你的人工智能模型,你可以立即看到你的人工智能模型将在哪里失败,甚至在你将机器人运送到生产环境之前。这里的整个想法很简单,对吧?在模拟中快速失败,并利用这些失败,将其用于现实世界的测试。

所以你不是在测试每一件事,而是在非常具体的地方测试你在模拟中失败的地方。这样你花费更少的资本,你对拥有的资源也更优化和高效。而且你知道,我们也仅限于现实世界的时间,对吧?对吧?所以我们从这个到这个,因为现在我们可以覆盖更多更广泛的领域。有一个术语叫做域随机化,但基本上你覆盖的领域比真实数据可能覆盖的范围要广得多。这是一个非常好的方式呃来做这些测试。你知道,我确定每个人都看过这样一个叫做数据飞轮的东西。它已经成为一个梗了,每个公司都像,「是的,我们有一个数据飞轮。」但飞轮实际上并没有捕捉最重要的东西。

而最重要的是你实际上需要细化这个数据。数据需要是超高质量的。你需要想出一种方式,你在寻找最有价值的东西,你也能够推动你在现实世界中应该收集什么。对吧?在 Bifrost,我们帮助世界上一些最严格的客户大规模地做到这一点。我们基本上是在采取所有这些,我们在你的浏览器中模拟它。所以我们有一个世界,你可以模拟这个世界,你可以在其中破坏你的人工智能模型。谢谢各位。那是一次了不起的演讲,特别是谈论像数据精炼这样的东西。它试图试图确保你的数据涵盖所有不同的边界情况。

所以,我很兴奋接下来邀请来自 Open Graph Labs 的 Julia Kim 来讨论他们如何构建了一个内部技术栈,在其中确保你可以跨越许多不同的多模态同步数据收集。这真的很困难,因为即使是微秒级的漂移当你为训练机器人收集数据时,当你实际上采取这个并训练你的模型时,也会最终造成真正的损害。所以我真的很兴奋看看会怎样。呃当我们遇到一堆这些呃技术困难时,你知道,我想知道你们今天对这个会议的感受如何?你知道,我个人认为这对我来说绝对令人惊艳。就像我刚才当 Justin 展示用像脑控制接口这样的东西绘画的能力时,我真的被震撼了。

就像我从来没想过那是可能的,因为我一直在和智能体做大量的尝试,对吧?我看到,就像,文本进文本出,天哪,就像,我们将要,嗯,每个人的工作都将被自动化。看到人工智能被用于善事真的很酷,也很鼓舞人心。所以我认为,就像,那一直是令人兴奋的事情,看到人们正在从事的观点和项目的绝对多样性。我想是这样。>> 嗯,我们作为一个团队,嗯,使用了许多,嗯,讲者和赞助商建立的工具。嗯,所以我们将记下那个。哦,好的。我想我们回来了。是的。>> 拖动它。是的,这是扩展。所以,>> 我们刚才有了。>> 哦,它回来了。它回来了。>> 是的。好的。很好。>> 谢谢。>> 嗨。大家下午好。>> 大家下午好。

嗯,我叫朱莉亚,是 Open Grab Labs 的联合创始人兼联合首席执行官。嗯,今天我想谈论我们的日常人类经验如何实际上可以成为下一代人形机器人的有用训练数据。那么,你们中有多少人听说过「第一人称数据」这个术语?是的,我能看到有几个,或者也许你们最近在应用程序中看到了这个热门视频。工厂工人在工作时在帽子上佩戴相机。嗯。所以在过去的一年里,该领域发生了一些非常奇怪的事情。数百家公司开始大规模收集人类行为数据。人们用第一人称视角录制视频,嗯,相机在做他们的日常任务,实际上因为这样做而获得了激励。那么我们为什么要这样做呢?那么为什么人类突然成为机器人技术的核心数据集?这是因为我们刚刚获得了它确实有效的证明。

英伟达最近关于自我规模的研究表明,扩展人类第一人称数据实际上有助于机器人训练。所以他们确实使用第一人称视频作为他们模型的预训练、预训练数据集,并在人类机器人对齐数据集上进行微调,也有一些遥操,嗯,仅限机器人的数据,机器人实际上可以完成任务,比如用一次性转移折叠衬衫,就像语言模型一样,用,通过放入更多数据进行缩放,他们也展示了,嗯,这对物理人工智能也是可行的。所以它展示了显著的缩放规律,不仅因为它被证明对预训练有用,但实际上说实话,第一人称人类视频从根本上在两个方面非常重要。首先,我们现在正在构建人类水平能力的机器人。

那意味着相同的形状因子,他们看起来像我们,自由度相似,这意味着我们试图最小化人类和人形机器人之间的具身差距,实际上正在非常快地关闭,并且随着差距,随着差距关闭,人类行为实际上可以直接转移到机器人,这是世界上最直接的主管信号,嗯,其次,第一人称数据是在真实世界中被捕获的,因为它实际上是。物理世界,如我们所知,是连续的,嗯,它是动态的和物理上有根据的。所以我们从第一人称数据中获得的每个数据实际上是非常非常高保真数据,嗯,它包含任何机器人可能学到的更多信息。但是那时,嗯,我们真的完成了吗?

嗯,所以我们可以拥有更多第一人称视频数据,我们可以解决更多问题。嗯,所以仅仅收集足够的人类视频数据,有些坏的,机器人最终是否会达到人类水平的物理智能或不会。好吧,我确实认为这实际上取决于你正在朝向的未来,那个未来定义了我们可能需要的机器人的智能水平。所以一个未来是机器人作为实用程序。所以仓库中的工具,工厂中的机械臂,完成任务的机器,但他们不与我们共享空间。另一个未来是机器人实际上与我们一起生活,他们在我们家折叠我们的衣服,这也有助于陪伴我们的父母,他们递给我们一杯水。

呃,这意味着它们实际上与我们共享世界,如果我们希望它们与我们生活在一起,它们需要具有物理智能。所以它们需要以与我们相同的方式学习这些事物。那么让我们回到一些非常基础的东西。呃,让我们思考一下我们作为婴儿时最初是如何学习这些事物的。我们抓取东西、按压东西、掉落东西、接触东西、拉动东西,有时甚至经常我们会把东西放在嘴里品尝。我们通过与它互动来学习,通过接触和观察它在我的动作之后如何实际反应来学习动作和反馈,这就是我们所说的感觉运动学习。

那么自然的问题就随之而来,如果人类感觉运动学习本身就是形成我们物理智能的基础,那么如果我们能对机器人做同样的事情呢。我们让机器人以我们作为婴儿时学习的相同方式学习。所以再次,这个婴儿与上一张幻灯片的婴儿相同,实际上正在一次性生成所有这些感觉运动信号。视觉、触觉、本体感受、听觉、动作和反馈回路。通过这些互动,婴儿逐渐学习物理世界的结构。所以问题变成,如果我们能够捕获所有这些数据并用作机器人学的训练数据集,我们就能让机器人完全像我们一样模仿并在此基础上学习一切。是的,我真的相信那样的未来,我们可以通过对人类进行传感化来实现这一点。

今天,人类感觉运动回路的许多部分已经变得非常可测量。我们已经通过第一人称摄像头捕获了视觉系统。我们也可以直接从视频重建运动信息,还有本体感受比如3D手部姿态、腕部姿态和身体运动轨迹,这些也可以从视频中重建,音频也可以自然地通过摄像头系统捕获。所以现在,很明显只有一个关键的感觉通道现在我们缺少的是触觉,对于物理交互,我们都知道触觉可能是我们应该从现实世界收集的最重要的信号。

我们今天仍然拥有非常少的触觉数据的一个原因是许多其他人类信号已经可以仅从第一人称视觉中推断出来。所以第一人称视频。所以通过第一人称摄像头,我们已经可以推断运动轨迹、手部姿态、身体运动、动作结构,甚至本体感受。老实说,现在正是向数十年来摄像头硬件系统的进步和在标准化RGB系统之上建立的整个生态系统致谢的时刻,因为一旦世界围绕RGB摄像头汇聚,计算机视觉变得可扩展,现在我们正在等待触觉的那个确切时刻,因为触觉从未有过那样的时刻。所以我们必须追随视频系统如何改进、如何扩展,因为它们围绕一个东西汇聚,即摄像头和RGB像素。

我们还需要一个统一的硬件堆栈,每个人都可以在其上构建触觉数据,以及一个数据基础设施,它共享相同的数据格式,这就是为什么我们存在。Open Grab Labs在这里为感觉运动系统中缺失的部分——触觉——建立标准,这样我们可以最终在机器人学习中取得飞跃。我们通过两个主要层来实现这一点。首先是能够从指尖产生高保真接触信号的高度可扩展硬件,其次是触觉编码器,这是构建在该硬件之上的解释器,摄取触觉信号并将其转化为意义。

通过高度可扩展的硬件,我们能够捕获可扩展的数据集,在这些数据集上我们现在能够构建有意义的触觉编码器,所以我们刚刚开始为首次建立完整的人类感觉运动回路捕获管道,使其可训练。数千人、数百万次互动,人类与物理交互之间的每一刻接触现在都可以被捕获、数字化并准备好被传授给下一代机器人。让我们通过对人类进行传感化来训练人类感觉。谢谢。这关于扩展人类触觉数据收集的讨论太棒了。现在,实际收集数据的一个巨大部分是我们实际上需要扩展数据操作,对吧?我们不仅仅需要收集数据。

我们需要确保我们有操作人员、拥有整个基础设施和物流处理。所以我们有来自Cortex的Suin,他们大量讨论他们如何通过机器人和其他形式的数据以规模化的方式做到这一点。大家好,我是Suin。我来自Cortex AI,是那里的创始工程师。今天我将讨论我们让这些机器人做到的一些很酷的事情、我们面临的一些挑战以及我们学到的一些经验教训。在这里你可以看到我们合作的一些机器人。我们主要使用双臂机器人执行操纵任务,我们也使用移动机器人在更逼真的环境如便利店中执行任务。你可能想知道这些机器人如何变得如此聪明。甚至在这个视频中你可以看到它正在将最后一滴牛奶倒入杯子。

实际上这些学习系统它们只是接收像素并输出动作。通常我们有一个顶部摄像头和腕部摄像头。我们也传入机器人的关节数据。一个简单的语言指令。然后模型会预测一些动作。我们在机器人上执行动作。您进入下一个状态,循环继续。这个图表实际上是思考现代机器人学习堆栈的一个很好的方式。你有摄像头束和关节作为数据。软件驱动数据收集、训练、推理。硬件是臂和摄像头。模型是我们运行的策略模型,为了测试这些策略是否有效,你需要评估,为了再次发生这一切,你需要一个好的操作层。

机器人学通常被视为硬件问题、软件问题或模型问题,但它也是一个巨大的数据和操作问题。最近我们与Alen人工智能研究所在他们的Mulmo act 2论文上合作,我们为他们的数据集收集了超过700小时的双臂机器人数据,它是迄今为止最大的开源双臂数据集,我们通过遥操作收集数据。在这里你可以看到我的同事他正在控制我们所说的主臂,从臂将复制动作,尽管看起来很有趣,但它实际上非常困难。主要原因是人类直觉。它实际上不能很好地转移到新的体现形式。你知道如何用手抓杯子。但当你必须通过机器人臂思考时就不知道了,这真的很难。但它是一个可学的技能。

不仅如此,在开始收集数据之前还有很多事情要做。即使是折叠毛巾这样最简单的任务,你也可以折成两部分,你也可以折成三部分。你必须想出一个任务策略。之后你必须练习动作。然后你必须确保收集的数据在各集和不同操作者之间是一致的。当我们开始将这些数据操作扩展到数百小时时,我们意识到我们添加的一些小工作流更改。它们开始复合。最初我们有每个集编码需要等待两到三分钟的摩擦。然后我们将编码过程移到会话的末尾。然后突然整个编码持续时间长得多。现在我们必须等待30到40分钟才能开始下一个会话。

然后我们做的就是进行了一个很小的代码改动。我们断开了所有的硬件连接。这样你就可以在前面的片段已经编码的时候运行一个新的会话。最后发生的情况是数据收集、编码和上传的过程变得完全解耦。另一件我想谈论的事情是「呼吸」在机器人学中的重要性。我所说的「呼吸」是指在技术栈的不同层级之间拥有知识,并且能够在机器人栈中上下操作。我之所以这样说是因为我意识到问题空间和解决方案空间大多数时候可能不在同一个层级,你对不同层级的了解越直观,你解决问题就会越快。让我用几个例子来解释这一点。

所以当我们开始在这些机器人臂上运行策略时,有一个任务是机器人需要抓住一个罐子,但夹爪坏了,你可以看到视频中夹爪飞出去的样子。我想,好吧,也许模型学错了什么,或者我可以从代码中降低夹爪的力量。但我的同事说,好吧,我们自己设计一个夹爪吧。我们当时在使用第三方硬件,但我们仍然可以在其基础上进行创新。这是我认为是软件问题的硬件解决方案的一个好例子。类似地,任何使用过这些摄像头的人都知道,它们经常会断开连接,你拔掉它,再插上,然后它就神奇地开始工作了。然后有一次,我们的一个操作员不小心倾斜了摄像头,顶部摄像头的视角就偏离了。

所以那天我们收集的所有数据都必须丢弃,因为视角不正确,我们试图确保摄像头支架更牢固,但我编写了一个脚本,一个工具来检查顶部摄像头视角是否良好。所以我们所做的就是每个会话我们在开始时花两到三分钟,然后检查摄像头视角是否正确,这样我们就可以确保我们收集的数据是真正有效的。所以这是我们认为是硬件问题的软件解决方案的一个好例子,这就是为什么在技术栈中移动和从所有这些层级思考真的有很大帮助。我还想谈论为什么机器人学中的评估很困难。与软件类似,你可以在模拟中评估机器人,你可以将其并行化。但现实世界才是事情变得混乱的地方。

例如,光线可能会改变。可能会有干扰,可能会有执行器和摄像头噪声。所以你必须考虑所有这些因素。最近当我们使用 Malm act,当我们处理 malmarmac 2 时,我们在五个策略中进行了数千次真实世界评估展开,这教会了我们这是一个多么困难的问题。所以当你运行真实世界评估时,这可能在失败时发生,然后它会再次发生。在机器人学中,在你进行每次展开之后,你必须手动重置环境。不像在软件中你可以并行运行。如果它搞乱了,你必须手动清理。我做过这个数百次,我可以向你保证这不是很有趣。呃,然后我们意识到经常这样做非常昂贵,但这是目前的黄金标准。

关于评估的另一个困难的事情是当机器人无法做某事时,真的很难找出它在哪里失败。让我用几个例子来解释。可能是数据。也许不同的操作员使用不同的策略。也许我折叠了两次。有人把毛巾折叠了三次。呃,也许是训练设置。你想要的适应,例如 LoRA 对比完整微调,那么可能是设置。我有过这样的情况,我试图加载一个模型,模型的某个部分用随机权重初始化,模型就像发疯了一样。也可能是错误的动作块大小,与你在训练中使用的大小相比,也许评估设置本身可能是错误的,也许你试图在分布内进行评估,但物体的放置略有偏差。

最后,我想谈论安全。这个视频片段是我不小心录制的。你可以看到关节在不到半秒内做了 90 度。如果有人的手在那里,他们会受伤。我们经常谈论机器人部署时的安全,但我认为开发时也有很多安全问题。呃,我可以说,比如在数据收集中,如果 leader arm 突然失效(这有时会发生),整个重量可能会落在数据操作员身上。在评估中,我们有一些案例,我们测试一个涉及试管的任务,其中一个机器人打破了试管,你有玻璃碎片四处飞散,还有陈旧的动作提示可能导致突然的手臂运动,这也是一个安全问题。还有很多这样的情况。

我还想谈论在机器人上运行人工智能编写的代码,特别是因为人工智能编码工具变得越来越主流。呃,为了提供背景,我们使用人工智能编码工具进行机器人的一个场景基本上是当我们使用 lay robot 时,我们是来自 Hugging Face 的 layer robot 的忠实粉丝。所以当我们想要将该库适配到我们使用的机器人臂时,有很多脚手架,很多接口工作需要完成。所以我们使用人工智能来做这件事并更快地前进。但当我们尝试运行它时,它可能会失败。呃,我们进行正常的软件检查、基本检查、正常的拉取请求评审。然后我们尝试在模拟中检查,我们尝试在日志中测试。你可以将动作发送到机器人但不执行它们。先看看日志。然后当你想在实际机器人上测试它时,你可以一次只移动一个关节。

你可以降低速度。呃,是的,这些是我们遵循的一些东西。是的,我想强调的一件事是你不必是技术栈每一层的专家,但如果你对不同层的了解更多,真的很容易解决问题并更快地前进。就这样了。谢谢。好吧各位,呃这是结束。呃,顺便说一下,感谢 Savine。非常感谢。呃,这是我们下午 AIE 前半部分的结束。呃,你们在过去两天中从下午 9 点到 6 点的编程中保持如此的参与做得很好。呃,我们在最后冲刺中,呃更多真正很酷的演讲即将到来呃在休息之后。呃,世界上许多最棒的创业公司将分享呃他们实际上在构建什么。

呃,其中很多实际上是我的 Twitter 朋友,我认识已久,我得以邀请他们并亲自见到他们,这也非常酷。呃,所以请留下来吧。呃,而当这个休息进行时,呃我想给我那个穿绿色衣服的朋友 Kazaya 一点背景。呃,就挥挥手。呃,所以 Kazaya 是一个人,呃,你知道,就像我们其他人一样有一个日常工作在咨询工作中,但她也是一个正念教练,想找到一种方式能够将更多人带入那种做法,特别是在有太多事情发生的地方,我们很多人会感到不知所措、焦虑,只是想找到一个系统的方式能够暂停一下,能够,你知道,稍微慢下来一点。

这就是为什么我们想为休息时间创建一个更精心策划的体验,而不是,你知道,放上 AIE 标志和一些音乐,让你们有咖啡,对吧?呃,我们想在编程的每一分钟都融入思考。所以,呃,这就是为什么我们让她加入。但我也想分享另一个故事,讲述这一切是如何开始的,因为我认为这非常符合「AI 工程师」的精神,以及关于什么是「构建者」和「工程师」这样不断变化的定义。呃,Kazaya 实际上没有编码背景,但实际上她 vibecode 了整个体验。她找到了帮助在屏幕上创建粒子可视化工具的 GitHub 存储库,她在过去四周内完成了所有这些。

我的意思是,我觉得我们基本上给她灌输了关于 AI 的东西,然后她就继续前进,决定要建造它。所以,我无法更高兴地看到来自各种不同领域、行业的人能够通过这些工具获得权力,创造这些了不起的东西,对吧?而且所有这一切都使得我们能够将冥想和正念这样的东西与我们今天能在舞台上展示的实际技术体验联系起来成为可能。所以,请享受接下来的大约 15 分钟,放慢节奏,在我们结束这一天之前恢复一点保留的能量。谢谢。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。

嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。我们的编程进行得非常快。呃,当我们下一位演讲者 Jay 准备时,这将是一场了不起的演讲。我一直期待着它。

我在幕后和 Jay 谈了一点,这是一场关于人和 AI 人性方面的演讲。如果你在一个团队中工作,人们想要参与 AI,他们想要升级,他们想要为其他人设计,通常我们最后会得到通用的提示和通用的结果,我们甚至可能不知道如何真正充分利用它。所以这次来自 Jay 的演讲来自他之前在 Canva 的经历,Canva 将和我们谈论这个,我对此非常兴奋。所以,如果你准备好了,如果你感到恢复了,如果他准备好了?他还没准备好。不。他回答了我。他刚说不。那太好了。我可以看出不。当他们准备时,你感觉如何?你好吗?用掌声水平告诉我。好的,那很好。非常好。那很好。我很高兴。

这是一次很好的会议。很遗憾它几乎要结束了。如果你想要更多甚至在结束后说些什么,你不想要更多?我不认为我们明年不会做。怎么样?我在开玩笑。我在开玩笑。没关系。他们在后台吓坏了。他能说那个吗?我不知道。我们给了他一个麦克风。嗯,这会花一段时间,是吧?这是做 MC 最糟糕的部分。现在我得想着娱乐你们所有人。但那很容易,对吧?嘿,谢谢。他说我是什么,先生你叫什么名字?Ari 艺术。测试测试。他的名字是 Art。天哪。这家伙真是艺术品。你准备好了吗?我认为我们准备好了,伙计。你最热烈的掌声。我们开始吧,宝贝。发生什么事了?醒来。来吧,宝贝。我是 Jay。我曾在 Canva 工作。我曾在 Grab 工作。你好吗?

今天,我将讨论提示没有观点。你有。所以,为了背景,对吧,我真的厌倦了这个被传播的东西。提示不是,但只是耍花招。所以,我在我的手机上有我的笔记。如果我在看我的手机,那不是我在看一个代理,而是我在看我的笔记。所以,我厌倦了这些设计网红、这些领导人、这些拥有高权力地位的人谈论设计过程,但他们还没有为数百万用户做任何事情或交付任何东西。像 Jon Snow 一样,他们什么都不知道。所以,相信我和这里实际为数百万人建立了东西的人。让我们谈论这个。哎呀。哎呀。

所以,General Mills,美国的一家烘焙公司,在 1947 年,他们发布了一种蛋糕混合物,人们通常对此反应不太好。当他们添加了一个额外的步骤,只是在即时混合物中添加一个鸡蛋时,人们就投入进去了。他们感到自己在创造,这很有趣,对吧?因为 AI 也是一样。我认为对于任何为 AI 设计的人来说,当 AI 输出它并帮助他们时,人们会创造价值,对吧?这叫做 IKEA 效应。当 AI 实际上在协作并充当伙伴时,人们会投入。嗯,这对你看到的产品来说很有趣,无论是 Canva、Google、Figma 还是一般来说。你让人们有选择要么使用 AI 要么编辑或与你一起生成。有些人,你知道,显然有点犹豫。

你会看到他们不尝试使用令牌,但这很有趣,对吧?哦,它已经消失了。是因为好的。太棒了。太棒了。很好。我们回来了。我们回来了。我希望如此。保持活跃。哦,我们完蛋了。当这样的事情发生时,只需为他大声鼓掌以避免尴尬。我们走。这种情况发生。没什么。所以,我会继续。我们很好。太棒了。所以,我如何与 AI 合作?大多数人如何与 AI 合作?对我来说,作为一名设计师,我将其用作我的实习生,而不是我的艺术总监。所以,你可能在 LinkedIn 上看过这个视频。这很有趣,对吧?嗯,人们在进行令牌最大化并使用他们所有的这些令牌。这很草率。嗯,这与通常的云代码相同,对吧?你用完所有令牌,你会生气,你会想,「啊,该死。」

「像,我,你,你失去了我所有的信用。太贵了。为什么我要建造?所以,我想我会问大多数人,对吧?你会将决定权委托给人类专家还是 AI?我想当你为真实的人设计时,我知道我鼓励人们与你所在的科技泡沫之外的人交谈,因为普通人对使用 AI 犹豫不决。所以,如果你以人们实际花费更少的时间来思考事情的方式框架化它,那么人们就更倾向于可能使用 AI,这很有趣,对吧?他们做了一项关于此的研究。

人们更倾向于使用 AI,呃,当你将其框架化为时间损失,呃,和一般速度,而且我们,我们做到了,对吧?所以对我来说,我建立了 Canva 的工作表,呃,AI 动力电子表格,当还有其他竞争对手仍然使用这个 #error 标签时,我觉得很有趣,它实际上不能传达什么是真正错误的,呃,如果你和日常使用电子表格的普通人交谈,他们会感到不知所措,对吧?所以在 Canva,我们尽量为某人使用公式变得容易,我们给他们,并像对待人类一样与他们交谈,以给他们建议的修复,这本身就很有趣,对吧?这与我所做的语音,呃,助手东西也是一样的实验。AI 构建快乐的道路,呃,正如你所看到的,呃,人们会破坏它,他们不在乎,对吧?而且你无法为环境进行提示,无论你在外面处理道路噪音、婴儿哭泣,对吧?这很不幸,因为我认为如果你为语音进行了构建,走错路的成本太高了。

呃,如果你以前做过,一般来说就是很难做。所以 AI 无法解决一切。所以我鼓励你在数据集之外思考,对吧?我认为这个图表你可能看过很多。所以当你设计时,如果你是企业家甚至设计师或创意人士或开发人员,思考一下你拥有什么驱动创新竞争优势,谁驱动那?设计。设计一直驱动着这种价值以对竞争者获得优势。所以詹姆斯·戴森也是一个很好的例子,对吧?如果你阅读他的故事,他制作了 5000 和 100 个真空吸尘器原型,他直到有一个人为他冒险后才接到电话,对吧?Apple 键盘也是一样。

很多人讨厌它,但你必须记住,他们必须思考智能快捷方式、人们会说的内容、不同国家、不同的词汇也会出现。我确信该团队不断与史蒂夫·乔布斯进行迭代,以达到目前的状态,对吧?他们必须考虑,对吧,他们为世界设计的对象,这些新增功能。所以在数据集之外设计,对吧?所以我觉得,这与乔什·牛顿早前谈论的内容有关,人工智能加快循环。它不会取代设计工艺或总体的判断。所以对我来说,对吧,我与Canva的设计师合作了。哎呀。哦不。又来了,>>经典。好吧,很好。嘿,嘿,嘿,冷静,冷静,冷静。我们能搞定。所以当我在Canva工作时,我设计了列和布局。

向我的朋友西蒙·林恩致敬,他在台湾,是个传奇人物,也帮助了这个项目。这些是复杂的交互,对吧?不是每个人都会理解。所以当我们与真实用户和真实原型进行深度交流时,我们必须在数据集之外思考。人工智能无法解决复杂的交互、复杂的产品,你仍然需要与真实的人交流,并实际测试人工智能可能无法生成或思考的东西。在研讨会中工作也是如此。呃,我们实际上构建了代码模板。这是什么意思?好吧,我们为我们的产品构建代码模板,它帮助人们进入Cursor、进入Claude,并在研讨会、头脑风暴中实际构建想法,赋予每个人权能,对吧?我们作为设计师总的来说不应该把持话语权。

我们应该赋予每个人权能,让他们通过人工智能带来他们的想法、构建他们的想法,这样我们就可以进行提示并在现场实际测试,这非常重要。智能家居和语音也是如此。看到华为在智能家居未来的发展方向非常有趣。考虑语音和情境因素,因为人工智能不能反应性的工作。它必须学习。它必须被训练。那么,你如何思考这个问题并拥有一个适应普通人行为的智能系统?最后,建造你想实际生活的世界,设计师、开发者和在这里的各位,特别是企业家,对吧?因为人们投资于体验,设计将成为推动事物发展的杠杆,对吧?印度靛蓝航空的首席技术官甚至谈到了这一点。

人工智能现在非常昂贵,但雇佣人员的开销更便宜,这是一个很有趣的说法,尤其是在人工智能时代。所以,在我结束今天的演讲之前,最后一些热门想法和热门观点。在社交媒体上关掉关于人工智能设计的垃圾信息,因为说实话,那里有很多这样的内容。与你的网络和圈子之外的人交流,因为普通人现在实际上对人工智能相当害怕,当然这是可以理解的。没关系。用户不在乎你的产品是否更好,对吧?他们不在乎你是否拥有比竞争对手更好的酷功能。你需要为这些人及他们的需求实际设计,并保持情境相关性。最后,对于在这个地区和世界各地的设计领导者,我认为你必须给人们适应人工智能的空间和时间。

我听过太多故事,关于设计师实际上被指责没有设计足够的屏幕,被糟糕的设计领导欺凌,因为他们不知道如何使用人工智能,对吧?有人告诉我我的工作没有意义,但你猜怎么着?我设计的产品被数百万人使用,所以我不知道他们在说什么。所以说实话,我认为赋予你的团队权能很重要。所以最后还有一个没有在这里提到的要点。克里斯蒂娜·考尔,她前往了阿耳特弥斯航天器,明显是绕月。她谈论找到你的队伍。所以我鼓励你找到你的队伍、你在这里的网络。感到被赋权,感到与你正在适应和合作的人工智能网络相连,因为这很重要,因为在我们想要生活的世界中,你不想反对人工智能。

你需要对人工智能有流利的理解。只是要反对狗屎。谢谢。>>鼓掌。反对狗屎。你们中有多少人反对狗屎?我告诉你,我反对。哇。真的?你喜欢其他人呢,是吧?无论如何,呃,请鼓掌。我们有一个共同主持人。看看这个。是乌斯曼,各位。没错。乌斯曼,比我年轻得多。呃,我不会告诉你那是什么。他在当地社区非常活跃。在建造。你最后建造的东西是什么,老兄?>>我最后建造的东西就像,你知道,一个宗教应用程序,对吧?>>像你建造的那样。>>是的。>>呃,我的应用程序是针对世界各地的穆斯林的。你可以呃追踪你的祈祷和《古兰经》中的所有不同的苏拉,这是我们呃的圣书。是的。>>类似于你的《圣经》。>>天哪,这太酷了。你建造的这个?>>呃,是的。使用Google AI Studio建造的。

>>就用Google AI Studio吧。鼓掌。就像一个建造者。你多大?>>我13岁。>>他13岁。什么?这就是未来。怎样?最后再问一个问题,他们准备的时候。怎样用AI Studio构建的体验是什么?你只是在进行提示吗?你在写代码吗?这是什么。>>好吧,当然,在开始的时候,对吧,我根本不能做晕代码。我花了大概一年或两年才真正弄清楚事情。是的。而且我得出了一个结论,晕代码并不是那么难。你只需投入时间。>>没错。你只需投入时间。太好了。那么,你在介绍下一位演讲者。是吧?>>是的。>>我们开始吧。鼓掌,各位。>>好的。

现在我们有了亚历克斯·李,他从旧金山一直来到新加坡,他来介绍人工智能如何需要设计系统。目前用户喜欢AI Studio以及所有这些东西。设计很糟糕。我现在要坦诚地说。我们需要与用户品牌相匹配的设计。为亚历克斯·李鼓掌。>>哦,你需要麦克风。抱歉,各位。他怎么可能在没有麦克风的情况下进行演讲呢?亚历克斯,再一次,各位为亚历克斯·李鼓掌。>>谢谢。谢谢各位。>>好的,完美。幻灯片在这里。呃,是的,我是亚历克斯,Magic Patterns的创始工程师之一。实际上,我只想快速进行一个投票。有人真的听说过Magic Patterns吗?举手。哦,实际上有你们中的几个。超级酷。

对于那些不了解我们的人,Magic Patterns是一个人工智能设计工具,可以在几分钟内从想法到产品。我们已被超过2000个产品团队使用,KPNG、RAMP等。但我主要从事设计系统工作。在人工智能的世界中,构建新功能和新功能变得容易得多,但我们仍然面临的难题是一致性。所以我来这里告诉你为什么设计系统不仅在过去需要,而且在当今人工智能世界中至关重要。所以在我开始之前,让我们谈一下为什么设计系统首先是必需的历史。所以在一切之前,世界或网络是蛮荒之地。每个页面都不同。它看起来像你的MySpace页面,到处都是不同的小部件、不同的按钮。

设计师必须重新实现,工程师必须重新实现,没有真正的共享系统。为了重组这种混乱,我们有了设计系统。这是产品团队可以使用的共享语言。你有你的令牌,代表你的颜色、排版、间距。多亏了布拉德·弗罗斯特的原子设计,我们对组件有了很好的层次结构和命名法。我们有你的原子,按钮、标签、输入。我们有由这些原子组成的分子,也许是你的表单模块或搜索栏。然后我们有生物体级别的组件和模板来创建更大的东西,如你的侧栏或仪表板布局。所以承诺很简单。我们有一致性、速度和规模,这要感谢设计系统。但也许事情有点太一致了。

也许,你知道,而不是花费很长时间向设计系统中添加新按钮。现在有官僚主义。你必须问团队,我可以将这个新东西添加到这个布局中吗?而且我们不是从第一性原理考虑事物。这不是关于我们如何从零开始解决用户的问题,而更多是关于我们如何使用我们设计系统或工具库中的组件来解决这个问题。这种僵化不是很有帮助。所以业界退了一步。设计系统可能有点太强制性了。所以让我们更多地将事物视为框架而不是一套规则。这样你可以有那种创意,但仍然有那些护栏来确保你的一致性和你的品牌,无论是你的排版、颜色、标志、图像等。

所以最后我们达到了和平。我们有一种方式来创意地构建,同时也有护栏,没有什么破坏性的影响科技界。对吧,伙计。我觉得即使在过去的六个月里,我的工作流程也已经完全改变了。我确信对你们中的每一个人,我甚至不再写代码了。我只是让代理为我写。我确信对于设计、产品管理的每个人,一切都改变了。我认为这很有趣,对吧?实现的成本现在基本上是免费的,特别是如果你的公司已经为这些Opus 4.7令牌付费的话,对吧?所以问题从我们能否构建这个改变了?需要多长时间来构建,你知道,我们甚至想要这个?我们需要将其添加到吗?我们想维护这个吗?

这个新功能是否使用了我的设计系统中的组件?这个新功能是否符合我的品牌?所以有了那个,我们有了人工智能为我们创造的所有混乱。我们回到设计系统创建的原因。特别是,我们需要那些护栏。所以这是人工智能世界中的什么,你知道,在没有这种背景的人工智能世界中,你特别有不一定符合你品牌的东西,对吧?东西可能会产生幻觉。你可能有产生幻觉的组件。你可能有与你的品牌指南不符的颜色。总的来说,你真的需要那些基础和背景来让事情工作。这不仅仅是你的Figma模型。这不仅仅是你的Storybook,甚至不是设计MD。我们真的需要背景来使我们的代理与构建符合你品牌的东西相一致。

所以我们提出了我们这一端的解决方案,我们称之为人工智能原生设计系统。显然,与普通设计系统没有太大区别,但关键是现在我们有两个这个设计系统所依赖的支柱。你的文档和你的代码。你有你的系统级规则、令牌,就像我之前提到的,你的颜色、排版、间距,然后是你的组件,但特别是由代码支持,因为你的设计系统与代码的一致性越高,它就越接近你的用户实际看到的内容。这也允许代理理解道具、变量以及直接使用这些组件的方式。所以现实中的例子是什么样的?这是我们的一个客户Headway。

Headway是一个心理健康平台,帮助人们找到持证治疗师,他们已经有了一个设计系统,所以我们为他们帮助进行了同步。我们获取了他们的文档和代码,并以我之前提到的相同结构创建了它。Storybook作为文档来源本身适合系统级规则和基于故事的组件级规则。然后他们的实际代码要么被摄入作为NPM模块,要么与GitHub同步以获取令牌,以及我提到的那些组件。这很疯狂,因为我不能在现场演示这个,因为它可能需要太多时间,但差异很明显。我提前生成了这些,但使用相同的通用提示「为我构建仪表板」,你会得到完全不同的东西。没有设计系统,你得到的东西可以用你的UI工作,对吧?

或者它是一个很好的通用SaaS仪表板,但可能不符合你的品牌或产品。使用该设计系统背景的相同提示。这与Headway的品牌看起来非常接近,对吧?我们有我们的标志。我们有我们的组件、颜色、排版,都匹配在一起。现在我们实际上能够发送真正接近、高保真度的代码,即使提示更简单。现在这也完全改变了设计到工程交接的样子。对吧?在旧世界中,我有这个Figma模型。作为工程师,我必须查看它并检查我的Storybook,看看哪些组件与之一致,确保颜色令牌正确,对吧?这很困难,我必须从头开始构建一切。但现在我们甚至不与设计合作了。我们与代码支持的原型合作。

而且因为这些原型使用我的实际设计系统组件,我可以通过MCP将其挂接到Cursor、Code或Codex之类的东西,只是说,哦原型工具、设计工具,给我这个设计,从中制作一个新功能,这些相同的底层基础,两个代码库都应该使用我的相同设计系统组件,我应该能够获得更高的保真度。但因为这些原型也是代码支持的,我可以反过来做。我可能有一个功能还不一定在模型中或在晕代码的世界中,人们总是在生成新功能。我现在可以做的是只是说,拿这段代码,拿这个页面并将其转换为我可以轻松迭代的原型。

现在因为这个MCP往返,我现在在两个方向都有高保真传输。随着代理的发展,我们的工作流程也会发展。但我认为我们还没有能够匹配的真正困难的东西是工艺。仅靠人工智能不会取代工艺,因为如果没有背景,你就不会拥有使伟大产品成为今天的样子的意图、触觉、那种人性。但设计系统在这里添加了这种背景。所以在过去,设计系统帮助我们带着工艺进行构建,但今天它们帮助我们的代理理解工艺看起来像什么。所以我希望这有助于理解为什么设计系统在当今这个人工智能世界中变得比以往任何时候都更加重要。谢谢。>>非常感谢,亚历克斯。从美国一直来的下一位演讲者伍。是的。呃,嗯。

呃,下一位演讲者将是来自Magic Path(不是Magic Patterns)的萨比娜。呃,我确实有点告诉这些家伙,你知道,他们存在,他们会互相追逐,但我认为他们会很有趣。但是,呃,是的。所以我认为讲一个关于萨比娜的小故事会很有趣。呃,她实际上学的是化学,我相信。是对吗?>>是的。但现在她是设计师。>>那就像《绝命毒师》吗?>>像《绝命毒师》?>>像沃特·怀特?>>这是新加坡。我们不能说那样的事情。>>抱歉。>>没关系。>>但无论如何,呃,但这很酷。我认为再次呃你可以学任何东西,然后成为任何东西。你学了什么?>>没什么。我什么都没学。我有零个学位。我只是我没有受教育。>>是的。所以有时候,各位,你可以做任何事情。没人阻止你。

只是如果你是化学人士,你可以设计。呃,所以这是关于萨比娜的一个小背景。伍。你好,我叫萨比娜。我从纽约市一直来这里和你们交流。我很兴奋在这里。我是Magic Path的设计师。不是图案路径。浅色模式、深色模式或浅色模式。呃,所以这很有趣。我实际上举办了一个研讨会。如果你们中有人两天前参加过,再次你好。呃,我完全重做了我的演讲,这个早晨,因为我意识到,天哪,我在和像大写E工程师那样的人交谈。所以这是给你的。呃,如果你在呃时间表上看到,我的演讲应该是设计师应该插入2026年5月设计趋势在这里。呃,那是在三月份写的,因为我当时想,谢丽,这个空间发展得太快了,像天知道什么,对吧?

我甚至不认为在我提交这次演讲之前 skills 就很普遍了,嗯,那后来发展了。我没有那样做。设计师应该编代码吗?鱼应该游泳吗?那不行。设计师应该设计吗?这其实是个好问题。我一会儿会回到这个。但我想如果你现在是一个设计师,又在不情愿地接触代码?是的。好的。然后我意识到,等等,我没有和合适的听众讲话。工程师应该设计吗?应该。所以这次演讲是为你们这些书呆子准备的。嗯,所以,呃,对我来说工程真的很可怕,因为 div 块很可怕,但如果你想象 div 块,那就是 flexbox。如果你能用 flexbox,那就是自动布局。所以在大约 90 秒内,我将教你你需要知道的一切来接管我的工作。我希望你接管我的工作,对吧?我累了。

所以如果你看到一个这样的字体,你会想,那非常干净,非常容易阅读,非常人性化,对吧?嗯,我今天早上用提示词生成的。这叫做,嗯,无衬线字体。它非常平易近人,非常人性化。你可能在每个开发者网站的模态框上看到,你知道,Linear Claw。他们有自己的东西。他们很贵,但 Inter 是一个非常好的可靠工具。人们通常只是调整字距和字间距。你知道,如果你曾经看到那个 A 对比 A,那就像是一个 expect 元素。你可以改变它,对吧?如果你看到这个字体,你会想,「哇,我现在很技术。我看到数字。我看到一些非常科学的东西。」这叫做等宽字体。Blank mono 各位,对 mono 可能是你需要知道的。这很像,「天哪,如果我进入我的网站,就像技术,对吧?」

那太棒了。」如果你看到这个字体,而且你知道差异,注意力就是你所需要的一切。Latte 在里面。嗯,Times Roman,任何有点严肃的东西,嗯,Anthropic 回答我是否应该在这之前喝五杯龙舌兰的问题。非常权威,非常专业。这叫做衬线字体。如果你想在 3 秒内知道为什么我们有差异,衬线字体是当,呃,回到像罗马或希腊时代,呃,人们会画他们将要像模板一样描绘出来的东西。这些小标记来自于人们绘画的实际油漆刷笔画。所以那就是它来自的地方。现在你知道了。好的。如果你看到这样的东西,着色器,交互的东西。如果你看到,哇,那到底是怎么发生的?我不知道 WebGL。嗯,是的,这是着色器。

你需要知道的全部是你可以去 unicorn.studio,完成这个。如果你想实际知道它背后的数学,去我的朋友 Maxim 的博客。他在 Linear 工作。他太棒了。嗯,那就是你需要知道的一切。所以,嗯,让我看看还有什么。这里没有看门人。你会想,「哇,我在英雄页面上。这是 Magic Path 的网站,你们很快就会看到。这是 Cursor 的网站。他们到底是怎么做这些英雄动画的?」猜猜怎么样,伙计?是的,就是这样。你只需取代码库,扔进动画东西,创建一个新分支,然后说,「嘿,把它做得很棒。让它突出。」嗯,通常人们在这里有他们产品的录制,但我提倡这个,因为,呃,你有点想加快速度。

你知道,当涉及到让人们等待你的人工智能生成的任何东西时,有一种礼仪。呃,这只是更快,你可以做很多真正很酷的事情。就像如果你看到我的提示词,我只是会说,让它突出,让它更大,就像在 10 秒内让它出现,随便什么。好的。同样,我也不对设计师进行看门。这是为你的。如果你曾经在网站上看到一些东西,你会想,「我到底是怎么做的?」你右键点击,你进入检查元素,然后你挖掘直到你找到计算布局,然后你复制它到嗯 Magic Path,你很快就会看到。是的,这是嗯这一切都是说我认为真的很有趣。工程师有品味,对吧?我编写好代码需要一些像精细调整的东西。

我认为设计对工程师来说一直是一个黑盒子,以至于他们没有意识到,嗯,你也可以对这种东西有品味。就像你刚刚看到的一切,那就是 2026 年设计师的一个概括。就像嗯,我没有讨论 instrument sands,但好的。所以,我想转向的是我们今天如何定义设计和工作?今天的设计,有很多嗯有一个奇怪的呃模式,我们鼓励的一种行为,你迭代,刷新页面,迭代,刷新页面。

你有点被困在单一视口中,如果你想看到一个版本,你有点必须进行这种尴尬的舞蹈,比如按返回按钮或任何东西,你没有真正的想法,你有点迭代直到它足够好,但你没有真正暂停和反思,想哇,也许这个迭代与这个迭代有什么好的东西,对吧,你只是有点向前移动,呃,而不是内省,这显然是呃不男性化,所以嗯鉴于预测呃哦,那说了什么呃设计的未来有多难,就像我工作,你知道,在 Magic Path,我看到很多设计工具,就像哦呃你得导出它为这个,随便什么文件,就像哦你必须在那里本地制作它。我的论点是,就像我不知道你们是怎样设计的。

我真的,这不重要。嗯,我想能够给你们最好的工具来满足你们所在的地方。无论你的设计是像一个半成品的 Next.js 应用,如果它在一个 Figma 文件中,如果它像在你的脑子里,如果它在你的队友的脑子里,都没关系,因为嗯,是的,我是说,创意来自任何地方,我不想是那个告诉你创意来自哪里的人。所以,我在和 Sher 谈话。她实际上在 3 月邀请我参加这次演讲,我说,「嘿,就像呃我不知道我会,我不知道我会就什么话题演讲。」而且,从字面上,这就是我告诉她的。就像,我在那一天制作了这些幻灯片。所以,这不是出于懒惰,而是出于准确性。所以,是的。好的。这是一个我认为每个人都应该记住的引文。

我认为这有点像这个呃会议的整个论点。呃,我就要大声读出来。John Collison,他就像是 Collison 兄弟之一,Stripe 的一部分,他说,「当你长大时,你意识到你周围的事物并不总是在那里。人们使它们发生了。但直到最近,我才开始意识到一切需要多少韧性。那家酒店,那个公园,那条铁路,世界是激情项目的博物馆。」而且我说这个是为了说,你知道,呃,你知道,有些人只是扔出 skillmd 文件,他们就像,你知道,把薯条放进袋子里,随便什么。但我认为有一个美在于有点理解,就像,等等,在我只是像公园这个 skillmd 文件我从 Twitter 上找到之前在我的聊天机器人中。里面有什么?像,我想要每一个东西吗?

就像,我甚至喜欢是的,这是 Airbnb 的设计系统,但我想要每一个东西吗?不是。你有点想要精细调整东西,对吧?这类似于像每当有人给你一个显然没有被看过的 PR,就像他们不能解释每一行代码。不是说他们必须,但你知道,处理别人的人工智能垃圾不会引发快乐。我认为每个人都可以同意这一点。让我看看。好的。嗯,这一切都是为了说,就像我是从心底里说这一切,嗯,你知道,在这之前作为一个设计师,我做了一个人工智能设计初创公司,我试过教人们设计。呃,所以你知道,这里没有公司洗牌帽。但现在有了等等。该死,我希望我更光滑。如果你想快速去就独自去。如果你想走得远,你应该使用 Magic Path。然后你应该与你的团队一起使用它。

在企业多代理中使用它。我们两天前刚发布了它。这是我 Chloe Park。如果你们中任何人认识她,她很棒。嗯,所以你不仅可以在 Magic Path 中设计,一是在画布上,我认为这是正确的方法,二是与多个代理,无论是侧边聊天栏,嗯,三是与你的实际企业团队。所以,邀请营销人员,邀请首席执行官,就像在厨房里放太多厨师一样,看看会发生什么。你明白吗?嗯,好的事情是,你知道,我一直看到大家对 cursor 的热爱和对 codeex 的热爱。我深感敬畏。好处是你实际上可以用现有的工具使用 magic path。

所以我进行一个研讨会,我使用 cloud code,但你可以使用 codeex,你可以使用任何东西,比如我认为我看到有人在使用类似 Amazon IDE 的东西,那是 Kimmy 吗?或者嗯,无论如何,你可以将 Magic Path 连接到这些不同的代理,说,嗯,你知道,如果你有一堆,你知道的 pro 订阅信用,就在 Magic Path 上使用它。不要觉得你必须购买更多信用。像我之前说的,我们试图满足你现在的位置。

嗯,我的老板 Pietro,真是个家伙,如果你们中任何人认识 Pro,他就像这样疯狂的家伙,但他制作了这个非常棒的视频,就像他只是展示使用 codeex,你可以制作这些真正惊人的设计,我认为,下一代设计就是,你知道,我们有技术,我们必须向人们传达,不,这就是你实际上能实现的方式,比如工程师设计,设计师学习如何与工程师更好地合作,嗯,所以我们有所有技术,就像能够,你必须把它放在人们的脸上,然后说,「嘿,嘿,你知道,使用这个。」嗯,从任何地方设计。我实际上有人说,「哦,我希望我能用 Magic Path 从我的手机上设计。」我永远不会这样做,因为我认为那是太多的认知过载。

但如果你想将其连接到 Telegram、WhatsApp,或任何其他,你可以让你的设计慢慢成形,然后稍后检查。所以,让那个,嗯,意识到。所以,再次,很酷的事情是在设计和代码之间关闭循环。嗯,我这里没有。哦,不,我有。我有。嗯,但基本上,你可以有一个 magic path 设计,把它放在你的代码库中,打磨一下。即使你对本地文件进行编辑,你也可以将其放回 magic path,这样你总是有一个干净的文件。再次,这些都有实时链接,所以你可以通过 Slack 发送,通过 iMessage 发送,我不知道,随便。嗯,是的,所以嗯,这有点像我希望它更大,但这只是我在我的文件周围闲逛,像嗯,你知道,再次,因为它是一支笔刷,我想让你制作艺术。

我想让你制作项目,那些可能永远不会发布的东西,但至少你告诉自己,你喜欢铺展所有东西,然后真的想了想,对吧?因为我认为未来我们需要做一些让我们的大脑皱一点的事情。我认为我的就像,你知道,就像膨胀。所以,嗯,你知道,这只是我在玩艺术项目。像我插入的,我从 Twitter 上买了一个日本纹理包,像我,我把它连接到我,你知道的,本地,嗯,代理或我的外部代理,然后它在 magic path 中放入了真正棒的东西,我可以看到它被用于像登陆页面或其他创意努力。好的,所以我想说的最后一件事是哦糟糕,嗯,这是我令人惊喜的团队,没有任何伟大的东西是独自建造的,第二部分。我们主要位于纽约市。

如果你曾经在那里,来打个招呼吧。我们在曼哈顿下城。这太棒了。好的,所以拍下这个照片,因为你猜怎么着?所有的幻灯片都在那里,以及推荐阅读。《无纸化办公的神话》。有一些博客,像,你知道,Maxim 的博客就在那里。那里有一些真正好的资源给你们。我也有每一张幻灯片。这不是完全准确的,但它在那里。嗯,我的电子邮件和 Twitter,请在上面发推。如果你嗯实际上制作了什么东西,你 DM 了我,DM 给我,或者如果你 DM 我一般,或者发给我一封电子邮件,像我会喜欢个人入职你,帮助你的团队设置好,是的,我们可以托管你的设计系统。我实际上认为这是我得到的最大问题。他们就像,「哦,我可以将我的设计系统转移到这里吗?」是的。

嗯,我认为就是这样。>> 谢谢你,Sabina。>> 给 Sabina 热烈掌声。大家继续。是的。拿着麦克风,年轻人。我们嗯看看你们中有多少人用像 chat GPT 或 Claude 或一些东西设计图像。是的,很多。好的,这大约是房间的 10%。嗯,我认为你们中很多人不这样做,因为一,它有点 >> 你知道,嗯,我们有点知道什么是垃圾内容。嗯,或者它,它会犯错。六个手指,对吧?有人看到 Katy Perry 在大都会晚宴上吗?你明白吗?这是很酷的艺术。无论如何,嗯,图像生成无论是用于品牌资产,比如徽标,嗯,名片,诸如此类的东西,一直以来都是一个有点挑战的问题,因为我们知道垃圾内容是什么样子,但另外,你去哪里了?哦,你在这里。你拿到麦克风了吗?去拿吧,哥们。不,他们还不需要它。去拿吧。没关系。

无论如何,这是幕后花絮。无论如何,嗯,这就是交易。当你得到,当你得到,嗯,我现在投入了。稍等。哦,让我,我们可以用这个来介绍她,然后我们会给你麦克风吗?谢谢。嗯,无论如何,所以当你从一个 AI 模型中得到一个图像时,你得到一个图像。它像一个平面图像一样,你知道,但如果你是一个平面设计师,你使用图层。你知道这个,对吧?就像,就像你有像背景和前景和各种图层。那,如果 AI 可以为你做到这一点会多酷呢?给你像一个 Figma 准备好的东西,所有你可以使用的图层。这就是我准备好听到的。我非常兴奋。下一个演讲者是谁?>> Priya。介绍她,哥们。>> 是的,我知道。>> 没关系。他是新的,但我们在训练。我们在训练。>> 好的。

所以,现在我们的下一个演讲者将是 Priya,她也来自,她也来自旧金山到新加坡,这是一次 17.5 小时的飞行。她将谈论 AI 如何可以成为你的设计合作伙伴,帮助你创建一些真正很酷的东西,像嗯,类似于 Canva 但更好。>> 我不知道。无论如何,就是那样是免费的。给她麦克风。太棒了。给 Priya 掌声。>> 晚上好。嗯,谢谢你那个介绍。我觉得你解释了嗯,很多我本来想讲的东西。嗯,我的演讲是,我是 Leica 的联合创始人兼首席执行官,我们正在构建基础设施来培训和评估创意 AI 模型。这真正意味着什么是我整天对着图像生成和视频生成模型大喊,因为它们不理解我们的提示。

我们正在努力构建基础设施,使它们更好地理解。嗯,我们想避免被提示淹没的问题。嗯,我认为他问了这个问题。这里有多少人使用 chat GPT 或 nano banana 来生成幻灯片、演示文稿、社交媒体海报?我没有看到任何人举手。你们都在说谎吗?好的,现在我看到更多的人举手了。所以显然你们中大多数人使用 chat GPT 或 nano banana 来生成图像。我确信嗯,我会分享我今天正在做的事情,你们中很多人可能会对我正在经历的事情产生共鸣。嗯,这像《魔鬼穿 Prada》一个海报,我问嗯,我问 Gemini 用金发女人替换图像蒙版嗯,然后这就是它给我的。那还好。嗯,我仍然对自己有一些耐心,然后我再次提示,这就是它给我的。

然后事情变得更奇怪了。这是我最后得到的结果,现在我彻底失败了。我我想好吧,这是行不通的。所以这就像我看到的结果越来越糟。那么我们在 Leica 做的有点不同。所以如果这是这张图像,而这是我给出的相同提示,改变图像质量,用一个金发碧眼的女人填充它。嗯,它把一切都隔离到图层中,然后用那个确切的图像填充该图层。你能进行的本地化编辑的级别是疯狂的。如果你的图层已公开,并且你能够委托每个图层,你也可以移动文本。你可以改变这里的任何东西。你可能想知道为什么这个这么小?

好吧,我想我们之所以能做到这一点,是因为一些从事图像生成或视频生成的公司输出 MP4 或 PG,它们是冻结的文件格式,图层没有公开,每一次提示设计状态都被重置,文本不是一个非常有趣的输入媒介,因为很多人不知道如何表达他们想要的东西。所以翻译中损失了很多,今天没有人工智能多人游戏体验,因为这个原因,我们解决的方式真的是做这个图层级别的可编辑性和图层级别的可编辑性不仅仅是为了让人类移动东西,但可能有其他专门的模型你可以用于不同的图层。它可以用于文本生成、SVG 生成、照片生成。

你不总是需要为一切使用一个巨大的模型。你可能想知道为什么初创公司应该解决这个问题?为什么大实验室已经没有解决这个问题?诚实的答案是没有数据。对于代码,有很多有很多像 GitHub 仓库。法学硕士在文本处理方面表现得非常好。而对于平面设计,你只有这三个巨大的公司。它们都是围墙花园。Figma、Canva 和 Adobe 拥有数十亿个编辑迹象和数据,没有哪个实验室有权访问,也没有社区中的任何人有权访问。所以当我们作为初创公司决定直面这个问题时,我们从第一原理考虑,也决定解决市场上缺失的东西,那就是数据。所以我们继续收集了超过 1。

500 万个分层图形设计组合。所以这看起来像是其中一些已经开源了。所以你实际上可以去检查它。这就像我们构建的一个有趣的探索器,我们从很多不同的设计类别中放出数据,从 Instagram 到商务演示到海报的 50 多个类别,每个数据点都有关于图像外观、裁剪方式、位置的多个丰富注释,以及如果有语义和逻辑组,那么你可以实际看到哪些元素需要分组在一起。所以你可以教一个人工智能模型如何重新流动内容,或者如果纵横比需要改变,它真的知道如何规划布局。所有这些事情,所有今天的前沿模型都不擅长。

而且你可以用这个数据玩耍,一些这样做的方式已经开源了。所以你也可以给一个云代理很多这样的配置文件作为技能,它表现得好得多,你也可以训练模型或在它之上构建评估。所以我们解决这个问题的方式是你今天可以从很多生成性人工智能模型中获得单镜头输出,其中一些结果真的非常令人印象深刻。但当你听到诸如人工智能缺乏品味之类的评论时,这真正意味着的是设计师们对细节的执着。有人在思考矩形的圆角半径需要是多少。裁剪类型应该是什么?文本框的边距距离应该是多少?这数千个微小的决定是提升设计的原因。

而人工智能模型不太理解如何思考一些微小的决定。而这里每一个小失误都会使输出变得非常空洞和草率。所以我们处理的方式真的是把一切都隔离成图层,每个图层可以用来自企业的专有数据或从其他地方收集的其他数据非常不同地塑造,图层级别的数据将非常有帮助,因为在企业中人们没有无限的代币可以花费,特别是在市场营销职能中,比如在电子商务中,你必须生成与某些品牌指南一致的横幅,跨越这么多不同的国家。比如在东南亚,有大量的语言,你只想改变文本或特定的图形,但保留所有其他元素原样。

你只是想能够操纵那些图层。或者有时你想将摄像机生成的图像与人类编写的文本的某些部分结合起来,并用人工智能生成的东西填充其他像素。你应该也能够组合星座模型,因为随着越来越多的模型出现,你可能想将设计的不同方面委托给不同的模型。这种架构允许它。因为今天,如果你想一镜头完成所有事情,那是一个工程师关于模型应该如何为创意人员工作的想法。而创意人员、创意就是本质上的增量和迭代。你向后走几步,然后横向,然后你可能决定要刮掉设计并重新开始。而目前的模型不允许这样做。

我们还提出了一个多信号奖励学习系统,其中设计如果你只使用人类偏好,就很容易被操纵。特别是当你与具有不同口味表达的品牌合作时,你想要能够提出部分奖励,这些奖励是基于人类偏好的,并用某些客观奖励来增强,这些奖励衡量输出是否有效并符合某些设计原则。然后我们有两个模型。

一个是人工智能法官,它能够在其标准上不断更新自己,以便它可以更好地区分好坏,然后使用该更新的人工智能法官来重新训练你的生成器,它可以继续改进,因为设计有保质期,你一直希望公开真正好的例子并训练你的模型保持最新状态,也构建一个架构,其中你超越基于文本的提示,以便你可以捕获可以成为训练循环一部分的不同类型的交互。这今天不是现实。在评估任何图像生成模型时,我从不微笑。但如果你想从这次演讲中获得什么,那就是我的幻灯片都不一致,到处都是。这就是人工智能模型今天的样子。

无论 Twitter 炒作或 LinkedIn 炒作是什么,模型在布局规划方面都非常糟糕。在没有人工干预的情况下获得大规模的视觉一致性和可编辑性,尤其是图层级别的可编辑性非常非常困难。所以如果你感兴趣,你可以扫描二维码。呃我们有拥抱脸链接、GitHub 链接,如果你想使用我们开源的数据集,我们也发布了一个图形设计工作台。你可以用它来训练你的云代理,或者呃你也可以尝试将其用作评估,如果你有你正在训练的内部模型或如果你对这个领域感兴趣就联系我们。谢谢你。>> 你们都是很棒的观众。当你们的演讲者做出伟大的演讲时总是为他们鼓掌,这一直都在发生。太好了。再为 Priya 鼓掌一次,各位。太棒了。太棒了。

我们的下一位演讲者呃非常酷。他,他有一个惊人的故事,你即将在我们介绍他时听到。呃我甚至不打算介绍他。我觉得他现在是个专业人士了。给你们的另一位主持人掌声。各位,Usman。>> 谢谢。好的。所以,现在我们将介绍我们的呃下一位演讲者,他再一次从旧金山远道而来到新加坡。那呃是一个 17.5 小时的飞行,顺便说一下。无论如何,他在旅程中走了很远,从零到英雄。他曾经住在一个黑客宿舍。呃具体说是壁橱里,呃他在 12 岁时是一个呃不不是大学呃高中辍学生,现在他的公司呃你的公司叫什么?>> Hyperspell。呃现在他的公司 Hyperspell 走了这么远,它已经融资超过 6.7 百万美元,不是 67。>> 好的。

嘿,给主持人掌声各位。走起。你做得太棒了。好的。大家怎么样?AI 工程师的最后一天。让我们坚持到底,让事情发生。嘿各位,我叫 Connor Brennan Burke。我从旧金山远道而来这里。17 小时的飞行。我现在非常时差严重,但我们会坚持下去。好的。走起。好的。所以,我们 Hyperspell 构建公司大脑。我今天要告诉你们的是如何构建公司大脑。没错。如何让智能体真正理解你的公司如何运作。而这不工作。好的。就这样。好的。所以,我认为这是一个我们今天从不同演讲者那里听到的主题。嗯,说白了,你们的智能体是无知的天才,对吧?

他们,他们就像呃,你知道,一个天才学者、博士、有点自闭的实习生,绝对聪慧,但对你的公司一无所知。对他们来说,每一天都像是工作的第一天。他们盲目跟随呃,无论他们读到什么。他们有点天真。他们会接受指示然后就跟着做。所以你需要人类来看管他们。达到 AGI 的问题和关键,不是更好的模型。模型已经很聪慧了。重点是获得正确的语境。你们的智能体是无知的天才,语境的缺乏是他们还不能可靠地完成工作的原因。好的。那么问题是你如何解决这个问题?所以明显的答案是连接器,对吧?我们都做过这个。

我们说好的,我会给我的 OpenClaw 访问我的 Slack、我的云盘和我的 Notion。我会使用 Anthropic、Claude 和 ChatGPT 中的连接器,但这里的问题是,正如我们所说的,智能体有点天真,他们读到的任何东西都认为是真的,但事实证明文档本身实际上常常不是真的,呃所以他们会找到一个文档,他们会错过更正,他们会找到一个过时的旧版本,呃如果有两个不同的来源,他们会互相冲突。无论他们先找到哪一个,他们都会将其解释为真的。同一个人可能在 Slack、Gmail 和 Notion 中被提及。他们没有意识到这是同一个人。他们就像,他们认为有五个不同的 Lisas,而不是一个 Lisa。而且也没有时效性,对吧?

你会找到旧的、弃用的、过时的文档,他们试图基于这些运作。嗯,所以连接提供了访问。但不提供理解。那么大家,我知道不是每个人都在工作,但有工作的人,你有多频繁地开始了一份新工作,读了一份文档,然后就像,「好的。这是我们的战略或这是流程,然后你去做,你和某个人交谈,就像,哦不,那已经过时了。那不再相关了。你得和 Bob 交谈,Bob 知道所有的事情,就像和这个人交谈。」有多少人遇到过这种情况?几乎这里的每个人都遇到过,对吧?所以这件事的重点是,通过给智能体提供连接器,我们假设真相在文档中。但事情实际上不是这样运作的。

所以,我们所谓的「真实来源」,实际上很少是真实的。事实证明,信息被创造的那一刻,它就开始变得过时了。文档本身是一个滞后指标。你可能会有组织重组、客户例外或新部署。因此,现实与文档之间的距离越来越远,需要人类更新文档来使其保持真实。因此,公司实际上的运作方式是,你拥有极其混乱的现实,其中有 Slack 线程、会议、电子邮件和例外以及所有这些事情发生,然后你有这份文档。所以人们试图记录东西,但我们都不善于更新文档和记录它们。然后你有实际上是真实的东西。因此,正如我们刚才所说,获得实际真实情况的方式通常是问某人,对吧?

你问你的老板,你问那个待了大约五年、拥有所有背景信息的人。所以,人类善于理解这一点。你知道,不要盲目信任你在任何过程中得到的任何文档。你问这个人,但代理不知道这样做。他们读到的任何东西,他们都认为是真实的。这就是为什么你不能让他们在你的组织中随意运行。如果我们想大规模部署代理,我们需要给他们一个「真实来源」。那么你如何解决这个问题呢?你创建一个「公司大脑」。所以每个组织都需要为代理提供一个单一的「真实来源」。一个「公司大脑」。现在那是什么?它不只是连接器。它不只是跨来源的检索增强生成。它是一个有信心的「真实来源」。它理解谁创建了这份文档。

它把来自电子邮件、Slack、笔记和混乱会议的线程汇集在一起,浮出冲突,并识别出——好的,有两个不同的来源说了不同的东西,我们如何在它们之间解决?它弄清楚了原因,并创建了一个代理实际上可以信任的「真实来源」。那给你什么?它给你更好的答案。它给你一致的代理。它给你持久的知识。它使你的组织准备好部署人工智能。许多企业人工智能部署失败的原因是他们试图部署代理,但代理读取文档,而没有公司大脑供他们操作。这是我们需要使人工智能真正发挥作用的东西。现在这里的另一个细微差别是我们假设背景是由人类生成的,但这已经不再是真实的了。

传统上,你知道,你有人在会议、Slack、文档和邮件中。但现在你有混合背景,对吧?你有与人类的会议。你还拥有所有代理的提示。你还有开放背景记忆。你还有痕迹和推理。这也是背景。你用 Claude Code 获得最终输出的循环。所有这些背景都很有用。如果你不把它放入大脑,你就会错过大量的背景来获得最终输出。因此,我们都在从主要是由人类组成的组织转向混合型,在几年内,大多数背景实际上将由代理创建,所有这些都需要在大脑中。现在,你需要在这个大脑中放入不同类型的公司知识。

有稳定的事实,比如法律身份、你的组织结构、你的品牌颜色。然后有流程知识。我们如何进行入职?我们如何进行交易审查?我们如何应对事件?还有隐性知识,只存在于人们脑子里的东西。所以记住,好的,如何关闭这个客户或什么是更好的销售策略或者这个特定的测试将会不稳定或者这个集成效果不太好。这些都是隐性知识。它很少被写下来,也很少在一个你能让它发挥作用的「真实来源」中。然后最后,你有有状态的现实。所以你有待处理的交易、活跃的事件、今天的阻碍因素,公司大脑需要拥有这些中的每一个,并以不同的方式存储它们。

为了找到真实的来源,你需要了解事物演进的速度以及那个中心位置是什么。根据我们与从微小初创企业到大型财富500企业的各类客户合作的经验,真正构建这个系统的方式是你需要从摄入所有数据开始,因此收集所有真实信息源——你的Slack、你的Gmail、你的Notion、你的GitHub,现在越来越多地,我们还有会议录音器,你也有你的代理追踪,对吧,代理生成的上下文。例如,Meta正在开始这样做,Meta甚至在记录击键,有些人有屏幕录制器。你需要嵌入所有这些。接下来你需要做的是创建一个上下文图。

上下文图是什么呢,它是一个单一的图实体,可以找到组织内的每一个事实,理解它什么时候是真实的,谁创作了它,我们对它的信心有多高,并将所有这些嵌入到一个地方。但问题是,上下文图和一般的图数据库对代理来说并不是很好的用户体验。代理没有经过后期训练来使用它们。它们本身不理解图数据库如何工作。所以实际上,对代理来说最好的表示方式是文件系统。因此你创建一个文件系统,例如在公司级别的数据。谁是你公司里的人?谁是潜在客户?谁是客户?你有你的决定?你有事件。在那之下你有每个团队的文件。然后你有每个个体。伟大的事情是因为文件系统是通用的。

你可以在Cloud Code中使用它们。你可以在Cursor中使用它们。你可以在open claw、nano claw、内部代理甚至你自己的个人代理中使用它。现在让我们讨论大脑是如何构建的。嗯,第一步是上下文捕获。所以你有所有这些混乱的来源。你需要摄入所有历史数据,但你也需要实时获取它。像Slack这样的东西有实时上下文,如果你在发生时错过了那个,那么你的代理就不会有最新的信息。第二件事是归一化它。所以我们讨论了理解你邮件中的Lisa和Slack中的Lisa是同一个实体,消除重复,结构化它。下一件事是综合。

所以有时数据会冲突,当数据冲突时,你需要实际上向人类说好的,我们有这个权衡,我们选择哪一个,然后最后你向代理提供它并有一个真实的单一来源。在正确的时间向代理提供正确的上下文,这样他们就可以完成工作。困难的部分实际上不是搜索,而是综合。它是把所有这些信息汇聚在一起。有人熟悉Karpathy的第二脑想法吗?好的。有人已经有第二脑了吗?有人在这里用Obsidian作为个人真实的来源或第二脑吗?所以这正是那样,但是对于你的整个公司,你的整个团队,你的组织中的每一个人和你的组织中的每一个代理。现在这能做的是你达到了公司开始从自己身上学习的一点。

你采取的每一个行动都会创建上下文。人类执行,代理执行,工作完成,新的上下文被创建。所有这些追踪然后被综合并放入大脑,然后未来的执行会变得更好。想象一下,每一个Claude Code实例现在都可以采取这些学习和那些新的收获,并与整个组织共享它们。每一个销售人员,如果他们学到了一个更好的销售方式,那就立即与所有人共享。这能使的是公司随着时间的推移递归地改进。传统上我们有人的上下文流失,其中人们走出门,然后带走他们的联系人。现在你可以获得自我改进的组织,变得更好,每一个人,每一个代理不断地使它变得更好,而不需要增加另一个会议。所以我们是Hyperspell。

我们相信每个公司都需要一个大脑。我们为你构建它。我们是人工智能代理的合约基础设施。如果这是一个你想解决的问题,你应该在之后找到我。给我发邮件或在Twitter上找我。谢谢大家。>> 哇。真是太棒了。真是个天才,哥们。>> 为这个伙计鼓掌。>> 我不敢相信像他这样普通的人能造出这样的杰作。嗯,我相信所有每个人的品牌或公司都值得拥有像他那样的大脑。请欢迎我们的下一位演讲者,他叫Hangong hang hong Lee,他来向我们展示我们都可以用代码快速转变,以及你如何能做像他一样好的事情。谢谢。请为Hangong鼓掌。>> 好的。谢谢,Usman。那很好。对。谢谢大家的到来。对。

今天我要谈论我们需要用云代理快速发布所需的三个原始元素。对吧?每个人都想快速发布,我在告诉后面的人,我们应该像复制自己一样,对吧?我们如何能复制每个人呢,就现在?所以像我们是Light Sprint,我们是当前的YC公司,我们是三个新加坡创始人,我们是三个充满好奇的新加坡创始人。我们在寻求,嗯,弄清楚在AI时代工作的本质将会是什么,对吧?工作的本质正在改变得非常快,像我们三个人一样,我们有一堆做产品、做工程的经验,我们试图弄清楚那意味着什么,对吧?所以现在我们正在构建云代理环境,对吧?

我们在帮助团队构建他们的环境,这样他们的整个团队就可以发布、嗯、对现有代码库做出更改、嗯、可靠地、快速地和安全地。对吧?什么是云代理?对吧?这个这个幻灯片你可能你知道每个人都在谈论云代理,今天、嗯、昨天以及前天。所以简单来说,大多数云代理大多来自托管环境。看,它们就像来自云基本上和一个服务,通常由公司设置的服务,对吧?它们也是非交互式的。所以,你启动它们,然后它们四处走动,构建某些东西,然后返回它们构建的东西在后台工作。有时它们被称为后台代理。有些人混淆云代理和后台代理。它们是一回事。它们只是在后台工作。

一个快速、一个快速的像导引,把每个人都带到我们如何到达这里的地方,对吧?开始的时候,我们有代理在计算机内部帮助我们输入Cursor。我是Cursor的早期用户,那太有趣了,像command K和所有的东西。然后我们有编码代理Cloud Code Cursor,再一次,对吧?每个人都在我们的计算机内部。它在我们工作时工作。不幸的是,它在我们停止时停止。但是现在今天像云代理一样,基本上它们到处都是。它们一直为我们工作。嗯,如果你知道如何控制它们。所以今天我们在谈论那个。承诺是伟大的。像云代理一样希望重塑你的组织。它们想要、嗯、构建出像你的积压工作一样,基本上完成你的积压工作,像你知道的那样,它们可以构建任何东西。嗯,任何人都可以像、嗯、把东西组合在一起。

最后一件事是像Hyperspell正在做的事情一样,像你知道的那样,它们、承诺是它们将学习你的组织并帮助你改进运营。这些公司中最好的已经在使用云代理。所以、嗯、它们获得了三到五倍的、像改进一样,有时甚至更多。、嗯、一些我们正在交谈的初创企业正在非常有效地使用它们,很多人都在看到它们、喜欢合并的PR数量、刚刚创建的编码代理创建的PR正在以令人难以置信的快速增长。好的,所以现在,如何让云代理为你工作而不是反对你,对吧?

所以呃,很多时候,就像你可能没有给云代理提供正确的上下文,所以呃,我们想确保,就像你想确保给正确的代理提供正确的上下文,你想呃确保给他们正确的计划和上下文。你想做的另一件事是确保你在任何时间点都知道代理的位置。对吧?所以你想确保你拥有的云代理在做你要求他们做的工作,你能够检查代理卡住的地方,或者他们目前是否卡住了,或者他们仍在工作。

最后一点是作为工程师,我觉得呃,这非常重要,就是如果我的整个团队要给我提交代码,我需要审查他们,如果我需要审查他们,那么我需要为此建立呃编码环境,然后我需要确保那有效,最坏的是它不起作用,然后我必须回去告诉他们它不起作用,他们需要呃重新构建PR,这个我可以自己做。对吧?所以在Lightream,我们用三个基元来思考。你需要妥善规划,以确保代理有最好的呃东西。你需要编排,你需要确保你知道代理在哪里,你需要预览。所以我将快速跳入呃,你知道,我们的应用。我觉得我已经讲了很多,但我没有展示任何东西。

呃,现在我试图呃,我会向你介绍我们的应用。哦,这是中间部分。啊,是的。所以这是Lightprint平台。而且Lightprint平台基本上是你的团队协作的工作台,对吧?所以你可以看到,就像呃,只是一堆呃板和很多任务之类的。然后是的,你可以在侧边看到计划。所以基本上这里发生的是我们基本上帮助呃创建任务。所以我们将提示放入任务格式,所以它实际上是由代码库背景扎根,基本上能够快速呃用很多信息充实你的任务,这样编码代理就可以呃被启动。所以我们支持一整套编码代理。我们有cursor、entropic、codex,这些只是我们系统下的工具。

而且基本上我们有我们自己的lights云代理,它也是那个周围的一个工具。对吧?一旦你启动云代理,你基本上可以点击进去深入代码库,进入内部的代码。所以你现在看到的是计划模式,对吧?我们想改变这个屏幕。它有点无聊。它不是AI。只是基本上你最近的任务和最近的计划的列表,对吧?所以,呃,让我们呃现在使用我们的计划模式。所以,我们现在支持Gstack和我们自己的Lightrint计划模式,对吧?所以,我们使用我们当前的light计划模式。而且基本上它做的是呃,这里的想法是我们想用推荐选项和其他创建多选,对吧?那真的就像我们最喜欢的呃用例,对吧?

就像人们,每个人都喜欢选择,每个人都喜欢呃,你知道呃,AI为他们想出选择,对吧,但我们也喜欢视觉,对吧,我们喜欢呃看到模型,所以我们也让AI有点受限,呃AI有点说请为用户创建一个良好的体验,通过向他们展示一些视觉上的东西,对吧,所以我们允许用户选择喜欢不同的选项,甚至制作更多选项,对吧,说好的,你知道,请给我两个其他新的选项,然后那两个选项就会一起被添加,然后你也可以从中选择。对吧?所以我们并没有真的做太多来告诉代理不要做什么,但我们基本上只是给了他们一套呃呃引导原则。

所以,在你做了所有选择之后,你实际上得到了一个完整的呃,就像在应用程序呃呃预览你的功能将是什么样子。有时它有点互动,取决于AI选择什么。然后在这里,你也可以在我们的情况下更改颜色。在那之后,我们将生成完整的呃规范,它将发送给编码代理,对吧?它将把它放在我们的机器人上,然后我们将发送它,然后呃,我们可能在20分钟后检查一下呃整理。对吧。所以现在就像选择代理和发运它。是的。一瞬间之后。所以现在完成了。所以现在我们可以实际进入我们系统的预览部分。对吧。那对我来说真的是一件大事。

呃,它能够查看和点击应用程序。而且这基本上一旦为任何软件工厂设置。如果他们没有预览模式,你必须问他们,嘿,你知道,我的伙伴们怎样才能预览我为PR创建的应用程序?因为那太重要了,因为没有人比一个不起作用的PR更讨厌审查,对吧?所以就像我们让呃整个团队成员在我们发送它之前能够预览应用程序。所以我们一直在light sprint使用light sprint,我们取得了很多成功,做平行的事情非常有趣,也有点呃,在本地主机上做事情。所以我们主要是云代理。

所以如果有些像呃,一个移动错误或你知道一个呃,小问题,那人们告诉我们的,我们会把它放在板上,然后我们会启动一个云代理来做。对吧。Lightrint将首先构建云代理,对吧,我们呃,我们认为人们应该用呃,一个计划来规划,你可以使用我们的视觉计划向导,对吧,他们应该编排,他们应该预览呃,那太重要了,对吧,所以这是我的社交和light sprint呃链接,所以随时截图并使用它们,非常感谢你参加这次呃,呜。谢谢。Hang是这样一个很酷的产品。我在那里观看演示,我就像,「哇,我呃,我现在可以成为一个完全的产品经理。」对吧。那太酷了。非常感谢。你知道我在过去的几次演讲中注意到什么吗?

我注意到呃,一个一致的配色方案。你也注意到了吗?呃,对吧。它呃,全都很狡猾。不。无论如何,呃,不不不,没有不尊重。每个人都有这个橙色的东西,我就像,哇。它呃,它是一个呃,这有点有趣。它有点衍生。无论如何,呃,我们的下一次谈话,我对这个很兴奋,因为嘿,我们能为组织者们鼓掌吗?他们做得非常好。他们做得太好了。真的,真的呃,一个很棒的Sherry。每个人都做得很好,因为你可能不知道这一点,但演讲的结构使得它们相互铺垫。好的?它太酷了。这里有一个自然的顺序。所以之前的演讲是关于呃呃呃项目管理方面,下一次演讲也是关于那的。

这里可能有一个热点,呃,你知道,Louis,我们的下一个演讲者将澄清,但热点是在未来,我们可能只会规划和编排编写和发运代码的代理。所以所以编写和发运代码的工作转移了,我们只是成为规划者和编排者。呃,而且那有点像东西。Lou将告诉我们一个故事,关于他之前的业务呃,试图获得牵引力但没有。呃,你知道,我会说这个。W代表赢,L代表教训。所以他在这里会有一些教训学习。呃,请,请为Louie给最大的掌声。好的。我们怎么样,新加坡?呜。让我们去。哦,周日下午5:00。让我们保持精力高涨。好的。最后的东西在你和一杯冰啤酒之间,也许。呃,好的。我是Louie。

嗯,我最近不再是一家名叫 Vibe Camban 的初创公司的联合创始人。嗯,我还在伦敦运营一个名叫 AI tinkerers 的人工智能社区。所以,如果你曾在伦敦,来参加一个活动吧。你会玩得很高兴的。嗯,我今天想谈的是我为什么要创办这家初创公司,以及为什么我关闭了它。基本上,软件工程的工作正在迅速演变成对人工智能生成的代码进行计划和审查。嗯,我不知道房间里有多少人对此感兴趣,或者谁是初创公司创始人,或者会在他们生活的某个阶段创办初创公司。好吧,好的。好吧,我会尝试讨论我们最终关闭公司的一些原因,以及最后也许可以从中汲取和学到的东西。

嗯,我很快会告诉你我们在开发什么。所以你得回到古代历史。那是 2025 年 5 月,我的桌面开始看起来像这样。我打开了很多标签。Claude Code 刚刚推出,我试图同时运行多个 agent。我开始思考这是一种完全新的工作方式。当准确性达到 100% 且我不再需要照看 agent 正在做什么时,会发生什么。我开始想象那个界面会是什么样的。本质上,它就像软件工程的所有部分,除了代码编写部分。

嗯,如果你想想我们有很多软件,比如 debugger、用于测试的 UI、网络请求等,我们使用的大部分软件实际上都是用来编写代码的。所以如果你消除了工作中的那一部分,你只会留下计划部分和审查部分,嗯,你可以为此想出一个截然不同的 UI。所以我们开始构建 Vibe Canban,它的名字基本上就是这样。它是一个 kanban 板,你可以创建票证,类似于在 Jira 中的做法。嗯,但不同之处在于你可以点击任何这些票证,点击播放按钮,然后你可以选择在 Codex、Claude Code 或其他六个不同的 agent 中运行它。一旦某个东西完成运行,你就会获得一个不错的界面来审查该工作。

所以方法之一显然是审查代码。嗯,另一种方式是测试某个东西,如果它是网站或应用程序之类的。嗯,所以这都是古代历史。现在看起来很明显。在 2025 年 6 月,这并不是很明显。我们当时所做的许多工作都是开创新想法。我们推出了一堆东西,然后从应用程序中删除了,我没有展示。所以这需要一些实验来实现。那么我们为什么要这样做?好吧,这是因为一切都正在成为计划和审查。嗯,如果你想想在 GitHub Copilot 在 2021 年问世之前,你如何可能为参与软件工程的不同任务分配时间,我们的大部分时间都花在 IDE 中,仔细审查代码,在一定程度上查看代码。

随着时间的推移,这部分已经缩小为我们所做的总工作的百分比。所以你得到 Copilot 时刻,然后你知道突然自动完成完成了很多代码,然后你得到 ChatGPT,你能够将代码粘贴进去,得到另一个函数,然后将其粘贴回去,或者你不再需要去 Stack Overflow。这有点像你知道的,使迭代速度快得多。然后你在 2024 年获得 Cursor,看起来几乎像你仍在查看代码,但你在一侧有这样的聊天,然后最终你会到达我们今天的位置,那就是 Claude Code,老实说,我认为你知道有很多 vibe 编码正在进行。你几乎不需要看 uh 发生了什么。

嗯,所以我想它提出了一个有趣的问题,比如我们是否收回了我们曾经花在编写代码上的所有时间,或者它是否只是转移到了开发过程的其他部分?我认为答案可能是两者兼而有之。我认为它加快了软件工程的整体工作,但同时我现在花费了大量时间进行计划和审查我必须做的工作。这取决于。所以其中一种方式,这更像是一种实际的思考方式,说明计划和审查的框架如何有用,我认为如果你弄清楚如何让 agent 非常准确,你实际上可以用 agent 加快你的工作。嗯,获得编码 agent 准确性的方法之一是花更多时间进行计划。所以我的意思是什么?

我的意思是这个最基础的版本就像 Codex 或 Claude Code 计划模式。所以就是用它。我用它来处理绝对的一切。嗯,这个有点复杂的版本是使用一个框架。所以有很多很好的 spec-driven development 框架,我相信已经有过讨论。嗯,你可以用这种审问方法,让它对你正在处理的任务详尽地问你问题,直到你对任务可能提出的每个问题都已经回答。但关键是你基本上在要求 agent 做某事之前花费更多时间进行计划。其结果是,大多数时候你的 agent 会准确完成工作,可能只需要一次修订,两次修订。

另一种方式,我认为我们都有点内疚的是,你不花很多时间进行计划,你会因为需要进行大量审查而遭受后果。所以,你知道,我们有多少次只是抛出一个定义松散的特性,你知道,当模型给我们回复的东西是半成品或完全没有抓住要点时抱怨。所以如果你花费较少的时间进行计划,你更有可能需要与模型多次来回。我认为这个问题的另一个方面实际上是工作的类型。这不是我真正看过很多讨论的东西。这有点像是半成品想法,但如果你想想工程工作的类型,功能开发与迁移完全不同。

所以这些不同的工作流程都围绕着花很多时间进行计划,或者你知道 uh,也许如果你在这样做,你能够同时运行多个 agent,而不是更多审查的、更多人工参与的工作流程,你不是同时运行东西,这可能更倾向于 uh 更多前端工作。所以你知道,有时实际上很难表达复杂前端特性的所有要求。涉及很多交互。有很多视觉 uh 你知道需要传达的东西 uh,相对于后端,你描述逻辑,当你描述后端逻辑时,找到共同语言要容易得多,我发现,因此你知道计划和同时运行多个东西往往在这些情况下对我来说效果更好。

所以,uh,总结一下,基本上如果你花五分钟计划,你可能会为自己节省很多审查时间。我建议总是,你知道,尽可能地推动滑块朝那个方向。好的。然后我们可以用历史来弄清楚事情的发展方向。所以,GitHub Copilot 会运行几秒钟后给你一个结果。

uh 你知道 2024 年 Cursor 的原始版本会运行 30 秒以上才能产生结果,我们在 Claude Code,它有点像平均运行 5 分钟后给我一个结果,所以它发生的原因是因为工具使用增加了,所以我们有 agent 给你一个响应,agent 运行类型检查器,然后给你一个响应,agent 运行类型检查器,然后使用 Playwright,然后给你一个响应,你可以推断,你知道,当更多更多的工作被纳入循环时。基本上,编码 agent 花费的时间在增加。所以,我们处于编码 agent 历史的一个有趣的时刻,即将真正超越观看是舒适的范围。

比如,当编码 agent 运行 20 分钟时,你会怎么做?你不会坐在那里看你的终端,你知道吧,用拇指转圈。我的意思是,你可能会拖延,最后上 Twitter 或其他类似的东西,但我不认为这是对我的时间的良好利用,而且它很快就会变得无聊。所以,你知道,如果我必须预测,我会说一年后,你知道,我们可能在看,你知道,这些东西运行半小时,我们需要找到方法来并行化这个 uh 很多。嗯,好的。我认为我几乎没有时间了,所以我要用一些快速观察来总结。我认为基本上正在出现的工作是管理性的。

所以如果你在一个软件工程师团队中的工作是编写大量代码,而不进行很多审查,也不进行很多架构,以及你知道也许与更多高级或技术主管角色相关的所有其他事情。所有其他的东西基本上都要消失,代码编写部分,剩下的将是所有传统上的管理职能。嗯,是的,我的意思是,我们应该建立最大化开发人员专注的体验和界面。所以,让他们专注于重要的事情,比如计划和审查的东西。好吧,我必须在那里停下来,因为我没有时间了,但非常感谢,很高兴来到这里。谢谢,新加坡。>> 继续为 Louie 鼓掌,各位。>> 那是一个令人难以置信的演讲。我现在是一个管理者。我们将其交给下一位演讲者。

我现在是一个管理者。嘿,我们怎么样?你们感受如何?什么?你为什么甚至在这里,伙计?去睡觉或无论如何,他想做些什么。>> 好的,所以让我们玩一个小游戏。你能猜出我们下一位演讲者吗 等等,没有。>> 什么?>> 我不是指什么,伙计。我的 >> 你能猜到吗?>> 不能。你能猜到我们的下一位演讲者来自哪里吗?uh,顺便说一句,请大声喊出你的答案。你的选项是新加坡。我的意思是,他当然留在新加坡,然后是斯里兰卡,或者再次旧金山。喊出你的答案。来吧。>> SF。她说了。它在哪里?>> 旧金山。嘿,我们在一列旧金山列车上。是的。为旧金山的每个人鼓掌。>> 太多来自旧金山的人了。>> 那是它发生的地方,兄弟。AI 工程师。>> 那是梦想成真的地方。>> 是的。是的。多么出色的问答。谢谢。

非常感谢。为您的 coc 每个人鼓掌。Usman,我们的下一个演讲 >> 来自在 Interphase 工作的 Harsha。它是一个 AI 研究实验室,他将向我们讲述他们如何训练专门的编码模型,超越 transformer 的新架构。所以为 Harsha 给予最热烈的掌声。>> 谢谢。谢谢。顺便说一句,很好的介绍。大家晚上好。我叫 Harsha。我是 Interphase 的联合创始人和 CTO。我们是一个重新发明 transformer 的研究实验室。今天我想谈论我们如何管理为确定性开发者任务构建新架构。现在,在过去的二十年里,人工智能从一个僵化的机器学习模型发展到一个更大规模的可概括 uh 智能,这是你今天可以用来进行人工智能工作流程的东西,这已经不是什么秘密了。

我们已经从构建 uh 结构化微调模型发展到今天的提示,使你能够构建 agent。更具体地说,想想这个 2010 年代初到 2015 年。你是一家银行。你想进行光学字符识别。你将如何处理?你必须购买或获得大型数据集。不仅如此,还要组建一支有才华的团队来构建该模型,部署它,然后维护它。这很容易花费你数百万美元,甚至数百万美元。多亏了大语言模型的发明,我们能够用提示来做这件事。但是,仍然存在问题。

幻觉的问题,尽管像 GPT 这样的模型现在是巨大的多模式,我们用 Gemini 看到它仍然会出现幻觉,这发生是因为当你希望它对大量数据输入表现得确定性时,上下文漂移会发生幻觉,我们在 Interphase 通过设计一个新的架构来解决这个确切的问题,我们训练,所以我们带来了 uh 一个大语言模型,抱歉,一个机器学习模型和一个大语言模型的灵活性的严格性。所以我们是如何处理这个问题的?你使用机器学习模型作为非常特定任务的强编码器,然后你使用大语言模型来创建它的解码阶段。今天我想展示一些这个模型可以做的事情。我想快速展示三件事。我会讨论它。

我只是要快速运行它,这样我们就有时间讨论它。所以首先这是一个真实的文件。我想从中提取数据。不仅是文本,我还想检测它上面的脸部,还要计算他的年龄来验证它。所以我们为此运行 Interphase。这就是 Interphase 给我们的。它不仅提取了文本,还给了你它在图像中看到文本的边界框,实际的像素坐标。它找到了两个脸都对了。更重要的是,它设法正确计算了年龄。这是真的。现在,让我给你展示一个具体的模型提供商或光学字符识别提供商,它也做光学字符识别。那就是 Redu。你们中很多人可能听说过它。Redu 确实正确提取了文本,但它在其他部分失败了。检测文本在哪里并计算年龄。

现在,这发生是因为编码器更强。让我们进行下一个。我们想要抓取这个特定的 LinkedIn 页面。惊讶 Gary 还没有关注我,但好吧。所以,我们想要提取 Gary 的经验。LinkedIn 可能很难抓取,因为他们拥有的封锁和机器人检查。我想提取他超越这个按钮的经验。现在,那将很有趣。所以,让我们看看 Interphase 做了什么。它不仅给了我们它在第一个页面上看到的东西,而且它一直返回到他的实习。我们能够做到这一点是因为我们自己的脚本模型,能够抓取 uh LinkedIn。最后,我想讨论 uh 一个 PDF,一个密集的 PDF。抱歉。uh 所以我只需要再运行一次。所以在这个屏幕上你看到一个密集的 PDF,这应该是这个特定模型的研究论文。

我们想提取这整个文本并将其翻译成印地语,并计算此 PDF 中的字符数。在它运行时,我想回到演示文稿 cuz 那需要时间,然后讨论它。所以现在我们看到了 Interphase 能做什么的演示,我想谈谈我们是如何做到的。我想谈论我们实际训练的东西。我们是如何进行光学字符识别的?在此之前,我想展示我们的地位。在你的屏幕上。这是 M OCR bench,它告诉你一个模型在处理复杂文件时有多好,不仅来自研究论文,还有复杂的笔迹,用于大规模多语言 uh 光学字符识别。与甚至专门的模型如 Chundra 光学字符识别,甚至是像 Redu 这样的特定提供商相比,我们排名第一。这是你看到的例子,这是你看到的输出。

在幕后发生的是,这个图像被输入到我们训练的 encoder,它是一个 CNN 栈,告诉你文本区域在哪里。每个文本区域都变成了一个裁剪位置。所以你从文本所在的地方裁剪图像,然后将其输入到 decoder 来生成输出。现在这给你置信度分数。这给你边界框和元数据,你可以实际信任它,而不仅仅是简单的文本。我们可以更进一步,把这些信息输入到一个更大的模型,一个 decoder,我们也对其进行了条件化处理,以获取结构化输出。这就是年龄方面的来源。你获取信息,然后在其上进行条件化。这就是 OCR。现在我转向目标检测。你是怎样设法检测到脸的?

现在这是带有自然语言的目标检测。YOLO 模型很好,但它们只检测它们被训练的特定对象。我们在自然语言目标检测方面排名第一。这意味着你输入一个提示。让我们以这个房间为例。我给出我在我面前看到的东西的图片,我说检测所有穿着黑色 T 恤的人。Interface 能够做到这一点。这是一个复杂的事情。我们是如何能够做到这一点的?所以你拿同一个图像,你有一个文本 encoder,它编码文本方面,理解用户想要什么。你有一个图像 encoder,它理解或表示图像的位置方面,然后创建对比分割,这意味着它拉动彼此更接近的像素,允许你准确地检测对象。

如果你进一步使用这些信息,你现在可以分割这些像素。同样的东西——image encoder、prompt encoder,然后你有一个 mask decoder 会对所有像素进行分类以给你一个潜在的掩码。ASR 多模态是一个巨大的事情。不是很多模型支持现成的语音,我想今天谈论它。我们是最快的 ASR 模型之一,我们也有最低的 VR 每个错误率。那么我们是怎样做的呢?所以当你给警报形式的音频时,我们首先检测语音发生的任何地方,然后裁剪那些音频片段。所以我们获得分块,然后使用这些分块为 encoder 提取声学特征,该 encoder 也被训练来为特征提取嵌入。现在这些嵌入被用于聚类。

聚类允许我们将特征分割成组,这给我们 dization 输出。所以现在你知道哪个音频是由哪个说话者发出的,但文本再次来自编码部分,你将音频转换为频谱图。频谱图基本上是音频的可视化表示,然后你将其用作框架来生成或分类文本。所以无论发音是什么,都会被特别分类为文本。所以在继续下一件事之前,让我们看看 interface 为翻译提供了什么。所以对于这个,你可以看到 interface 不仅成功提取了所有文本并将其翻译成印地语,而且在不应该的地方保持了相关和安全。比如它没有翻译地址,它没有翻译作者名字,它也正确计算了字符数。

现在我们把这个与 Claude 4.7 Opus 进行对比,看看 Claude 会做什么。我们给了它三次尝试,这就是为什么我回到了这个。Claude 三次都失败了。这是因为超时。但即使它能够做到,如果这是一个长期的任务,多语言性会有问题,尤其是南亚语言。让我们回到之前。所以我们看到了三样东西——vision、audio 和 text。在使用这三个 encoder 时,我们训练这些适配器与同一个 decoder 一起工作。所以你会获得准确的数据,但你知道该数据来自哪里。你可以通过这种方式解决多模态问题。今天我非常兴奋地展示我们关于我刚才谈论的三种模态的数据。

我们对比这些——我们把 interface 与你在生产中通常使用的模型进行对比,这些模型是经济的,可以一次性完成任务。但我们为确定性任务进行对比,即只有一个输出的任务。如果你看一张图像,我的名字不能神奇地改变。它仍然会是 hersa。Yoan、我和我的团队在过去大约一年一直在研究我们如何构建特定任务模型。我们做了同样的事情。我们选择了小型语言模型。我们花了很多钱采购大型数据集,我们一直遇到确定性的相同问题。模型会幻觉。这就是我们认为我们必须回到会议室、重新设计架构并重新思考的地方。我们观察到数据不是瓶颈。

架构就是这样,这就是 interface 应该解决的问题。最后,在这样一个令人惊叹的观众和这样一个美丽的国家面前发言真是一种荣幸。感谢 interface。老实说,那些基准测试留下了深刻印象。谢谢。那太不可思议了。嗯,多么出色的基准测试。怎样,Usman?>> 你好。>> 进展如何?>> 不错。>> 各位,进展如何?>> 你知道吗,我发誓,你们作为观众,让我感觉像 Michael Scott。你看《办公室》。你知道我是什么意思吗?我就在这里。我在招待你们吗?你们就像,「不,我准备回家。」不要准备回家。现在还不是时候。好的。我需要你们受到启发。你们受到启发了吗?>> 这样更好。这样更好。Usman,接下来是什么?>> 好吧,现在我们有一个叫 Harishi 的家伙。有趣的是,>> 这太棒了。

这次他实际上是在新加坡,>> 新加坡科技。>> 我们爱新加坡。>> 是的,>> 就是这样。能量结束了。>> 嗯,>> 请继续。>> 好的。嗯,他,呃,他的应用程序实际上是基于他在 AI 和特别是编码方面的个人错误。我很确定我这里的所有 vibe 编码人员都可以与我们所有经历过的错误、错误或错误数量联系起来。>> 顺便说一下,看看这个墙纸。>> 哦哇。>> 对。这个墙纸就是你如何知道它会是一个超级大作。太酷了。你准备好了吗?嗨,>> 你可以开始了。各位,再次为 Hish 送上最热烈的掌声。>> 好的各位。好的,所以这实际上是我从我在一个非正式会议上的一次演讲中制作的 Bliss 的自定义版本,该演讲叫做「如何离开 Greenfield」。所以如果你不知道 Bliss,至少你知道 Greenfield。

所以这欢迎来到「没有国家的所有代码」,对吧?这是一个工作标题。我认为每个人都在一直改变标题。所以这不是关于编码代理的演讲。这不是关于编码代理的演讲。这是关于在大型现有系统内构建代理的演讲,对吧?包括旧代码、组织和数据,因为这就是我们最终要做的,这是关于修复而不是重建、更新而不是创建、旧代码和组织而不是新的。事实证明,如果你从这些基本先验开始,一堆不同的原语就会落出来,对吧?你更喜欢更简单的可重用工作单元,而不是试图一次性填充上下文窗口,对吧?你从上下文中删除东西,而不是添加东西。你将控制流与提示分离,将提示与代码分离。

你调校行为而不是逐步的成功和失败。你构建成本意识系统,将构建和运行时分离,以便你可以有效地渗透资源。事实证明,如果你把所有这些事情都做好了,你就可以发送结果,你就可以做一件事并让它保持完成。你可以修复崩溃的东西并让它们保持固定。你可以随时进行 vibe,对吧?这使它变得更有趣。所以这真的是演讲的主要部分。我只是要花一些时间解释这一点,但如果那很好的话,呃,我们可以直接进入。

所以在此之前,我在电子和软件领域花了几年时间,瓶颈一直都是数据——如何将数据整形成对决策有用的形式。经过十年的思考,我创办了 Southbridge,当时的信念是 3.5 Turbo 就是那个解锁力,是我们所需的最后一个通用智能单元,之后我们可以构建其他一切。自那以后,我们为数据系统构建了连接器,能够自愈和再生;我们为医疗、金融、能源等行业构建了 ETL 系统。我认为我们作为一个物种,同时作为一家公司,开始解决摄取问题了。作为一个水平类别的摄取,无论是对新客户、新数据集,还是用户上传的数据。我们自创办以来所做的一切都是为了用 AI 解决数据的第一英里问题。

但问题在于,从数据开始的难处在于,从第一天起难度就调到了 11 级,对吧?因为你一开始就处在关键路径上,你的工作从基线上讲从一开始就需要长期视角和可靠性。即使在小数据上运行一次,比如一个 GB,验证格式、数据验证、解析实体这些都需要数百万次操作,而这些错误会堆积起来。上下文窗口——如果你还记得 Gemini 从 200 万降到 100 万,实际上还在倒退,对吧?但即使它增加 100 倍,我们一天内的数据量仍然远远超过你能处理的。但话说回来,我见过最大的、最致命的数据公司问题是多样性,对吧?数据作为一个整体堆栈非常非常多样化。无论是宏观还是微观都是如此,对吧?

在微观层面,人类,我们作为一个物种,把我们能想到的一切都变成了画布。文档、Excel 表格、PDF,就像内部我们有个笑话说,Excel 中的合并单元格按钮是对人类最大的犯罪之一。在宏观层面,公司真的是独特的雪花,因为你有不同的堆栈、程序、SOP、安全边界。即使是同一个数据库,比如一个小 Postgres,通过不同的网络和权限系统来看,看起来像完全不同的系统。但我想在这里做一个重要的区分,那就是在线和离线代理系统之间,对吧?这是思考这些事情的一种有用的方式。

嗯,就像在线和离线是指有人监控的事情和没有人监控的事情,对吧?尽管我想,我们想我们都想,大多数现实系统实际上有远远更大的离线组件而不是在线组件,特别是我们所有做过的项目,对吧?你只有在每次都要从头构建的时候,才真正需要一个活跃的、延迟敏感的人工干预;如果你能构建随时间推移而变得可靠的系统,并记录你的偏好,那么所有这些工作都可以离线进行,在夜间用本地模型运行,成本更低,代理可以像电器一样工作。它们可以重复执行同一项工作数千次,对吧?你在睡前晚上给洗碗机装满。下一个是我们仍然相信编码代理将成为代理工作的基础基质,对吧?

并不是因为所有代理工作都是编码,对吧?事实上,我认为我们很快就会在编码上饱和。但因为编码代理循环正在成为具有最多资源、最多强化学习、最多部署压力的东西,而且它有通用的原语:读、写、编辑、shell,对吧?就像 V8 和浏览器成为大量实际上不是网站的软件的基质一样,我们相信编码代理框架将成为大量代理工作的引擎层。好吧,那就够了关于事情的总体结构。我们实际学到了什么?对吧?第一件事是停止推送单次调用,对吧?单次性能我认为在构建东西时可能非常有趣,就像这里一样,你知道复杂的指令、长期计划、巨大的技能。

我认为 Sabina 在后面的压缩中谈论薯条和更多薯条。但可重复的工作,这是我们所说的与所有这些本能相悖的地方,对吧?这不是你想要构建的方式。如果你想要自驾代理,对吧?因为你想做的第一件事是把事情分解成小的原子片段,在 Hankqu(这是我们使用的、用了很长时间、最近开源的运行时)中,那些小的小盒子被称为「codons」,对吧?你把这些链接起来以获得你想要的行为,并使它们可重用和可组合。如果你以这种方式分解它,就能更容易地推理长时间运行,这最终成为瓶颈。

你能够推理出在第 20 小时或第 25 小时会发生什么的能力,就像你,人类,最终成为你构建复杂软件的瓶颈,对吧?下一件事是从上下文中删除东西,对吧?我仍然对有多少框架、系统或者说框架没有办法从上下文中删除东西感到惊讶,对吧?就像我们一直以来的默认行为是有边界来删除上下文和归档你不需要的东西,对吧?防止我们内部称为「世界线腐烂」的东西——你知道,泰德·拉索说「做金鱼」最终是件好事。下一个是只需按类型分离组件。

就像作为一个行业,我们一直在重新学习这一点,对吧?当我还在大学时,我们有冯·诺依曼架构,代码和数据分离成了一件事。后来我们有了 PHP 和 CGI,又花了四年时间才学会必须分离模型、视图和控制器。在代理方面,同样的故事,对吧?你,如果你想构建可靠的系统,你要把这五样东西尽可能分开,就像数据、提示、控制和其他的,对吧?在过去的一年里,我们和很多人合作,我们接触了大量信息,我们阅读了数百万个 AI 生成结果的词汇,就像我说的那样,那是我们的超能力——我们读输出,我们为你读输出,我们读从这些东西中出现的一切。十次中有九次,如果某样东西坏了,那是因为在你和代理之间有错误的抽象共享,或者因为上下文中留下了不需要在那里的东西。

所以进入我们更多的东西,对吧?就像我们通常基于「最好的部分是没有部分」的原则来构建,对吧?所以简单的工具按顺序工作,就像我们谈论的,你只在绝对必要的时候才添加东西。所以我希望当我说我们从未真正需要并行代理时,这不会让你惊讶,对吧?对于我们在可靠性工作中做的工作,单个主代理线程对我们有太多无法放弃的好处,对吧?很多编程语言,Python、JavaScript,许多都会同意,我们马上会看看我们这边的一些好处。但对于我们版本的事件循环,那个小技巧就是我们称之为「哨兵」的东西。所以我们最初设计这些东西来监控长时间的代理运行,但它们已经成为我们最强大的原语。

所以哨兵是从主循环的事件组合中触发的大语言模型调用,对吧?它们触发、模板化它们的上下文,然后将结果写入文件。一个哨兵可以每 50 个工具调用唤醒一次,总结发生了什么,然后回到睡眠,对吧?但事实证明,它们在捕捉行为方面很棒,而不会产生那么多复杂性,使你必须排查评估系统。所以是懒惰、模拟、糟糕的数据卫生、文件权限、shell 错误。你在我们称之为哨兵的可重用东西中定义你想要的模式,然后在主线程中修复它。对吧?远远比 hook 更多。这对我们合并行为来说好得多。所以我再做一个,只是再做一个,那就是预算。对吧?

我们这一方的长期系统只需要在所有重要的轴上保持成本意识。但如果你做了我到目前为止所说的一切,你可以创建一个声明式预算系统,这真的是最好的一种,就像 SQL 一样。你可以表达你有什么,系统会弄清楚中间的差距。对吧?在像 AI 这样快速发展的领域,模型、框架、实现细节一直在变化,声明式实际上会赢,因为它可以防止你需要重写东西。所以我们有所有不同的轴——金钱、令牌、时间、数据访问——甚至在正确的时间。你在构建时表达这些应该如何分配。在运行时,你实际上知道你有什么资源。所以你可以解决这两件事,对吧?最后,如果你做所有这些事情,你可以交付成果而不是构建工具,对吧?

我这样对一屋子人说,包括我自己,他们都非常关心工艺,关心工具,对吧?但大多数人不关心他们的洗碗机是如何工作的。他们不关心他们的汽车如何注油。他们想要干净的盘子。他们想要到达他们要去的地方。就像,所以我们的北极星一直是部署能够交付成果的系统,对吧?这可能是尽快让客户加入、验证研究假设、缩短集成时间,对吧?或者只是在不将我们称之为 Achilles 的东西嵌入到你的数据中的情况下做所有这一切。为此,代理需要成为基础设施。它们需要变得平凡、可重复、可预测。所以那真的就是我们的目标,对吧?构建能够成为遗产的东西。只有在代码中,遗产才真的是一个坏词。

在某些方面,你试图把那个带回来。有很多东西无法放入演讲,但你可以在这里找到长版本。谢谢大家。哇!啊,Hershi,非常感谢。那是一个很棒的演讲。你知道,我在舞台后与 Hishi 谈了话,我已经做好了准备。哇,多么不可思议的演讲。再为 Hishi 热烈鼓掌,各位。天哪。太棒了。我们的下一个演讲是另一个令人兴奋的演讲。我去舞台后问他,我说,「嘿,你的演讲是关于什么的?」他说了三个词。他真的只说了三个词,没有更多了。没有更多的话被说出来,Henry。嗯,这些词是 MCP versus CLI。就是那个演讲。我对你们中有多少人每天都在使用 MCP 感到非常兴奋。几乎每个人。哇。你用它做什么?你,那边戴眼镜的那个人。

你用它做什么?调试生产环境。太棒了。那实际上是个很好的用例。我们,在我工作的地方,我们使用一个叫 Monday 的项目管理工具。有人在这里使用 Monday 吗?Monday monday.com。嗯,我不打算说什么。无论如何,嗯,他们有一个像网页 UI 这样的 UI,但他们也有一个 MCP 服务器,这太不可思议了,因为我可以在 Cursor 中工作,我首选的 IDE,不是 Spawn。嗯,我在里面有 Monday MCP 服务器,我可以说我要在代理中将这个会议添加到 Monday,它就这样做了,太酷了。所以我是 Team MCP 的忠实粉丝。嗯,但当然 CLI 也有存在的理由。我是说,Claude Code 是一个 CLI 代理,一个具有 MCP 客户端功能的编码代理,对吧?那么,这如何运作呢?好吧,我们很快就会看到。

Henry 现在在这里设置,再过一分钟,我们将听到关于 MCP versus CLI 的演讲,这甚至可能不是一个 versus。它可能是 MCP 和 CLI。嗯,你认为 CLI 有点过时了吗?有人吗?没有。是的,当然不是。因为如果我们不使用它,代理会使用它。我认为它是一个非常棒的用户界面。我慢慢没有东西可说了。哦,好的。看那个。嘿,听着。我们快到会议尾声了。这将是一个伟大的演讲。为 Henry >> Mau 给予最热烈的掌声。>> 不,>> 我们还有一点。>> 没关系。哦,他是 你必须 你必须延伸。选择延伸显示。我现在是技术支持。我们 是吗 准备好了吗?没有。快了。好的。不,看他们做的是他们在延伸,但他还没有拖动窗口。这现在是评论,各位。

这就是我喜欢的。谢谢。哦,真遗憾。你知道,这就是...这就是...你知道你把这个叫什么吗?你把这个叫「可怜的掌声」。谢谢。我需要这个。顺便也往我的帽子里放个硬币吧。好的。这次延长了。他们拖长了。好吧,让我们再试一次。掌声最热烈的是亨利·毛。>>感谢介绍。我叫亨利。呃,大家好。我是 Smithery 的联合创始人。呃,今天我要讲的是 MCP、CLI 生态系统,我们在 Smithery 这里看到的东西,以及这如何与赋予你的代理更多自主权有关。所以,一点背景。呃,在我之前的创业公司 Jenny AAI,我们为学术研究人员开发了一个 AI 学术助手。当我看用户使用我们产品时,真正困扰我的一件事是,他们经常打开多个窗口。

呃,他们会使用不同的应用程序以及 track GBT,他们会在这些应用程序和他们选择的 AI 之间花费大量时间复制粘贴。这是一个影响每一个知识工作者的更广泛问题。无论你是在终端之间跳转,在你的编码代理之间跳转,还是在你的 CRM 和 Google Docs 之间跳转,我们都陷入了一种复制粘贴的地狱,因为人类本质上充当了 AI 的适配器层。你在循环中提示模型进行对不同服务的每一次读和写访问。提示确实是当模型无法访问你的数据或代表你安全地采取行动时,你支付的税。这个税相当昂贵。所以大约一年前,我创办了 Smittery 来解决这个问题。

MCP 刚进入舞台,我把它看作是帮助弥合代理和服务之间差距的一种方式。所以我们启动了 Smidy 作为一个开放的 MCP 注册表,我们追踪了由数千名开发者组成的社区,他们在我们这里发布了他们的 MCP 服务器。我们构建了一个网关,汇总了这些服务并统一了身份验证,以便代理可以方便地访问所有你的 API,分组为一个单一的工具箱。我们目前为我们的用户每天处理约 100,000 个工具调用。但我们的旅程根本不顺利。呃,老实说,呃 MCB 在推出后有很多炒作,但也有很多问题。该协议绝对是雄心勃勃的。它试图在代理摸索如何很好地调用工具的同时建立一个标准,并且它必须在 2025 年初快速更改其规范。

MCP 客户端和服务的实现很差,这导致了用户的很多挫折。所以到 2025 年底,我认为许多人开始宣称 MCP 基本上已经死了,就像它爆炸一样快。事实上,至少有五个人在这次会议上,我认为在过去两天内问过我同一个问题。MCB 死了吗?我们要彻底解决这个问题,因为很多人提出的许多批评都是有道理的。人们对 MCP 有不好体验的主要原因是,2025 年回溯的大多数装置都采用了非常幼稚的方法来将工具添加到其中,添加到模型上下文中。他们只是将每一个工具都倾倒到上下文窗口中,就像右侧的这个图表一样。

想象一下,你知道,想象你在用 Chrome 浏览网络,但 Chrome 想象一下如果 Chrome 根本不呈现 HTML。它只是把原始 HTML 和 CSS 倾倒给你,然后让你想办法点击什么。这基本上就是我们对模型所做的。一个装置将所有工具倾倒给模型,并期待它表现良好。它给了模型信息过载,而不是呃呃而不是呈现一个可用的交互层。所以这浪费了很多令牌。它导致了上下文衰退,显著降低了模型性能。更糟糕的是,许多在 2025 年构建的 MCB 服务器实现不佳,基本上是它们官方 API 的削弱版本。其中许多没有实现适当的身份验证。

开发者基本上会在工具描述中手工制作这些提示词,试图对较弱的模型进行 prompt 注入。这些都是反模式,把特定任务的行为耦合到工具描述中,而这些行为原本应该属于技能。所以缺乏良好的开发者体验最终导致人们寻找替代方案。编码代理在 bash 方面表现得很好。所以人们问的自然问题是,为什么不直接使用 CLI 呢?CLI 有很多好处。首先,CLI 内置了渐进式披露。它有管道,所以你可以将不同的子命令组合在一起。并且它建立在成熟的 Unix 栈上。但我们在这里犯了一个隐藏的范畴错误——我们在将 CLI 与 MCP 进行比较。MCP 代表模型上下文协议。所以它是一个协议,而不是一个接口。

把它与 CLI 进行比较有点像比较苹果和橙子。这个图表希望能更好地解释这一点,因为协议的工作(如 REST 和 GraphQL)是定义如何通信的标准,而不一定是定义如何将工具渲染给模型。缺少的是一个能够很好地向代理渲染 MCP 的好工具,我们称之为原生 MCP 渲染。好消息是,到 2026 年初,Claude 和 Codeex 等主要工具已经构建了正确的方式来渲染 MCP。所以我们想在 Smittery 测试这一点。现代工具在使用原生 MCP 渲染器时的性能如何与 Bash 和 CLI 相比?所以这是我们所做的实验设置。我们在三个核心 API(GitHub、Linear 和新加坡公交 API)上运行了基准测试。

我们选择这些 API 是因为它们代表了不同的 API 风格以及训练数据污染问题。我们还选择了这里列出的三个不同的模型。我们改变的主要事项是我们提供给代理的接口。所以我们要么在代理工具上将所有这些 API 作为 MCP 服务器安装,要么为它们的 bash 接口提供 CLI。我们的目标是衡量准确性和代币效率。所以,这是对观众的一个问题。请举手。有多少人认为原生 MCP 的表现优于 CLI?好的,我们有一些人。有多少人认为 CLI 的表现优于 MCP?好的,有更多人。有多少人认为这无关紧要?就像说,这只是平手。好的,我们这里也有一些人。

所以令我们惊讶的是,原生 MCP 在准确性和代币效率两方面都赢了,这真的打破了我们在过去一年所信奉的神话。这主要是因为模型工具已经更新自身并变得更高效。但我对这里更感兴趣的是:代理体验设计的哪些原则真正重要?比如,我们可以做什么来改进 CLI?或者,工具的哪些原则能让 MCP 表现得如此之好?所以我们进行了一些消融实验,通过改变我们 CLI 的构造来看是否能匹配原生 MCP 的性能。

所以我们进行了一个实验,向 CLI 添加了更好的描述。我们也进行了一些实验,向 CLI 添加了搜索功能。我们发现这两件事在我们尝试的许多不同方法中最重要。首先是自我文档化。所以如果你为代理提供可发现的、描述良好的工具,性能会更好。第二件事是搜索。如果你为代理提供在 CLI 中搜索子命令或在 MCP 中搜索工具的能力,性能会显著提高,因为这减少了找到合适工具所需的步骤数。所以,如果你将这两个原则应用于你的 CLI,基本上可以弥补与原生 MCP 的性能差距。完整的实验细节在我们的博客上。

所以,此时此刻,你可能在想,嗯,我其实不太关心 token 成本。我的公司会付钱。或者模型会变便宜。嗯,你知道,结果已经足够接近了。我就用 CLI 吧。你说得也没错,对吧?如果你是在本地运行东西的工程师,你可能应该就用 CLI。顺便说一下,我没有得到 MCP 的赞助。嗯,我们在 Smitter 推出 CLI 产品后运行了这个基准测试。所以,我们两个都能用。但我确实想给 MCP 应有的认可。首先,CLI 在你想要设置沙箱时是可以工作的。但有一个好的 harness,MCP 就能直接开箱即用。所以这些是你实际上想要运行云代理的用例,um 这是无沙箱的。

你可能想这样做的原因是,它对于与编码无关的轻量级任务来说会更轻便,延迟更低。所以可移植性是 MCP 的一个优势。另一个好处是 MCP 将上下文工程的责任放在了 harness 上。这意味着如果 cloud code 更新并改进了它的 harness 以及它如何解释工具,你的工具也会得到改进。但 MSP 还有一个更微妙的好处,这在你想要向代理有更多自主权的世界发展时很重要,那就是权限管理。因为我们发现的 CLI 的主要弱点是,它通常范围太广了,因为它是为开发者制作的,当你想在很少监督的情况下运行它时,它有一个巨大的攻击面。CLI 给了你王国的钥匙。

所以,无论何时你在后台长时间运行一个 CLI 代理,你其实被困于两个糟糕的选择。你要么申请批准,这实在是扩展不了,要么像你们大多数人可能犯的那样,你会危险地跳过权限。MCB 在这里的一个优势是它定义了一个有明确立场的小表面。所以它使得,嗯,它使得你更容易保护它。这个瓶颈点允许我们对你的代理应用策略和护栏。例如,如果你正在使用 spitter 的网关,我们提供一个策略 DSL,这样你可以对你的代理能做什么或不能做什么执行细粒度权限。所以这个原语在我们将代理升级到完全自主时给你安心。那么,回答问题,MCB 已经死了吗?我不这么认为。

但这也不是这次演讲的重点。在我看来,MCP 和 CLI 都有各自的用途,而代理体验、安全性和身份验证背后的原则是会一直存在的。MCP 可能不再是时代精神的一部分。这很好,因为一个协议能发生的最好的事情就是它变得像 HTTP 一样无聊。无聊到足以让我们继续解决更雄心勃勃的问题,并推向代理由成果驱动而非提示驱动的世界。代理可以完全从聊天机器人毕业成为同事。这就是我们如何从人在每个循环中转变为人在循环上的方式。谢谢。如果你对连接你的代理感兴趣,稍后来外面和我聊天。>> 是的。和 Henry 聊天。再来一轮掌声,各位。Henry Mau,我们从人在循环中走向人在循环上。

说实话,我已经准备好了。听着,听着。我们的下一位演讲者,我被告知,我只是今天才见到他,但我被告知他是,我逐字引用,新加坡所有工程师中最有天赋的。你听到了吗?他们 所以,听着,我甚至,我甚至没有资格介绍他。所以,我,我需要帮助。Ivan,Ivan,为 Ivan 鼓掌,各位。所以 Raj,我已经有幸认识 Raj 有一段时间了,他做的事情绝对是令人难以置信的。我们曾经有过一次黑客马拉松。他进来说,「哦,我要构建一种方式让代理可以协作。」然后我们,他完成了,我们说,「哦,你周末还在做什么?」他说,「哦,有 Mistro 黑客马拉松。你那时在做什么?」他说,「哦,我已经构建了一个工具来帮助我为下一个黑客马拉松构建我的提交。」

然后他赢得了 Gemini 黑客松。他几乎赢了 Mistro 黑客松。然后他说,「哦,我一直听说这个 Kim 2.5 thinking。它相当酷。」我说,「哦,那很好。」那么他接下来做了什么呢?他自己进行了后训练,最终击败了它,并将其用作他的主要智能体。Raj 绝对不可思议,老实说,我很期待听到他的发现。>> 谢谢你,Ivan,感谢那个……嗯,是的,我是 Raj,今天我将讨论我在创建进化型框架以及一般进化算法方面的旅程。关于我是如何走到这一步的,我来简单介绍一下。最初,这是我和我的朋友在做的一篇论文。我们在思考如何从头开始创建扩散模型,我们特别是在创建一种医学扩散模型,用于国际象棋活动。

当我们在做这个项目时,我们意识到一开始数据非常少。当我们浏览不同的论文时,我们偶然发现了一篇讨论模型具有人类「趣味」概念的论文。这篇论文基本上使用了一个语言模型作为开放式强化学习课程的判断者。这让我接触到了开放性和算法的整个世界。我认为自然而然地出现的下一个问题是,如果我们声称智能体可以是开放式的,并且它们永远在产生新颖性,那么在我们自己的生态系统、我们自己的生物学中,这看起来会是什么样呢?我认为太阳是这个问题的一个很好的答案。

基本上,来自太阳的能量粒子进入地球,然后被发射回太空,以及更高熵的光子,基本上启用这一切的梯度就是生命本身。生命是创造更多熵的东西,这是一种非常特殊的熵,花了三十亿年甚至更长时间才能创造和产生。那么问题就变成了,我们如何能将这个映射到类似的系统,比如智能体本身。所以这就是我试图做的,就像,如果太阳本身就是计算,DNA 使这些较小的细胞生物进化成像我们这样的复杂生物,我们编写代码,使用代码,可以思考,可以对事物做出反应并创造更多熵。这基本上就是这些智能体的轨迹。

嗯,选择偏差本身就是框架。基本上随着模型的演进而演进。我之后读的一篇非常有趣的论文基本上展示了一个智能体随着时间的推移逐渐改进自己。它叫 omni epic,其中你有不同的环境,智能体最初在单一环境中非常专业化,随着时间推进,它变得越来越通用。那个智能体的通用性使它能够执行展示涌现行为的任务,这是一个非常有趣的反馈循环,然后导致了同一个作者写的另一篇论文的创作,其中代码本身是……当他们用代码替换它时变成了代码。

嗯,它实际上展示了性能的显著改进,智能体从在 Swenge 中仅 20% 的性能提升到基本上 50%。就在那时,我意识到,如果你能够演进你放置这些智能体的环境,并演进工具,嗯,这两样都是你可以利用的杠杆,最终可能会改进整体智能体的性能。如果你看看一切的轨迹,我们有远好于我们拥有的框架的模型,每个公司都在尝试创建自定义框架。我不认为这是正确的做法。如果你能拥有自我演进的框架呢?已经有关于这个的论文,比如元框架、ROM,以及很多其他文献。

下一步将是智能体本身。如果你能够将内存状态保存在其他地方并演进那个智能体呢?接下来会是世界模型这样的东西,不是物理世界模型,而是与类代码环境或各种可能差异很大的类代码环境交互的世界模型。我和一个从事相当有趣的世界模型论文的朋友谈过的一个东西是,更有趣的会是看到这些世界模型中的智能体的架构会是什么样子。它们可能是新颖的,不是手工制作的。

它可能不会使用我们使用的相同技术,但那是一个值得看的东西,我们如今也在看到这一点,最初模型增长的规模花了我们很长时间才能饱和 MMLU 和其他基准,但每隔几周你就会看到一个新的 soda 模型出现,这不是因为我们有更多更好的或只是更好质量的数据,而是因为训练循环变得更快,模型在一定程度上自己关闭了循环。嗯,我的观点是,缩放法则在一定程度上仍然成立。只要人类比智能体或框架本身更有趣,它们就会成立并继续成立。这可能以不是手工制作的不同架构的形式出现。它们不一定非要是人工制造的。

这是我相信会继续存在的东西。在我的旅程中到目前为止,我发现的是,当创建我制作的更大的元框架时,通常改进模型性能的是轨迹。它从来都不是权重。这类似于 DNA 保持不变,而我们表现其特征的方式改变了。嗯,值得研究的工件是路径和推理轨迹,以及为什么模型做了某事,而不是最终状态,是的,如果这有意义的话。嗯,我在构建代码图时学到的另一件事是,迭代循环对此非常重要。最成功的生命形式是那些适应非常快的,那些死亡非常快的。如果你能更快地关闭那个循环,它就让你做更多的事情。这可以有很多形式。

这方面的一个很好的例子是语言。你用什么语言编写代码?我认为对我来说,我现在的大部分工作围绕或用 zig 或 rust 编写,但我意识到,最终,当你想创建越来越好的工具时,嗯,具有较小编译时间的语言实际上最终会创建更好的工具,你可以为这些工具创建更好的测试,即使那种语言不是内存安全的。我确实相信,最终也许在今年或明年,几乎每个公司都会开始编写某种自己的元智能体语言,无论发生什么,这些模型都会不断变得更好,它们不一定非要是人类可读的。所以这些只是我为自己构建的一些工具,我一直在内部使用,比如 muanry,它只是一个更快的 rip grab,使我的智能体能够获得更多上下文。

嗯,检索代码的确切行。Code DB,这也完全开源。这是对我自己的框架的三角搜索,智能体获得他们需要更改的代码的确切行,这样他们就不会有上下文腐烂。嗯,nanobrew 随后被创建是因为一旦你开始在沙箱中放置这些智能体,你就会意识到一种获得嗯编码环境设置的方式,你可以快照它。另一件事是你可以继续拉取像 abt get 这样的东西,获取你需要的包和依赖。但我想,如果你也让这个更快呢,这样你就可以解析那个环境,这就是 nanobrew 如何诞生的,它比 appget 和 homebrew 本身要快得多。

正是这样,我意识到我还需要为我的智能体创建另一个并行工具,以便它更好地浏览网络。它类似于智能体浏览器,但同时使用 A1Y 这样的扩展(CDP 或 Chrome 向人们公开的)来减少令牌使用,这实际上提高了智能体大规模浏览网络的能力。最后,回到整个进化循环——Dev Swarm 就是这样产生的。在 Dev Swarm 中,编排的本质上是一组可以改变形状的工具或模型。

所以你可能有几个 Opus 上下文窗口加上几个 ChatGPT 窗口,配合整个多智能体框架,而真相来源则是更严格的东西,比如 terminal bench 或 legacy bench。随着越来越多人开始使用这个,我获得了更多关于什么有效、什么无效的遥测数据。快速补充一下,所有这些都融入了某种适应度函数,在编码智能体中,harness 每次都会重写。最后,harness 就是代码图(CodeGraph),它曾在 terminal bench 上运行,但现在不再了,它本质上是根据这样一个事实创建的——它是一个自进化的 harness,随着时间推移,不同模型使用越来越多,它也变得越来越好,并创建了自己的工具。所有这些工作也都是开源的。

这些轨迹也是开源的,但我还没有大规模发布,不过你肯定可以查看,因为它仍在进行中。所以是的,我最终构建的是一个 harness,但随之而来的工具也形成了一种进化循环,所有这五项本质上都让这个 harness 变得更好。有了这些,我想感谢大家今年来参加 AIE。我觉得今年将是为数不多的几年之一,你会不断看到「苦涩的教训」。苦涩教训。是的。谢谢你。天哪,我觉得我应该就在这里鞠躬。哦我的天,多么精彩的演讲。谢谢。再给这位仁兄一轮掌声。我的思想被震撼了。我的思想彻底被震撼了。你能来设置一下吗?我想先总结一下,好吗?

我们在舞台上碰撞了。你知道我的意思吗?哦我的天,那太疯狂了。什么演讲。什么……我觉得这边的人疯狂地欢呼。我不知道。你们都睡着了吗。但是,就是这样。你叫什么名字?Daryl。Daryl。哦对,我看到你了。是的,灯光。嗯,听着,我确实在找他分享的那些开源项目之一。没有它我就卡住了。他拯救了我的整个想法。这太疯狂了。而且他这么年轻却建了这个东西。我真的……我们能再进行一次冥想课程吗,这样我可以思考一下那个?你知道我的意思吗?我的天,Raj,太不可思议了。嗯,我们已经到了会议的末尾。哦,w 在这里。是的。很遗憾。很遗憾。嗯,但我们必须对那里表示尊重。没人死亡。

我们必须必须对……a grim 的最后演讲致以一些关注和敬意。看他,他赢得了新加坡最多的黑客马拉松。有人告诉我,他是在这个生态系统中成长起来的人,他通过会议、团队和志愿者做出了自己的贡献,真正把这件事付诸实践,并使人工智能在新加坡继续获得关注和远景。所以,会议背后的大脑,会议背后的心脏,我整天和他一起走来走去,很清楚地看到每个人都认识他,每个人都喜欢他。让我们向他展示我们对他的了解和喜爱。为 a grim sank 致以热烈的掌声。测试。大家好。嗯,这是今天的最后一个演讲,所以我们会保持新鲜。

嗯,这是关于如何在三个月内组织一个会议的。这个故事要追溯到 2025 年 7 月 16 日。嗯,Rachel、Sherry 和我在吃午饭,我觉得我们对新加坡围绕人工智能事件的事务状况有普遍的不满。很多谈话,没有真正对建造者友好的时刻发生。那时我们还没有真正开始做任何活动,但我们感觉无论我们最终做什么,都会导致我们举办一场会议。那时我发了一条消息说,我认为我们会以一种「自由泛」的方式来运营城里最大的会议。我不认为它会发生,但看这个周末,它似乎成功了,对吧?但显然你不能「自由泛」这个,对吧?

嗯,想想看,我们可以把一千人塞进一个礼堂,给他们所有我们能找到的人工智能东西。但你得测试一下观众。是因为生态系统没有反应,还是说,你知道,生态系统反应非常积极,但活动没有为他们服务。所以我们尝试做了几件事。发送那条消息一周后,我们为 Cursor 举办了一个见面会。那时我们想,好吧,也许这是第一批规模这么大、涉及人工智能工具的开发者见面会之一。也许会有 100 人出现,也许会有 200 人。我认为我们最终得到了 900 个注册。我们最终让 500 人进了门。那时对我来说相当疯狂。

快进几个月,我们想,好吧,让我们做一个黑客马拉松,因为黑客马拉松在我刚入行时曾经很受欢迎。我们想,好吧,让我们做一个 24 小时黑客马拉松。看看有多少人会报名。也许人们会来,也许他们不会来。1,200 人报名了。我们让大约 500 人参加。嗯,人们从远至荷兰,从整个地区飞来了。这给了我们很大的信心,也许问题不在于活动本身,而是人们确实需要一个聚集的空间。所以 90 天前,我们见到了 Swix,我们告诉 Swix,「我们要运营 AIE Singapore。」我想他那时想笑我们,因为他说,「你们是认真的吗?我帮不了你们那么多。我还有其他 AIS 要运营。你们以前举办过会议吗?人们会付钱吗?」

你们打算怎样做这一切?」我们的回应通常是,「是的,我想我们会想办法的。」这一直是整个活动背后的座右铭。所以如果周围有任何粗糙的地方,我为此道歉,但我们确实尽力了。这就是它的进展方式。所有这一切都围绕着高意图。我们的意图是让这成为我们能做到的最对建造者友好的活动。我们想确保房间里的人想来这里。票价不便宜,我理解,但我们想确保真正想来这里的人在这里。我们想确保想来这里的演讲者在这里。所以我们把他们飞来了。

我们想确保想来这里的赞助商在这里,他们很乐意赞助这次会议并参与其中。所以一切都以这样的方式汇聚,所有真正想在今天或整个周末待在这个房间里的人都在这里。我们没有发放免费票。有很多人在等待可能发生的事情。他们可能会找到免费票,就像在其他会议上一样。这里不是这样。所以你们都在这个房间里,因为你们付了钱,你们真的很想来这里。所以对你们大家致以热烈的掌声,你们一直在出现,房间整天都满满的,现在是下午 6 点,你们还在这里。

显然,谈话的质量、正在发生的事情都运作得很好,你们想整天每天都在这里。呃,演讲常常人满。每位演讲者都告诉我他们在舞台上度过了美好的时光,因为观众对他们想分享的一切都反应热烈,而我们之前并不完全确定新加坡观众是否会和旧金山或伦敦的观众一样。看到每一天都有满满的会场真的非常振奋人心。但问题是,你不能只是从海外复制一个会议,然后粘贴到新加坡,对吧?对我们来说,很容易就能说「让我们直接复制 AIE 福利,然后粘贴到新加坡」。但新加坡是一个不同的观众。新加坡有不同类型的人。

新加坡对会议有不同的期望。如果这是一个研究密集型会议,也许我们会失去你们中的一半。如果这个会议太简单,也许它不会让你感到你从一个人工智能工程师会议中获得了你所期望的严谨性。所以找到那个平衡点是一个非常独特的新加坡事情。此外,你必须让这个会议成为你自己的,因为如果你不打算完全复制什么,你对编程面貌的贡献是什么?Sherry 制作了我认为大约 21 个版本的演讲者名单。你如何将演讲者分类?你如何确保当你听关于 openclaw 相关的演讲时,你同时听到几个?因为这样你就可以看到几个演讲者的观点,然后自己做出判断。

也许你今天早些时候听到了 magic path 和 magic pattern 接连出现。名字相似,领域相似,但他们对产品的思考方式截然不同。这让你可以形成关于事物如何运作的自己的看法。但另外,我们想为 AIE 活动增添我们自己的风味。这里的每个人都有工作坊的门票。这通常不是其他 AIES 的默认配置,但我们认为如果你要首次在新加坡举办一个「以构建者为先」的活动,你需要有人去构建。像这不是一个思想领导力活动。这不是关于人工智能未来的炉边谈话小组讨论。这是一个构建者活动。如果你在这些日子中至少没有构建一个,那么我们就失去了所有这一切的目的。所以工作坊是其中的一部分。

我们增加了一些减压课程,因为我们觉得人工智能焦虑、token 焦虑是这些天的一个既定事实,考虑到事物变化如此之快,人们需要一种方式来理解他们与人工智能的关系,并在每天 30 多个演讲中找到一种减压的方式。这部分很重要。显然,按照真正的新加坡风格,我们想确保你们玩得开心。所以我们昨晚举办了一个大型派对,Jeff Huntley 和我最后在一个领衔 DJ 出现之前担任了 DJ。但这又是我们认为如果你要在新加坡举办活动,我们必须按照我们喜欢在这里做事的方式来做的事情。但显然,尽管演讲很精彩,编程很精彩。

运营像这样的活动的全部意义是发生的走廊碰撞,你在展览中遇见的人,你能够交谈的人,你拥有来自大多数赞助商的主要团队亲自在场。你拥有你可以在任何时间点与之相遇的演讲者。无论你是在喝咖啡,是否在吃午饭,呃是否你想见他们因为他们坐在你身边参加演讲。提供演讲者的访问权限,提供团队的访问权限是在新加坡非常罕见的事情。如果你去任何会议,无论是人工智能还是其他事情,你主要会看到一个营销人员坐在那里告诉你关于品牌,交换名片,就这样。当你试图与公司相遇时,这不完全是体验。其中一些从未在新加坡。

其中一些从未参加过任何这些会议。所以在剧院外创造那些时刻对我们来说真的很重要。我相信你们很多人都有机会走过展览区,与团队见面。其中一些人飞行了 17 小时以上才来到这里。其中一些人以前从未到过新加坡。所以为我们创造那种体验真的非常、非常重要。我们希望像 AI 一样让你在周末获得那种体验。但这里的重要事情不仅仅是房间里已经有的人。而是我们如何定位下一代也从中受益。如我所提到的,票价很贵。

但我们不应该因为经济困难而向在场景中即将到来的孩子,在大学在学校中封闭这种水平的会议的机会,因为他们将是构建者。所以我们提供了奖学金。外面有一些关于这个的信息,但基本上我们有一个赞助商是一个我们听说过的大组织,在我们应该宣布奖学金之前两天撤出了。这对我们来说相当令人心碎,因为我们想让孩子们参与。所以 Rachel、Sherry 和我决定我们会自己掏腰包来做这件事。但很多场景中的构建者以自己的个人身份决定参与,我们能够带来 20 名学生。

20 名与演讲者见面、与他们一起闲逛、向他们学习的学生,也许有他们在任何其他情况下都不会有的终身机会。我们有一些学生在舞台边。我们很乐意让他们上舞台。所以,你们能让他们上来吗?我们通过我们组织的所有黑客马拉松、我们做过的所有活动找到了这些学生。这些家伙在我们做的每一个活动中都出现。显然,我们所有的活动按设计都是免费的,因为我们想让他们进入房间。但这是我们能提供的机会的顶端。这些显然是我们赞助的 20 人中的四个。你们可能在周围看到过他们。

他们一直在 Twitter 上做所有的总结,发布关于它的内容,写下他们的经历,与所有飞来的人见面,这是我们至少能做的令人难以置信的事情,以确保孩子们享受这个。所以再次感谢你们,伙计们。我确实想为做出贡献的人呐喊。我 Patrick Kelly 来自 Arise。Arise 实际上是这个会议的赞助商,但 Patrick 决定额外掏自己的钱来支持孩子们。Neil Chang、Ivan、Leo、Casper、Suken 来自 Iterative、Zayn、我自己、Sher、Rachel、许多决定赞助 20 名学生的匿名构建者。所以,再次,为每个人热烈鼓掌。所以,我们听过很多次,特别是在新加坡。这里没有场景。什么都没有发生。我认为我需要飞到旧金山去参加一个会议。

但我认为在周末结束时,我想让每个人都感到你们就是这个场景。你们定期出现。每一个演讲,每一个工作坊,在展览周围,就像昨天 8:30,今天上午 9:00,穿过雨,穿过任何可能阻止你们的条件。你们出现在我们为此铺设的所有副活动中。每个活动都被超额认购。每个活动都有数百人出现。即使你不认识这些公司,即使你不认识谁会去,只是因为你知道有更大的事情正在进行,你可以成为其中的一部分。我想那是你们会记得的东西,因为这超越了仅仅新加坡人工智能。这将在未来几年建立这个国家的人工智能构建者场景。

这就是为什么这不是一个孤立的时刻。我希望你们继续出现。我希望你们继续构建。我希望你们在周末结过朋友,你们会保持联系。我希望你们去黑客马拉松进行构建,也许一起开始一些东西。我希望你们发布关于它的内容。我希望你们不要寻求许可来分享你正在做的工作,因为这是人们如何了解新加坡是一个正在发生行动的城市,不仅仅是旧金山是发生事情的地方。不仅仅是伦敦是事情发生的地方,而是新加坡,不仅仅在亚洲,而是在世界上,是一个值得关注的城市。

在这一点上,我真的想感谢所有来到的演讲者、赞助商、我们的主要赞助商、钻石赞助商和白金赞助商、OpenAI、ZAI、Google Deep Mind、Cursor、Arise、没有睡眠的志愿者、让它保持在一起的团队、你们中成千上万的人。我想将组织团队和志愿者都叫到舞台上,因为这些家伙一直是整个周末运营无缝运行的骨干。这些家伙确保你们吃得了饭。这些家伙确保你们的徽章和访问权限都得到解决。这些家伙确保你没有看到正在滑过裂缝的东西,只是这样你们就可以有最好的会议体验。我们还没完。稍等。>> 所以显然就像在真正的漫威电影风格中一样,你知道,AI 工程师会回归。

呃我们有一个针对感兴趣的人的签名表。呃我们会发送一些早期门票和类似的信息,因为我想我们会想出来。但我们确实想确保我们已经记录了你的意图,所以如果且当我们在不久的将来宣布时,你们是第一个知道的,因为你们对我们冒了风险。对于你从未听说过的人,对于一个从未在世界这个地方举办过会议的会议,冒着风险并定期出现在数字上是我们无法理所当然的事情。我们真的、真的、真的感谢你对我们的冒险。所以再次非常感谢。>> 我们能在这里播放一些音乐吗?>> 是的,我们再拍一张照片。我们再拍一张照片。>> 没有音乐。>> Swig 在哪里?Swix,上来。>> Swix,上来。

>> Swix 是全球 AI 工程师背后的人。如果你昨天听到过,他也是新加坡人,他让我们这样做就是为什么这正在发生。所以感谢 Swix。Swix 请晚安。只会是你和我。>> 只会是你和我。>> 好的。3 2 1 我们能跳舞吗?我们怎样拍照?嘿,嘿,嘿。嘿,感受我。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。嘿,嘿,嘿。

关联视频