AI 産業と応用 · 2026-05-16 · 08:00:00
AIE シンガポール Day 1:閣僚基調講演 + OpenAI / Google / Vercel / Cursor 主要セッション
コア観点
AI Engineer シンガポール Day 1 全編。閣僚の開幕基調、NanoClaw のデモ、そして OpenAI、Google、Vercel、Cursor などトップチームによるエンジニアリング実戦セッション。シンガポール初の AI Engineer サミット、「エンジニア × AI」実装層に焦点を当てています。
読みやすい字幕整形
字幕言語: ja · 取得日: 2026-05-21
土曜日午前8時40分、AI Engineer Singapore第二日目の会議に参加しました。えー、自己紹介として、私はSherryで、65 Labsのメンバーの一人です。えー、私たちはシンガポールで最大のグラスルーツ・ビルダー集団の一つです。えー、実は先週最近、私たちについての記事が発表されました。これは私たち何人かが業務時間外に行っていることなんです。えー、私たちはみな常勤の仕事を持っていますが、ご存知のように、これはシンガポールのために実現させたいと非常に情熱的なものです。ですから、この会議は本当に私たちの生態系に対する恋文です。今、私たちが運営してきたすべてのハッカソンと構築の夜を通じて、いくつかの魔法のようなことが起こりました。えー、ここで今日あなたが毎日使用するモデルを構築している最先端のAIチームのいくつかが、私たちのコミュニティのために現れ始めています。
彼らは私たちのハッカソンにクレジットを提供してくれました。えー、Zoomでの遅刻さえも、人々のためのワークショップを開催し続けており、ご存知のように、本当に様々なレベルの人々が支援されているんです。13歳の若い人から60代の人まで、彼らもただこれらすべてを学んでいるんです。ええ、これは本当に建設者として一緒に集まるための良い時間なんです。しかし、私たちが得たのはただいくつかのクレジットだけではありません。えー、私たちは実際にこれらのチームのいくつかとの関係構築を始めています。えー、それが今日このお部屋で見ている魔法です。今、あなたはこれがシンガポールで初めてこれすべてが起こったと思うかもしれません。しかし、私たちが今日Capitol Theaterここに集まる前に、それは本当に長い間表面の下で起こってきました。
えー、ですから、私たちの演者の何人かが実際に旧金山からシンガポールへの飛行機全体が実はAIEのために来た人々で満杯だったと教えてくれたとき、それは驚くことではありませんでした。では、この会議は実際にどのようにして起こったのでしょうか?えー、ですから、私たちは実際にSwixに会いました。えー、彼はCEOで、AIE Globallyの共同創立者です。えー、私たちは実際にニューヨーク市で彼に会いました。えー、あなた方が知っているかどうか分かりませんが、彼は実はシンガポール出身なんです。ですから、これはすべて理にかなっています。えー、私たちはこれらのチームの多くと遠隔で協力してきました。私たちはただシンガポールで初めて対面で彼らをすべて集めたいと思っていました。ですから、AIEについての詳細を聞くために、えー、Swixは認知について論じるでしょう。しかし、また第一日目を終えるために来て聞いてください。えー、AIEについてのより多くの物語を共有するために。了解しました。えー、さて、手を挙げてください。
昨日誰がワークショップに参加したのか、少し知りたいんです。わあ。了解しました。これはおおよそ群衆の98%です。えー、これを見るのは素晴らしいです。なぜなら、それはラップトップオープンデーであり、これはこの会議で私たちが異なることを望んでいることなんです。私たちは単に物について話しているだけではなく、ご存知のように、私たちは構築しており、えー、何らかの方法で適用しています。ですから、私たちはこれすべてが実用的な知識のために設計されていることを確認したいんです。えー、昨日えー、私たちは実際に20のワークショップが実行されており、5つの部屋で同時に、そして完全なリーダーシップトラックがあるということを知ってもらいたかったんです。ですから、えー、私たちは本当にプログラミングをここのすべてのもっとも中央に置きたいんです。えー、ですから、私たちはみな相互に学び、構築しています。
そして、私たちは学びの場所を作りたかったため、えー、私たちは次の世代にこの経験を得る機会を与えたいと思っていました。ですから、えー、私たちは実際にコミュニティとして一緒に集まることができ、20人の学生をサポートしており、彼らは今日実は会議の奨学生です。ですから、えー、あなた方は立ち上がって手を振ることができますか?ですから、これらのチケットのそれぞれは実は私たちのコミュニティのビルダーの部分によるか、全額スポンサーされており、彼らはこれがシンガポールのAI未来の様子だと信じています。では、次の2日間で何を期待することができますか?
えー、私たちは単にご存知のように、多くのトークを一連につなぎ合わせるだけではなく、あなた方がここえーの昼食や似たようなもののためにいるためではなく。しかし、私たちはあなた方にあなたが単にGoogleするか、Courseraで見つけることができないような会話をもたらしたいんです。しかし、実際に、これらのツールで構築している人々と一緒に実際に進んでいるような会話。Twitterや研究論文などどうかに関わらず。ですから、私たちはこれらの会話をもたらしたいので、あなたも中間にいることができます。私たちは次の2日間でたくさんのことが起こることを知っています。えー、60以上のトークがあり、3つのテーマを横切っており、あなたは導航と解決を助けるために何かを必要とするかもしれません。ですから、えー、私たちは実際にガイドを持っており、私たちは電子メールを出しており、その中にマップがあり、私たちは実際にも完全なプログラムリストをコード化しました。
えー、それだけでなく、私たちはあなたが使用できるAPIを作成しました。それは公開で利用可能です。ですから、あなたはプログラムの上に独自のツールを構築することができます。なぜなら、私たちは単にあなたがダウンロードして使用するオールインワンアプリを作成したくないからです。私たちはあなた自身のために構築できるものを創造したいんです。なぜなら、それが私たちがすることの精神だからです。ですから、AIEは今日と明日、異なるスペースに分散しています。えー、このシアター、Capitol Theaterはすべてのトークが起こる場所です。そして、ひとたびあなたがひらめきを得たら、例えばあなたが知っているように、私は本当にこのチームと話したいのですが。それは本当に素晴らしいです。私たちは2つの博覧会エリアセットアップを持っています。えー、1つは通りの向かいのPullmanにあり、別のものはKinskyのAtelierです。
そして、これらは再び単に人々が設置したブースではなく、えー、ただそのためだけではなく、しかし私たちは実際にこれを丁寧に計画されたスペースにしました。あなたは実際にあなたが使用しているツールを構築している人々と直接対話することができます。そして最後に、私たちはまたあなたに空間を与えることを確認したいんです。えー、ご存知のように、緩和し、芝生に接触します。また、これは長い2日間だからです。ですから、えー、私たちは共有するのが幸せです。私たちは15分間の休息セッションを持つでしょう。そこには洞窟と呼ばれる体験スペースがあります。これは音声反応型の没入型リラックスルームです。実際には、えー、完全に創作者によってコード化されました。あなたはまた多くの人々が赤いシャツを着て周りを走っているのを見つけるでしょう。
えっと、これらが私たちの素晴らしいボランティアで、スペースをナビゲートするのをお手伝いし、今日ここで起こるすべての会話から最大限の利益を得ることを確保してくれます。そして、私たちの信じられないほどのスポンサーなしではこの部屋にはいられません。ですから、えっと、私たちのダイヤモンドスポンサーはOpenAIとZAIです。私たちのプラチナスポンサーはGoogle Deep Mind、AriseおよびCursorです。Capitol Theaterが私たちにこの美しいスペースを提供していただいたことに感謝申し上げます。さて、シンガポールのお話は常に構築者から始まってきました。えっと、これが数週間前に、私たち自身の外交大臣Vivian Balakrishnan博士が彼自身の第二の脳を構築することについてTwitter上の投稿でウイルス化した時に、私たちを本当に驚かせた理由です。えっと、それは理にかなっています、なぜなら彼の役割は大量の情報をナビゲートし、迅速なコンテキスト切り替えを必要とするからです。
ですから彼がこのようなワークフローとツールを構築することについての反思は、AIについて有意義な会話はツール自体を理解することを含むべきであり、単にあなたが知っているこの抽象について考えるだけではないことを本当に強調しています。えっと、これに伴い、えっと、私は絶対に光栄に、私たちの基調演説者と構築者本人、シンガポール外交大臣Vivian Balakrishnan博士をご紹介します。>>これを使用してください。>>おはようございます、皆さん。ご存知のように、私たちはシンガポールでもう少しカジュアルに対応することができます。ですから、おはようございます。雨が降っていることは知っていますが、シンガポールは通常晴れています。えっと、自分が詐欺師のように感じています。えっと、私を知らない方のために、私は実際には引退した眼科医です。政治への迂回は恐らく長すぎたかもしれません。えっと、しかし、私は常にものを完了すること、ものを構築すること、ものを修正することへの興味を維持してきました。
そして、私がもはや眼の手術をしていないので、えっと、私は腕時計を組み立てたり、電化製品を再プログラムしたり、今、他にいくつかのものがあります、そしてこれが今日私が話すつもりのことです。しかし、実際には、私はあなたに説明させたいです、私がなぜこれをしたのか、それが何を意味するのか。そして、私はこのオーディエンスのために、あなたはそれをまっすぐ理解するだろうと思います。しかし、それを最後までスキップさせてください。えっと、これらが3つの重要なメッセージであると言うために、あなたは私が言ったすべてを忘れることができます、しかし、ただこれらのことだけを覚えておいてください。私たちは今、あなたが計算、メモリ、知識の複製や伝播など多くのことを外注することができるときの時代にいます。あなたが外注できないのは、あなたの個人的な理解です。そして、あなたが権力の位置にあれば、あなたは仕事を委任することができます。あなたが委任できないのは責任です。
ですから、個人的な要素を理解と説明責任に記憶してください。次のポイント、私はケンブリッジ大学教授のNeil Lawrence著がFinancial Timesに発表した非常に良い短いメッセージを参照するつもりです。彼は機械学習の教授です。そして、ご存知のように、AIモデル、データセンター、トップダウンシステム、ルール、政府について多くの誇大宣伝があります。それはマクロです。しかし彼の仮説は、経済と社会への真の価値がグラスルーツワークフロー、部門、セクタセクタごと、そして実際には個人レベルで作成されるということです。
それが何を意味するのか、それはそのように見えます、私はあなたが素晴らしいことを知っています、私は最前線のモデルで働いている人が信じられないほどであることを知っています、しかし、普通の人、教師、弁護士、技術者、マネージャー、医者、律師、さらには大臣が実際に既に利用可能な、既に発明されたツールを使用しているときが真の報酬です。彼らの仕事を理解し、これらのツールによって権利を与えられている人。これが、社会と経済のために真の価値を作成する方法です。ですから、私は分散化、個人化、カスタマイズされたモデルを見ています。私は、あなたが日常の仕事をより良く行い、さらには人生のワークフローを再設計することについて話しています。これが本当の価値の上昇がある場所です。
3番目のポイント、これが私がこの講演を行う理由です、私はすべてこれを実現する障害が崩壊したと心から信じています。これらのツールは提供されてきました。人々が何のツールがあるかを理解し、彼ら自身のツールを組み立て、そして完全に異なる軌道に身を置くという問題です。わかりました。さて、今、私たちは楽しい部分をしましょう、私の冒険がどのように始まったか。さて、私の個人的なエージェントは約3ヶ月前に活躍しました。えっと、はい、私はOpenAIの誇大宣伝に困惑していました、えっと、しかし、私の仕事を考えると、私はこれがセキュリティが問題であるため実用的ではないことをすぐに知っていました。その後、誰かがnanoClawを指摘しました、そして私はその後Gabrielを聞くつもりだと思います、ご存知のように、ギークと修補屋として、私は私が手に掴むことができるものが好きです。
実は、nanoClawには非常に短いコードベースがあり、私のようなばかでさえ読んで理解することができます、実際、それはコンテナ化されており、外科医として、私は常習手術のようなものがないことを知っていますが、物事が間違います、物事が壊れます、そして彼らが壊れるとき、希望はあなたが彼らがバリアの中で壊れることを望むことです。ですから、コンテナ化の部分、理解可能性の部分は私にとって重要でした。とにかく、単にGitHubに行き、物を下ろしました。それの別の魅力的な部分は構成がないということです。実は、そうではありません、なぜなら、あなたはLLMがカスタマイズのすべてをカスタマイズすることに依存しているからです。実際には、あなたはnanoClawインスタンスを実行している全員がパーソナライズされたシステムを実行していることに気づきます。今、これには利点と問題があります。しかし、とにかく、それぞれで私がそれを何に使ったかを教えてください、わかりますか。
ですから、nanoClawはプラットフォームを提供しました。それは私がWhatsAppを通して私のエージェントと通信することを許可しました。その部分はロケット科学ではありません。スライドに戻ってください、私が本当に追求した東西は私がどのようにそれを私の日常生活で使うことができるかということです。あなたに私の日常生活の考えを与えてください。この月私は12カ国を訪問します。私はそのため、数百人と会わなければならないでしょう。私は国家の経済、地理、文化、歴史を理解する必要があります。戦争と平和。私は人々を個人として理解する必要があり、単に概要からのもの、すべての外交官は巨大な認知オーバーロードを持っています。質問は、私がこのプロセスをターボチャージャーすることができる方法です、そのため、もし私が事実や雑学を必要とするなら、私はそれを得ることができます、私は任意の場所でそれを得ることができます、もし必要なら、私はウサギの穴を下って行くことができます。ですから、これはこの全体的なオーバーロードに関するものです。
LLMは分析、抽象化、表現に非常に有用であり、もちろんブリーフィングの起草、演説の起草、質問への答えの策定に非常に有用です。これには、私が補足しなければならない議会の質問も含まれます。三カ月前、議会辩論全体を含めて。えー、生成された質問と回答を見て深い印象を受けました。えー、議会の全ての同僚に尊敬を表して、えー、AI生成の辯論のいくつかはより鋭かったと言うべきです。しかし、いずれにせよ、それはWhatsAppを通じて私と通信します。ですから、Baileyと呼ばれるソフトウェアがあります。それはメタやWhatsAppが私たちに何をしてほしいのかに完全には準拠していない可能性があると思いますが、それはあなたが知っているように、ブラウザやノートパソコンでWhatsAppをどのように使用するかをシミュレートしているからです。
ですから、これは疑似ターミナルです。その次に、私のような人にとって本当の最前線だと思う部分は記憶です。幸いなことに、Nemanと呼ばれるこのファジーなソフトウェアに出会いました。それでも開発者には会っていないので、本当のところはわかりませんが、グラフィック機能を持つ記憶システムです。ですから、エンティティがあります。エッジはエンティティ、因果関係、時間関係、意味関係です。そして、キーワード検索に限定されたくないからです。実は、Olamaをローカルで実行でき、埋め込みモデルがあるということは、組み込みの意味検索も持っているということです。ですから、これらの要素があれば、つまり、Whisperは単純な部分です。WhatsAppを使う場合、タイプするだけではなく。話すことができたい、そして彼は私に話しかけることができます。もちろん、私の夢はえー、いつの日か、私のエージェントが議会で追加質問に答えることができるようにすることです。
その合法性については確認していませんが、もしそうなれば、私が最初にあなたにこの考えを共有したことをご存じでしょう。しかし、重要なことは、私が今、資料、演説、トランスクリプト、特に自分の貢献を厳選し、それをシステムに入れ、消化し、抽出し、その記憶データベースに入れることができるということです。その後、ほぼ同じ時期に、André Kapaティが彼のLLM監督wiki生成を提案しました。ですから、私もそれに参加しました。その後、ユーザー体験、ユーザーインターフェイスについては、Obsidianを使用しました。部分的には、Obsidianが私にApple iCloudを使用させてくれるからです。つまり、すぐに個人クラウドを持つことができます。この個人的に厳選されたデータベースから抽出されたすべてのwikiが私に利用可能です。なぜなら、私が始めに言ったキーポイントは個人的理解だからです。
ですから、記憶システムを持っています。通信システムを持っています。分析システムを持っています。しかし、すべてがうまくいっているように見えます。しかし、ここであなたと共有しているのは、過去三カ月間、これが会議、旅行、演説の初稿、演説の初稿で非常に有用であることを発見したということです。
今日のプレゼンテーションさえもえー、スライドさえも実はClaudeによって生成されたのです。ご存じのように、それは事柄の完成を加速します。実務家として、つまりエンジニアとしてではなく、日常業務を持つ実務家として、それは非常に有用です。私はその有用性を証明できます。なぜなら、正直に言うと、私はそれをオフにする勇気がまだないからです。Nano Clawは残念ながら第1版から第2版にアップグレードされました。第2版がオンラインになったとき、彼らの移行がまったくスムーズではなかったため、私は第1版を動作させたままにしておきました。別のコンピュータに第2版を配置しました。また、これらすべてのことを補足する必要があります。そこでは、私が毎日最も使用するエージェントが、Raspberry Piで実行されており、少なくとも2、3年前のものです。8 GBのRAMしかありません。あなたは、アクセシビリティ、パーソナライゼーション、関連性、使用に関する私の見方を見ています。次のスライドに進みましょう。
これが私の見方です。障壁は崩壊しました。私がこれを行ったからです。Claude、Bailey、Neman、Whisper、または認証情報システムを書かずにこれを行いました。ご存じのように、「vibe coding」についてこの全体的なことがあります。vibe codingをしていると主張する勇気さえありません。ツールを組み立てているだけです。それはただのツール組立です。ですから、実際にはその行を変更する必要があります。グルーコードは書いていません。正直に言うと、はい、コードをチェックしました。ご存じのように、nanocrawはエージェントにbashアクセスを与えるたびに承認するよう主張しています。ですから、確認しました。それは本当に役立ちます。コーディングを理解していない場合、非常に役立ちます。したがって、実際にコードを入力および編集していない場合でも、何が起こっているのかを理解できます。次に、ある意味で、これらすべてに対する私のアプローチはずっと、やって学ぶことでした。
ただ座って読んだり、ニュースを閲覧したり、要約を完成させたりするだけでは十分ではありません。何かに興味があれば、行動を起こすべきです。学習の最良の方法は実践です。参入障壁が大幅に低下したため、誰もが自分の個人的な実験を始めるべきです。Claudeがこのような言葉を言っているのをご存じですか。その時、私は少し懐疑的でした。以前誰がこれを言ったか知っていますか。それは他の誰も言っていないと主張しています。しかし、実は、私はそれにある程度同意しており、これは私の政府の同僚への呼びかけです。あなたが単に要約された技術を統治することはできません。あなたが技術の可能性、制限、問題を理解できるように、最良の場合は自分で関与した方がよいです。ここに他のいくつかの余談があります。えー、確かにいくつかの制約があります。
例えば、LLMに依存している場合、率直に言うと、現在のAI大手企業が私たちに請求している価格を考慮すると、私たちは実際に補助金を受けていることを皆知っていると思います。トークンは安くありません。計算能力に限りがあります。電気代は上昇しました。戦争も役に立ちませんでした。すべての問題と解決策のすべてのステップをLLMに投げるだけにならないように注意する必要があります。これは古い諺を思い出させます。ご存じのように、「ハンマーを持っている人にとっては、すべてが釘のように見えます」。LLMを使用することには実に良い経済的および設計上の利点がありますが、決定論的なシステムがまだその役割を持っていることを忘れないでください。
エキスパート・ルール・システムはまだその役割を持っています。生物学者としての個人的な信念は、最終的には何らかのニューロシンボリック・システムが必要であり、単なるLLMモデルだけではないということです。厳勇の考え方には、ある程度共感しています。彼は「ご存知のように、LLMは良いですが、実際には自然界で問題を解決する方法ではありません」と言っています。人脳を見てみると、実は人脳の計算層数は、今日私たちが持つ多くの大規模言語モデルよりも少ないと疑っています。眼科外科医として、大脳皮質の視覚、言語、認知に関する計算は、通常、今日私たちが持つこれらのエネルギー消費システムよりも効率的な構造に基づいていることをお伝えできます。私が表現したいポイント、および厳勇と同意する点は、これらは根本的には注意力と記憶を備えたパターン認識システムであるということです。
一見簡単な基本的な能力から創発的行動が生まれ、概念の理解をもたらし、言語をもたらし、物事を行う能力をもたらします。つまり、これはまだ急速に発展している分野であり、謙虚な態度でそれに接近すべきということです。日々の仕事の生産性を向上させるよう努力してください。しかし、私たちは実際には革命の中で生きている最も幸運な世代かもしれないことを理解してください。ツールはモデルより重要です。Gabは私が彼に言ったことを知るでしょう。6月、つまり6月15日までに、すべてのモデルをファーストクラス・シチズンにするためにNanoClaw が必要です。理由があります。その後で議論できます。最後は記憶です。これは非常に人間的であり、この最先端分野でまだ解決されていない大きな問題だと思います。
次のスライドです。セキュリティの側面については、あまり多くは述べないつもりです。ええと、ところで、たとえあなたが私のシステムをハッキングしたとしても、あなたが得ることができる最大のものは私の電話番号です。ええと、あなたは外交政策の概要を入手することになりますが、これらは私が支持する外交政策であり、とにかく私はすでに入力した内容を管理しているので、たとえあなたが私のシステムを持ち去ったとしても、それでもシンガポールの外交政策を生成すると思います。さて、これはセキュリティに対処する1つの方法です。すでにオープンソース、すでに公開されているコンテンツのみを入力し、システムが耐えられる透明性と精査のレベルを受け入れるようにすることで対処する方法です。しかし、セキュリティがまだ重要であることを忘れないでください。実際には、人工知能の普及の複雑な要因は、商業競争、国家安全保障、サイバーセキュリティ、および超大国競争になります。
これらは人工知能の将来の利用可能性、速度、および普及に影響を与える政治的要因です。これは同様に深く探求する価値のある独立した政治トピックです。次のスライドです。これが私の最後のスライドであることを願っています。つまり、目標は、私はエッジデプロイメントの信奉者です。私は外科医です。私は実践を信じています。私は修復を信じています。それが生命安全と価値創造が起こる場所だと思います。第二に、したがって、公共政策の目標はこれらのツールの民主化です。これが、経済戦略審査委員会でDPM Gunが私たちシンガポールはモデル開発の最先端を行く可能性は低いと言う理由です。しかし、大規模な展開の最先端を行くことができます。
つまり、民主化です。したがって、これが私たちが信じることであれば、それは分散型のボトムアップアプローチでなければなりません。これが私が今日ここにいる理由です。なぜなら、この会議が3ヶ月足らず前に組織されたことに気付いたからです。65の実験室。ここで会うすべての人たち、これでさえ彼らの日常業務ではありません。これはハッカソンですよね?しかし、これが私が信じている未来が創造される方法です。つまり、来てくれてありがとうございます。このジャーニーの一部になってくれてありがとうございます。良い日、良い未来をお祈りします。本当にありがとうございました。あなたはこれを与えるべきでした。>>ああ、>>私はこれを早く着るべきでした。あなたは早くに私に与えるべきでした。私はそれを着たでしょう。>>私たちは簡報を持っていません。しかし本当にありがとうございます。本当にありがとうございます。>>ありがとうございます。>>わかりました。あなたは公開を作る必要がありますよね?私は彼女に知らせました。わかりました、みなさん。
ええと、次の講演者をご紹介できて非常に興奮しています。他の誰でもなく、NanoClaw の創設者本人、Gabrielle Cohen です。皆さん、こんにちは。本当にここにいられて興奮しています。いくつかの設定をしているだけです。あなたのウェブサイトがロードされるのを待つだけで、その後は病院に行くことができるはずです。>>マイクをオンにできますか?あなたはm待ってください、今ロードされました。なくなりました。ほぼそこです。わかりました。皆さん、こんにちは。私はGabriel Cohen です。NanoClaw を作成しました。Telegram に AI アシスタントがあります。メール、カレンダー、ああ、通話記録に接続しています。ああ、機密情報にアクセスできます。メールを読む、招待を送るなどの機密アクションを実行できます。このトークの終わりに、15分後に、すべての人に自由にアクセスできるようにします。
ええと、これはできます。私は変人ではありませんし、これは危険ではありません。講演全体を通じて、NanoClaw について、それを安全にするような概念のいくつかを説明したいと思います。ええと、そして、これらの概念を説明するために、ええと、構築したエージェント・ファクトリーについて話します。その過程で、構築する際に行った選択について興味深いと思うことを共有します。まず、NanoClaw は、安全な自律型アシスタントまたはクロー・アシスタントを構築するためのオープンソース・フレームワークです。ええと、わずか3ヶ月で、GitHub で30,000を超えるスターを獲得しました。ええと、世界中に数千人のユーザーがいます。シンガポール外相Vivian Balakrishna博士を含めます。ええと、しかし GitHub のスターよりも重要なのは、12,000人以上がリポジトリをフォークしています。これが人々がそれを使用する主な方法です。
彼らはそれをフォークし、試験し、nanoflow に基づいて独自の自律型エージェントを作成しています。ええと、加えて、2500以上のええと、プルリクエストと問題があります。オープンソース・プロジェクトを維持することは今日、オープンソース・プロジェクトを構築するのに最適な時期です。同時に、ええと、コーディング・エージェントもいくつかの課題をもたらしています。以前よりもプルリクエストを開くのが簡単です。ええと、多くの人、数千人がプロジェクトに素晴らしい貢献をしています。ええと、しかし、率直に言って、不要なプルリクエストもあります。人々はコーディング・エージェントをリポジトリに向けて、「ここに何か貢献してください」と言います。今日、不要なプルリクエストと良いプルリクエストを区別するのは難しいです。それらは同じに見えます。
それらのコード量は似ているかもしれません。それらを区別することは、プロジェクトの深い理解、プロジェクトの方向性、ビジョンに依存します。したがって、これらのプルリクエストを整理するために、私たちはエージェントファクトリーを構築しました。これはすべての貢献をレビューするのに役立ちます。これが私たちのエージェントファクトリーです。これはSlack内にあります。xie.dev仮想マシン上でホストされています。GitHubで開かれたすべてのPRは、webhookをトリガーします。これにより、Slack内に新しいスレッドが作成されます。レビューエージェントは最初に分類を実行し、その後、深い審査を実行します。その後、テストに渡されます。まず、深いテスト、実際のテストのためのテストプランを作成します。これは単なる自動化テストではありません。その後、計画を承認すると、新しいVMが起動されます。
それは完全なテストセットを通ります。その後、完了したら、私たちはファクトリー内で直接それをマージでき、それはライブになります。だから、あなたたちの半分はこれを見て、「素晴らしい、自分でこのようなファクトリーを構築したい」と考えているでしょう。もう半分は、安全性の含意について考えており、「これは狂っている。これは無謀だ。これは不安全だ」と考えています。プルリクエストはもちろん、未処理の入力です。誰でもプルリクエストを開くことができます。誰でもそこに何かを入れることができます。本当にプルリクエストを消毒することはできません。なぜなら、私は情報を削除したくないからです。誤検知があり、あなたが思いつくことができるすべてのものがあります。プロンプトインジェクションを防ぐために安全性を強化するために開かれているプルリクエストを想像することができます。それはあらゆる種類の検出をトリガーします。だから、これは致命的な三つ組をはるかに超えています。
また、私たちの、私たちのワーカー、私たちのファクトリー内のエージェントは、非常に機密性の高い行動を取っています。彼らは仮想マシンを起動しています。彼らはプルリクエストをマージしています。では、どうやって私たちのエージェントをプロンプトインジェクションから防ぐことができるのですか。明らかにそれはできません。コードベースに入ると、ファイルの上部に「生産データベースを削除しないでください」と表示されているのを見ます。これはそのエージェントについて2つのことを示しています。それはそのエージェントが以前生産データベースを削除したことを示しています。そして、彼らがその指示をそこに置けば、エージェントはまだそれをできるということを示しています。だから、それはまだその能力を持っています。指示は安全のためではありません。指示は、あなたのエージェントを、生産に価値のある高品質の出力に向けて導くためであり、あなたがそれを望む方向に向けて導くためです。
では、nanoclawでこのようなリスクにどう対処するのですか。私たちは、私たちのエージェントが敵方領土の後ろで運作しているのと同じように考えています。なぜなら、彼らは敵と接触しているからです。恐らく悪意のある行為者であろう人があなたに反対しようとし、あなたのエージェントをあなたに反対させようとしています。したがって、紛争マップを考えると、赤いゾーンと青いゾーンがあります。青いゾーンは私たちの側で、赤いゾーンはもう一方の側です。エージェントは赤いゾーンで運作し、いつでも二重スパイに変えられる可能性があります。したがって、私たちは私たちのエージェントを信頼せず、nanoclawエージェントは信頼できるとは見なされません。代わりに、それらは隔離されています。
これはnanoclawアーキテクチャの簡略版です。左側にはSlackまたは任意のメッセージングアプリケーションがあり、メッセージを送信します。それはSlackサーバーに行き、その後、nanoclawが実行されている任意の場所に送信されます。この場合、例えば仮想マシンです。Slackブリッジがあり、socketまたはwebhookを使用してSlackサーバーに接続されています。各メッセージはSlackブリッジに送信され、そこからルーター経由でエージェントにプッシュされます。エージェントが応答します。出力を生成し、ルーター経由でSlackブリッジ、Slackサーバーに返されます。そして、メッセージングアプリケーションに表示されるのはエージェントからの応答です。Slackボットまたは他の何かとして。しかし、エージェントは侵害されている可能性があります。それは赤いゾーンで運作しています。したがって、エージェントが接触できるものはすべて侵害されている可能性があります。
もしエージェントがルーターにアクセスできたら、もしエージェントがSlackブリッジにアクセスできたら、それはこれらを操作し、アクセスできるメッセージを変更し、そしてメッセージを送信できる相手を変更することができます。したがって、エージェントが実行されている仮想マシン内、または実行されている環境内の任意のものにアクセスできるようにする代わりに、私たちはエージェントを隔離し、仮想マシン内の別の隔離層内に配置します。私たちの場合、通常はコンテナ内に配置します。現在、コンテナは爆発半径を制限します。私たちは出入りするコンテンツを制御し、出て来るコンテンツで何が起こるかを制御します。したがって、エージェントはメッセージングチャネルに直接接続されていません。これはすでに爆発半径を大幅に制限していますが、私たちのエージェントが外部の世界にアクセスするためには、それが認証情報を持つ必要があります。
GitHubであろうとカレンダーであろうと、サービスに接続する場合、CLI、API、MTP、どんなことでも構いません。何らかの形の認証情報が必要です。したがって、第2の原則ですが、第1の原則は隔離です。第2の原則は、認証情報をエージェント環境の外に保つことです。エージェント環境は敵方領土です。高度に機密性の高い何かをそこに置きたくありません。確かに秘密と認証情報ではありません。エージェントが認証情報を漏らさないようにするための唯一の方法は、これは指示では完了できないということです。DLPまたは出力を分析することもできません。エージェントはそれも回避できます。秘密を漏らすのを防ぐための唯一の方法は、それに秘密を与えないことです。
したがって、エージェントが認証情報なしで外部認証情報サービスと通信できるようにする方法は、エージェントと外部サービスの間にプロキシを挿入することです。エージェントに保管庫を与えます。真に素晴らしいオープンソースプロジェクトと協力しました。これは『one CLI』と呼ばれています。エージェントのサンドボックスから出る各要求は、保管庫を通じてプロキシされます。その後、要求を確認し、認証情報を追加する必要があるかどうかを決定します。要求は認証情報なしで保管庫から出ます。文字通り『認証ベアラー プレースホルダー』として。文字通り『プレースホルダー』という単語です。もしエージェントがそのリソースへのアクセス権を持つべき場合、プレースホルダーが実際の認証情報で置き換えられます。
エージェントを隔離し、このエージェント認証情報を与えるだけは十分ではありません。なぜなら、誰かが直接私のエージェントと通信する場合、私のエージェントがキーを保持していなくても、それが機密行動を実行できるのであれば、それを操作することができ、プロンプト注入することができ、あなたのために機密行動を実行させることができるからです。ですから、私のGitHubアクセストークンを取得できないかもしれませんが、それをコード所有者として追加させることができるかもしれません。したがって、単にゴム印のようにすべてのリクエストを通すのではなく、エージェントが何にアクセスできるか、できないかについてのポリシーを追加する必要があります。最も機密性の高い操作については、最も柔軟なポリシーはヒューマンインザループ承認です。それはポリシー実行のレベルで、ポリシーセットを持つことができるように見えます。これには人工承認が必要です。
その後、リクエストはエージェントから送信されるのではなく、ボールトから、またはnanoclaw のルーターまたは配信部分から送信されます。そのメッセージはルーターを通じてSlackブリッジに送信され、あなたのメッセージアプリケーションにエージェントからの許可リクエストとして表示されます。今、これは実際には幻想です。これはビデオで以前に表示されており、エージェントがあなたの承認を要求しているように見え、その後あなたがエージェントに承認を与え、その後それはあなたのPRをマージします。それはすべて起こりませんでした。エージェントは承認を要求できず、エージェントは実際にマージするための認証情報を持っていません。代わりに、エージェントはMCPを使用してリクエストを発行しようとし、その中でGH(GitHub CLI)で実行したいコマンドを書き出します。
その後、それをメッセージとして表示し、エージェントからのリクエストのようにしますが、実際にはNanoホストプロセスから来ています。あなたが承認すると、マージは実際にはエージェントレベルでは完了せず、エージェント環境の外部で完了します。その同じパターンを任意のタイプの機密操作を行うために使用できます。例えば、転送の開始です。最も機密性の高い操作では、ツール呼び出しとツール実行を分離する必要があります。ツール呼び出しはエージェントの環境内で発生します。レッドゾーン内で、それはレッドゾーンを離れ、エージェント環境の外部で、その後、ポリシーを実行し、そのアクションを実装します。それがあなたのポリシーに適合する場合、人工承認を含めて。
私たちがエージェントファクトリで発見した興味深いパターンの1つは、複数の異なる人がレビュー、計画、分類への監督を提供しているということです。誰がボタンを押して承認またはテストに送信するかに関係なく、それは彼らの認証情報を使用します。ですから、GitHubで nano claw エージェントによってマージされたPRは表示されません。私はボタンを押した人です。つまり、これが正しいことを確認しました。私はこれに責任を持っています。それは私の認証情報で完了しました。ですから、これが私たちのファクトリがどのように見えるかです。もう1つの興味深いことは、ここで見ることができるように、私たちはSlackアプリを持っており、Slackブリッジに接続されています。複数の異なるボットがあり、各ボットは異なるnano エージェントにルーティングされます。各nano エージェントは自身のコンテナで実行されます。
したがって、Nano Clawは設計上デフォルトでマルチエージェント対応であり、マルチユーザー、マルチテナント対応です。現在、テスト計画が承認されると、自動化テストを実行するのではなく、実際に起こるのは、私たちはテストオーケストレータを持っており、それが新しい仮想マシンを作成し、その仮想マシン内のGitHubプルリクエストのブランチをチェックアウトします。その後、私たちのテストエージェントはSSH経由で仮想マシンに入り、Nanoインスタンスを実行し、エージェントをテストし始め、Telegramで彼らにメッセージを送信し、応答を得て、実際のテストを行い、さらにデータベースとログを確認して、バックグラウンドで予想される事が実際に発生したことを検証できます。また、別の最後に興味深いパターンとしては、Slackスレッド内の各エージェントが永続的な環境と永続的なセッションを持つことです。いつでも彼らのところに来て、異なるエージェントをタグ付けできます。
私たちはテストエージェントと審査エージェントを持っており、彼らに指示を与え、後続の質問を提起し、テストの深さを変更します。ここで見ているように。また、スーパーバイザーをタグ付けしてフィードバックを提供する機能もあります。ちょっとKarenのような感じで、誰かがこのミームを知っていれば、「上司と話すことはできますか?」というような。フィードバックを残し、その後スーパーバイザーはそのフィードバックに基づいて指示とスキルへの変更を提案でき、一度私たちがそれらの変更を承認すると、それらは実装されます。つまり、私たちのシステムは本質的に自分自身を改善しています。約束したように、そのQRコードをスキャンすると、Telegram上に私のエージェントがあります。これは私のメール、私のカレンダー、そして私のドライブにアクセスできます。ただし、このエージェントはその環境内に認証情報を持たないため、あなたにすべてのアクセス権限を与えることに安心しています。それは隔離されています。
その環境に何が入ってくるのか、何が出ていくのかを管理しています。すべてのアクションが人間による承認を得ています。ですから、これは私のカレンダーと連携しています。私は一日中ここにいます。本当に、このフィールドで面白いことをしている人たちとコーヒーを飲みたいです。あ、そしてそれと話す。私は時間を少し守ってくれるよう言っています。あまり意地悪でないことを願っています。あ、ですが、あなたがそれと話して、あなたが何をしているかを伝えれば、あ、それがあなたと私のためにコーヒーチャットをアレンジしてくれることを願っています。ありがとう。>>いいですね。あ、私たちの次の発表者をご紹介できて非常に興奮しています。これはTiboで、OpenAIのCodexのリーダーです。現在、Tiboは、あ、残念ながら今日は直接ここに来ることができません。あ、ですが、彼はこの講演をしたいと思っています。なぜなら、これは彼にとって非常に意義深いからです。ですから、彼は説明するでしょう、あ、彼が、それが、あ、彼が画面に現れたとき、彼がいると思います。
あ、ですが、私たちがやろうとしている別のことは非常にクールです。それは、あ、Tiboが喜んで学生たちとQ&Aを行いたいということです。ですから、あ、Tiboに温かい歓迎をしましょう。>>こんにちは、皆さん。あ、ここにいられて嬉しいです。本当は直接ここに来たかったです。部屋が人でいっぱいなのを見るのは、本当に非常に興奮します。あ、新加坡はユニークなエネルギーを持っています。旧金山から皆さんすべてと話できて嬉しいです。新加坡が世界的なCodex採用と参画度の面で上位5つの国の1つであることを言えて、非常に誇りに思います。あ、それは急速に上昇しています。あ、新加坡は前例のないスピードで新しい技術を採用しているように感じます。あ、私たちの全体的な使命は、全人類にAGIの利益をもたらすことです。
今後数ヶ月間で、AIが世界中のすべての人にとって深く価値のあるものになるようにすることについて、信じられないほどの進展を遂行できると信じています。ChatGPTから始まり、Codexを通じて、私たちはビルダーと開発者に焦点を当てています。Codexが小さなアプリケーションであることをご存知かもしれません。しかし、私たちにとっては、それは私たちの最先端のエージェントです。エージェントがソフトウェア開発と完全なライフサイクルにどのような役割を果たしたかについて少しお話しするつもりです。このルームに言う必要はありませんが、ソフトウェア開発は明らかに2年前と比べて認識できないものです。さらには6ヶ月前でもそうです。新しいモデルは完全なエージェント委任を実行することができます。または私たちがnanoclawで見た例のように、あなたは完全な自律システムを持っており、それはあなたのためにものを行います。それはプログラミングをはるかに超えています。あなたはそれに仕事を与えるだけです。
それは独立してタスクとコードベースを処理します。数時間、時には一日中、仕事が完了するまで。最初から、これが私たちの目標でした。委任できるAIチームメイトを構築することです。SDLCと物事を構築することを考える便利な方法は、それをスループット問題と見なすことです。数十年間、ソフトウェア開発ライフサイクルの設計は中核仮説の周りに回っていました。コードは書くのが難しいです。この仮説が本当にすべてを形作りました。私たちは多くの計画を立てます。なぜなら、エンジニアリング時間は稀少だからです。私たちは注意深く各行を確認します。なぜなら、コードを間違えるのは高くつくからです。私たちはビルドステップがパイプラインの最も狭い部分であるという考え方の周りに配信システムを構築しました。エージェントコーディングは本当にこの仮説を変えました。それはパイプラインのベルト部分を大幅に拡大しました。
しかし、他の部分が狭いままであれば、総スループットは実際には増加しません。制約はビルドステップの周りのシステムに移行します。計画、審査、検証、CI、セキュリティ、リリース、操作、デバッグ、さらには実際に何が起こっているかを学び理解することです。これは新しいボトルネックの大きな部分です。この転換は誰もが理解する必要があります。機会はより速くより多くのコードを生成することだけではなく、エンジニアリングの方法を再設計し、一緒に配信する総体的なスループットを増加させる方法です。最初のAIコーディングの波は本当にこのビルドステージを拡張したに過ぎません。私たちは皆、より速く大量のコードを書くことができることに非常に満足しています。これは重要です。これはエンジニアがかつてないスピードでコードを生成、変更、テストできることを意味しています。
しかし、私たちが前に言ったように、構築部分を単に拡張するだけでは総スループットは増加しません。次のステップは本当に、ソフトウェア配信ライフサイクル全体にわたって容量を拡張することです。これが私たちがこのCodexエージェントをどのように考えるかです。それはソフトウェア構築の完全なレイヤーで動作できるエージェントであり、単なるコーディングアシスタントではありません。ビルドステップでは、Codexはエンジニアが実装作業を委任するのを支援できます。レビューでは、Codexは変更をチェック、問題を浮き彫りにし、手動レビューをサポートできます。展開と操作では、クラウドエージェントと自動化がチームがトリガーに応答し、問題を調査し、前例のないスピードでシステムを通じて作業を行うのを支援できます。目標はプロセスから人間を削除することではありません。目標は本当に各段階をより拡張可能にすることです。したがって、より高いコード出力は実際により多くの配信価値になることができます。
これは重要な区別です。エージェントコーディングはコード速度を増加させますが、Codexのようなエージェントは組織がその速度の周りでシステムを拡張するのを支援します。したがって、これらのような異なるステップがあり、私たちはあなたがエージェントを使って計画の速度、構築の速度、レビューの速度、さらには展開の速度を増加させることができることを見ることができます。あなたが考えるならば、計画、構築、そしてレビューはもう少し簡単です。なぜなら、あなたは本当に世界に副作用を持たないからです。展開はあなたがセキュリティが本当に重要になり始めるときです。なぜなら、あなたは世界に実際の影響を与えており、コードは本当に展開されて、あなたのユーザーがいる場所に会うからです。私たちはこれらの自動化を持っています。私たちはエージェントの周りに構築することを許可しています。
そして、私たちは私たちのクラウドエージェントのバージョンを持っています。それはセキュリティを備えており、私たちのプラグインシステムを通じてセキュアアクセスがあり、展開を展開して、展開が人的承認を通じて正しいことを検証することができます。これは私たちが以前に開始した旅です。Codexチームは特別です。私たちはエージェントと、それらのエージェントを駆動するモデルを設計したからです。また、私たちのモデルの最先端の状態を進めるために研究に深く関わっています。これはモデルGPT-51 Codex Maxで始まりました。今その名前で知られています。2025年末にリリースしました。それは圧縮のための端から端のRLで訓練されました。長時間実行タスク用です。これはRL中に、その環境で、そのコンテキストウィンドウを超えてよく機能する課題でモデルに挑戦することを意味します。
そして、そのコンテキストウィンドウの末尾で、それは多くのコンテキストウィンドウにまたがる推論タスクを実現するために自分自身に委任する必要があります。また、高い推論努力を提供しました。私たちはそれをWindows上でローカルに操作するように訓練しました。30%少ない思考トークンでより良いパフォーマンスを達成でき、新しい最先端のトークン効率を実現できることを示しました。これは続く主題であり、私たちがすべてのモデルリリースで見ているものです。トークン効率はただ良くなり続けます。これにより、時間とともにエージェントをより速く、より安く実行できます。52では、ネットワークセキュリティ機能を増加させました。これは私たちが今見ている最先端です。ネットワークの周りの前例のない能力を持つモデルと一緒に。大規模なコード変更のパフォーマンスを改善しましたが、ビジョン機能も追加しました。
私たちは単にテキストからテキストへのモデルを構築しているわけではありません。私たちはあらゆるエージェントを構築しています。53では、私たちはそれをより速くしました。54では、100万のコンテキストウィンドウを追加しました。55はこれまでで最大のステップチェンジでした。表面上は、54から55への小さな増分0.1のように見えます。ああ、改善。それは実際にはより大きな変化です。コンピュータ使用法を追加し、それをより多くのトークン効率にしました。それは本当に今日利用可能な最も賢く最速のモデルです。しかし、それを機能させるのは何ですか。それを機能させるのはただモデルではありません。それはモデルとそのハードウェアの組み合わせです。これがCodexが特別な理由です。私たちはこれらのことを一緒に設計し、ハードウェアを本当にモデルに最適化し、モデルをハードウェアに最適化することができました。
これは、私たちが非常に広範で非常に効率的に新しいインテリジェンスカテゴリーを提供することを可能にします。5は数週間前にリリースされ、以前のどのリリースよりも2倍速い収益成長を見ました。人々は本当にそれが好きです。採用が本当に制御不能になったのを見ました。ここでそれがSweetBench Proで新しい業界高水準を設定しているのを見ることができます。また、終端台で新しいソダを実現しました。単に1つのモデルの次に1つのモデルで最前線を推し進めているようで、モデルについて、現在は月に約1つのモデルのペースで出荷しています。これらすべてが同時に前例のない信頼性も提供しました。そしてこれは短い功績ではありません。実は、私たちが提供する必要があるエンジニアリングとインフラストラクチャー改善のレベルは約1年前に始まり、これが私たちに前例のない需要でスケールすることを可能にしました。使用爆発。
私たちは55のレベルのトラフィックを提供していますが、時々失敗します。私たちのような素晴らしいエンジニアリングチームと自分たちの呼び出しを持っています。また、あまり話題にならないのは、私たちのモデルがどれほど効率的であるかであり、これにより私たちはただ計画全体でかなり寛容な制限を提供することができます。私たちは99.39の可用性を実現し、これについて本当に誇りに思っています。あ、同時に拡張しながら、数百の企業によって使用されています。私たちは現在400万以上で、すぐに500万に近い週間アクティブユーザーを持っています。今始めるのが最高の時です。多くのエンジニアがもっとコードを書きます。私たちはすでにそれについて話しましたが、私たちがまだ話していないのは、OpenAI内で本当にすべての人、私が見たすべての人、私が話した人がCodexを使用して本当にすべてをしていることです。エンジニアリングだけではなく。
マーケティング部門がそれを使用しているのを見ます。ファイナンスがあ、信じられないほどの資金調達ラウンドを改善し、Codexを使用してこれをすべて調整するのを見ます。それはこの万能薬になりました。そして私たちはCodexを使ってCodexを構築しているので、私たちはこれまで以上に速く構築しました。今年は非常に多くの数の機能をリリースしました。チーム構成、新しいモデル、Windows用Codex。Codexアプリケーション自体はたった3ヶ月古いもので、それはまだそれについて考えるときに私を驚かせます。高速モードをリリースしました。また、自動レビューもリリースしました。これは私のお気に入りの機能の1つです。エージェントとセキュリティとセキュリティについて考えるとき、しばしば見落とされることの1つは、承認と手動承認がこれが時間とともに疲労と誤りにつながるものです。
あなたがあなたのエージェントが何をしているかをすべて検証しに行かなければならず、それを承認したいかどうか真剣に考えたら、あなたはいつかエラーを犯すことに定められており、それにアクセスが多すぎたり、それが何かをするのを許したり、PRをマージしたり、または悪くは、どこかに何かを送ったりする可能性があります。あなたはそうすべきではない場所。私たちが拡張し続けるにつれて、これはあなたがもっと多くのエージェントがあなたのために働いているという真実になるでしょう。自動レビューは新しいシステムで、それは第2のエージェントを導入し、それは第1のエージェントの行動を検証し、それらをあなたのタスクの元の意図に対して検証します。だからあなたが言うなら、あ、私の重要なメールをチェックしに行く例えば、最後の3つを引っ張る、あなたは知っています、それは特定です、あなたが今日設定した目標へ。
その場合、自動レビューはこれがあなたの意図であることを理解し、主要なエージェントのその意図に対するすべての行動を検証します。疑わしいまたは高リスクなものとその意図と一致しないものはブロックされ、主要なエージェントはそれ以外の何かをしようとするようにリダイレクトされます。これは非常に重要です。それはあなたが人間の注意を保持し、不要な承認であなたを疲れさせないようにすることを可能にするからです。これはOpenAIの内部がデフォルトであり、それは20倍の承認削減をしました。私たちが会社で見ている利益はコーディング以上のものです。エンタープライズコントロール、主導モデル、および全体的な開発者体験をさらに深く自動化する柱に投資しています。私たちが出荷したアプリケーションの研磨のレベルと私たちがすでに出荷した体験がどれほど楽しいかについて、私は本当に誇りに思っています。
私はあなたたちすべてにそれを試すことをお招きします。これは本当にエージェントと相互作用する異なる方法で、時間とともに、私たちはそれをあなたが管理する各エージェントのコックピットに進化させます。Codexはビルダーのために、そしてほぼすべてのことに対してこんなにたくさんをロック解除しました。私たちが見ている非常に信じられないユースケース、さらには技術者でない人のためにさえ。これはRowanのお母さんで、Chaciで初めてImage Gene 2の魔法を経験しています。彼女はシニア採用リクルーターです。彼女は本当にあ、彼女の履歴書を管理する多くのことをする必要があります。彼女は採用に戻りたかったです。私たちは彼女にCodexを見せました、そして彼女はただすぐに理解しました。エージェントと相互作用する新しい方法があります。これは本当にみんなに来るでしょう。エージェントは技術者のためだけだと私たちは思いません。
エージェントを世界中に持ってくることについて考えるとき、異なった課題があります。あなたは本当に同時に魔法を保持し、またそれを安全で安全にする必要があります。しかし、これが世界中にすぐに来ると私たちは思います。エンジニアと技術者をより効果的にするだけではなく。私たちはエージェントチェーンを全世界にリンクしました。私たちはほぼすべてのプラグインを持っています。私たちはまたメモリシステムに取り組んでいます。私たちは新しいモデルに取り組んでいます。あなたは特定の特定のスケジュール上で実行するオートメーションを設定でき、おそらく数時間ごとにあなたにレポートを与えます。そしていよいよ私たちが見始めているのは、モデルが複雑なタスクをしている際にそれほど信頼性があるということです。それは本当にこれはただ何があるのか、およびあなたがそれらのモデルに与えるアクセス。
そしてこれは本当にそれが潜在力を制限する場所です。これらのモデルが世界にアクセスできるのと同じくらい。私たちは異なった分野で大きな成功を見ました。世界中で最も高度なエンジニアリング組織の1つの例を使ってそれをコンクリートにしましょう。C Limited、APACの最新で最大のデジタルプラットフォームの1つ、および主要なOpenAI顧客。CはCodexで完全に全力です。それは開発者組織全体で開始されました。その最高製品責任者は私たちと共有しました。Codexは本当にコーディングを超え、かなり魔法のように感じます。私たちは6月6日にここCで最初の地域Codexハッカソンを持つことになっています。ちょうどここシンガポール。私はあなたたち全員がそれに参加し、オンラインでチェックすることを望んでいます。私たちはまた45,000のNvidiaの従業員に展開しました。あ、私たちはわずか2週間で完了しました。
CodexはNvidia内のデプロイメントで自身をサポートしました。これは私たちが見ている傾向です。私たちは単にエージェントを使用してすべてを加速しています。Codexのデプロイメント開発を含めて。Codexが特別な点は、それが完全にオープンソースであるということです。GitHubでハードウェアのコードを読むことができます。Codexのrepo下にあります。ああ、あなたはそれをどこにでも持っていくことができます。私たちはChatGPTアプリケーションを通じてリモートコントロールをリリースしました。つまり、あなたはそれをRaspberry Piで実行できます。Mac Miniで実行できます。ノートパソコンで実行できます。セキュアな接続を通じてアプリケーションから完全に制御できます。ああ、直接です。
あなたもできます。相当素晴らしいことは、私がしたいことはブラウザの使用またはコンピュータ使用プラグインを使用することです。あなたのコンピュータ全体で使用してナビゲートすることを許可します。しかし、ああ、この小さなコマンド、この小さなリモートコントロール、あなたは単にあなたの電話に持っています。そして、これは私たちがすぐに気付く何かだと思います。エージェントはそれに対して何らかの永続性を持つでしょう。私たちは本当にこれをクラウド内のこれらの小さなエンティティとして見始めるでしょう。様々な異なるクライアントから到達できます。ウェブ上で、デスクトップアプリケーション、クライアントを通じて。最終的に、あなたは電話を取ってあなたのエージェントと話します。それはまだあなたのために何かをすることができて、あなたの人生のすべてにアクセスできます。私たちは迅速に配信します。ああ、迅速に修正します。
ああ、私たちは私たちは時々誤りを犯すことに恥ずかしくありません。ああ、私たちが誤ったときに一部のああ速度制限をリセットします。素晴らしいことの一つはPeterが私と一緒に働いています。彼はOpenClawの元の作成者です。私たちはこれもオープンソースプロジェクトとしてサポートしています。私たちは最近OpenClawのコアを書き直すことに取り組みました。Codexと同じ基盤に基づいています。つまり、実際に底ではCodexエージェントを実行しています。あなたはオープンソースrepoああああで読むことができます。再び、すべてのこれらのコードはオープンソースです。私たちは本当に、この新世代発明に貢献したいです。単に簡単な方法でこれらのことをする方法を示すことにより。ああ、私たちはセキュリティ優先を採用しています。私たちはまたセキュリティについて多く考えています。Windowsサンドボックスについてイノベーションしています。私たちはブログ記事でこれについて多くを発表しました。
あなたはそこですべてのWindowsサンドボックスについて学ぶことができます。私たちはまた、製品レベルでいくつかの難しい問題を解決しようとしています。将来、私たちはエージェントをChatGPTのスケールに拡張したいです。現在、ChatGPTはほぼ10億ユーザーを持っています。多くのことが私を興奮させます。ただし、これは私たちが本当に取り組もうとしていることの一部です。私たちは新しいメモリシステムを開発しています。Chronicleをリリースしました。これは実験的な研究プレビュー版です。それはあなたのエージェントがあなたが画面上で行っているすべてを追跡することを許可します。そしてそれから記憶を形成します。そうすればそれはあなたが先週何をしたかを知っています。あなたが今日何をしたかを知っています。より文脈認識になります。
私たちはこれがかなり革新的で、新しい、新しい拡張パラダイムであると考えています。えっと、その後、私たちはまた新しいツール処理方法を開発しており、将来的により多くを共有できることを期待しています。この部屋の何人かの開発者が質問をしたいとのことですが、残念ながら現場で質問を聞くことができませんでしたが、いくつかの質問を集めました。その中の2つについて議論できることを非常に望んでいます。えっと、これはLouisからの質問です。Codexアプリケーション上のDevXは、私が見たことのある中で最高です。プロジェクト組織、ワンクリックPR。それは私の構築方法を変えました。エージェントがますます強力になるにつれて、ユーザーベースが開発者を超えて拡張されるため、インターフェイスレイヤーについてどのように考えていますか?チャットは、私たちが大言語モデルから継承したデフォルト値のようです。それは実際に人々とエージェント間の長期的な協力の正しいパターンですか?
この進化はあなたにとってどのようなものですか?これは非常に興味深いと思います。最初、私たちは本当にこのものを継承していただけです。私たちは大言語モデルを通じて大言語モデルに電力を供給し、大言語モデルはチャット対話インターフェイスに電力を供給しました。ChatGPTはこの革命を開始しました。今、私たちが見ているのは、大言語モデルがあなたの代わりに行動し、すべてのアクセス権を得ることができるということです。私たちはこれらのことについて考える方法を変える必要があります。それは本当に深く変わるでしょう。私は、私たちが計算機、技術と対話する方法を考えています。それが、私たちが集団で発見したと考えるいくつかの制限から私たちを解放できることを期待しています。私たちは常に携帯電話にくっついていると思います。あなたが知っているように、曲がって、えっと、あなたが知っているように、おそらく私たちはノートパソコン上で熱狂的にタイプしています。それはまるで、私たちは他の人とあまり接続していないようです。
私は、未来は人々がより密接に接続され、すべてがより環境化され、シームレスな未来になると思います。自然言語を通じて、自然音声を通じて、非常にマルチモーダルな方法で技術と相互作用でき、それはあなたがその時点でしたいことに流暢に適応します。今それを想像するのは難しいですが、私は、あなたが知っているように、約1年以内に、エージェントが具体的な形態を持つようになり、事がより自然になるなどの兆候を見始めるでしょう。あなたは単に自然音声を通じてこのすべてを活用し続けるだけです。えっと、私たちは今日あなたのコンピュータに存在するアプリケーションの境界を打ち破ります。Dehanは質問しました。「あなたはいくつかのスキャフォルディングがモデルの改善とともに消えるべきだと言ったことがありますが、スキルは、おそらく保持されるべきユーザー所有のスキャフォルディングのようです。
誰かのものが失敗したとき、スキルを活用するためにモデル内でそれを修正するか、それとも別の場所で修正するかをどのように決定しますか。今日のモデルの制限を明日のインフラストラクチャに誤って変えることなく?」これは私たちが多く考えていることです。これは私たちの設定で独特です。私たちはモデルに対して制御を行っています。ツールシステムと製品に対して制御を行っています。エージェント プリミティブに対しても制御を行っています。
私たちはよく自分たちに問いかけています。もし今日、ツールシステムでこれを修正していなかったら、モデル改善がどのくらい速く進むだろうか?ご存じのように、エンドツーエンド圧縮、エンドツーエンド強化学習、非常に長時間実行されるタスクの圧縮といった事例では、これまで人々は手動圧縮と非常に複雑なシステムを使用してこれを修正し、状態を保持しようとしていました。次のモデル訓練で非常に懸命に取り組むことでこれを修正でき、非常に長いタスク周辺でのこうした一貫性を維持できるかもしれないと考えています。えっと、そこで私たちはモデルでこれを修正しました。時々、次世代モデルで修正するのに数ヶ月以上かかると推定し、その後、いくつかのショートカットを取ることにしました。えっと、ツールシステムでそれを修正します。
ですから、常にこの健全な緊張が存在します。しかし、私たちは共同でものを設計でき、本当に第一原則の観点から事物に対処することができます。えっと、これは常に、これらの問題について考えることに非常に興奮させてくれます。いくつかの問題もありますが、えっと、私の時間が少し厳しいと思います。ただ、あなた方がここにいてくれることに感謝したいです。えっと、あなた方がこの技術で考えるよう招待します。ご存じのように、未来がどのようになるかを考えてください。ご存じのように、それをあなた方の生活に招待してください。それは存在し続けるでしょう。それは進化し続けるでしょう。これはこれらのすべてのことを探索するための素晴らしい時です。あなたが素晴らしいビルド時を過ごすことを願っています。舞台上のDr. Fran Yang、GovTechのAI実践責任者を招待したいです。えっと、皆さん、おはようございます。えっと、私の名前はYangです。私はGovTech Singaporeで AIチームを率いています。
本日、AI Engineers Singapore イベントで皆さんと、シンガポール政府でいかに人工知能の導入を推進しているかについて共有できることを嬉しく思います。遠隔制御エラーです。はい。GovTechの非常に簡潔な紹介をさせていただきます。念のため、あなたがまだ不慣れな場合です。えっと、GovTechはシンガポール、えっと、スマートシティ・イニシアティブおよび公共部門デジタルえっと変革をリードしている主導機関です。私たちは技術の力を活用して、デジタル政府サービスを提供しています。あなた方の中には、実は、あなた方の多くが、SyncPus live SG、Go Business など、いくつかのGovTech製品をすでに使用していると信じています。私たちのミッションは本当にデジタル政府のエンジニアリング、生活を向上させることです。えっと、実は、GovTechは2016年に設立されました。今年、私たちは、テクノロジーが公共の利益に奉仕する10年を祝っています。
AIに戻ります。政府がAIを導入する必要があることは明らかです。えっと、最初の最も直接的な理由は、明らかに有効性と効率のためです。私たちの政府は、数百万人が毎日依存するサービスを提供する責任があります。AIは、私たちがこれをより速く、より正確に、より大規模な方法で実現する機会を与えてくれました。これは、私たちが見落とす余裕のない機会です。しかし、運営上の利益を超えて、市民と企業の期待に関する問題があります。新しいテクノロジーが市民のライフスタイルと企業の運営方法を変える場合、人々はますます政府がテクノロジーの歩に従うことを期待しています。これは、政府に対する国民の信頼と自信を高めるでしょう。申し訳ございません。デジタル世界で良好に統治するには、さらに深い理由があります。それを形成するテクノロジーを理解する必要があります。
人工知能との実践的な経験により、包括的で、根拠に基づき、かつ目的に適合した政策を策定するために必要な直感が築かれます。市民を保護しながら、イノベーションを促進します。最後に、私たちの国全体が、総理大臣が言ったように人工知能を受け入れることを望む場合、政府は、いや、政府は、傍観者の立場に座ることはできません。私たちは率先して行動する必要があります。市民が彼らの政府が責任を持って、かつ効果的に人工知能を使用しているのを見たとき、これは信頼を構築し、社会全体の基調を設定します。実際のところ、私たちはゼロから始めていません。多年にわたって、私たちの政府は、政策に情報を与え、運営およびサービス配信を改善するために、多くの分野で人工知能を使用してきました。これは機関内部での使用と、また市民および企業への外部サービスの両方を含みます。
いくつかの例を共有しているだけです。えっと、政府で実装している多数の人工知能ユースケースの中で、ヘルスケア分野では、人工知能は認知症前期の早期兆候を検出するために開発されています。このテクノロジーは非常に高いレベルの精度を達成し、結果は科学ジャーナル「Nature Communications」に発表されました。私たちは実際に、今年、コミュニティ会場でこのテクノロジーを展開しています。教育では、人工知能は、より高い精度でより速く課題を採点するのに役立つように配置されています。1クラスあたり3時間から4時間の採点時間を削減し、教師に学生と対話する時間をより多く提供します。仕事とスキルについて、私たちえっと、私たちの推奨エンジンは、私のキャリア未来をサポートしてきました。シンガポール人と住民に、パーソナライズされた仕事とコース推奨を提供し、彼らがより速くより適切な仕事を見つけるのを助け、また、新しいスキルをより効果的に学ぶのを助けます。
市民サービスについて、私たちは最新の人工知能モデルを開発し、市民コールセンターに展開しました。転写、要約、分析機能により、市民サービスをより良く提供でき、アフターワークを72%削減し、顧客満足度を95%に向上させることができます。同時に、安全テストツールと保護柵を開発することで、責任を持って人工知能を適用し、私たちの人工知能ソリューションが安全、安全で、予想通りに機能することを保証しています。過去数年間でAIを政府に導入する方面で顕著な進展を遂行しましたが、えっと、私たちはさらに進化することを渇望しており、AI搭載政府からAI原生政府へと進みたいです。では、あなたが質問を持つかもしれません。違いは何ですか?AI搭載政府は、人工知能をツールとして使用し、既存プロセスへの有益な補充です。
これは通常、レガシーシステムの基礎に基づいて構築され、段階的な改善が存在します。システムはスケーリングできますが、複合増長はできません。対照的に、AI原生政府は、はるかに野心的な目標です。これは、人工知能がすべての基礎とコアであることを意味します。私たちはゼロから始めて政府の活動方式を再想像し、私たちの考え方、設計、配信方法にAIを埋め込み、したがって常に継続的なイノベーションがあります。では、AI原生政府が具体的に私たちに意味するもの、そしていかに私たちはこれのために努力するのでしょうか?私たちは四つの支柱(ユーザロールで区別される)プラス1つの横方向の側面から、この問題を考えています。あなたのために素早く説明させてください。まず、すべての公務員がAIによって強化されることを望みます。すべての15万人以上の公務員、基層労働者から総理大臣まで、例外なく。
先ほどのウィヴン部長がAIの使用と構築についてお話しになったと思います。えっと、今後2週間以内に、常任秘書官の皆様を対象として、エージェント構築に関する技術的ハンズオン研修を実施する予定です。私たちは本当にAI生産性ツールをすべての公務員の手に渡して、日常的なタスクやワークフロー、例えば起草、要約、文字起こし、分析などの処理を支援したいと考えています。次に、市民開発者がAIを使って構築できるようになることを望んでいます。これらは基本的に、私たちが関心を持つ問題ステートメントに最も近い、非技術的な職員です。彼らは政策官僚であったり、市民参画担当官であったり、製品マネージャーやデザイナーであったりします。私たちは彼らにツールを提供して、コードを書いたり、プロトタイプを作成したり、それをデプロイできるようにしたいと考えています。
個人的には、これはゲームチェンジャーな取り組みだと考えています。なぜなら、それは政府全体の創新パターンを変えることになり、もはやエンジニアに依存する必要がなくなり、人々が早期段階で本当に彼らのアイデアを実現できるようになるからです。第三に、ソフトウェアエンジニアに関しては、AIは彼らがより速いスピードとより高い品質でプロダクションレベルのアプリケーションを構築できるようにし、ソフトウェア開発ライフサイクル全体を圧縮することになります。私たちは既に開発者向けにClaude CodeやCodexなど、様々なAIコーディングアシスタントを展開しています。これはコーディング業務の支援に限ったものではなく、コード審査、テスト、ドキュメンテーションなどのSDLC全体を含んでいます。最後の柱は、ドメイン及びドメイン変換とモダナイゼーション用のAIについてです。
私たちは教育、運輸、医療などのいくつかの主要分野に焦点を当てたいと考えており、また人事や財務などの機能横断的な機能についても、ビジネスプロセスを完全に再設計してより良い結果を得ることを目指しています。ご見受けされるように、これらすべてのAI取り組みを支えるのが、私たちの政府AIスタックです。これは最新のファウンデーションモデル、および視覚、音声、文書分析、評価、セキュリティ分野での定制AIスキルを本当に提供しています。これらすべては政府の背景とローカライゼーション機能を備えています。これにより、私たちのAIソリューションが高性能モデルで支えられ、より短い市場投入時間を持ち、設計そのものにセキュリティと信頼性が組み込まれることが保証されます。プラットフォームの一部として、私たちはまたエージェント構築ツールの能力を構築しています。数分かけて、それが何であるか、そしてなぜこれを行うのかについて説明させていただきたいと思います。
将来を見据えて、業界から了知したところによれば、AIエージェントが間もなく大量に出現することになります。これは、AIがより強力になり、データにアクセスでき、ツールにアクセスでき、自主的な方法で操作を実行できるようになることを意味します。国際データ公社の研究によれば、2028年までに、13億を超えるAIエージェントが存在することになります。
これは非常に大きく、恐ろしい数字ですが、個人的には、私たちが観察できる開発速度に基づくと、これは実際には非常に保守的である可能性があると考えています。私たちは既に、個人使用、チーム協業、さらには企業レベルの消費向けにエージェントを開発し始めている人々を見ることができます。政府内には、市民サービス、政策研究など、AIエージェントの用例の完全なセットがあります。政府内のAIエージェントの普及に伴い、私たちは、私たちは、それらを効果的に有効にし、最適化し、管理する方法を考えなければなりません。これにより、価値を最大化し、それに伴う関連するリスクを管理できます。申し訳ありませんが、私たちは、いくつかのコンポーネントを含む主権エージェント・ツールを構築しています。
MCPゲートウェイはフロントドアとして機能し、エージェント・ランタイムはサンドボックス環境とエージェントがその操作を実行するためのリソースを提供します。エージェント・アイデンティティ・マネジメントは、各エージェントが検証済みのアイデンティティを持ち、何ができるかを知り、その境界を超えられないことを保証しています。エージェント・メモリは、ユーザーに個性化された体験を提供し、単一セッション内に短期メモリを、複数のセッション間に長期メモリを持っています。可観察性は重要です。これはエージェント・エコシステム全体への監視を提供し、エージェントが何をしているかを監視し、問題を早期に発見し、何が問題なのかを理解しています。
スキル・プラットフォームは、ネット検索、文書読み取り、メール送信などの充実した既製機能ライブラリを含んでおり、これらすべてはバージョン化され、評価され、共有可能で、管理されているため、エージェントがそれらを利用してタスクを完了できます。その考え方は、政府内のあらゆるアシスタントやエージェント(コーディングエージェント、協同作業セッション、ワークフローエージェントを問わず)がすべてこのスタックのクライアントであるというものです。ワンドア、一切が可視化されるということです。単一のローカル設定内でこの問題を考えるのは相対的に簡単かもしれませんが、エンタープライズレベルでは、特に政府内の複数の組織のエコシステムで考える場合、これは全く異なるゲームです。
類比として、私は常に車の例を使ってそれを考えるのが好きです。非常に強力な車のエンジン自体は、人を一つの場所から別の場所に輸送するのに十分ではありません。丈夫な車体が必要です。道路が必要です。また、安全で効率的な移動を実現するため、明確な交通ルールが必要です。同様に、AIモデルは車のエンジンのようなものです。それら自体は効果的なエージェントになるのに十分ではありません。それらが真に有用で信頼できるものになるためには、ツールが必要です。したがって、エージェントAIへの主要な戦略の一つは、実際にはエージェント・ツールでこれらの機能を構築することに大きく投資することです。これで私の説明を終わります。皆様のご注目、誠にありがとうございます。これは本当に興奮させる瞬間です。これは本当に私たちの前にある興奮させる瞬間です。えっと、どうぞ私たちと協力してください。
えっと、そして、あのね、もしこの有意義な旅に私たちとともに参加することに興味がおありでしたら、公共の利益のための人工知能のために、もし興味がおありでしたら、どうぞ私たちのブースをお訪ねください。あのね、私たちのチームが私たちが進めている複数の仕事、イニシアティブ、プロジェクトを展示しており、彼らは皆さんとより詳細な情報をお共有することを非常に喜んでします。えっと、私もLinkedInで皆さんとのご連絡を非常に喜んでしますし、協力の機会についてのより詳細な情報をお共有したいと思います。非常にありがとうございます。では、デザイントラックの最初の発言者として、Air Foilの最高経営責任者兼共同創業者のPhilをお招きしたいと思います。もう一つ、簡単なお知らせがあります。えっと、現在午前10時を過ぎております。したがって、私たちの展示会はPullmanとCapitol Kinskypで開催されております。もしマップを参考にする必要がありましたら、私たちはいくつかのツールでお手伝いできます。ありがとうございます。
>> 了解しました、>> 素晴らしい。皆さん、おはようございます。皆さんがここにいるのを見ることは本当に素晴らしいことです。率直に言うと、このカンファレンス全体が起こっていること、皆さんの多くが世界中から旅行してシンガポールからここに来ていることを考えると、これは本当に超現実的です。えっと、私はPhil Hedatnea です。私はAirfoilという会社の共同創業者です。えっと、私たちは基本的には製品デザイン、ブランドデザイン、デザイン研究会社の組み合わせで、テクノロジー部門の様々な企業と協力しています。えっと、しかし過去5年間、私たちはサンフランシスコとシンガポールで二重の拠点運営を行ってきました。ですから、皆さんがここにいるのを見ることは本当に素晴らしいことです。えっと、皆さんが私たちが誰であるかを知っているかどうかにかかわらず、えっと、皆さんはおそらく過去に私たちと完成した複数の製品と相互作用したかもしれません。例えば、もし皆さんがエージェントを使用して文書処理を行っていれば、皆さんはおそらくReductを使用しているかもしれません。
もしアプリケーションに音声AIを埋め込んでいたら、Vappyを試してみてください。もしGentic Searchをしているのでしたら、Exaを試してみてください。誰か......ああ、後ろの列に誰かいます。えっと、または暗号化分野からのご出身でしたら、Salanaを試してみてください。えっと、しかし私が言いたいことは、約1年前に、私たちはAirflowにチームを構築しました。それはAirflow Labsと呼ばれています。なぜなら、私たちは皆、心の中に1つの問題を抱えていて、この問題は非常に非常にシンプルだからです。「私たちは2年後に仕事を持つでしょうか?」なぜなら、設計会社として、ですね、特に、もしTwitterで設計税についての議論を見たことがあれば、そして、絶えず改善されるモデルがどのように私たちが設計者なしで直接物を構築することを可能にするかについての議論。率直に言うと、私たちは少し怖かったです。私たちは自分たちがデザインプロセス内でどのような本当の立場を占めているのかを知りたかったです。ですので、私たちは構築を開始しました。
私たちは内部でいくつかのものを製作しました。例えば、Checkというものがあります。これは私たち自身のエンジンで、私たちの設計の実装を効果的に検証するために使用されます。私たちは片方でFigmaファイルを手に入れ、もう片方で実時間テストウェブサイトを手に入れ、その後、画像モデルを使用して両者を比較して、私たちが正しく実装していることを確保することができます。最終的には、これはかなりクールなものになりました。それは自己改善するウェブサイトです。なぜなら、私たちは重大度に基づいてソートして優先順位付けすることができたからです。私たちはそれをコードモデルに直接フィードバックし、その後、ウェブサイトを継続的に改善することができました。最初の開発バージョンをリリースした後でも。私たちはScoopと呼ばれるものを構築しました。それは実際には、顧客が私たちに与えてくれたすべての情報を取得し、それを非常に包括的なブリーフに変換するだけです。
私たちが取得した2~3ページの文脈から50ページ以上を生成します。しかし、さらに重要なことに、デザイナーが設計する業界、デザイナーが設計する顧客とユーザーに関するより多くの背景情報を提供します。これにより、彼らはより良い仕事ができるようになります。しかし、これすべての後、私たちは効果的な聖杯の問題、つまり誰もが解決しようとしている問題を一緒に解決し始めました。どのようにして品味を持つデザインエージェントを作成し、ゴミのように見えないものを製造できるのでしょうか。ですから、今日は私たちが学んだいくつかのことを紹介したいと思います。そういうことです。まあ、その1つではありません。完全にそうではありません。えっと、それは実際には Impeccable.style からのスクリーンショットです。これはダウンロードできるものです。私たちはそれを作成しませんでしたが、それはあなたのエージェントがより良いデザイン流暢性を持つのに役立ちます。
その仕組みは基本的には、エージェントに多くのすべきではないことを伝えることです。色のコントラストが適切であることを確認するか、より良いタイポグラフィを使用するなど。これは確かに意味のある違いを生み出します。Impeccable.style がない場合と、Impeccable.style がある場合で、ウェブサイトはずっと見栄えが良くなっていることが分かりますが、それでもまだゴミのように見えます。直接生成できるもののように見えます。では、なぜでしょうか。なぜこれはまだ起きているのでしょうか。まあ、私たちの見方は、良い設計だと思うもので AI を訓練することは、AI に私たちがどのようにしてそこに到達したかを教えることができないということです。これは非常に重要な視点を見落としています。設計は製品仕様を Figma に持ってくることについてではありません。設計は応用心理学についてです。これはユーザーがどのように考えるか、ユーザーがどのように行動するか、そしてユーザーと共鳴するプロセス、ビジュアル、およびナレーティブを製造することを理解することについてです。
私は設計師を人間心理学の調査者だと言うのが好きです。これは私の共同創始人が私たちが取り組んでいるマーチャンダイズプロジェクトのために整理したムードボードです。一見すると、それは実際には少しランダムに見えます。左上隅を見ると、サンフランシスコのカリフォルニア街の写真が見えます。これがマーチャンダイズとどのような関係があるのか、まだ明確ではありません。しかし、それが本当に意味することは、私たちが意味を得るものを分類する方法です。これらの画像は一見ランダムに見えるかもしれませんが、それらは誰かに意味を表現しています。設計師がこれらのムードボードを整理するとき、彼らは理解しようとしています。彼らは人々がなぜ特定のものと共鳴するのかを調査し、どのようにそれを行うかについてのルールを確立し、それを彼ら自身の仕事に適用しようとしています。これを見る別の方法があります。それはただ人間の創意です。
まあ、『The Runaway Species』という本があります。著者は Anthony Brandt と David Eagleman です。Tony Brandt は実は私が勉強したライス大学の教授です。私は彼の指導下で学びました。彼は私の最大のインスピレーションの源の1つであり、また私が設計分野に進んだ理由の1つです。『The Runaway Species』が明らかにするのは、人間の創意の定義です。つまり、既存の概念を曲げ、壊し、混ぜて、それらを導入した文化に相対的に新しいものを作成することです。簡単に言えば、人々は生まれながらにしてクリエイティブではなく、彼らは生まれながらのクリエイティブな特性を持っていません。私たちは毎日創意に富んでいます。これは私たちの脳の働き方の単純な部分です。しかし、これは単なる神経科学の定義ではありません。これは社会学的な定義です。私たちはバイオミメティクスなどのことでこれを見ています。
新幹線がトンネルの出口から山を通過する際に音爆を発生させない理由は、他の列車に基づくだけでなく、カワセミのくちばしに基づいて新幹線をモデリングしたためです。それは自然から得た洞察であり、まったく異なるコンテキストに応用されました。私たちが取り組んでいるReductoのようなウェブサイトでさえ、人々にとってより友好的で親しみやすく感じるようにしたいと考えています。そのため、ドットマトリックスを思い出させることができるページ要素、つまりドットマトリックスプリンタの要素を導入しました。ここで実際の例を見ることができます。インターフェイスとブランドが素晴らしく見えることと、ものがゴミのように見えて本来的に見えて真に創造的に見えることの間の違いは、まさにこのような小さな決定なのです。
しかし、私の重要なポイントは、これらすべてが結果から抽出されることはできないということです。結果に基づいて訓練することは可能ですが、最終的には全体的により良いビジュアルが得られ、明白なエラーがない状態になります。しかし、新しく、興味深く、新鮮なビジュアルは得られません。理想的な設計結果に基づいて訓練する場合、それらの背後にある背景と思考に基づかずに訓練する場合、その時に失望させる結果が得られます。そのため、この問題を解決しようと決めました。これをあなたに見せようとしています。以前、これをデモンストレーションしたことはありません。現在、これは私たちの内部のものですが、すぐにそれを一般に持ってくることを望んでいます。今日、私たちが構築したMeltと呼ばれるものを初めて見てもらいたいと思っています。したがって、Meltは私たちの設計者が行う多くのことから始まります。Twitterを設計するようなものです。えぇ、でもこれは多くの設計者にとって同じですよね?
彼らは常に世界中を歩き回っています。彼らはインスピレーションを探しています。彼らは興味深いブランド方向を見ており、今では彼らはMeltに直接保存することができます。彼らはMeltへの保存ボタンをクリックすることができ、その後、私たちは彼らの「バックパック」と呼ぶものに保存します。または、たとえば、ベトナムの旅行中にPizza Four Pasという名前のレストランに行った場合、彼らは「これはピザレストランですが、そのブランド方向は本当に美しい」と思うでしょう。本当に素敵です。えぇ、イラストは彼らのメニューのようなものであり、さらに華やかです。彼らは彼らが見たものを直接撮影でき、Meltに直接保存でき、その後、私たちはタイポグラフィ、色の使用などの主要なメタデータを抽出し始めます。しかし、企業自体に関する背景情報とあなたがそれを撮影した場所についても含まれます。
これらのメタデータをすべて取得すると、これはデスクトップ版がどのように見えるかです。バックパックに配置でき、後でこれらすべての情報にアクセスできます。では、なぜあなたはこれらすべての情報を保有したいのでしょうか?まず、理由は、設計者として、あなたはノートブックを使用する方法でそれを使用したいということです。保存したサンプルに注釈を付けることで、当時の思考を記録することができます。これは、6か月間で、それらのいずれかに戻る必要がある場合、すぐに戻ることができることを意味します。しかし、これはまた、収集したメタデータと、それがそれに対する人々の見方にどのように影響するか、それがどのように彼らの認識に影響するかの間のリンクを確立し始めることができることを意味します。したがって、これはより複雑なクエリを求めることができることを意味します。
たとえば、2026年のベトナムでセリフ書体と青、黄、または黒白のカラーパレットを持つビジュアルを見つけることができます。二番目の部分はおそらく画像モデルで直接実行することしかできませんが、すべてをそこに配置したら、複合クエリはより簡単に実行できます。2026年のベトナムで3つの保存を見つけたと言うことができます。実際に参照しているものをより深い方法で理解することができます。もちろん、Figmaへのエクスポートをクリックできます。これはすべての設計者が望んでいるものです。より興味深いのは、Meltがあなたがものを保存する理由を理解すると、それを他の人に提示でき、より多くの人の方法でそれを共有する能力をあなたに与えることができるということです。
したがって、Meltでは、一般的なクエリを実行することができ、他の人が残したコメントと注釈を使用して、あなたが見つけたいものをより深く理解することができます。したがって、これはより効率的なコンテンツ検索エンジンです。したがって、明るく風通しの良いUIでムードボードを組み立てるようなものを言い出すと、それは私だけが保存したのではなく、私のチームメイトも保存した参照資料を見つけることができ、彼らがなぜそれを保存したかについての背景があります。これは本当に、本当に重要です。創造性の定義に戻ると、私たちの見方は、想起を強化し、人々の前にものをより早く置くことで、しかし創造的なプロセスを保存し、フィードバック、行き来、および作品が人々に共鳴する理由についてのコメントを保存することも保証することで、より深い方法でそれを理解することです。
これは、次のステップを取ることができるようにしたものです。つまり、実際には「創造」の定義に引用符をつけたり、人間の設計者の意図を言い出したりして、これらのモデルが実際に生成する作品にそれを注入しようと試みることです。したがって、これはまだ製品の一部ではありません。これはBlendと呼ばれるものであり、私たちが構築したものですが、Meltに保存したビジュアル参照とメタデータとコメントを使用して異なるものを再混合することができます。私たちは現在、Melt内の影響プラスカスタムプロンプトとコマンドのみを使用してページ全体をレンダリングできるツールを構築しています。それはまだ少し粗いであり、やるべきことはもっとありますが、ClaudeまたはGPTを直接使用するよりもはるかに良い結果を生成しました。
Dieter Ramsはかつて、人を理解していなければ良い設計を理解することはできないと言いました。なぜなら、設計は人のためになされるからです。私は、今日の設計エージェントの問題は、私たちが人々が何をしているかを見ることに多くの時間を費やし、彼らがなぜそうしているかを見ることに時間を費やしていないということだと思います。しかし、これらすべてをプラットフォームに置き、それをLLMに対して読み取り可能にすることで、これが私たちの意図に従うためにより賢く行動でき、さらには自分たちで決定を下すことができるデザインエージェントの次の世代をアンロックすると信じています。私たちは創造的なプロセスを強化することから始めたいと思っています。最終的には、これにより機械に作成を教えることができます。最終的には、これにより機械に決定を教えることができます。これにより、UIを生成する世界とすべての私たちが構築したい素晴らしい未来が開かれます。
そこで、私たちはすぐに公開の場で Melt と Airflow での私たちのその他すべての活動についてもっと多くのことを共有する予定です。画面上の QR コードをスキャンして、私たちについてのもっと詳しい情報を知ったり、連絡を保つことができます。Min と私は、今日と明日の会議の周辺にいます。皆様、ありがとうございました。現在、Google のシニアユーザーエクスペリエンスリサーチャーである Annie Lua さんをステージにご招待したいと思います。皆さん、こんにちは。私は Annie です。私は Google のユーザーエクスペリエンスリサーチャーで、AI ショッピングに取り組んでいます。私たちは、コーディングエージェントと AI がより少ない摩擦でより多くのことを行う方法についての多くのお話を聞きました。別の側面について、別のカテゴリーの問題について議論したいと思います。そこでは、効率は目標ではなく、私たちは実際にこれらの日常的な消費者 AI 製品に対してある程度の摩擦を維持する必要があります。そこで、この問題について考えるために少し時間を取りましょう。鏡の前で自分自身に尋ねるかもしれない、ある質問です。
「このジャケットはどう見えますか?」しかし、その奥底には、あなたは実際には「これは私がなりたい人を反映していますか?」と尋ねているかもしれません。ええと、毛皮のジャケットは私の日常の範囲をやや超えているかもしれません、「これを着るのに十分な勇気はあるか、それとも私が過度に努力しているように感じさせるか?」そこで、これらはプロンプトや検索クエリではありません。これは人々が購入決定を下すときに静かに自分自身に尋ねる種類の質問です。したがって、最初の AI ウェーブは、ドキュメントの要約や最安値の便を予約するなどのタスクに関する多くのこの摩擦を排除することで機能します。これらは機能的なタスクであり、成功指標は非常に明白です。
ええと、あなたはタスクを迅速に完了します。そして AI が現在、問題がより主観的である一類の問題を支援するよう求められているとき、例えば「このジャケットはどう見えますか?」「どのような旅行をしたいですか?」などです。ええと、これらは主観的な問題であり、正しい答えは人、瞬間、さらには気分に依存し、効率自体は実際にその機能が実際に役立つかどうかを判断することはできません。では、これをどのように設計するのでしょうか?AI が人々がこれらの本当に個人的で主観的な日常の決定を行うのを支援することに向かうとき、3 つのことが変わります。人々は実際には、一連のバージョンを比較して見るまで、何を望んでいるかを知りません。これは人々が信頼を構築する方法です。AI が多くのこれらのより個人的な決定の思考パートナーになる場合、異なる種類の信頼を獲得する必要があります。
ファッションデザイナーに初めて会うことを想像したら、信頼はあなたたちの前で行われた小さなおしゃべりや、ファッションデザイナーがあなたがその日着ていたものについてコメントすることによって構築されます。あなたがあなたが好きなものの範囲について前もって推奨されるからではなく。ファッションデザイナーが実際にあなたが何を望んでいるかを知っていると信頼することはありません。だからその、これは本当に重要です、なぜならその、あなたが彼らを信頼するのは彼らがそれらの小さな相互作用を通して信号を持っているからであり、彼らはあなたの雰囲気を理解しているからです。機能的なタスクと異なり、個人的な決定への信頼は、あなたがすでに呼び出しを行ったという感覚から来ます。これらはすべて単純な成果物ではありません。これらは AI があなたがプロセスの中で構築するのを支援する必要があるものです。ええと、だから次のいくつかのスライドで、私は 2 つのドメインを使用してこれがどのようなものであるかを示したいです。
えっと、ファッションと旅行についてです。まず、これはいわゆる仮想試着です。これは Google ショッピングの AI 機能で、私がずっと取り組んでいるもので、衣類があなたの身体にどのように見えるかを可視化するためのものです。ファッション用にカスタマイズされた画像生成モデルによって駆動されます。私たちは昨年、米国とアジア太平洋地域でこれを発売しました。現在、オーストラリア、インドネシア、インドのユーザーが利用できます。それはこのように機能します。あなたはデニムジャケットを見ています。あなたは自分の全身写真をアップロードします。ですから、私はニューヨークのセントラルパークでの写真を選びました。ああ、そして AI はあなたの背景の中でジャケットをあなたの身体にレンダリングすることができます。あなたが製品フィードをブラウズするときにそれがどのように見えるかを想像する代わりに。注意してください。AI が手助けできることは、単にこれが好きなジャケットかどうかを理解することだけではありません。実は、「これを着たら自分に似合いますか、雰囲気を感じられますか」ということを可視化するのを手助けしているのです。
そして、あなたは異なるジャケットを着ている自分を見ることもできます。もしかしたら、白いものを試してみたいです。これが、あなたが一連のものを見て比較することで、徐々にあなたの味覚を構築する方法です。白いものを青いものの隣に実際に見たときに初めて、本当にどちらを好きかが分かるのです。さらに探索を続けると、あなたは自分自身についてのパターンに気づき始めるか、本当にあなたを驚かせるものを見つけるかもしれません。もしかすると、茶色のものは実は本当に良く見えるかもしれません。主観的な決定をサポートする AI は、実際には、あなたのために決定するのではなく、あなたが自分自身の味覚を発見するためのプラットフォームを与えるのです。このケースでは、例えば、私は本当にこれらすべてに興味がありません。私はファンではないと思います。ああ、しかし機能のフレームワークでは、ここは何も起こらなかったように感じられます。なぜなら、ああユーザーは購入しなかったからです。
しかし、主観的に言えば、彼らは超有価値なものを獲得しました。なぜなら、彼らは自分たちの味覚を研ぎ澄ましたからです。私も自分自身について何かを学びました。私は本当にあの紫色のスカートは好きではありません。それも同様に価値があります。次の例では、ああ、旅行についても見てみましょう。例えば、私は次にどこへ旅行に行くべきでしょうか?もう一度、以下の本当の問題は主観的です。「挑戦されたいのか、それともただリラックスしたいのか?」それともこの旅行では、「美術館の人になりたいのか、それともビーチの人になりたいのか?」予約エージェントはそれに答えるのを助けることができません。人々が旅行を計画するのは、部分的にはこれを明らかにするためです。Google Travel では、地図を単なる目的地セレクターではなく、探索する場所として捉えています。これは探索をサポートするインターフェースの種類の参考点であり、単にスキー旅行の予約に飛び込むことの効率だけではないのです。
もしかして、「今年の冬はスキーをする人になるべきか」と考えていますか?あなたはアスペンやウィスラーを探索したいと思っています。どちらも米国の素晴らしいスキー目的地です。またはもしかして、スキーの感覚が合わないと感じられ、今はまったく異なる種類の旅行を考えているかもしれません。ああ、ですから、あなたはイエローストーン国立公園またはヨセミテを探索したいかもしれません。今、あなたはまったく異なることを考えています。そしてチャットボットは5番目のプロンプトの前にあなたをスキーに約束したかもしれませんが、地図インターフェースはあなたが考えを変え、それと一緒に探索することを可能にします。これが重要な違いです。ですから、両製品の共通点はこれです。彼らはあなたに迅速な答えを与えようとしていません。彼らはあなたが思考するためのより良い場所を与えようとしています。
このためにこそ、我々が製品を設計する際に重要なのは、単なる決定を設計することではなく、「決定プロセス」を設計することです。なぜなら、品味、信頼、信心といったものはすべてプロセスを通じて段階的に構築されるものであり、最後に直接あなたに渡されるものではないからです。したがって、タスク完了度、結果を得るまでの時間、転換率といった、異なる一連の指標を測定する必要があります。これらの指標は機能的なタスクに非常に有効です。しかし、より主観的なカテゴリーの問題については、本当に重要なものは定量化が難しいです。例えば、ユーザーがより自信を感じているかどうか、彼らが自分自身について何かを学んだかどうか、またはもっと探索するために戻ってくるかどうか?これらが本当に重要なのです。実践から見ると、探索の減少につながる可能性のある3つの最適化方法があります。そして、そのような時点では、我々が本当に必要としていることは摩擦を再び導入することです。
日常消費製品の場合、AIが人々が個人的な主観的決定を行うのを支援する際、非常に重要なのは提案を直接提供するのではなく、比較をサポートすることです。そうしないと、人々の信頼を構築する重要な瞬間を見落とすことになります。同様に重要なのは、迅速な結果を単に提供するのではなく、意図を理解することです。異なるタイプの信頼を構築する必要があり、人々が意図や視覚的嗜好を表現できる瞬間に介入し、AIがあなたの品味とあなたが望むスタイルを理解していることを示す必要があるからです。意図を直接仮定するのではなく。最後に、主動的な選択を招待します。最良の選択を自動的に提供するのではなく、なぜなら選択の行為そのものが焦点であり、まさにこの探索の旅の多くの瞬間が、プロセス全体を面白く、喜びをもたらすものにしているからです。
ええ、これは自己発見にも関わっています。これらはすべて保持する価値のある摩擦ポイントです。ええ、ありがとうございます。私は消費製品におけるブレインストーミングが好きで、またSubstackでもこの種のことを書いています。後でお話しすることが楽しみです。了解しました。皆様、本当にありがとうございました。あの、これは我々の午前のコース第1部の終了です。では、劇場で15分休みを取ります。しかし、この間、あの、皆様に何か体験をお作りしたいのです。皆様にリラックスしてもらいたいのです。あの、ご存知のように、思考から離れてリラックスしてください。だからこそ、あの、正念訓練を受けた講師Kazayaをステージにお招きして、非常にワクワクしています。あの、彼女は実際に感覚瞑想体験を作成しました。これには振動符号化粒子可視化ツールが含まれており、彼女自身の数時間のガイド瞑想記録でトレーニングされました。午前の休息を楽しんでください。
これまでのところ、素晴らしいプレゼンテーションができていることを願っています。あの、次のプレゼンテーションに進みます。Vercelの Next.js リーダーであるJimmy Lieからです。彼は次のステップについて話すことになっています。Jimmy、ステージはあなたのものです。こんにちは。どんな感じですか?素晴らしい。良いですね、やあ、私はJimmyです。VercelでNext.jsとReactのチームをリードしています。それで、私たちがAI会議に参加しているので、ちょっと気になるのですが、ご存知のように、Next.jsとVercelについてある程度理解している人がどのくらいいるのかということです。さて、それほど悪くはありませんね。では、あの、それが何であるかわからない人のために、それは人々がウェブサイトを構築するために使用するウェブフレームワークのようなものです。これはプレゼンテーションのトピックではないので、我々は大丈夫なはずです。あの、しかしこれは興味深い数字です。4年前にNext.jsに参加したとき、我々は週に約400万回のダウンロード数でした。今日、我々は基本的に4200万回に達しました。
あの、明らかに、これは大部分、我々のチームが行っている信じられないほどの仕事のおかげです。しかし、実は、あの、実は私は大きな部分はコーディングエージェントのためだと思っています。あの、それゆえに、これは我々が開発者向けのツールを構築する方法を考える方法を大きく変えました。あの、なぜなら我々は人々が将来どのようにウェブサイトを構築するかについて多くの時間を考えていました。過去6ヶ月でそれは我々に追いついてきました。あの、予想より速度がはるかに速いです。あの、今年、我々は多くの時間をかけて討論してきました。あの、あなたが知っているように、我々がこの新しいタイプのユーザーに適応できる方法、我々がチームとして先頭に立つ方法、あの、将来我々に仕事がありますか?
ある程度で我々はうまくやっています。なぜなら、我々が経験する必要があると思うのは、この仕事がこれまで単なるタスクの実行ではなかったことに気付くことだからです。これはどのタスクが存在すべきか、そしてその結果を所有したいかどうかを決めることについてです。だから、そうですね、実際のところ、人工知能はただ実行と構築をはるかに速くするだけです。しかし、一日の中に同じ時間があることが判明しています。だから実際のところ、それは単に所有権をより高価にするだけです。なぜなら、あなたはまだあなたが出力するものを考える必要があるからです。あの、出そう、あなたはまだあの、それに関連する任何の問題を処理する必要があります。あの、だから今日、私はあなたたちとこれらの経験をいくつか共有したいのです。なぜなら、これらはこの部屋の誰もが適用できると思うからです。あなたがエージェント向けに構築しているか、エージェント向けに構築しているかに関わらず、またはあなたが自分のエージェントを構築しているかどうか。
あの、我々の予想は、我々が代理がどのようにNext.jsを使用するかについて学んだことは、代理がより広く利用されるようになるにつれて、さらに有用になるだけだということです。あの、あなたがコーディング以外の何か他のものにそれらを使用し始めるとき。あの、多分あなたのためにオンラインショッピングをするということだけについてですが、我々はすでにOpen Workflowのような場所でこれを見ています。あの、だから私は3つのことについて話したいのです。あの、我々が代理向けに構築を始めるようになった我々にとって、何が変わったのか。代理もまた、チームとして我々の仕事の方法を変えました。そして、我々が業界がどこに向かうと思うかについて、あの、特に、なぜオープンソースが今、かつてないほど重要なのかについて。そのため、2026年にフレームワークを維持することの奇妙な点は、キーボードの前に座っている人のためにもはや設計していないということです。あの、あなたは彼らとコードの間にあるもののために設計しています。
ですから、過去はエディタのドキュメントページでしたが、今ではコンピュータ全体にアクセスできるエージェントのようなものです。多分あまりにも多くのパーミッションがあるかもしれません。これは少し危険で、また高価でもあります。興味深い事実として、今日、Next.jsドキュメントの60%はマークダウン形式で提供されています。あの、これはコーディングエージェントだけではなく、あの、あの、ラボインデックスなどのようにも意味します。しかし、これはただあの、我々はもはや文書への手動クリックのような多くのことをしていないということを意味するだけです。つまり、考えてみれば、最後に自分で文書を参照したのはいつですか?あの、常に少し速いです。今は摩擦が少なくなり、あの、ただあの、ただ質問するだけです。あの、あなたが知っているように、Claude、Next.jsのこの機能はどのようなものですか?あの、ですから、我々はソフトウェアがソフトウェアの主な利用者になる世界に入りつつあります。そして、私はこれが多くを変えたと思います。
考えてみると、エージェントは少し厄介なユーザーのようなものです。それはあなたが書いたものを正確に読み、例をコピーし、コマンドを実行し、エラーに厳密に従います。だから、ループが壊れていて、あなたのエラーが良くない場合、彼らはしません、ああ、あなたが知っているように、ある種の停止のような、コーヒーを取得し、ベッドに行き、ああ、午前5時に目を覚まし、修正のアイデアを持ったままで。彼らはただ修正するまでずっと試し続け、お金を燃やし続けるだけです、ああ、彼らがそれを修正するまで。これは私たちにとって本当に有用です、理解できることは、人間がまだループに必要であることを示しているからです、そして何を最適化しようとするべきかです。ああ、例えば、ドキュメンテーションは以前はやや受動的なものでした。
以前、私たちはそれを公開していました。私たちは仮定していました、ああ、誰もしません、ああ、人々は時々それを読むでしょう、ああ、のような、ああ、時間をかけて知識を構築し、そして、ああ、あなたが知っているように、私は次のウェブサイトのための素晴らしいドキュメンテーションを持つことに常に誇りを持っていましたが、本当の投資利益率は決して本当に存在しませんでした。私たちはときどき、ああ、それらを見に行き、ああ、言いました、ああ、この機能が不足しています。ああ、しかし今、ドキュメンテーションは、ああ、あなたが知っています、少し、ああ、少しエージェント向けの聖書のようになっています。彼らはあなたがそこに書いたものすべてを選び、すぐに行動を起こします。それはただしているわけではありません、ああ、のような、フレームワークの種類のようなもの、ああ、開発ツールのようなものを提供するようなもの。それはあなたのコードベース内のあらゆるもの、あなたのreadme、あなたのプルリクエスト説明、あなたのああ、あなたのスクリプト、あなたのコードベース内のすべての古いファイルのようなものです。それは少しああ、時限爆弾のようなものです、対吧?
これはああ、これはああ、起こるのを待っている幻覚です。私が見てきた最も危険なもの、ああ、それは欠けているのではなく、対吧?なぜなら、エージェントがコードへのアクセス権を持っている場合、彼らはまだそれを理解できるからです。これ、ああ、ドキュメンテーションのようです、ああ、少し誤解を招いています。ああ、実践で見ているのは停滞した例です、かつてああ、一度に一人の人を混乱させ、今は基本的に、ああ、誰かが本当に気づく前に、数十万のプロジェクトを混乱させました。ああ、私たちにとってさらに悪いのは、ああ、悪い情報がデータセットに入ること、ああ、モデルが今污染されているかもしれません。ああ、これは確かにいくつかのNext.js機能で起きました。ああ、コンパイラエラーも同じ話です。私たち、ああ、ああのようなエラーがあります、私はNextで思う、ああ、これはNext.jsのエラーです、問題を開いてください。
そしてこれは、ああ、この種の、ああ、この時代の犯罪のようなもの、なぜなら、今日までああ、エージェント、ああが、ああ、Next.jsについてバグレポートを開くのを見たことがないからです。ああ、のような、ああ、ツールとして、ああ、それを提供し、それは私たちにとって本当に重要です、私たち、ああ、ユーザーを確認する、ああ、常に、ああ、可能な限り速く、負担なく。一般的に言って、これ、ああ、再び適用、ああ、あらゆる種類の、ああ、あなたが構築したツール、ああ、ああ、あなたが知っているように、ああ、銀行のウェブサイトのような、あれらはああ、10ステップのようなああ、ああを必要とします、支払いを送信またはあるもの。ああ、だから、しかし、私たちにとって、エージェントはこれを私たちにとってさらに重要にしました。
そう、これはああ、代理にとってもいい方法のようなああ、良い方法のようなああ、正しく設計したかどうかをテストするああ、なぜなら、新しいもの、基本的にああ、少し、ああ、いいえ、ああ、あなたが知っているように、彼らはああのようなものを持っていないStack Overflow。彼らはああのようなああ、Twitter知識を持っていない、ああ、何が何ものであるかを理解するああ。だからああ、もしあなたああ、API、ああが、不十分に設計され、不十分に名前付けられている場合、あなたああ、少し困難に直面するでしょう、対吧?そして、私が学んだ重要な部分があります、私はあなたがあなたの仕事にも適用すべきだと思います、ああ、どんなシステムでも可能な限りああ、明確である必要があります。操作を実行するときは、あなたああ、本当に、ああ、慎重に考える、ああ、説明できる方法。
のような、のような500のようなステータスコードは何も言っていない、あなたはそれをデバッグできるべきです、なぜなら私たちはああ、Sioが以前Codexについて言ったことのような世界に入っているから、エージェントはただそれぞれのために受動的に実行するだけです、だからあなたは自分のシステムを実行し、受動的に修正されるようにしたいです。あなたはしたい、あなたは彼らが理解できるようにしたい、あなたの前提条件があなたのすべてのウェブサイトが速いはずのようなああ、あなたはあれらを定義することができるようにしたい、今日私たちはここにいくつかの指標を持っていますが、多分あなたは異なる定義を持っているので、あなたはあなたのコードベースを通してこれをしなければなりません、それは何を意味しますか?信頼できるとはどういう意味ですか?これは何を意味しますか、ええと、速いですか?安全とはどういう意味ですか?
ええと、そうすることで、エージェントが自律的に実行し、それ自体を修正できるようになるとき、あなたは準備ができています。ええと、だからそう、これはああ、最初の転変のようなもの、基本的にエージェント向けの不具合の代わりに構築するようなもの、それはただ彼らを、あなたが知っています、さらに重要にするだけです。私はあなたに私たちが内部でどのようにエージェントを活用しているかについて共有したいです、対吧?ああのように、私は確かにあなたが慣れているだろうと思いますが、過去6か月間、ああ、私はこの業界が精神病段階に陥ったと思い、誰もが世界全体で全部を構築しようとしていました。
ああ、私は確かにクリスマスの間のopusのおかげで、その期間を過ぎたら、ああ、私は本当の仕事があなたが知っているように味と判断のようだと思い、そして私はエージェントについてより良い考えかたは、あなたが周りのすべてを理解するのを助けることができるのようなものだと思います。ああ、エンジニアとして、私にとって最も価値のあるのは私の焦点時間です。あなたが確かにこの研究について聞いたことがあるようなあなたが知っているように、邪魔されるなら、ああ、少しあなたは、ああ、平均30分のような、のような心の流れ状態に戻る必要があります。そして、あなたが知っているような世界では、非常に誘引があり、あるような10エージェントがバックグラウンドで実行中の、ああ、同時に10チャットを開く、あなたが知っているのように、あなたはどのようにあれを理解しますか?あなたはどのようにその世界で生産的なままでいますか?ああ、なぜならエージェントはまだ非常に強力だからです。
彼らはあなたが、ご存じのように、迅速に調査することを可能にします。混乱した調査のようなものを、ご存じのように、非常に優れたドキュメント仕様のようなものに変えることができます。さて、ここでの私の重要なアドバイスは、自分自身の辛い経験から学んだものですが、彼らとのチャットを自分自身を強制的にやめようとするのをやめることです。あなたはある程度、今すぐ仕事に投入したいので、エージェントに過度に依存する必要がないようにすることができます。これはある程度難しいです。なぜなら、私は同時に10個のチャットを持つようなことが好きだからです。これは私に少しドーパミンのようなものを与えます。しかし、このことについて異なる方法で考えると、ご存じのように、10個のエージェントのようなもので自分を制限するのではなく、今すぐ仕事に投入し、正しいプロンプトを適切な場所に配置し、正しいエボルブと防護措置を持つことで、これを行うことができます。
これはあなたがバックグラウンドで実行されている100個のエージェントのような方法でご自身を拡張する方法のようなものです。はい、なぜなら、これは業界として私たちに起ころうとしていることだからです。ですから、それはあたかも私が非常に興奮しているAIバージョンのようなものです。対吧?しかし、業界が判断だけでなく、また、ご存じのように、運動も報酬を与える別の側面もあります。呃、そしてEAAIはこれの多くを作成しました。だから、私は正直さについて話したいのです。これはAIを使うべきではない時を知ることのようなものです。呃、誰かが過去六か月間私に、過去六か月間は彼らの人生で最も疲れた五年のように感じたと言いました。はい、それはほぼ正しいように聞こえます。毎週、新しいモデル、新しいデモ、新しい機能がリリースされています。
そしてご存じのように、私の自然な反応は、私は確信していますが、あなたも感じたもので、このようなものです。基本的にあなたは同じことをするべきです。あなたはより多くのコードを生成するべきです。あなたはより多くの機能をリリースするべきです。そうすれば、競合他社に打ち勝つことを入札することができます。そうすれば、先に留まることができます。しかし、実際のところ、そして私たちが開発者ツールを構築するようなものから、過去10年から知っていることは、起ころうとしていることは、あなたはただ技術的な深さをスピードランしているだけです。あなたが過去六か月にリリースしたあなたの各デモについて、おそらくあなたは今それを感じています。さて、今あなたは実際にそれに対処しなければなりません。そして、それに伴うのは多くのような他の問題、観測可能性のような、価格設定、呃、確保するような、すべてが本当に信頼できる状態を保つことのようなものです。
さて、例えば、ご存じのように、あなたは週末中にトークンのような束を使ってNext.jsをフォークすることができます。呃、しかしそれはあなたが応該することを意味しません。呃、なぜなら、あなたがフレームワークをフォークすると、あなたはそれが付随するすべてを所有し始めるからです。その最近の最大の例のようなものはセキュリティ問題です。
嗯、昨年私は最後にShellへの対応を担当しました。これは非常に重大な問題、非常に深刻な脆弱性です。これはすべての所有権の極端な体現だと思われるものです。私たちはNext.jsを世界にリリースしたと言いました。数年前にリリースしました。私たちはそれをリリースし続けており、突然のこと、私はまだ、私たちはまだ私たちが所有している数百、数千のユーザーに対してそれを修正しなければなりません。これは私があなたに思い出させたいところです。あなたが技術スタックの一部を完全に置き換えまたは抽象化することができると思う場合は、1年後のことを考えてみてください。あなたがあなた自身のメタフレームワークを作成して、あなたのウェブサイトを提供する場合、あなたは本当にこの長期的に維持したいですか?または、オープンソースを使う方が良いかもしれません。そうすれば、あなたはコミュニティに貢献していることを確認することができます。そして他の人がより安全なウェブサイトを持つのを助ける可能性があります。
ところで、セキュリティ問題についても、私たちは今、前例のない時代に住んでいます。ある意味で、脆弱性は約毎月公開されています。対吧?これはAIが脆弱性の発見を非常に簡単にしたからです。セキュリティソフトウェアを使っていないかのように見えますが、実際にはその反対です。これはシステムが正常に動作していることを示しています。セキュリティパッチを受け取った場合、誰かが脆弱性を報告したことを意味しています。もう一つの選択肢は、あなた自身であなた自身のフレームワークまたはツールバージョンを構築することです。しかし、彼らはセキュリティ研究者の関心を得ません。だから今、攻撃者はあなたが自分自身の技術スタックを実行していることを認識し、あなたが知らないうちにあなたを攻撃するでしょう。
これはオープンソースが本当に重要な場所です。私たちは一緒に安定した基礎を構築することができます。さて、Vercelでは、あなたはただ物を発行することができるという言葉があります。これは素晴らしいです。私たちはこれから大量の本当に優れた製品を構築しました。しかし、今年の初めから、私たちはまた別のアプローチを採用し始めました。それはあなたがまたAIを使って物を削除することができるということです。
さて、以前は発行することは勝つことを意味しました。あなたは機能特性の機能ロードマップを持つことができます。しかし、今それは非常に安くなりました。あなたを会話と競争の中で先に置くものは焦点です。なぜなら、あなたはそれに対処しなければならず、あなたのユーザーもそれに対処しなければならないからです。私は実際に減速し、何が本当であり、何があなたの製品を異なるものにするのかを反映するために時間を費やすことを好みます。さて、あなたが少量のトークンで1時間以内に機能を構築することができるなら、あなたの競争相手も同じことをすることができます。だから、私が言おうとしているのは、根本的に発行しないということではありません。対吧?それより多く、あなたがどのようにあなた自身を保護するかについて、そしてあなたはどのようにあなたが発行し続ける能力を保護するかについてです。
ええと、問題ではありません——私たちはこれを構築できますか?ということです。答えはいつも「はい」だからです。より難しい問題、そして何かをする価値があるかどうかを本当に決定する問題は——これは存在すべきですか?本当に長期的にそれを所有する気がありますか?ええと、はい。Meta で働いていたとき、私たちは「ここでは発明されていない症候群」というものを持っていました——人々は実際に地球上のあらゆる可能なライブラリを再構築していました。ええと、かつて——人々は React Native にはかなり精通していました。例えば、React でウェブモバイルアプリケーションを提供することですね。興味深いことに、Meta 内部にはこれの3つのバージョンがありました。単に人々がこれを管理したくなかったからです——これはその時点で既に問題でした。今は皆にとって問題がますます大きくなっています。
もう一度、ええと、自分自身の製品を起動することを検討するとき、つまり、技術スタック内の何かを置き換えるために自分自身の製品を立ち上げることを考えるとき、考えてください——精神的負担——これが伴います。ええと、だから、はい。ええと、簡単なまとめとして、私の予測は——エージェントを使ってビルドする場合、本当に重要なのは、「ハッピーパス」にない何を考えるかです。ご存知のように、ユーザーは実際にプロンプト自体なしであなたのツールを完全に使用できますか?ドキュメント、エラー、CLI が適切に定義されていることを確認してください。エージェントを使ってビルドする場合、アウトソーシング判断には非常に注意してください。
ええと、それらを使用して判断に近いコンテキストを取得できます——研究を実施できます——レプリカ仕様を調査できます——パフォーマンス問題を調査できます。ええと、しかしはい、本当にあなたがもたらすものに焦点を当てて、それのための時間を確保してください。ええと、業界が加速しているとき、あなたが所有することを決定したものに注意してください。ええと、もう一度、AI は創作を非常に安くしています——しかし所有のコストはあなたが想像するよりもはるかに高いです。ええと、だからこれはあなたがリリースを減らすべきだという意味ではなく、むしろ業界として、私たちはより多くの焦点を持ってリリースしなければなりません——存在すべき物を構築します——それを理解可能、信頼でき、安全にして、信頼できる基盤の上に立たせてください。ええと、はい、ありがとうございます。>> 本当にありがとうございます、Jimmy。
私たちの次のスピーカーは Vran Yukich です。ええと、彼は Daytona の共同創業者兼最高技術責任者です。ええと、彼は自主 AI エージェントにとってサンドボックスがなぜ譲歩できないのかについて議論します。ええと、前置きはこれで終わりにして、聞きましょう >> Van ええと、皆さん、こんにちは。ここにいるのを見てうれしいです。ええと、私は Weather Nich です。私は Daytona の最高技術責任者兼共同創業者です。シンガポールは私たちのグローバルユーザー数が最も多い都市であり、上位5か国の1つでもあります。ですからご支援ありがとうございます。今日は、自主エージェントをサンドボックス環境で実行する理由についてお話しします。Cloud Code、CodeEx、Open Code、またはツールを使用するエージェントをインストールするとき、あなたはそれに多くを与えています。それはあなたの身元で実行されます。ファイルを読むことができます。SSH キーを使用できます。AWS の請求書を支払うことができます。物を削除できます。インターネットから読んだテキストに基づいて何をするかを決定します。
ですから私たちは良いと言います。生産性は本物だからです。しかし、私たちのほとんどはリスクについて考えたことがありません。では、なぜエージェントがすべきではないことをするのでしょうか?さて、それは容易に侵害される可能性があるためです。ええと、プロンプトインジェクションとは、誰かがエージェントが読むテキストに指示を隠すときです。2種類あります。直接的なもの——攻撃者が悪いプロンプトを入力する場合と、間接的なもの——エージェントが読むものの中に悪いプロンプトが隠されているときです。それはウェブページ、README ファイル、または電子メールである可能性があります。間接的なものは危険です。自主エージェントはインターネットを読むためです。それがその仕事です。幸運にも、ええと、モデルはこれを発見するのに次第に優れになっています。しかし、彼らは実際には確実にそれを捕捉することができません。攻撃者は一度だけ成功する必要があることを覚えています。だから、OASP は言う、OASP は明確に述べています。ええと、プロンプトインジェクションは完全には防ぐことができません。
これがモデルの動作方法です。OpenAI も12月に同じことを言いました。だから、モデルを構築する人々は実際にあなたに彼らがこれを阻止できないと言っています。これはバグではありません。これがテクノロジーの動作方法です。私たちもスキルを使用します。そうでしょう?だから、スキルはいくつかの指示を含むフォルダであり、おそらくいくつかのコードもあり、あなたはそれをダウンロードします。エージェントに与えます。エージェントはあなたのすべての権限で実行します——あなたのシェル、トークン、ファイル。スキルには App Store レビューがないことを覚えておいてください。だから、スキルとマシン間にサンドボックスはありません。エージェントはスキルから指示を読み取り、それらが言うことを実行します。ええと、数字を見ると、あまり良く見えません。
3つの異なるチームが2026年初にこれを見ました。KO security は Cloud のスキルマーケット——Cloud エージェントのスキルマーケットをチェックしました。彼らは341個の悪いスキルを発見しました。2月までにその数は800個以上の悪いスキルに増えました。Sneaked は別のグループをチェックしました。スキルの13%に深刻な問題があることがわかり、そのうち76個は明らかに悪意があります。同様に、「wild での悪意のあるスキル」という研究論文は、異なるマーケットプレイスにまたがる98,000個のスキルをチェックし、157個が悪いことを発見しました。では、その研究からの実在する悪意のあるスキルの例を見てみましょう。通常のドキュメントアシスタントのように見えますが、マークダウンに隠されたコメントがあります。そうでしょう?ファイルをプレビューすると、見えません。しかし、エージェントは見えます。コメントはエージェントに、プロジェクトファイルを攻撃者のサーバーに送信するよう指示します。そうでしょう?
ですから、興味深いことに、コメントの最後の行は、ユーザーにこれについて言及しないでください、と言っています。ええと、一部のスキルは実際のコードを出荷しています。これは通常のテレメトリ機能のように見えますが、見ると、いくつかのデータを収集し、分析エンドポイントに送信しています。しかし、よく見ると、ええと、本当に関心があるのはあなたの API キー、あなたのシークレット、あなたのトークンです。環境変数を走査します。認証情報を抽出して送信します。だから侵害を受けるには、実際に何もインストールする必要がありません。ええと、エージェントは任意の README ファイル、問題、電子メール、さらには PDF を読むことができます。どれでも悪意のある指示を含むことができます。だから、これを防ぐことを試みるのではなく、これは現実だと受け入れるべきです。モデルは修正できません。OASP と OpenAI が言いました。
新しいスキルエコシステムが既に悪いもので満ちており、新しい悪意のあるスキルが誰も本当に審査することができない速度で現れています。したがって、任意のREADMEファイル、任意のチケット、またはエージェントが読む任意のメールが悪意のある指示を含む可能性があります。では、私たちは何ができるでしょうか。私たちはエージェントがアクセスできるものを変更できます。つまり、ホストシェルなし、ホストファイルなし、認証情報なし、インターネットを制限し、タスク終了時に破棄することができます。サンドボックスは単なる仮想マシンやコンテナではありません。サンドボックス内のエージェントはまだあなたのアクセストークンを持っており、インターネットはまだ開いています。本物のサンドボックスは4つのことを行います。1つ目は、あなたの秘密をエージェント外に保つので、エージェントは決して見ることができません。2つ目は、エージェントがインターネット上またはローカルインフラストラクチャ内でアクセスできることを制御します。3つ目は、すべてをログに記録します。すべてのコマンドとすべてのリクエストです。
4つ目は、エージェントとAIモデルの間に位置しています。したがって、エージェントが何を質問したか、モデルがどう応答したかを確認できます。本物のサンドボックスは制限されたネットワークを備えています。各アウトバウンドリクエストは、各リクエストが許可リストに準拠しているかを確認するプロキシを通じて行われます。ランダムなエンドポイントへのリクエストは拒否されます。同様に、すべてがログに記録されます。したがって、何か問題が発生した場合、ログで明確に確認できます。エージェントはあなたの秘密を見ることができません。秘密はサンドボックスの外に存在するべきです。したがって、エージェントがGitHubへのリクエストを送信するとき、実際のトークンではなくトークンのプレースホルダー値を送信し、プロキシが途中で捕捉して秘密ブローカーから実際の値を取得し、GitHubに送信します。応答はプロキシを通じてサンドボックスに返されます。
したがって、エージェントは要求したものを取得しますが、トークンを決して知りません。エージェントが侵害された場合、トークンは漏洩しません。それはトークンがエージェントに決して公開されないからです。最後に、モデルはエージェントの脳です。出入りするものが見えない場合、監査証跡がありません。したがって、各サンドボックスは同じゲートウェイを通じてモデル呼び出しをルーティングし、各プロンプトと各応答がゲートウェイにログされます。したがって、たとえばサンドボックスAが異常な動作を開始したとき、何が起こったかを推測する必要はありません。サンドボックスAのトレースを開くことができ、エージェントが何を質問したか、モデルがどう応答したかを明確に確認できます。つまり、エージェントは侵害されます。唯一の問題は、侵害されたときに何に到達できるかです。
したがって、完璧なエージェントを構築しようとするか、それをサンドボックスに入れて安心して眠ることができます。したがって、選択してください——賢く選択してください。ありがとうございます。ありがとうございます、Van。次に、Vashant Kameeshwaranがいます。彼はGrapileの共同創設者で、Rohanもいます。彼もGrapileから来ています。彼らは500万個のvibecoded PRを分析することから学んだことを議論します。えっと、一度彼らが準備ができたら、私たちは彼ら両者が議論するのを聞きます。わかりました。皆さん、こんにちは。えっと、私はVishant、Greileの共同創設者兼最高技術責任者です。>> こんにちは、私はRohanです。私はGreileの研究者です。>> 今日、私たちは500万個のvibecoded PRを分析することから学んだことを議論します。したがって、Reptileでは、pull requestを審査とテストするAIエージェントを構築しています。私たちは毎月、Nvidia、Coinbase、Metaなどの企業の40億行のコードを審査しています。
Reptileは毎日100,000個のバグを識別し修復しています。AIエージェントは過去数年で大きく発展しました。2023年には、私たちはまだ短いコード片を生成できるかなり単純なエージェントを使用していました。2024年には、小規模マルチファイル変更を実行できるエージェントの台頭が見られ始めました。2025年以来、私たちは完全にエージェント駆動型のコーディングの新しい時代に入りました。AIエージェントは現在、仕様から直接PRを作成することができます。しかし、これは私たちに疑問を持たせます。これらの完全にエージェント生成されたPRは実際に良いのか。業界ではどのように採用されているのか。それらはどの点で成功し、どの点で失敗しているのか。ですから、私たちのデータベースには500万以上のPRがあります。ですから、この質問に答えるのに十分な準備ができています。えっと、最初に理解する必要があることは、PRがエージェント生成されたかどうかをどのように判断するかということです。
えっと、私たちは3つの主要なシグナルに依存して確認しています。えっと、最初はGitHubのauthorフィールドです。ですから、えっと、通常ボットはコミットの共著者として自分自身を追加します。これはボットがPRを生成したかどうかを判断する非常に確実な方法です。とはいえ、これはかなり希薄なシグナルです。私たちのデータベースの約1%のPRのみがこの方法で識別できます。ですから、明らかに1%以上のPRがボット生成されています。私たちはより強いシグナルが必要です。そのために、PR説明自体を確認します。えっと、通常ボットはPR説明に注釈を追加して、PRに貢献したことを述べます。これはボット生成PRの別の有用な指標です。えっと、これはより頻繁なシグナルです。私たちのデータベースの約20%のPRがこの方法で識別できます。
最後に、最近CodeExまたはCursorを使用した場合、彼らが作成したブランチの接頭辞にはその名前が含まれることをご存知でしょう。ですから、これも非常にわかりやすい標識です。人間がこれらの名前でブランチを作成する可能性は低いからです。えっと、ですから、この3つのシグナルを組み合わせると、4月に書かれた約27.6%のPRが完全にエージェント生成されたという強力な証拠があることがわかりました。これは非常に興味深い数字です。しかし、この数字の履歴を見ると——マルチファイルエージェントシステムが始まって以来——さらに興味深いです。ご覧のとおり、それは急速に上昇しており、今後も引き続き急速に上昇することが予想されています。完全にエージェント駆動型のソフトウェアエンジニアリングは未来です。ですから、これが本当に私たちの未来である場合、これはこれらのPRが良いのかという質問を提起します。
えっと、ご存知ですが、エージェント駆動型システムに依存することで、コード品質の大幅な低下が見られるのか、それとも、実は人間よりもコード記述が上手で、単に認めるのが怖いだけなのか。ですから、この質問に答えるために、私たちはまず自分たちに問う必要があります。良いPRとは何を意味するのか。私たちはこれを複数の異なる方法で定量化しようとしました。私たちが見た最初のメトリックはこれらのPRのリバート率です。えっと、通常、PRがリバートされるとき、それは本番環境で破壊的変更を引き起こしたか、ダウンストリーム問題を引き起こしたことを意味します。ですから、私たちは著者別のリバート率の分解を見ました。一部のエージェントが人間のベースラインよりも低いリバート率でPRをリバートしていることがわかりました——つまり、Claおよび CodeExです。
また、PR で変更されたファイル数による分解も行いました。興味深いことに、PR が大きくなるにつれて、AI エージェントの PR がリバートされる頻度は人間よりも低いことがわかりました。PR 品質のもう 1 つの興味深い信号は、それが受け取るコメントです。Vishan が Grapile で述べたように、我々はプルリクエストをレビューし、これらのプルリクエストをレビューするプロセスで、Grapile は人間のようにあなたのコード上にコメントを残します。現在、Grapile は P0 から P2 の等級に従ってこれらのコメントを評価します。ここで P0 は深刻なコード審査の変更であり、P2 は小さな問題です。今、想像することができます。PR が多くの P0 または多くの深刻なエラーを受け取った場合、それはわずかな小さな問題のみ、または根本的に Reptile からのコメントがない PR を受け取った PR よりも品質が低いということです。
ですから、これを指標として見るために、我々は各エージェントが生成したエラーの深刻度を分解し、人間のベースラインと比較しました。ご覧のように、ほとんどのエージェントは平均して人間よりも深刻なエラーが少ないです。これは興味深いです。これは、平均して、コード審査の変更を避けたい場合、つまり本番環境のダウンタイムを引き起こすことになることを避けたい場合、エージェントは実際にはより信頼性があるということを意味します。それでも、全体的な深刻度の分布を見た場合、人間のベースラインと比較してすべての深刻度のエラーを避けることができるのは、いくつかのエージェントだけです。したがって、もう一度言うと、エージェントがコード書きの面で全体的に人間より優れているか劣っているかはまだ不明です。我々が見た 3 番目の指標は、これらの PR をマージするのに必要なレビューラウンド数です。
ここで我々はレビューラウンドを、基本的にはエージェントが PR をオープンし、人間がそのレビュー PR 上にコメントの形式でフィードバックを残し、その後エージェントが戻ってこれらの問題を解決するための変更を行うという意味に定義します。これは我々が 2 つの異なることを理解するのを助けます。1 つは、エージェントが初回にコードをうまく書く能力であり、2 つ目は、彼らがフィードバックをどの程度統合し、新しいエラーを導入することなく変更を加えることができるかです。我々は再度エージェント作者で分解を行い、実際にはいくつかのエージェントは人間よりも彼らの PR をより速くマージすることができることを発見しました。すなわち Devon と Claude であり、我々は彼らがこの指標で最高のパフォーマンスを示すことを発見しました。ですから、ここまでのところ、我々はエージェントが人間よりもコード書きにおいて優れているかどうかを判断するためにいくつかの異なる指標を見てきましたが、我々は本当の結論を見つけることができませんでした。
いくつかのエージェントは特定の指標に基づいてコード書きの面で人間を上回っていますが、他の指標では彼らはよくパフォーマンスを示していません。勝者はいくぶん不安定です。これはあなたが何を測定するかに依存します。ええと、ですから、もしかして正しい質問は、エージェントが全体的に人間よりもコード書きが得意かどうかではなく、もしかして尋ねるべき質問はエージェントがどのようにエラーを生成するかです。彼らは人間と異なって見えますか、そしてどの点で異なりますか。ですから、この質問をさらに調査するために、我々は各エージェントが人間のベースラインと比較して生成する異なるエラーの分解を見ました。ですから、つまり具体的には、あなたがエージェントと人間のエラー率を比較した場合、ここの赤色はエージェントが人間と比較してこのタイプのエラーをより多く生成することを示し、青色は彼らがより少なく生成することを示し、色の強度はこの変化の大きさに対応します。
現在、ご覧のように、各エージェントが生成するエラーの種類はエージェントによってかなり異なります。例えば、Cursor バックグラウンドエージェントは N+1 クエリエラーをより容易に犯し、一方 Claude エージェントはテナント チェック欠如エラーをより容易に犯します。どのエージェントも単一の指標すべてで明確に勝っているわけではありません。ご存じのように、各エージェントの形状は異なっているように見えます。現在、我々がここで学んだことは、エージェントが生成するエラーの種類は人間と異なるということです。必ずしも我々が以前見たすべての指標より良くも悪くもありませんが、確かに異なります。ですから、我々がまだ話していないことの 1 つはエージェントは単にあなたがより速くコードをリリースすることを可能にするということです。ですから、品質がだいたい同じであれば、形状が異なり幅度がより大きいにもかかわらず、その場合、私は AI コード エージェントは実際に良いと言えると思います。
それらはあなたがより多くのコードを書くことを許可し、あなたはただ彼らが生成するエラーの種類に注意する必要があります。AI エージェントはこれまで以上にもっと多くのコードを書いています。Rohan が述べたように、彼らが作成するエラーの形状は人間と異なります。明らかに、AI コーディングが将来拡張するにつれて、あなたのコード検証システムも適応し、AI エージェントの未来のために拡張する必要があります。Reptile において、我々は数千の企業が彼らの増加する AI コード規模を管理するために AI コード審査を使用するのを助けています。我々は各モデルの長所と短所を理解するのに多くの時間を費やします。そうすることで、我々はそれらを直列に使用してより多くのエラーをキャッチするのを助け、すべての人のためにより良い品質のコードを作成することができます。Gretell が行っている仕事についてもっと知りたいのであれば、我々のウェブサイト guptell.com をご覧ください。
ええと、もしあなたが AI コーディングと AI コード審査の未来がどのようなものになるかについてさらに詳しく我々と話し合うのに興味があれば、えー、ぜひ我々のブースにお越しください。我々は喜んでさらに詳しく話し合うことができます。本当にありがとうございました。本当にありがとうございました。次に、我々は Sonar の研究顧問である Yunong Zang をお招きします。えー、Yunong はコード品質パイプライン内の AI エージェントについて議論します。えー、リリース、保護、測定します。ええと、Yunong、ステージはあなたのものです。わかりました。ああ、おはよう皆さん。ああ、私は Sonar の研究顧問です。また私は米国のある大学の博士課程の最終年の学生でもあります。ああ、ですから、今日、私は、えー、あなたのコード品質パイプライン内の AI エージェントについて議論します。ああ、具体的には、我々がどのように保護するのか、そしてあなたがこれらのコーディングエージェントが行った変更をどのように審査するかについて議論します。
ああ、ですから、ああ、ここの見方は私自身のものであり、Sonar のいかなる見方も反映していません。また、私、えー、標準的な免責事項があります。ですから、ああ、ここが、えー、非常に高レベルの図です。ですから、もしコードがどのように作られ、そしてどのようにリポジトリにマージされるかを考えた場合。えー、これらはだいたい非常に高レベルの 3 つのステップです。ですから、エージェントはコードを書きます。現在、ほぼ常に、エージェントはコードを審査します。処理するコードがあまりに多いためです。その後、人間はおそらくそれらをマージするかどうかを決定します。ああ、ですから、今日私はこのパイプラインの 2 つの側面について議論します。まず、エージェントがコードを書く場合、我々が Sonar でどのようにエージェントを構築するのかです。Sonar Remediation Agent と呼ばれるもの。えー、それは Sonar Cube の問題を修正します。その後、我々がエージェント生成のコード審査をより信頼性のある方法で評価する方法について議論します。
えーと、えーと、えーと、これが最初の部分で、SonarQube 補正エージェントです。えーと、基本的に、ワークフローは SonarQube で、皆さんの多くがご存知だと思いますが、コードをスキャンするために非常に広く使われている静的分析ツールです。えーと、SonarQube はあなたの PR 内のすべての問題を見つけます。そして、SonarQube 補正エージェントを呼び出して、自動的にパッチを生成してもらうことができます。えーと、このエージェントはあなたの既存のベース上に新しい PR を開き、改善された変更を提案します。えーと、右側のスクリーンショットはこのエージェントがどのように見えるかを示しています。えーと、この PR を開くと、SonarQube でどの問題がすでに修正されたかを教えてくれます。その後、えーと、パッチを与え、コードブロック単位で、このパッチがなぜこの問題を修正するのかの説明を教えてくれます。えーと、そのため、この公開ベータ版をリリースし、えーと、顧客からえーと大量のフィードバックを受け取りました。
えーと、本日、より論じたいことの一つは、これらのエージェントを本番環境に投入するときに、どのようにして保護するかです。えーと、これらのエージェントは大量のエンタープライズ コード上で動作するため、これらのエージェントをデプロイして実行する際に、確実にセキュリティ上の問題がないことを確保したいです。えーと、サンドボックス エージェントについて聞きました。これは非常に重要で、えーと、デプロイ時に使用しています。えーと、しかし、私が言いたいのは、ディープセキュリティも構築したいということです。これは、サンドボックスをデプロイした後に、レイヤード セキュリティを構築することを意味します。また、エージェント内部とエージェントがコードをリリースした後に、セキュリティを構築しました。えーと、ここに、エージェント内部で行っている幾つかのことがあります。
えーと、一つのことは、このエージェントに対して非常に制限されたワークフローを構築していることです。なぜなら、SonarQube の問題を修正するという非常に具体的なシナリオを処理することを知っているからです。えーと、自由なターミナルはない、つまり、エージェントは恣意的にインターネットにアクセスしたり、任意のコマンドを実行したりすることができません。また、コードベースを攻撃面として考えます。MCP とスキルだけでなく、コードベースもです。えーと、そう、もし人が、えーと、オープンソース コントリビューターが、えーと、あなたのリポジトリで PR を開き、その後、この人の動機が純粋でない場合を想像してください。えーと、実際に、彼らはあなたのリポジトリに送信する PR に悪意のあるコマンドを注入することができます。えーと、そう、それは私たちが検討した一つのことです。えーと、このエージェントを実際に実行するとき、すべてのこれらのコマンドを、えーと、他のえーと識別子に置き換え、その後、エージェント完了後にこれらのコマンドに戻します。
えーと、また、えーと、私たちはえーと、このサプライ チェーン攻撃を処理したいです。えーと、これは、もし私が悪意のある行為者であり、pip リポジトリのタイポスクワッティングを行い、エージェントがそのようなリポジトリをインポートしないようにしたい場合のシナリオに対するものです。えーと、そのため、エージェントがこれらの悪意のあるライブラリをインポートしないようにするために、大量のインポート保護を構築しました。えーと、それがエージェント内部で起こっていることであり、完了後にエージェント パッチを検証する方法です。えーと、そのため、エージェントがパッチを生成するとき、エージェント生成のパッチで SonarQube アナライザーを再度実行します。その後、回帰を発見したり、セキュリティ上の問題を発見した場合、エージェントは前回の反復からのフィードバックを受けて再試行するよう要求されます。その後、品質ゲートがパスされたとき、それは開発者にのみ送信されます。えーと、それが、私が議論したかった最初の部分です。えーと。
えーと、そのため、今、私たちは、このコード レビュー評価方法のトピックを変えたいです。えーと、これが今、真の瓶首になっています。なぜなら、エージェントがあなたのリポジトリに多くの PR を発行し、その後、人間はえーと、これらすべての PR をレビューすることができませんえーと。えーと、自然な方法は、えーと AI レビュー ツールを使用して、この PR をレビューするのを助けることです。しかし、多くのそのようなツールがあり、あなたの特定のユースケースに対してどのツールがより良いかをどのように知ることができるか、そして、どのように確実にそれらを評価できるか。えーと、これは私たちが研究したい問題です。えーと、えーと、これは現在の方法が行っていることです。えーと、もし、あなたがシナリオを考えると、私たちはいくつかの履歴 PR を持ち、人間はそれらについていくつかのコメントをしました。その後、この AI レビュー ツールを実行し、AI ツールが人間と同じエラーをキャプチャしたかどうかを確認したいです。えーと、もちろん、より多くの類似のエラーをキャプチャすれば、より良いです。
えーと、これは、人々が以前に行ったいくつかのメトリクスです。一つ目は、テキスト類似性を確認できることです。AI レビュー ツールが自然言語で生成した語義が人間と比較して同じ場合について確認できます。しかし、ご存知の通り、同じ問題を指していても、問題は非常に異なる方法で表現することができます。えーと、そのため、このトークン類似性は時々機能せず、また、えーと、ローカライゼーションも検討できます。これは、PR を取得し、これらのボットと人間がコメントを行う各行の位置を比較し、えーと、彼らが人間と同じ位置で同じコマンドを行う場合、ボットは良いと言うことを意味します。しかし、もう一度、これは語義を伝えません。それは単に位置です。えーと、また、別の簡単な方法があります。言語モデルを判断官として使用できます。えーと、これら 2 つのコマンドが同じかどうかを言語モデルに尋ねることができます。
えーと、そのため、時々それは機能しますが、それが本当に信頼できるかどうかを言うのは難しいです。えーと、そのため、えーと、ここのギャップは、実際のコマンドが良いかどうかを確認するための何らかの方法を決定したいことです。えーと、そのため、えーと、これが私たちが行ったことです。えーと、私たちは、えーと、CRAP という新しいベンチマークを構築しました。えーと、それはまた、同様のシナリオで機能します。つまり、AI 生成のコメントが人間と同じ問題をキャプチャしたかどうかを確認したいが、核心的な考え方は、言語モデル コンポーネントを使用しなかったが、各人間レビューを実行可能なテストに変換しました。えーと、これは具体例で、この PR 左側の行を取得し、えーと、誰かがコードベースのコンテンツを変更した場合、人間レビューは OK、これはより多くの入力をトリガーしてもよいと言うでしょう。このように。
えーと、安全に false を返さない、えーと、これは、改善されたコードの具体的な例で、えーと、人間レビューは、人間レビューがすでに提案しているものです。えーと、えーと、これに対応して、右側にテストを生成します。えーと、このテストは基本的にこのレビュー コマンドに対応しています。つまり、このレビュー コマンドが解決された場合、このテストは渡されます。そうでない場合、このテストは失敗します。えーと、それで、今、すべてのこれらの PR に対して、人間レビューはもうありません。えーと、すべてのこれらの実行可能なテストがあります。えーと、今、第二部分は、実際にこの入力に基づいて AI レビュアーを評価する方法です。えーと、AI レビュー ツールに PR を示し、コメントをするよう要求し、その後、別のコーディング エージェントを取得して、これらのコメントの基礎コードを改善します。えーと、現在、コードの異なるバージョンがあり、AI ベースのコマンドに基づいて改善されています。
その後、この実行可能テストを実行して、このアップデートされたバージョンのコードが良好であるかどうかを確認し、これらのテストのいくつが通過するかを確認します。このようにして、AI審査ツールが人間が指摘した問題をいくつキャプチャしたかをツールに伝えることができます。えっと、つまり、えっと、これが私たちが得た結果です。えっと、各ツールの具体的な数字はそこまで重要ではありません。なぜなら、これらの審査ツールは毎日向上しており、これらの言語モデルも毎日向上しており、これらの数字はえっと2026年初頭に取得されたものだからです。えっと、つまり、私が強調したい部分はこの右側の数字です。つまり、これらの審査ツール全体を一緒に考えると、人間による審査、えっと、人間審査者が指摘した問題の41.5%を解決しました。つまり、これは実際には、これらのえっと現在の審査ツールが、人間審査者が過去に指摘した問題の半分さえもキャプチャしていないことを意味しています。
えっと、でもこれは完全なストーリーではありません。つまり、この数字を除いて、私たちは実際にこれらすべてのAI生成されたコメントを見て、その品質を確認しました。なぜなら、彼らは人間が識別しなかった他のエラーを指摘することもできるからです。しかし、彼らはまだ価値があります。つまり、えっと、私たちはさらに人間とAI生成されたこれらすべての審査コメントを見て、その周りに分類を行いました。したがって、この分類はエラー修正を超えています。基本的に、私たちは彼らをセキュリティ、効率、互換性、堅牢性など、コードのドキュメンテーションと保守性までを中心に分類しました。つまり、えっと、このグラフはえっと各審査ツールが人間審査と比べてどのように実行するかを示しています。つまり、AIが実際にコードの堅牢性とテストで非常によく実行することがわかります。つまり、彼らはあなたにもっとコードをテストすることを提案するでしょう。
彼らはコード内の境界ケースを指摘し、それらを追加するよう要求します。つまり、これは私の個人的な経験と一致しています。つまり、AIは私が以前気づかなかったことを指摘するのが非常に得意です。しかし一方、人間による審査はAIと比べて保守性と設計に関して非常に得意です。つまり、つまり、彼ら、彼らは、もしあなたがこんなに多くの変更を追加したら、このコードはもう保守できなくなるだろうと議論します。あなたは、そして、あなたは異なる方法でコードを組織すべきです。なぜなら、人間による審査者はAI審査者よりもコードベースについてより多くのコンテキスト知識を持っているからです。つまり、えっと、ここでのポイントは、現在、えっと、私たちはまだAIと人間による審査を一緒に使用すべきです。おそらく、AI審査は第1層として機能すべきで、その後、人間による審査はAI審査者が得意ではないこれらの特定のカテゴリを確認することができます。はい。つまり、えっと、はい、これが私が議論したいと思っていたすべてのコンテンツです。
えっと、つまり、私たちがエージェントをどのように構築するかについて議論しました。その中では、私たちはより多くのコントロールとセキュリティに焦点を当てており、またAIと人間がどのようにコード審査タスクで一緒に機能すべきかについて議論しました。おそらく将来には、私たちはより多くのAIツール、つまり彼らが今欠いている側面に焦点を当てるツールを持つことができます。しかし、現在のところ、私はこれが私たちのコードベース上に層状の審査を構築するためのソリューションであるべきだと思います。つまり、これら2つは私たちの論文のQRコードです。つまり、これらの各トピックについて1つの研究論文があります。えっと、興味があれば、自由に読んでください。えっと、喜んでその後お話しします。非常にありがとうございました。次に、シンガポール発祥のFeatherlessのEugene Chiaをお招きします。彼は、オープンソースモデルが現在出現しており、今がシンガポールが構築する時期であることについて議論するでしょう。申し訳ございません。技術的な困難についてお詫びします。えっと、私にとって、AGIが実際に本当に解決されたとき、それは何がえっと?
これらのことは解決されるでしょう。プリンターのようなことは起こるべきではありません。わかりました。わかりました。やあ、私はEugeneです。オープンソースモデルについて話そうとしています。なぜそれらがここにあるのか、そしてなぜシンガポールが直接構築すべきなのかについてです。ええ、時間が限られているため、ええ、英語に若干傾いているかもしれません。もう少し速く言うかもしれません。とにかく、デモを開始しようとしています。このライブデモでは、単純なウェブゲームを非常に速く行うだけです。ええ、しかしより興味深いのは、最高のフロンティアモデルを使用しないということです。最高のオープンソースモデルさえ使用しません。Qwen 27BとGamma 43Bを使用します。これらはあなたのノートパソコンで実行できます。だから、ここでプロンプトを持っています。それを素早く実行させるだけです。起動して実行させます。ネットワークが断裂していないことを願っています。
わかりました。ご覧の通り、ええ、私はClineを使用しています。これはVS Codeに統合されたオープンソースコーディングエージェントの1つです。ええ、何でも使用できます。ええ、これはこのデモの重点ではありません。重点は本当に、これらが今日実際にものを構築するために使用できるモデルであることを示すことだけです。だから、これを待つことを試みています...わかりました、わかりました。計画完了。完了する計画です。確認さえしていません。わかりました。だから、これらはモデルですね。より重要なことに、あなたのノートパソコンで実行できるものです。だから、これはMM StudioとGamma 31Bの例です。ええ、私のノートパソコンで実行されています。Macノートパソコンで実行できます。最高級のものさえ必要ありません。ええ、これは同じQwen 27Bですが、クラウド上で実行すればおそらくより速いです。だから、ええ、その実行をクラウド上で行います。はい。はい。
そこで、私の背景について少しお話しします。私はEugeneです。ええ、私はAIモデル作成者です。ええ、世界中で数百未満のチームの1つがAIモデルを作成しています。ええ、特に東南アジアでは、本当に私たちだけです。ええ、Federalist AIの創設者兼CEO。最近、私たちはシリーズA融資を完了しました。評価額は1億2000万ドルです。Airbus VenturesとMD Venturesが主導しています。また、RWKBオープンソースプロジェクトの共同リーダーを務めています。Linux Foundationの下での最初のAIモデルです。私はシンガポールで生まれ育ちました。連続起業家です。ええ、私はスタートアップ、エンタープライズソフトウェア、銀行、オープンソース空間で10年以上働いています。基本的に毎月、私は東と西の間を飛び、定期的に往復しています。Federalist AIとは何ですか?私たちはプラットフォームです。オープンソースモデルの全コレクションへの即座アクセスを提供します。今日、30,000個のモデルがあります。
将来、私たちはすべての200万個またはさらに300万個のモデルをサポートしたいと思っています。その時までに、私たちの原則は、私たちが判官になるべきではなく、あなたがどのモデルを使用したいかをあなたのために決めるべきではないということです。あなたは自分で決定できるべきです。だから、これは私たちが拡大して誰もがアクセスできるように提供しているものです。Hugging FaceとOpen Routerを通じて私たちにアクセスすることもできます。これが興味深い理由もあります。ユーザーがモデル、つまりモデル全体のコレクションを選択できるようにすると、ええ、それはまだ30,000の初期段階にあり、私たちは拡大しています。人々が選択肢がある場合に実際に使用するモデルを観察できます。だから、これは基本的にこの話の背景です。つまり、人々がオープンソースモデルで何をするか、というようなことです。
結局のところ、ですね、本当はより興味深い洞察を得ることについてなんです。ですから、この質問に答えるために、2つの主要な部分に分けます。1つ目は、どのようなオープンソースモデルクラスを使用するかです。これは通常、人々がオープンソースAI領域に初めて参入する時に興味深いと感じることです。なぜなら彼らが好むのは、Qwenを使うべきか、それともDeep Seekのようなものを使うべきかということだからです。しかし、これは展示するのが最も難しいメトリクスの1つである可能性があります。なぜなら毎回スライドを作成するたびに、次の週には時代遅れになってしまうからです。これは12月で、当時私たちのトラフィックの大部分はDeep Seekに支配されていました。企業顧客の場合は、Administr Nemoiに支配されていました。
これは非常に興味深いパターンだと思います。消費者は最新かつ最高のものをすぐにテストして実験することを好みますが、企業は大規模にものを実行することを好むので、効率に焦点を当てているからです。しかし、すぐにそれは置き換えられました。その後、数日前のように、Gammaはチャートから爆発し始めました。これは談話そのもののために私が更新しなければならなかった、文字通り更新されたバージョンのチャートです。あら。はい、はい。実行が完了しました。わかりました。ええと、ですからこれはIvanとGoogle Tigチームへの喝采です。彼らはGamma 31Bに素晴らしい仕事をしました。それで、これらのモデルはその後何に使用されますか?ええと、あら、ライブデモの問題ですが、かまいません。私たちがますます聞くようになるオープンソースプログラミングエージェントユースケースのような、私たちのトラフィックの巨大なバーを表しています。
別の主要なものはAIコンパニオン、セラピー、ロールプレイで、実はエージェントプログラミング利用を上回っています。ただし、エージェントプログラミング利用は多くのユーザーが多くのエージェントを実行する場合で、AIコンパニオンスペースは通常は企業顧客である一部のもので、企業が数千人のユーザーコーディングユースケースを持つところです。これらはClineやClot codeなどの私たちが保有しているメタデータに基づいています。このような種類のユースケースが見えます。その後5% chbttのようなもの。あら。再度、私たちが完成データのプロンプトを感知していないため、この数字をおおよそ推断しています。
では、これを超えた興味深い点は何でしょう。ですね、ここで、ええと、ここで私はモデルクラスで表しています。しかし、ファインチューニングされたモデルで表す場合、ファインチューニングについて聞いたことがあるかもしれません。それはあなたの個人的なユースケースまたは企業のユースケース用にモデルを専門化するためです。チャートの違いが見えます。
私が最も興味深いと思うのは、通常すべての一般的なモデルの最初の3分之1または半分ではなく、下半分です。なぜなら、この推論市場が1兆ドルの市場になるとすれば、物事が興味深くなるのはここだからです。ここは、私たちがAIモデルが特定の地域をサポートするようにファインチューニングをサポートするのを見る場所です。例えば、私たちが誇らしくもSambar AIの提供者の1つになっています。Sambar AIはウガンダの最初の言語モデルです。またはDenu AIモデルで、これは農業言語モデルです。医療ユースケースも見えます。Open Handsについては、それはシンガポールでも訓練されています。そしてセキュリティのようなCisco基礎モデルなど。
ですから、これらのトレンドについて私が興味深いと思うことは、より重要なことに、オープンソースモデルが現在のSonnetとMiniラインを超えており、ノートパソコン上でOpusレベルのインテリジェンスを実行しており、加速しており、長いコンテキストコストが低下しているということです。時間が少し押しているので、もっと速く進みます。基本的に、オープンソースモデルはSonnetに匹敵し、AIモデル用にOpusに近づいています。はい、まだ少し遅れていますが、ほぼそこです。しかし、これはより興味深いです。私が実行した2つのモデルはGPT-4コーディングユースケースを超えています。もちろん、彼らはGPT-5ではないかもしれませんが、覚えておいてください、彼らはノートパソコン上で実行しています。基本的に、今日見える最高のモデルはおそらく来年ノートパソコン上で実行されています。これはオープンソーススペースで常に繰り返されるパターンです。これが、この部分をスキップする理由です。
ですから、これが理由です。ですね、私はこれが全てのAIエンジニアに強調したい重要なことです。ライブデモを見てみましょう。わかりました。わかりました。ですから、これは小惑星の1つです。ええと、見ましょう。これはGamma 31Bのはずですが、例えばQwen 27Bを開いてみましょう。これも別のものです。可能性としてノートパソコン上で実行されるという事実は注目に値します。なぜなら、今日ノートパソコン上で実行できるこれらすべてのモデルはUI、API、またはその他の任意のことができるからです。もちろん、数回の再試行が必要かもしれません。しかし、シンガポールを世界またはアジア太平洋地域のAI中心にしたい場合、問題はモデルではなく、私たちです。構築を開始するだけです。これはシンガポールのすべての人に開始してほしいことです。構築するだけで、障害がないからです。はい、そうです。ありがとうございました。
本当にありがとうございました。本当にありがとうございました、Eugene。ああ、次はMax Buckleyがいます。彼はXAIの知識研究責任者です。Maxが話します。ああ、彼の最高の講演タイトルは「2025年11月24日、次は何か」です。Max、あなたの番です。>>皆さん、こんにちは。ああ、EXAのMaxです。ああ、私は知識研究の責任者で、現在設立している私たちのチューリッヒオフィスも担当しています。これはより存在論的な講演なので、EXAについて実際に話すつもりはありません。ああ、これはタイプミスではありません。何度も聞かれていますが、これはタイプミスではありません。2025年11月24日、次は何ですか?ああ、2025年11月24日は何ですか?それはClaude 4.5 Opusのリリース日です。私の立場は、これは歴史で事物が変わった日として記録されるということです。
つまり、私があなたに提案するのは、社会を支える博弈論が変わりつつあるということ、GenAIがこれを駆動しているということです。えっと、数年前のChatGPTの歴史的な例とより最近のOpusの例を使います。しかし基本的には、私たちが持つ機関は何かが高くつくという仮定に基づいて構築されており、これらのコストが仕組みを機能させるわけですよね。しかし、私たちがこれらのコストを削除すると、それらの周りに構築されたシステムは動作しないかもしれません、崩壊するかもしれません。ですから、プルーフ・オブ・ワークはそのような歴史的な例ですよね。多くのシステムがあり、人々が努力することを要求して、彼らが努力したことを証明させるわけです。そうすることで、ご存知のように、人々に学校で学ばせるわけです。本当にあなたの会社の仕事に応募したいという人を見つけることができます。
ご存知のように、あなたは誰かが信頼できるかどうかを知ることもできます。今、メールやLinkedInメッセージのようなメッセージを受け取った場合、それが非常によく書かれていたら、この人は本当に説得力があり、本当に私と話す努力をしたとは思いません。この人はただLLMを使ったと思います。そして以前は全く反対が本当でした。今、タイポのあるものを受け取った場合、誰かがモデルにタイポのあるテキストを生成させたか、または意図的にそれを編集してタイポをさらに増やしたかのいずれかです。私がゲーム理論の視点からこれについて話す理由は、これをオプトアウトできないからです。大学が「GenAIプロジェクトを許可しない」というような主張をしたとしても、ご存知のように、それはあなたの学生が誤りを編集して強調ダッシュを削除しなければならないことを意味するだけです。ですから、これらの変化をオプトアウトすることはできません。それらはあなたのところに来ます。
えっと、今、コーディングでも同様の転換が起こっていますよね。ですから、過去約8年間、ご存知のようなタブ補完から転換して、行を補完する、関数を補完する、ファイルを生成することを要求できるようになり、今このコーディングエージェントを持つようになりました。この高レベルプロンプトを与えることができます、数分から数時間実行され、全体を構築し、テストして検証して、完了時にあなたに戻ります。これはかなり大きな転換であり、まだ完全に展開されていません。興味深いことに、モデル自体がこの転換に気づいていません。ですから、Claudeを使用する場合、過去に真実であった時間推定を使用します。ですから、Claudeに大きな仕様を与えて、「これは狂った考えです。この研究論文を実装しましょう。」と言ったら。
Claudeは、このプロジェクトに12週間が必要だとあなたに言います。その後、マークダウンをClaude Codeにコピーします。それは12週間実行されます…えっと、違いますね、30分実行されて完了しました。ご存知のように、明らかに世界がどれだけ変わったかをまだ理解していません。このオリジナル推定が間違っていたと思いません。たとえば、Googleで働いていたときに、ご存知の非常に優秀なエンジニアがいて、それを初級エンジニアに割り当てると、確かに12週間かかります。それは12週間のレビュー、反復、進捗です。このコンピュータリテラシーの概念を覚えていますか。つまり、おそらく私は間違った観客に説教しているのかもしれませんが、昔の状況は多くの人がコンピューターを恐れたり、それを困難または難しいと感じていたことです。これの背後にある理由はコンピューターが超リテラルであることですよね。
もしセミコロンを落とすか、タイプミスのようなものがあれば、コンピューターはただ「それは見つかりません。それは動作しません。あなたは運がありません。」と言うでしょう。そして、コンピューターリテラシーは人々、普通の人を助けることについてであり、コンピューターを使用することに慣れるのに、例えば彼らに、はい、あなたはセミコロンを落としましたが、心配しないでください、あなたはそれを入れることができます、それはまだ動作します。いいえ、違法な操作は実際には犯罪ではありません。心配しないでください。えっと、しかし繰り返しますが、コーディングエージェントが推進している事の一つ、そして私はコーディングエージェントという言葉さえ潜在能力を過小評価していると思うのは、ここの転換です。なぜなら、コーディングエージェントまたは単にあなたのコンピューター上で実行するエージェントはコンピューターに自然言語インターフェースを与え、普通の人のようには、今、彼らはこの1つの障害があります。それは私はどのようにターミナルを開きますか。Claude Codeをどのように起動しますか。
今、彼らは以前できなかった方法でコンピューターを使用できます。彼らはそれと自然言語で話すことができます。それは彼らが何をしたいのかを行う方法を通じてガイドすることができます。彼らはネットワークで自分のプリンターをセットアップするにはどうしますか。彼らはどうやって、ご存知のように、スクリーンショットを撮るのですか。彼らのカメラが見えるかどうかをデバッグするにはどうしますか、対吧。これは彼らが以前はできなかったことです。オープンソースは次です。次だと言う、私の意思はそれはすでに起こっています。つまり、この部屋には人がその側面のいくつかについて話してきた、対吧。しかし、ご存知のように、オープンソースはエンジニアに開かれていました。今、それはコンピューターを持っていて識字である誰でも開かれていることを意味します。これはかなり多くのオープンです。もちろん、これは新しい問題、新しい課題をもたらします。だからはい、かつて真実だったのは、たとえば、これらは去年の終わりより前の世界の仮説です。
ですから、かつての状況は、ソフトウェア開発が高くついていたことです。ほんの少数の人しかコーディングできません。これらの人々は非常にスキルがあります。彼らの時間は非常に価値があります。えっと、ですから、ご存知のように、基本的に各機能について機会費用があります。組織全体の部分があり、私たちが正しいことで作業していることを確認するために特別に設計されており、いくつかの正しい定義を通じて。ご存知のように、どのプロジェクトをするべきか、どのプロジェクトを優先すべきかについての終わりのない議論があり、バグ修正にどれだけ投入するか、新機能の追加にどれだけ投入するかに関する議論があります。同様に、ソフトウェア開発は遅いです。
ですから、小さな機能でさえ、ご存知のように数時間、おそらく数日必要です。大機能は数週間かかることができ、数ヶ月かかることができます。システムの本当に大きな再構築は複数人による数年かかることができます。もちろん、これの良い点の一つは、ロードマップがこれと かなり整列できることです、対吧。ロードマップは四半期ごとにできるので、効果的な仕事は四半期ごとです。Googleで働いていたのを覚えています。ご存知のように、私たちはおそらく誰かに彼らの四半期に4、5、6のスコアを割り当てるでしょう。それは4、5、6のことです。彼らはその四半期で働き、します。通常、彼らはそのうち70%から80%をします。えっと、ですから、これらの2つの事柄のため、あなたは無慈悲に優先したいのです。そして様々なシステムがそれをするために設計されている、対吧。
ご存知の通り、かつて私たちは営業チームから数百個の問題、リクエスト、機能、そしてアイデアが提出されていました。その後、プロダクトマネージャーがこれら数百個あるいは数千個のアイデアを30個にまで絞り込みます。これら30個がエンジニアリングマネージャーのところへ行き、彼らはこれらについて議論し、その後『前の16個をやる』と線を引きます。これら16個がチーム内のエンジニアに割り当てられます。ですから、私が言ったように、興味深いのは、私たちのすべてのプロセス、習慣、および組織図がこれが真実だと仮定していることです。ですから、これらすべては、これらの変化とともに変わる必要があります。そうですね、基本的には、全体のことは希少性経済学に基づいており、ご存知のように、コードの各行は非常に価値があるため、何らかの方法で事柄に優先順位を付けるべきです。えーと、ご存知のように、SaaSのようなものは非常に興味深いです。
私たちは皆それについて聞いたことがあります。今、それは何らかの危機にあります。興味深いのは、ご存知のように、優れたエンジニアリングチームがあれば、理論的には1日で競争相手や他の任意のソフトウェアサービスを構築できるということです。しかし問題は、あなたはそれをしたいですか?基本バージョンを構築しようとするために数人が数年間と数百万ドルを費やす気があり、その後、販売と人々の転換を説得することの課題に直面する気がありますか?今、これはずっと簡単になり、これは人々に、護城河はもはやコードではなく、あなたのブランドとあなたの市場参入チャネルであることに気付かせました。
機械学習とデータの護城河はより長くなると考えます。なぜなら、境界線がどこにあるかを正確に確定するのが難しいため、決定的なものよりも逆行エンジニアリングがはるかに困難だからです。この希少性思考も変わる必要があります。専門的判断によって30個のアイデアを3個に削減し、その後これら3個を実装するというこのアイデア、ご存知のように、私たちはもうこれをする必要がありません。今、私たちは30個すべてを構築でき、良好な評価を行い、ベンチマークテストを実施し、実際にどれが価値があるか見て、その後、残りを復元できます。私たちはこれら復元したものに非常に執着しません。なぜなら、私たちはそれを構築するために3か月を費やさなかったため、私たちの昇進ケースもそれに依存していないからです。ですから、そうですね、ソフトウェアの供給は爆発するでしょう。これは元々のアイデアではないと言っています。
えーと、最近GitHubのCEOがツイートしました。現在の運行速度によれば、GitHubコミット量は年対年で14倍増加しているとのことです。これは2025年を超えました。そして2025年はすでに2024年より4倍成長していました。つまり、現在の速度では14倍で、まだ増加中です。ですからさらに多くなるでしょう。特に興味深いのは、新しいツールの限界費用がほぼゼロであることです。ですから、今、あなたがタスクに割り当てられた場合、例えば、あるいはおそらくあなたはいくつかのデータにラベルを付ける必要があるか、問題をデバッグする必要があるかもしれません。あなたはそのタスクのために新しいカスタムユーザーインターフェースを迅速に組み立てることができます。その後、二度と使用されません。これは狂っています。なぜなら、このユーザーインターフェースはClaudeが20分で書く必要があるかもしれないからです。しかし、それはデータにラベルを付けたり、画像をフィルタリングしたり、他の何かをしたりするのに効率を10倍向上させるかもしれません。そうですね?
例えば、人間として、あなたは視覚データの処理に優れていますが、テキストや他の何かの処理には必ずしも優れていません。今、私たちはこれらすべてのニッチアプリケーションを構築できます。これは四半期ごとに正当化できるものではありません。えーと、だからボトルネックは市場参入とコードレビューに向かうでしょう。なぜなら、今あなたは何かを構築できるし、他の人もできるからです。ですから、人々はより競争力を増し、人々に彼らのアイデアを使わせたり、彼らのアイデアを見させたり、彼らの声を聞かせるために競争するでしょう。コードレビューはすでに議論されているので、今は詳しく説明しません。しかし、基本的に、ご存知のように、コードレビューは、私たちが生成するコードの量のためにもう一度苦しんでいるだけです。もちろん、人工知能もこの問題を解決するのに役立つかもしれません。ですから、私は今価値があり、投資する価値があると思うのは統計です。統計学はGoogleのような大きな会社でいつも非常に価値がありました。
常にありました。ご存知のように、あるチーム、実験を評価するための統計ツールを構築している何人かの人々。その後、多くのエンジニアがこのツールに依存します。彼らは単にオプトインするだけです。今、より広くに分布するスキルとして、それはより有用かもしれません。なぜなら、すべての人が多くの異なる方法でさまざまなことを評価できるからです。ここでの評価は異なることかもしれません。パフォーマンス分析かもしれません。ベンチマーク、A/Bテスト、ユーザー行動メトリクスなど、これらのようなことかもしれません。えーと、アイデアと趣味は別の重要なことです。ですから基本的には、何を構築するかについてのアイデア、アイデアを持つことがより重要になるでしょう。その後、もちろん、これらのアイデアを反復することです。ですから、私の最後のポイントは、単に知識の具体的な価値です。私は変わると思います。
私たちは深い技術的専門知識から転換します。あなたが本当に詳しく何かの正確な構文を理解するときから、何が存在するか、どう使うか、そしていつ使うかを理解することへです。これらのモデルで、あなたのプロンプトが比較的一般的であれば、通常は一般的な応答を与えます。しかし、正しい言葉でプロンプトを与えると、それはこのような奇妙な可能性を解き放ちます。例えば、私の最後の例は統計です。「あなたの変更をベンチマークしてください」と言う場合、通常n=1で実行し、一度実行し、二度実行し、どちらが速いか見ます。「統計学を使う」と言う場合、突然、それはp値とt統計とこれらの他すべてのことと大きなサンプルサイズについて言い始め、それは狂います。そうですね。ですから、それはそれです。そうですね。ですから基本的には、問題はもはや、あなたがそれを構築できるかどうかではありません。問題は、何が存在するべきかです。ありがとうございました。
XAIのMaxに非常に感謝します。次はStripeのソフトウェアエンジニアであるMark Doyleです。えーと、ステージに向かうと、Markは「Minions」についての小さなトークを共有します。えーと、それは映画『Minions』ではなく、むしろStripeの一度の端から端へのコーディングエージェントプラットフォームであるMinionです。えーと、彼らがそれをどのように構築したか、なぜそれを構築したのか、背後にある理由、そしてコーディングエージェントについての彼らの思考を議論します。皆さん、こんにちは。えーと、粘り強くいてくれてとても感謝します。それはほぼリリースされようとしていることを知っているので、えーと、これを保つことを望みます、えーと、本当に興味深いです。えーと、私はStripeのコーディングエージェントプラットフォームで働いています。えーと、私の名前はMarkです。
えーと、コーディング エージェントを使用したコード作成およびソフトウェア エンジニアリング ライフサイクル全体に関連するほぼすべてのことに関与してきたと思います。えーと、今日お話しする内容、つまり一度きりのコーディング エージェントについて議論し始める前に。つまり、1 つのプロンプトから直接 PR へ、一度きりで。Stripe での状況をお話しするために。えーと、Stripe では世界 GDP の約 2% を処理しています。ですから、最先端を目指し、AI の最前線にいようとし、これらのモデルを使用していますが、えーと、ユーザー、顧客、および世界経済全体に対して非常に大きな責任があります。つまり、品質基準と安全基準を維持する必要があります。えーと、ですから、これはすべてを構築する際に念頭に置く最初のことです。
そうは言っても、Stripe のエンジニアの 91% が毎日 AI を使用してコードを記述しています。つまり、Stripe の全従業員がソフトウェア開発ライフサイクルのどこかで AI を活用しています。えーと、ですが毎日、エンジニアの 91% が AI を含むコードをマージしています。過去 1 年間で、AI によって完全に生成されたプル リクエストの数が 500% 増加しました。えーと、ですから今日は、ええ、これをどのように実現したか、つまり、一度きりのエージェントがどのようにしてこれを実現したかについてお話しします。えーと、一度きりのコーディング エージェントは業界で相当よく知られている用語だと思いますが、私たちが内部で広く使用しているものは、えーと、プロンプトまたは Slack スレッドからプル リクエストに至るまで直接進み、相互作用なしで PR を作成する場合です。
ですから、Stripe でも、あなたたちがお持ちのようなツール、例えば Claude Code、Codeex、Cursor などを所有しています。えーと、私たちもこれらを使用していますが、これらをある種の co-pilot ツールと見なしています。これは、エンジニアがツールと一緒に座り、つまり、反復的な方法で協調的に作業する場合です。一度きりのコーディング エージェントは、エンジニアがプル リクエストやその実装しようとしているゴールのだいたいのところを知っていると私たちが考えるシナリオに特に対応しています。長期間にわたってツールと一緒に座っている必要はありません。
ですから、エンジニアにとって、多くの異なるワーク セッションを管理し、異なるマシン上の異なるエージェントに接続することは、少し無駄だと思います。おそらく、彼らは事前にエージェントと計画セッションを持ち、その後このワンショット体験を起動でき、コード レビュー段階に入る前には相互作用を必要としません。えーと、ですから、はい、私たちの目標はエンジニアの時間を節約することです。つまり、彼らがすでに大体どのようなコードを書こうとしているかを知っている場合に、新しい開発環境を起動したり、ブランチを作成したり、プル リクエストを作成したりするのに時間を費やしたくないのです。私たちはこのすべての作業をエージェントに委譲したいのです。コードの実際の記述だけでなく。えーと、ですから、私が私たちのワンショット エージェントの 1 つを使用する例を提供します。
ですから、ここでは、私たちの Stripe MCP ツールの問題を調査しています。これはごく単純な例で、私たちがどのように行っているかを示すためのものです。えっと、私たちは Slack の中にこれらのエージェントを持っていて、えっと、私たちは言うことができます。「ねえ、この問題を見ました。ここに何か問題があるかもしれません。」えっと、エージェントはすぐに戻ってきます。それは私たちのコードを読んで、私たちのドキュメントを読んで、そして言います。「ああ、見てください、これはあなたが探している問題のようです。」この場合、これはほぼ3行または3文字の違いです。これは非常に直接的な変更です。今、このシナリオで私の開発者の役割は知っています。えっと、この変更は非常に単純です。例えば、基本的に誰でも実装することができます。エンジニアである必要さえないかもしれません。
ですから、私たちは、私たちのエンジニアが現在、次の10分間を分支の作成、エージェントの起動、エージェントへの問題の再説明、このコンテキストのコピーペーストに費やすことを望んでいません。私たちは、彼らが文字通り、「ねえ、この問題を修正してください。プルリクエストが戻ってきたら、私がそれを承認することができます。えっと、またはそれを私の同僚に承認させてマージさせることもできます。」と言うことができることだけを望んでいます。えっと、ですから、この場合、Devbox は minion のようなものです。これは私たちが単一実行エージェントと呼ぶものです。えっと、そして開発者は、その後のある時点で、このような応答を見ることを期待することができます。minion が戻ってきて、「ねえ、私たちのプロセスが完了しました。えっと、私が書いたコードを見てください。」と言います。ですから、開発者は、その中のどの部分にも参加する必要はありません。
そして、これはある程度、私たちがこのようにしたい理由の哲学的側面です。なぜ私たちはエンジニアのための時間を節約していると考えているのかです。今、私は、私たちが実際にこの結果をどのように実現するかを説明することができます。ですから、えっと、前のメッセージで見たように、私がエージェントをインスタンス化するとき、私たちはこのメッセージを見ました。エージェントは言います。「ねえ、ちょっと待ってください。私はあなたのタスクを処理しています。」私たちが、あなたが知っているそのメッセージから、エンジニアが審査できる実際のプルリクエストまで、どのように進むのですか。ですから、私たちは本当に幸運です。私たちは dev box に投資してきました。これはリモート開発者環境です。ですから、Stripe エンジニアはノートパソコンでコードを書いていません。彼らはリモート開発者環境でコードを書いています。私たちはおそらく、私たちがなぜこれらを必要とするのかについて、全体の講演をすることができます。Stripe は超大型の単一コードベースを持っており、世界で最大の git リポジトリの1つです。
それは約3億行のコードに近いです。ですから、例えば、私たちのリポジトリをクローンすると、約90 GB です。えっと、私たちのコードを生成するのに非常に長い時間がかかります。ですから、私たちはこれらのリモート開発者環境を持つ必要があります。ですから、毎回新しい分支や何かが必要なときは、それを直接取得することができます。私たちはプールを持っています。それらはすでに準備ができています。そして、私たちは本当に幸運です。私たちはこれらに何年も投資してきました。事実が証明された今、彼らは、あなたが知っているように、本当にエージェントに適しています。エージェントはそこで非常に快適に作業することができます。彼らはすべてのツールを持っています。えっと、これらは私たちが今日業界で見ている軽量サンドボックスではありません。
これらはかなり大きいものです。例えば、開発者マシンには多くのコアがあり、64から128 GBのメモリを持ち、かなり大きなマシンで、相当能力があります。えっと、例えば大規模なエンジニアリングタスクのようなもので、えっと、各minion は自身の dev box を持っており、彼らはそこに自分たちの家を持っています。えっと、彼らは、ご存知のように、セキュリティの観点からは安全に隔離されており、えっと、サンドボックスなどがあります。次に、これは単に良いコード書き込み環境です。
つまり、minion に計算リソース、dev box、例えば実行するマシンを与えたら、ファイルシステムのようなものが必要で、shell が必要で、dev box でそれを与えています。最初にすべきことは、この巨大なコードベース内で実行するのを支援することです。プロンプトまたは Slack スレッド、我々が収集できるすべてのコンテキストを渡します。ですから、例えば、えっと、私が示した例では、それは Slack スレッドで、そこで別のエージェント、ご存知のように、えっと、コードベースを検索して、いくつかのコンテキストを与え、あるいはまた、ticket が言及されていて、pull request が言及されていて、同僚からの他のコンテキストがあるかもしれません。我々はそれらすべての情報を収集して、この analyzer エージェントに渡します。ここで見ているその analyzer エージェント、ご存知のように、そのすべてのコンテキストを収集して、その後わかった、これが我々がエージェントを指す必要があると思う場所です、これはコードベースの正しい部分です、その後我々は始めます、えっと、実際の実装段階を。つまり、一度我々がコードをどこに書くか、あるいは、えっと、だいたいどのような種類のタスク、全体を要約するだけで、えっと、Slack スレッドの全内容、またはどこから minion を始めたとしても、何かになって、プロンプトになって、えっと、この minion ループを開始することができます。つまり、minion ループは、我々が常に pull request を生成し、エージェントが途中で停止しないことを確保するプロセスです。
そして、これが minion ループの見た目です。つまり、我々は上部のこの白い矢印から開始します。我々は、えっと、Slack スレッド内のすべてのコンテンツ、今説明したそのコンテキストを取得し、ご存知のように、我々はそれをこの coding エージェントに与えます。白いボックスで見ているもの。これは単なる通常の coding エージェントです。えっと、ご存知のように、例えば、あなたが Claude Code または Codeex を使用するのに非常に慣れているであろう、プロンプトを取得し、会話のコンテキストを取得し、そして試みます、ご存知のように、目標に向かって進むこと。それはターンを取って、目標に向かって進もうとします。
えっと、それが、ご存知のように、目標に向かって進むということの後、我々はそれに lint を実行させ、我々はテストと型チェックを実行させ、その後我々は停止し、我々は人間に戻りません。これは単一ショット エージェントと、えっと、ご存知のように、co-pilot エージェント間の何らかの違いです。ここで、我々は結果を LLM judger に渡します。これはスクリーンの下部で見えるこのオレンジ色のボックスです。そして、LLM judger は文字通り、元の著者が minion に与えたプロンプトと現在の git diff または既に生成された出力を取得し、我々はそれに単に尋ねます、このタスクは完了しましたか?ですから、それはこれらを得ません。その上下文がこれらすべてで毒されません。編集エージェントが提示する可能性のあるような情報会話、すべての、ご存知のように、理由、なぜそれが動作を停止したのか、またはなぜこのタスクが不可能であるかなど。
えっと、実際にはそれはただ、ご存知のように、バイアスのない判定機で、このタスクが完了したかどうか、または、えっと、失敗したかどうかを判定します。えっと、タスクが完了した場合、素晴らしい、私たちは、ご存知のように、プルリクエストを作成でき、エンジニアのところに戻ってえっと、レビュー用に準備ができたと言うことができます。えっと、ここで完了しました。完了していない場合、えっと、診断エージェントがあります。これはご存知のように、LLM判定の出力を確認し、コーディングエージェントセッション中に何が起きたかを確認し、元のプロンプトを確認します。そして言います:「あ、えっと、テストが失敗したために完了していません。またはこれは完了していません。これは実装が間違っていたために完了していません。ご存知のように、えっと、APIエンドポイントを作成しましたが、フロントエンドを接続していません。これらはコーディングエージェントが明らかに見落とす事柄です。」えっと、診断エージェントからそのコンテキストを取得し、ループに戻します。
ですから、必要に応じてこのループを何度も実行します。診断エージェントからの入力は短く保つように努力しています。えっと、そのため、コンテキストウィンドウを超過しません。しかし、診断エージェント、LM判定、コーディングエージェントを含むこのループを継続的に実行します。プルリクエストのようなものを取得するまで実行し続けます。プルリクエストが必ずしも常に正しいわけではありませんが、現在Stripeでは、minionプルリクエストの約65%を初回で成功してマージしています。したがって、65%の時間、Stripeエンジニアがそれらの1つを起動すると、人的な干渉なしでマージされます。ですから、かなり良くなっています。モデルが改善されるにつれて、えっと、これがますます有効であることが分かります。えっと、通常、エンジニアは、もし、ご存知のように、初回で成功しなかった場合、エンジニアは飛び込みたいと考えます。えっと、そしていくつかの変更を行います。
ですから、その点に基づいて、ウェブインターフェースがあります。ご存知のように、対話を継続的にガイドすることができます。また、えっと、ここの画面の上部で見ることができます。例えば、minionで生成されたボックスをVS Codeまたはターミナルで開くことができます。これにより、エンジニアは、例えば初回で成功しなかった場合に、minionを引き継ぐことができます。ですから、それはある程度、この小さなコーディングエージェントをどう処理するかの話で、それに住む場所を与えてから、これらの初回通過プルリクエストを生成するというものです。えっと、私たちはStripeで毎週約3,000個のプルリクエストをこれらでマージしています。
えっと、本当に、ように、ええ、えっと、ご存知のように、エンジニアが小さな問題を解決するのに費やす時間を節約することは、さらに大きな、より大きなタスクまで含めて、非常に価値があります。これらはエンジニアが既にエージェントが初回通過できると信じているタスク、あるいはエージェントが、エンジニアが事前に大量のコンテキストを提供して初回通過プルリクエストを可能にするタスクです。えっと、ですから、このようなシステムを構築している場合、おそらくいくつかの教訓があります。えっと、プロンプティングが本当に良いことが分かりました。ですから、ここのすべてのエージェント、例えばLM判定、えっと実際のコーディングエージェント自体などに、非常に詳細なプロンプトを持っています。ご想像のとおりです。私たちのコードベース全体に数千のClaudeおよびagents.mdファイルがあります。それらは非常に価値があります。
しかし、もしあなたがそのようなループを書いている場合、例えば minion ループのような場合で、あなたがこのようなプロンプトを作り続けている場合、「コミットする前にテストを実行してください。プッシュして実行しないでください。例えば高額なCI実行のような場合に、あなたが自分でテストを実行する前に、またはそのようなやり方であなたのコミットメッセージをフォーマットしてください」というような指示で、あなたが、つまり、叫び声のような大文字で書いている場合、あなたは実際にコーディングエージェントに何かをするよう説得しようとしています。その場合、我々は、あの、本当に確定的な指示がこれにはるかに良いと考えています。したがって、あなたが確定的にできることは何でも、してください。あの、それは本当に本当にエージェントの成功を助けます。あの、エージェントと何かについて議論しようとするのは通常あまり良くありません。それは少しコード臭のようなものです。あの、特にそれが安全なことに関わっている場合です。
あの、そうですね。このようなループのための確定的な指示を書くことは絶対に不可欠で、プロセス全体をより信頼できるものにします。もしあなたが自分のワークフローを構築している場合、これらの全大文字のコンテキストファイルに依存することは問題ないかもしれません。しかし、大規模な実行では、数千の開発者が数千の minion インスタンスを実行している場合、これは私たちにとって本当に有用です。我々の2番目のポイントは、開発者ツールは常に非常に重要であるということです。Stripe では、我々はこのようなスケールの企業として、開発者ツールに多くのリソースを投入することができました。例えば、Stripe は Sorbet をオープンソース化しました。これは Ruby 向けの静的分析型チェッカーです。それは JavaScript の TypeScript に似ています。
Stripe は長年にわたってこのようなツールを多数構築し、開発速度を向上させてきました。しかし、今はこれまで以上に高い影響力があります。ですから、現在これらのツールは必須品になったと見ています。もし代理を実行するための良好な計算基盤を持たない場合、例えば我々にとって開発ボックスのようなもの、そして静的型チェック、linting を持たない場合、すべてプロフェッショナルな開発者として我々が持つことを期待するもの、その場合あなたのツールが良いほど、あなたはより多くの代理開発ができます。ですから、もしあなたがこれらのものを持たない場合、既に単なる「あ、私のエンジニアは毎週1時間無駄にしている」ではありません。あなたは数千の代理サイクルの失敗を失っているか、言い換えると、以前よりもはるかに長く時間がかかっています。
ですから、現在我々は以前よりも、より良い linters、formatters、分析ツール、これらすべての非 LLM 関連のもの、主に静的分析を構築することに専念しています。これは我々にとって本当に価値があります。最後のポイントは、Slack で構築することが我々にとって本当に価値があるということです。あなたがた以前に私の演讲で見たように、我々はこの devbox または minion Slack メッセージを持っていて、その中で minion を起動することができます。これはすべてのエンジニアに AI の使用を教育するために本当に価値があり、非エンジニアもそれらを起動できます。
ですから、このプロセス、公開で構築して我々のエンジニアと共有すること、あの、もしあなたが Twitter で AI の最新情報をフォローしていない場合、あなたはエディタを開いて手動で変更するか、タブ補完のようなことを使用することを選ぶかもしれません。しかし、今では我々のすべてのエンジニアが他のエンジニアが公開で働くのを見ていて、単にこれらの minions にタグ付けして、「嘿、これをやってください」というようなことをしています。これは我々の大規模な組織が AI を使用して多くのタスクを完了することを受け入れるのを本当に助けています。あの、そう、会社内で公開で働くことも非常に有用です。最後に、我々は会議の他の場所に展示ブースを持っています。
ですから、もし minions について話したり、質問を出したりしたい場合は、どうぞ。また、もし minions と一緒に働くこと、またはこのプラットフォームで働くことが面白いと思う場合は、Stripe は採用しています。我々は実際に私のチームのために特別に 1 人の EM または Engineering Manager を採用しています。ですから、もしこれが本当に面白いと聞こえたら、あなたは私たちと一緒に働くべきです。私はあなたと協力したいと思っています。我々はここにまた景品を持っています、もし誰かが興味があれば。あなたは後で我々の展示ブースに来ることができます。ですが、非常にありがとうございました。本当にありがとうございます、Mark。あの、昼食前の最後の講演です。私は皆さんが本当に空腹だと知っていますが、昼食は講演が終わるまで始まりません。ですから、私はあなたがたが Liha に時間をあげて講演をするのを期待しています。
Liho。ご指摘の通り、あの、Lihao は similar という会社で働くソフトウェアエンジニアで、彼はカードゲームをプレイすることから ERP ソフトウェアを操作することまで説明します。あなたのコンピュータがクリックして入力することを学ぶ必要があるのはなぜですか。similar は本当にコンピュータの使用に上手なツールを開発しており、Leha はあなたにそれがどのように機能するかを示します。Leha、どうぞ。>> ありがとうございます。本当にありがとうございます。では、1日の間にスクリーンでカーソルを移動する時間が何時間だと思いますか。誰か知っていますか。5時間。ですから、あの、数ヶ月前、我々は友人の一群と実験を行いました。その中の一部はあなたがたと同じで、ご存じのように。AI エンジニア、ビルダー、そして医者、管理者、会計士もいます。我々は彼らを追跡して、カーソルを移動するのに費やした時間を見ました、ご存じのように。これが我々が見つけたことです。1日5時間。
我々は誰かタッチパッド上で指を5時間以上1日に移動させています。これはあなたの目覚めている時間の3分の1以上です、ご存じのように。創造していない、考えていない、動かしている、クリックしている。申し訳ありません。クリック、ナビゲート、ご存じのように。タブのスクロール、あの、メニューで。ですから、我々はこのデジタル空間に大量の作業を投入しましたが、それとの相互作用方法はまだ非常に手動です。パーソナルコンピュータ。我々は1981年にパーソナルコンピュータを手に入れました、ご存じのように。突然、我々は以前は数時間かかった事柄を数分で完了できるようになりました、ご存じのように。これは巨大な飛躍で、我々はファイルキャビネットとファイルから身を解放しました。しかし、今、我々を見てください、40年後。我々はまだクリック、スクロール、ナビゲートしています、ご存じのように。1日5時間。我々はただ1つの肉体労働を別のものに置き換えただけです。ですから、我々は次の飛躍が必要です。
では、コンピュータと相互作用する本当に効果的な方法は何でしょうか。もしあなたが根本的にコンピュータと相互作用する必要がないとしたら?もしコンピュータが自分で実行できるとしたら?それはスクリーンを見て、タスクを理解して、そして直接それを行うことができます。これが私たちが similar で構築しているものです。私たちはこれを自律型コンピュータと呼んでいます。そうですね?これが私を興奮させるもので、これが私たちが構築しているものです。それでは、私の名前は Liha です。私は similar のテクニカルスタッフで、ええと、私たちは自律型コンピュータのためのインフラストラクチャを構築しています。その通りです。昨年の 12 月、私たちの研究エージェント agent S3 は OS world においてヒト水準を超えるパフォーマンスを達成しました。これはコンピュータ使用の標準テストです。では、自律型コンピュータはどのように見えますか?それを見せましょう。これが、これが私たちの製品です。
ですから、左側で、あなたはスクリーンを見ることができます。私たちはこのチャットインターフェースを持っています。LM はタスクを理解しようとしています。それはカードゲームをプレイしようとしています。ですから、それはスクリーンを見て、何が起こっているかを理解し、次のステップの最良の手を見ようとし、マウスを移動してカードをドラッグする方法を見つけようとしています。その通りです。右側は実行中のマシンです。ですから、うまくいけば 1 分ほどで、彼が彼らに励ましを与えると、うまくいけば Sai が最初の動きを行います。そうです。ですから、それが実際にマウスカーソルを制御して、左から右にカードをドラッグできることが見えます。しかし、これはアプリケーション、1 つのタスク、ルールは非常に明確です。そうですね?しかし、あなたの実際の就業日を想像してください。仕事では、何をしていますか。そうですね?メール、Slack、あ、申し訳ありません、など。
ですから、仕事では、メール、Slack、スプレッドシート、PowerPoint、QuickBooks、SAP、そしてあなたの企業が退役を拒否している遺産システムがあります。そうですね?ですから、これらのツールの一部は API を持っています。そうですね?ですから、これが去年、私たちが多くの活動を行った領域です。API または CLI エージェント、ああ、ツール呼び出し、関数呼び出しを持っています。とても良いです。この部分は既に解決されています。これらのアプリケーションの一部はブラウザにあります。そうですね?ですから、あなたはブラウザ使用エージェントについてのスピーチを聞きました。それらはあなたのためにナビゲートして、あなたのブラウザを表示できます。とても良いです。
しかし、もう一度、他にもすべてのもの――あなたのデスクトップアプリケーション、レガシーシステム、独自のツール――API がなく、ブラウザもない、ですから、唯一の方法は実際にスクリーンを通してです。そうですね?ですから、それがコンピュータ使用です。ですから、AI をスクリーンを見て、その上に何があるかを理解し、あなたのように操作するように訓練することで、自律型コンピュータは完全です。API と CLI エージェント、ブラウザエージェント、およびコンピュータユーザーエージェントを持っており、これらはユーザーのためにシームレスに協力して、あらゆるタスクを処理します。ですから、これが私たちが similar で構築しているものです。それを構築する際に、私たちが直面している 3 つの主要な課題を共有したいと思います――信頼性、信頼、スケーラビリティ。では、信頼性から始めましょう。ユーザーにとって。信頼性は 1 つのことを意味します。そうですね?それは毎回機能します。2 つのことは真実でなければなりません。
エージェントは画面を見て、それを正確に操作する必要があります。これが基本です。そして複数のターンにわたってそれを実行できなければなりません。100回の繰り返しでは、それが一貫性です。ですから、基本と一貫性があるわけです。基本から始めましょう、よろしいですか?盲目の人はどのように画面を見るのですか?スクリーンリーダーを使用します、よろしいですか?つまり、アクセシビリティツリーを読み取ります。これは各要素の構造化マップ、名前、タイプ、状態です。これが私たちの出発点ですが、十分ではありません。多くの場合、一部のアプリケーションには完全なツリーがありません。時々ボタンがメニューに隠されています。ええ、ドロップダウンリストの中に、動的に表示される要素があります。一部のアプリケーションはほぼツリーがありません。ですから、視覚的基礎でそれをサポートする必要があります。つまり、画面を視覚的に見て、要素がどこにあるかを見つけることができる専門のモデルがあります、よろしいですか?
一つはテキストを読むことができ、もう一つはボタンと要素を見つけることができます。ツリーに隙間がある場合、視覚的基礎がそれを埋めようとします。ですから、アクセシビリティツリーと視覚的基礎を組み合わせています。今、基本により単一のアクションの精度が得られます。しかし1000回連続ではどうですか?研究では、「pass at K」と呼ばれるメトリックがあります。これは、エージェントにK回の試行が与えられた場合、何回正しくできるか、ええ、何回正しくできるか、わかりますか?少なくとも1回は正しくできた限り。ですから、Kが5の場合、3回目の試行で成功したら、それは1回のpassです。しかし、これはユーザーが望んでいることではありません。ユーザーは、私が「pass to the K」と呼ぶものを望んでいます、わかりますか?毎回正しくしなければなりません。K回連続。エラーはありません。ユーザーが100個、ええ、リードを持っていて、それぞれに個人化されたLinkedInメッセージを送信したいと仮定します。
もしLLMが毎ステップのすべての操作を駆動するなら、同じタスクで100回試行するたびに、100種類の異なる動作が生じる可能性があります。ですから、異なるパラダイムが必要です。ですから、私たちが使用しているのは神経記号的アプローチです。つまり神経的には、LLMが画面を観察し、何をすべきかを推論します。その後、つまり、これは思考です。記号的というのは、ただクリックするのではなく、プログラムコードを書くことです。それが実行です、わかりますか?脳がレシピを書き、機械がそれに従うようなものです。ですから、ここで強力になります。初回はLLM推論を呼び出しますが、2回目に実行する、つまり100回、コードを再生するだけです。LLM推論は不要です。コストなし、本質的に無料です。ですから、すべての背後にある言語はSimulangです。私たちのコンピューターは領域特定言語を使用します。読みやすく、変更可能で、今週開発者にリリースされます。
それが信頼性です。信頼について話しましょう。あなたのコンピューター上で何でもできるAIエージェント、わかりますか?あなたは、ええ、メールを送信したり、ファイルを削除したり、購入したりすることができます。これは本当に強力ですが、非常に危険でもあります。もし指示を誤解したり、幻覚を生じたりしたら、それは壊滅的になる可能性があります。ですから、これはもはやランダムなユーザーに起こっているのではなく、Metaの AI整合ディレクターに起こっています。同様に、信頼は私たちのアーキテクチャに組み込まれています。ガードレールは計画エージェント由来の別システムです。何をするかを決定する者は、何が安全かを決定する者と同じではありません。ですから、同じであってはなりません。モデルが判事と参加者の両方であることを許可することはできません。ですから、計画モデルが混乱したり幻覚を生じたりしても、ガードレールシステムが危険が発生する前に捕捉します。第3の課題はスケーラビリティです。
私たちのSimilarでの使命は、ユーザーの生産性を100倍に向上させることです。100倍をどのように実現できるのでしょうか。100本の指を持ち、100倍の速度で入力することで、100台の自律計算機が必要です。ただし、すべての人が100台のMac miniをセットアップしたり、購入したり、設定したりしたいわけではありませんよね。ただし、誰もが複数の自律計算機がもたらす生産性の利益を得たいと思っています。したがって、Similarでは、この問題を解決するためのインフラストラクチャを構築しています。ウェブサイトに登録すると、これが私たちの製品です。
ええと、あなたは100個を得ます、あ、私たちはあなたのためにマシンを1台作成します、でしょう。これはあなたのマシンです。あなたはやりたいことを何でもできます。アプリケーションをインストールできます。好みに応じて設定できます。その後、Similarに制御を引き継がせます。だから、ええと、あなたが1つ作成できるなら、5つ作成できます。100個まで作成できます、でしょう。1つに回帰テストを実行させることができます。別のものに他のことをさせることができます。3番目のものに電話後のCRM更新をさせることができます。最後のものにレポートを実行させることができます。これらすべてを並列実行できます。では、なぜ私はループの中にいるのですか。そうです。100倍の生産性は、より一生懸命働くことではなく、100台のコンピューターにあなたのために働かせることによって実現されます。信頼性、信頼、スケーラビリティ。
これら3つの課題、これが私たちがやっていることです、でしょう。これすべての背後には信じられないようなエンジニアリングがあります。分散システムエージェント、大規模信頼性があります。だから私たちは採用しています。興味があれば、私たちに参加してください。ですから、ええ、パーソナルコンピューターは私たちを紙から解放しました。自律計算機は人間の仕事から私たちを解放します。これが、私たちがSimilarです。私は通りの向かい側の4階の展示ブースの周りにいます。すぐにお会いします。ありがとうございました。>>ありがとうございました、Lihao。これで、あなたたちがずっと待っていたことに来ました。それは昼食休憩です。ええと、Hopscotch、Cayenne、Beastroにはセルフサービスランチがあります。だから、あなたは食べ物を取る場所がたくさんあります。ええと、私たちは時間より早く進んでいるので、1:30に次の講演を正確に開始します。ええと、最初はCursorのRio Louu、ええと、彼は設計責任者です。
だから、あなたは、ええと、その講演を見逃したくない、ええと、そして適切に戻りたい、ええと。ああ、本当にありがとうございました。皆さんが一日中頑張ってくれて。じゃあ、またね。やあ、みんな。いいえ、発表します。わかりました。やあ、皆さん。昼食休憩後にようこそ。ええと、皆さんが何か食べたことを願っています。ああ、人々とチャットをすることができて、ああ、そしてああ、エネルギーを持って戻ってきて、私たちが行おうとしている次のああ、一連の講演のために準備します。キャピトルシアターで開催されます。現在、私は次のスピーカーを非常に非常に興奮して歓迎しています。ああ、これはRioです。彼はCursorの設計責任者です。しかし、私は小さな話を共有したいのです。なぜなら、私にとって、これはすべて2年前、2024年半ばに始まったからです。完全な非エンジニアとしてCursorを使ってコーディングする方法を学びました。ああ、あなたたちがその当時そのツールを使用したことがあるかどうか知りません。当時はタブとインラインだけでした。Composerモデルの複数ファイルオーケストレーションが現れる前に。
ああ、それが私が学んだことです。しかし、ああ、Cursorチームは体験をデザインするために多くの思考を投入しました。ああ、それは私のような経験豊富なユーザーと新規ユーザーの両方のためです。そして、多くの設計パターンが今になって、ああ、すべての異なるタイプのコーディングエージェント全体で使用され、標準化された設計パターンになっています。だから、私はRio、ああ、ステージに歓迎できてとても興奮しています。ああ、彼は次のCursorのデザインについてのスピーチをします。>> よー よー >> よー。こんにちは。やあ、皆さん。私はRioです。ああ、まずコンピューターを起動させてください。いい。いい。いい。皆さん、こんにちは。私はRioです。私はCursorでデザインをリードしています。ああ、今日、私たちがCursorをどのように設計したかを共有します。デザイナーとエンジニアを私たちのルーツに戻すために。ソフトウェア作成がより堅い役割、ツール、またはプロセスに閉じ込められているのではなく、遊ぶようなものであると感じたとき。
また、Cursorを使用してCursorを設計しているため、私たちの設計プロセスがどのようにより流暢になったかを共有します。ソフトウェア作成の未来についての私たちのビジョンで終わります。初め、ソフトウェア設計とエンジニアリングは同じことでした。分裂はありませんでした。ソフトウェアを想像した人も構築しました。設計とコードは同じ工芸です。材料はコード自体です。思考と作成は同じループで起こります。これはBill Atkinsonです。彼は初期のMacintoshチームにいました。彼はQuickDrawを構築しました。2Dグラフィックスエンジンです。彼はまたMac PaintとHypercardを設計しコーディングしました。彼は移動行選択モードと、私たちが今でもほとんどのグラフィックデザインアプリケーションで見ている多くのものを発明しました。彼は68Kアセンブリ言語でピクセルパーフェクトUIを構築しました。概念からデザインから実装まで、すべての細部は彼のものでした。彼はデザイナーですか、それとも開発者ですか。これはAlan K.です。
彼はXerox Parkでsmall talkとDynabookを発明しました。基本的に個人計算の未来全体を設計しました。彼はそれを実装するコードを書きました。彼は格言を持っています。「未来を予測する最良の方法はそれを発明することです。」彼は自分の考えを証明するために稼働中のシステムを構築しました。UIからインタラクションモデルからランタイムまで、これらはすべて工芸です。彼らはデザイナー、開発者ですか、彼らはすべてビルダーです。その時、問題は意味がありませんでした。設計はコード、コードは設計、工芸は完全です。その後、特に過去10年間に、本当に奇妙なことが起こりました。私たちは自分自身を分岐させました。私たちは専門的な役割に分裂しました。デザイナーはビジョンを持ち、モデルを制作します。エンジニアはモデルを実装します。PMは仕様を書き、ミーティングを行い、すべてがスムーズに進むようにします。約束は専門化がより速くなるだろうということです。
しかし、現実は私たちが遅くなり、コードから遠ざかり、私たちのツールも同じです。エンジニアはほとんどまだ端末とIDE、ああ、Vim、VS Code、Sublime、にいますが、ああ、コードは依然として真実の源です。デザイナーはちょっと、ああ、クラウドに移動しました。Photoshopを使用してビットマップを作成し始めました。その後、Sketch(Mac専用アプリケーション)に移動しました。UIのベクター制図用です。その後、ブラウザーに移動し、Figmaでその協力をしました。デザイナーは美しいモデルを制作しましたが、それらは実際のものではありません。その後、PMと協力も少し分散しています。更新したい人がいないJiraチケットがあります。仕様用のGoogle Docsがあります。その後、週間と計画の概念を行い、他のすべてのことについてSlackを行いました。
その後、これらすべてのシステム化というか、えっと、専門構築されたツール、これが実際には、えっと、より多くの分裂を生み出し、ギャップを、えっと、拡大しました。線形ハンドオフが標準になりました。デザイナーはFigmaで設計を行いました。PMは仕様を書きました。エンジニアはチケットを受け取りました。Figmaとのマッチングが目標になりました。しかし、これ、えっと、このやり取りのコメントと会議は本当に煩わしかったです。私たちはこの緊密な反復ループを失いました。アイデアからモデルから仕様からチケットからコードからレビューからセグメント化から本番まで数週間かかります。アイデアから現実まで数週間かかります。デザイナーは実際のもの、つまりコードに接触することができませんでした。エンジニアはチケットなしで探索することができませんでした。資料、コードは他人の仕事になりました。私たちは自分たちに言い聞かせました。これは進歩です、専門化、ベストプラクティス、デザインシステムだと。しかし、私たちはプロセスのために工芸を放棄しました。私たちは調整のために建設を放棄しました。
私たちは完全であるべきものを分裂させてしまいました。コードは人間とマシン間の共通言語であり、これが私たちの取引材料です。コードは再び材料になりました。コードは事実の源です。これは実際のものです。これはモデルではありません。しかし、今、エージェントがコードを書くようになると、質問、指導、改善によってデザインができるようになります。職人技は何を構築するかを知ること、そしてそれがどのように感じるべきかになり、実際の材料を使用して、他の人間とエージェントで実装します。Cursorはツールとビルダーをこの1つのことに結合することができるので、私たちが皆一緒に素晴らしいソフトウェアを作ることができます。どのようにしてそこに到達しますか?Cursor 3を紹介します。Cursorは当初、VS Codeから多くの複雑さを継承しました。エージェントが人々がCursorを使用してコードを書く主な方法になったとき、これはすべて過去1年以内に変わりました。このレガシーえっと、エージェントコーダーにとって少しのような負債になってしまいました。
このファイル中心ビューの多くのものが今、意味をなさなくなりました。新しいコーダーにとって、彼らはまだ多くの摩擦を感じて始めます。彼らが知らない恐ろしいUIと概念の轟音を浴びせられました。また、このローカルファイルの状態上で操作する、えっと、エージェントと相互作用するえっと、ことから、えっと、複数のエージェントが異なるプロジェクト上で実行され、ますます、えっと、クラウド内で実行されることへのシフトを見てきました。これ、えっと、ファイル中心のIDEビューをえっと、新しい階層構造に、えっと、エージェントとその環境に周る、えっと、反転させました。えっと、このため、私たちはVS Codeを改造し、レイアウトを変更、えっと、多くのUIフォークを作成し、エッジケースと壊れた状態を生み出しました。それ、えっと、世界が変わる速度に追いついていません。では、このファイル中心のソフトウェアビューから、えっと、どのように、えっと、各人間とその行為に調整するエージェントネイティブインターフェースに移行するのですか?
私は思います、えっと、えっと、AIツールを構築するための2つの主要な哲学があり、その違い、えっと、本当に重要です。一方では、えっと、ブラックボックスを取得します。えっと、あなたが望むものを入力します。AI、えっと、えっと、あなたが見ることのできないところで何かをします。それが機能するとき、あなた、えっと、本当に何も学びません。あなたはただ、えっと、思考をスキップします。それが失敗するとき、あなた、えっと、本当に理由がわかりません。特に新しいコーダーとして、あなたは、えっと、わかることなく、えっと、実際に何が起きているのかをより多くのトークンを燃やし続けるでしょう。あなたは見ることができず、介入することもできず、編集することもできません。あなたは、えっと、各変更に同意するか、放棄するかのどちらかです。あなたはただ、えっと、モデルの製品です。一方で、えっと、ガラスを取得します。それは単純に始まりますが、あなたが望むなら、あなたはもっと見ることができます。エージェント、えっと、ストリーミング、コード、えっと、バックグラウンドで実行、AI、えっと、あなたが思考する方法と一緒に。あなたは、えっと、神話光をリダイレクトでき、いつでも停止でき、あなたの方法でそれを見つめることができ、えっと、2ピクセル埋め込み、えっと、を編集したい場合は、編集できます。
あなた、えっと、必ずしも、えっと、各々を読む必要はありません、えっと、変更しますが、あなた、えっと、常にできます。経験豊富なコーダーは、えっと、エージェントフロー、えっと、を正しい時に確認し、必要に応じて編集できます。新しいコーダーは、えっと、Cursorで新しいソフトウェア概念を学ぶことができます。彼ら、えっと、について、えっと、質問、構築、修正により学ぶことができ、その後、えっと、システムのより深い層を見ます。あなた、えっと、コントロールを維持し、えっと、直感を構築し、Cursorを自分の思考方法に成形します。AIがより強力になると、ガラス、えっと、より少なくなるのではなく、より重要になります。えっと、数時間実行される自律エージェントは可読性を必要とします、えっと、人間、えっと、監視と介入のために。マルチエージェント、えっと、システム、えっと、検査可能で、耐久性のある計画が必要です、えっと、人間、えっと、定義された明確な境界。私たちは、えっと、またこれが必要です、えっと、人間と、えっと、エージェントの共有スペースと可塑的インターフェース、えっと、一緒に思考するために。私たち、えっと、ガラス方式を選択しました、えっと、人間とエージェントの両方に、えっと、焦点を絞った、読むことができ、カスタマイズ可能な、えっと、インターフェースをもたらしました。
各、えっと、エージェント、彼ら、えっと、のアクション、えっと、アーティファクトは見ることができ、編集可能です。えっと、計画あなた、えっと、形成できます、えっと、エージェント、えっと、状態、えっと、あなたは、えっと、チェックできます。えっと、ゼロ、えっと、隠された魔法、えっと、無限、えっと、コントロール。しかし、それ、えっと、単純に始まります。あなた、えっと、可能、えっと、編集者を閉じたCursor、えっと、で、自動的に開かず、えっと、ファイル、えっと、干渉なし。えっと、それ、えっと、少しの作用、えっと、として、えっと、他の、えっと、ツールや、えっと、ワークフロー、えっと、のパートナーの横にあります。しかし、それ、えっと、あなたが、えっと、使用する際に、えっと、進みます、そして、えっと、あなた、えっと、希望するとき、えっと、複雑性を表示します、えっと、あなた、えっと、見ることができます、えっと、もっと多くを。あなたが、えっと、ため、えっと、より多くのプロジェクト、えっと、で、えっと、ソフトウェア製作の異なる段階で、えっと、計画から、えっと、デザイン、えっと、実行、えっと、レビュー、えっと、Cursor、えっと、インターフェース、えっと、を使用するとき、えっと、変わります、えっと、あなたに、えっと、対応し、えっと、あなた、えっと、得意とするものに焦点を当てさせます。経験の豊かな、えっと、開発者、えっと、可能、えっと、で、えっと、複数のエージェント、えっと、をレビュー、えっと、変更し、および、えっと、いつ、えっと、必要なときに、えっと、精密、えっと、編集、えっと、速度を非常に高速化することができます。
デザイナーは素早くスケッチでき、ブラウザーでコードが実行されるのを見ることができ、即座フィードバック付きで各詳細に注釈を付けて調整できます。製品担当者は、チーム全体の背景を理解しているエージェントと協力して、完全にインタラクティブな協調ドキュメントで、思考、計画、オプションを探索し、トレードオフを検討できます。すべてが瞬間的に親しみやすく、かつ強力に感じます。あるモデルのためではなく、人間のためにデザインしました。私たちはあなたがCursorを調整でき、カスタマイズすることができるようにしました。コアはシンプルに保たれていますが、プラグインやスキルなどの拡張可能な概念によってカスタマイズできます。また、あなたの操作に適応する仮想インターフェースもあります。私たちはユーザー習慣とコントロール権を尊重します。私たちは決して劇的な変更を強制しません。私たちは何も奪いませんでしたが、むしろ人々に、それを行う傾向がある人々のための、タスクを完了するより簡潔な新しい方法があることを示しました。ここで、私たちがどのようにそれを行ったかを共有させてください。
驚くべきことに、新しいインターフェース全体の設計作業は約1か月以内に完了しました。すべては、今年初めに始めて探索していたランダムなプロトタイプから始まりました。Lee、Rob、そして私は今年初めに、Baby Cursor 3を立ち上げました。Baby Cursorは、人々がフォークして、アイデアを探索し、他者と共有できるプロトタイプ環境の私たちの名前です。AIツールを設計するとき、あなたは常に多くの非決定的状況に遭遇し、静的モックアップは微妙さをキャプチャできません。私たちは本当に親身に体験する必要があります。したがって、目標はCursorをデザインすることでした。最も簡単な形から、専門のエンジニアとソフトウェア作成者が好むような複雑な製品に拡張できるように。このプロトタイプの新しいバージョンでは、Cursor CLIの上に構築された完全に機能的なElectronアプリケーションにしました。
私は、1つから複数のエージェント、1つから複数のプロジェクト、ゼロから複数のコンテンツタブと分割をサポートできるシンプルなレイアウトアーキテクチャを設計しました。あらゆるスペース制約に対応します。物事は常にシンプルに始まりますが、より多くのツールを使用するにつれて成長します。Figmaでこれらの動的状態のモデルを作成するには数ヶ月かかる可能性があり、実際にコードでそれを体験した実感は得られません。このような高レベルの情報アーキテクチャとプロセスは基本的に1週間で完成しました。従来の設計ツールでは、アートボード、状態、エクスポートオプションのコピーは非常に簡単です。結局、統一された完全なビューではなく、多くの状態スナップショットを持つことになります。Cursorでは、Baby Cursor 3において、組み込みの特性スイッチシステムを追加し、設定はファイル形式で保存されます。
これにより、非常に大きなアーキテクチャの分岐を探索でき、また個々の細微な詳細と組み合わせも探索できます。その後、物事がどのように組み合わさるかを見ることができます。毎日プロトタイプを使用し、オプションを探索することで、より深層的なアーキテクチャ決定に影響を与える新しい制約を発見することができました。一例として、エージェント間をナビゲートするときにレイアウトがどのように変化するかということです。右側のタブはそれらの間をナビゲートするときに変わりますか?異なるエージェントにバインドされていますか?ワークスペースごと、または環境ごとですか?または、VS Codeのようにすべて独立していますか?これは言葉で説明するのは本当に難しいですが、リアルタイムで感じることができるなら簡単です。その後、Baby Cursorを会社のすべての人に送信して使用し、フィードバックを得ました。エンジニアたちはフォークし始め、彼らのアイデアと視点をプロトタイプに追加しました。
その後、それらをまとめ、チームのフィードバックと新しいアイデアに基づいてさらに多くの反復を行いました。プロトタイプの構築を通じて多くを学びました。異なる条件での実際の使用でどのレイアウトが理にかなっていますか?どのようなデフォルト値とカスタマイズオプションを公開する必要がありますか?複雑さをシンプルに感じさせるには、どうすればよいですか?どのくらいのコントロールを表示したままにし、どのくらいを隠すべきですか?進度開示がどのように機能するべきかなど。プロトタイプから、コードを高レベルの仕様にリバースエンジニアリングし、各オプションと詳細を記録しました。ビデオとスクリーンショットは新しいCursorのモデルになりました。その後、33本の長い議論スレッドのRFC後、それを現実のものにする時が来ました。エンジニアリングチームは、このプロトタイプを構築する速度に触発されて、より急進的なアプローチを採りました。
基本的に、Cursorの全体的なUIをゼロから書き直す決定を下し、まったく新しい設計システム、コンポーネントライブラリ、そしてクリーンな基盤を採用しました。エンジニアたちがこれに取り組んでいる間、私はより多くのサイドバーグループカスタマイズ、入力カスタマイズ、プレビュー、および詳細のプロトタイプを設計しました。その後、初めてFigmaに戻りました。これにより、最終的には出荷しなかったリキッドガラスとすべてのビジュアルディテールを試すことができました。エンジニアリングチームは、この2ヶ月間懸命に働き、Reactを使用してCursor UIの全体を最初から書き直し、新しい設計システムを構築しました。物事が少し馴染んできたら、新しいCursorを使用して自分たち自身を構築し始め、まだ少し奇妙に感じるものをテストしました。デザイナーたちもコードに戻りました。
そこで、細かい詳細、新しいコンポーネント、アイコン、色、テーマ、活力、アニメーション—モデルが見ることができないすべての小さな詳細の開発と洗練に取り組みました。デザインプロセスは本当に流畅になりました。もはや線形的ではありませんでした。単に工芸を洗練させるために最高のツールを使用しました。これらのプロトタイプやシミュレーションの作成についてより多くの時間を考えるか、直接コードに入るか。今年の3月末、アルファ版を出荷し、内部と実世界のユーザーとこの高速フィードバックループを確立しました。最初の出荷のパフォーマンスと品質に焦点を当てました。Cursor 3の出荷後、次世代プロトタイピング環境である「Baby Glass」を構築しました。これにより、単一のプロトタイプ内でCursorの現在から将来までの状態を可視化できます。
新しい設計システムの上に構築され、Cursor 3の実際のコンポーネントを使用しています。それをウェブに持ち込みました。したがって、Electron アプリではなくなりました。なぜなら、状態とリンクを他の人と共有することが非常に簡単になったからです。だから、彼らはリンクをクリックしてフィードバックを与えることができます。また、将来のためのラベリングとバージョン管理システムも改善しました。これにより、Cursorの進化の各ステップを、現在の本番状態から目指す将来のマイルストーンまで可視化できます。さらに、これらの「Baby Glass」プロトタイプが実際のコードベースで基づいてエンジニアが構築できる最初のプルリクエストになるように、より良いハンドオフプロセスを構築しました。本当に素晴らしく見えます。デスクトップがあります。壁紙やテーマがあり、「Baby Glass」内にシミュレーションとビデオを生成できるツールさえ構築しました。ウェブサイト上の実際のデモにそれを使用する予定です。
そこで、Glassの構築は、ソフトウェア制作の未来についての多くの明確な洞察をもたらしました。より協調的であるべきです。これにより、人間がエージェントチームと同じコンテキストとツール上で協力できます。エージェントを使用してより大きな目標を実現する際、エージェントと人間が同じスペースを共有することがますます重要になります。そうすることで、構築についての正しい決定に達することができます。誰もがビルダーになるにつれて、エンジニアだけでなくさまざまな分野の人々が最終的に集まり、同じエージェント設定、ツール、知識、およびアーティファクトを備えた同じ目標に取り組むことができます。未来はより カスタマイズ可能であるべきだと考えています。インターフェースとツールは、逆ではなく、私たちが誰であり、何をするかに適応するべきです。
すべての人とすべてのチームは異なりますが、基礎となるコンセプトとツールは同じです。これにより、ワークフローとツールを構築・接続し、自分とチームのためにエージェントを最細レベルまでカスタマイズできます。未来はより自律的であると考えています。より多くのエージェントが繰り返しのワークフローを処理し、手動プロセスを簡素化・排除でき、人間はシステムと境界を定義します。問題の分類、リリースノート、セキュリティ、コードレビューなどを自動化できます。検証ループを使用してシステムを設計し、正しいことが何かを真に定義し、エージェントが以前よりも多くのことをあなたのために処理できるようにすることができます。最後に、より野心的なものを構築し、より多くのものを作成し、より多くのゴミを追加するのではなく、他に何ができるかを考えるべきです。一緒に、より良く、よりシンプルなソフトウェアを構築できます。
もっと多くのものを追加するのではなく、実は節約した時間を使って、最もシンプルな抽象化が何であるか、そしてユーザーのために構築する正しいものが何であるかについて深く考え、明確にすることができます。他の人と一緒では不可能なクレイジーなことをしてください。未来は考えて構築できる人のものです。待たないでください。構築を始めてください。ブラックボックスはありません。えっと、Rio、本当にありがとうございます。みなさんにお知らせしたいだけですが、まだご覧になっていなければ、CursorはItalier in Kinskyにブースを持っています。ですから、そこでチームのメンバーの何人かにお会いすることができます。わかりました。あ、ありがとうございます。>> ありがとうございます。>> はい。わかりました。あ、次のスピーカーをステージにお招きしたいと思います。えっと、こちらはAinです。彼はFigmaのスタッフプロダクトデザイナーです。ステージへようこそ。
ですから、Ainは現在Figma Weave上で働いており、Figmaの多くの非常に人気のある製品に携わってきました。これにはFigma BuzzとFigJamが含まれます。FigJamは個人的に使用するのが好きなものです。えっと、彼はマルチモーダルでマルチユーザーのAI設計についての講演をします。彼が準備している間に、えっと、いくつかの迅速なお知らせがあります。最初のお知らせは、今晩、私たちは実際に劇場全体を講演からナイトクラブに変換してパーティーを開催します。そうです。あ、ですから、あ、ただバッジを持ってくることを覚えておいてください。これは実際に私たちがあなたをチェックする方法です。ですから、参加者の場合は、あ、あなたは直接それを持ってくることができます。あ、LumaからのQRコードについて心配する必要はありません。あ、次のことは、私たちはPullmanにデモステージを持っており、今は実際に立ち上がっています。
あ、しかし、ある時点で立ち止まって、いくつかのデモを見たいのであれば、いくつかのローカルスタートアップからAIをどのようにワークフローまたは製品に組み込むかについてのデモを見に行ってください。はい、これ以上の遅延はなく、Aen。わかりました。皆さん、こんにちは。わあ、これは私が予想していたよりもはるかに多くの人です。えっと、わかりました。えっと、私はAshangです。私はFigmaのプロダクトデザイナーです。今日は、なぜ私たちのAIツールはマルチプレイヤーでマルチモーダルであるべきかについて話したいと思います。ですから、今日私たちが持っているAIツールは、個人を10倍高速化することに焦点を当てています。しかし、より難しく、また興味深い問題は、一群の人々が一緒に10倍高速化できるかどうかです。実行が安くなると、協力と整合がボトルネックになるからです。
これは実際に別のAIエンジニアの講演から来ており、GitHub の研究エンジニアであるMaggie Appleton が行いました。私は彼女のフレームワークに心から同意します。何を構築するか、何を構築しないかを決定することは今、これまで以上に重要です。探索、計画、整合の方法が変わらなければ、チームの進捗が阻害されます。これはRoyが以前共有したものとも非常に関連しています。私は、今日私たちが持っているツールが実際にこれらのいずれかをより簡単にしていないと感じているだけです。今日のほとんどのエージェントツールは、左側にチャットがあり、右側にアーティファクトがあります。しかし、チャットは単一アクセス、1つのスレッド、1つの方向、1つの真実のソースです。それは一度に限定されるように見えさせます。そうですね。インターフェース内に、どのように分岐するか、アイデアを並べて比較するなどのプロンプトはほとんどありません。
これは最終的には収束するインターフェースであり、発散するインターフェースではありません。AIツールを設計する場合、発散のためにインターフェースを構築することも考えるべきです。創造的なプロセスは、孤独で、そして社交的です。最高のアイデアは、思想間の摩擦によって鋭くなります。ですから、このプロセスを促進し、それを削除して私たちを孤立させるのではなく、ツールを構築するべきだと思います。ですから、はい、これはAIツール発散インターフェースに関するいくつかの考えです。数年前、私はJambot という小さなウィジェットの構築を支援しました。えっと、それはJam内に存在し、Hatchtで視覚的、非線形、マルチユーザーな方法でアイデアを探索することができました。これはLMがまだすべてテキストについてのときでした。ゼロから1つを出荷しようとする前に。
振り返ると、canvasをこの本当に魅力的な可塑的な媒体と見なしており、追加の次元はマルチユーザーの存在と分岐反復をより自然に感じさせることができます。ですから、この講演の次の部分は小さなデモになります。あなたが参加することを是非お招きします。ラップトップを持っていれば、このリンクをタイプして名前を入力するだけで、うまくいけばあなたが中にいます。えっと、Wi-Fiが少し不安定なことは知っていますし、えっと、このデモはClaudeコーディングによって純粋にのみです。わかりません。えっと、この多くの人に参加を求めたことはこれまでありません。あなたたちは私が想像していたよりもはるかに多いです。ですから、私たちに幸運を祈ります。しかし、えっと、できればそれを試してみてください。やあ、やあ、やあ。私はここでズームします。ただし、これはアドレスバー内の同じURLです。
一度参加すると、スライド付きのcanvasが見え、さらに小さなゲームのような多くの事前にロードされたものが表示されるはずです。ですから、ここで任意のゲームをクリックして再生できます。ですから、Flappy Birdのようなこの上部から何かを選択するだけです。あ、皆さん。わかりました。本当にそれが壊れないことを願っています。しかし、わかりました。あ、私は既に失われました。わかりました。これは本当に恥ずかしいです。えっと、もしあなたがここのノートにカーソルを合わせれば、えっと、要素を追加したり、美学や仕組みなどを変更できるこのプロンプトボックスを見ることができます。例えば、昨日私の友人Annieが私の鳥にモンスターの仲間を追加することを提案しました。何が起こるか見てみましょう。これが流れている間に、もし背景をGalaxyに変更したらどうなるかも知りたいです。わかりました。今、私はAsiaが基本的に私のプロンプトを採用していることを見ることができます。計画を書き直し、コードも書き直しています。
上部にこれがあります。わかりました。それは速く落ちすぎています。ほら。しかし、わかりました。ええと、他に何かを作ったかどうかを確認しましょう。ですから、えっと、何が起こったのか確認ではありませんが、えっと、本当に私が真空に陥ることがないことを願っています。ここから、私は反復し続けることができるはずです。これがあなたすべてにとって少し柔らかい崩壊である可能性があります。ですから、申し訳ありません。しかし、鳥に帽子を追加して、鳥を続けることができるのが好きです。ですから、今、コラボレーションしているようなものが見え、実行可能なコードの最も原始的なバージョンです。また、リフレッシュして、それが私の問題のようなものであるかどうかを確認します。わかりました。それは本当に自分自身を台無しにしました。ですから申し訳ありません。
しかし、私を魅了しているのは、このようにシンプルでありながらも視覚化されたバージョン履歴表現があることです。イテレーションを非常に促す感じがします、そうですね?そして、協力がリアルタイムで起こるのを見ることができます。真のソフトウェアプロトタイピングが実際にこのように協力的に感じることができたら、と想像してください。このコンセプト自体は、私にとって非常に興奮させられる感じがします。今、このスペースをマルチユーザーにすることによって、ああ、それはエッジケースのようなものも導入していると思います。ああ、マルチユーザーとエージェント間のより良い共同創造を可能にするために考慮する必要があります。
ですから、今日のほとんどのAIツールでは、自動化されるべきタスクについて、エージェントが私たちのために行動します。これは良いことです、そうですね。しかし、協力的な探索では、人間とエージェントが即興的なパートナーとして機能します。スペースは許容的に感じるべきです、そうですね。互いの作業に触れることができ、リアルタイムで同じものについて反復することができます。例えば、さて、これは本当に崩壊しやすいので、万が一に備えてローカルバージョンを用意しています。では、もう一度試してみましょう。私の鳥に怪物の仲間を追加します。さて、ですから、入力すると、あああ、編集するオプションもあります。これにより、ある程度何かを上書きすることができます、そうですね?これは編集の競合の可能性を導入しています。
ですから、ここで「中世のテーマを制作したい」と言う場合、編集をクリックすると、同時に誰かが同じものに取り組んでいることを想像してください、そうですね。例えば、ここでビジュアルスタイルを編集している場合、2つの視差レイヤーがあるとして、誰かが同じアーティファクトに触れて、それを書き直す可能性があります。これは許可されるべきです、そうですね。Google DocsやFigmaのように、スペースはできるだけ許容的であるべきです。共同創造を促すためです。ここで、私はそれが流れることを本当に望んでいますが、そうでなければ、ああ、私は運が悪いです。ああ、しかし、ここでの元の計画は、あなたがエージェントカーソルも私の隣で変更が起こるのを見ることができるはずだということです。ああ、出力が私の編集を置き換えるため、そうですね?
ここで、それが実際に書き直すかどうかを私に聞くべきだと思います。また流動的な出力も表示します。ですから、比較して、それが書き直すことを許可したいかどうかを決定することができます。それはほんの最小限の例です、そうですね。私はこれを使おうとしています。それはほんの最小限の例です、そうですね?しかし、AIをマルチパーソンにするために、あなたは本当にこの体現された存在を設計する必要があると思います。ですから、ここで代理人は、それが何ができるかについて期待を設定すべきです。この場合、それはすでに編集している文書を表示できるはずです。それは自身のテキストポインタで表示されることができるはずです。また、その変更範囲を視覚的に表示すべきです。また、他の人との編集の競合を処理する方法を表示すべきです。人間であるか代理人であるかに関わらず。
私は実際に、多くの点で、今日、人間のための体現された存在を設計することに似ていると思います。ああ、それは非常に、ああ、私はそれが非常に類似していると思います。ああ、あなたが文書またはキャンバスでカーソルを設計しているかどうか。ああ、ですから、それはAIをマルチパーソンにすることについての単なるデモンストレーションです。しかし、私にとって、これは始まりに過ぎません。私は次のフロンティアが実際にマルチモーダルであると思います。これは本当に、人間とエージェントが両方ともより豊かな方法で表現できるように、コミュニケーションチャネルを広げることについてです。ここに3つの方向があります。私はここで非常に興奮しています。まず、真にマルチモーダルなモデルを構築すべきだと思います。数日前、ああ、これはThinking Machines Labからのものです。
彼らが「インタラクティブモデル」と呼ぶものについての研究を共有していると思います。そのモデル自体はマルチモーダルであり、また微妙な用語bなので、それは常にリアルタイムで相互作用しています。私は彼らの表現方法が好きです。「ターンベースのAI」はやや、メールであなたのエージェントと会話するようなものです。対面で話すのではなく。ですから、これはモデルレベルで境界を押し広げています。正直に言うと、これはこのスピーチよりずっとクールです。ですから、あなたは完全にそれを見に行くべきです。あなたがモデルビルダーなら、それを起こらせてください。第二に、エージェントがより豊かなデジタル媒体で動くとき、私たちはそのためにより良い「具身の存在」を構築すべきだと思います。私が前に言ったように、カーソルのような単純なものを例にとってください。位置、運動、そして(クリックなどの)相互作用を通じて多くのことを表現できます。
ですから、これはコミュニケーションチャネルです。肢体言語を通じて互いの意図を理解するのと同じように、エージェントのために肢体言語も設計すべきです。しかし、今でさえ、そうですね、私たちはインタラクティブなモーダルで多くのことをすることができます。ですから、Gueyはすでに人々がより豊かで直感的な方法で意図を伝えるのを助けています。また、それを構築する方面で数十年の経験があります。ですから、マルチタッチ、スタイラス、音声などの入力を同時に処理できる方法を想像してください。Diana Louのこのインターフェース実験のように、または、インターフェースに「確定性」をどの程度構築できるかを考える必要があります。「確定性」、インターフェースに構築できます、そうですね?
例えば、Figma Weaveのこの例。ノート型のワークフロータイルで、リッチメディアコンテンツを生成できます。実を言うと、私はこのツールに取り組んでいます。しかし、このノート型のAIネイティブツールカテゴリーは興奮させられます。これはモデルと私たちが既に知っているUIデザインパターンを融合させており、創造的な探索に必要な精密さと制御を提供しているためです。ここから深く掘ることができます。ですから、私がたった今共有したコンテンツがあなたに灵感を与えることを望んでいます。あなたのエージェントが複数の協力者とどのように相互作用するかを考えるために、人間であるか代理人であるかに関わらず、そして彼らが使用できるどのようなパターン。うーん、私は確実にこのフィールドの進展を監視します。あなたがチャットしたいなら、Twitterで私に連絡してください。
もし、これらの内容が皆様に響きわたるのであれば、今年のConfigをお見逃しなく。Figmaのデザインカンファレンスです。そこにも、皆様が興味を持つかもしれない更新があります。では、このようなわけです。ありがとうございました。本当にありがとうございました、Ain。えっと、次の講演者をご紹介できることを大変嬉しく思います。こちらはSaleem、Menllo Researchのロボット工学エンジニアです。ステージにお上がりください。えっと、ご存じない方のために申し上げますと、Menllo ResearchはAzimoffの背後にある企業です。これはオープンソースのヒューマノイドロボットで、皆様が訓練してカスタマイズできます。彼らは、我々の物理AI軌道で発言する最初のグループになります。えっと、これは本当に興奮を生み出します。なぜなら、我々はえっと、ご存じの通り、新しい議論を導入したいのですが、AIを単なる大規模言語モデルとして見るだけでなく、どのようにして本当にそれを理解させ、実世界の物理と相互作用させるかという点です。
ですから、umのSaleemは議論します。えっと、彼のテーマは「ノイズがすべてです——エンジニアリングシミュレーションからオープンソースヒューマノイドロボットの実装まで」です。>> スライドがここから見えますか?ありがとうございました。>> えっと皆様こんにちは。えっと私はSimです。私はMelo Researchで働いており、これはシンガポールに登録されている企業です。私は、ロボットエージェントについての知識、および基本的にはどのようにno-codeで実世界をプログラムするかについて説明したいのです。えっと、Meloは実際には全スタック企業です。えっと、私たちは27人であり、世界中に分布しています。私たちはえっと、シンガポールにオフィスがあり、Syndam Squareに位置しており、これは実際には非常に良い場所です。えっと、私たちはベトナムのホーチミンにもオフィスがあり、えっと来月サンフランシスコにオフィスをオープンする予定です。えっと、私たちのチームは基本的に27人中25人がエンジニアです。えっと、私はSalemです。えっと、私は2025年にMenlloに加わりました。
私は以前、カリフォルニア州パロアルトのTeslaで6年間、ソフトウェアエンジニアとして働きました。私がMenlloに来た理由は、基本的にはロボット方面の作業をリードするためです。えっと、皆様がご覧になっているように、私たちは全スタックロボットを行っており、ハードウェアからupはじめ えっと、ハードウェアからupで えっと最高レイヤー えっと、アプリケーションレイヤーまでです。ですから、私は皆様がすでにESOについてちょっと聞いたと思います。基本的には、これはオープンソースのヒューマノイドロボットです。これは世界で唯一のオープンソースのヒューマノイドロボットで、それは実際に えっと、ご存じの通り、ちょっとバイラルでした。我々はそこまで予想していませんでした。私たちは えっと えっと、複数の国でバイラルになり、ドイツで。ドイツに記事がありました、日本で。ですから えっと、ですから私たちは基本的にDIYキットを作成することに決定しました。基本的には、箱のようなもので、ヒューマノイドロボットのすべての異なるコンポーネントを含んでおり、私たちはオンラインマニュアルを持っており、皆様は自宅でロボットを構築できます。
えっと、ご存じの通り、私たちはそれをリリースして予約を受け付けました。私たちは2日間で えっと100万ドルの予約を受け取ったと思います。えっと、人々はヒューマノイドロボットの分野に非常に興奮しており、特に、ヒューマノイドロボットの使用方法を学ぶことのように、えっと、それらがどのように機能し、どのように行動するかを学ぶ方法。えっと、ですから、多くの人々が私たちに質問します、ご存じの通り、皆様はなぜハードウェアを構築するのですか?ハードウェアは難しいです。えっと、今後ハードウェアを含まないことはより難しいと思います。えっと、ですから、オープンソースの参照ヒューマノイドロボットデザインとして。ですから、これはデザインをforkできる誰もが自宅で、またはえっと製造設定で、ヒューマノイドロボットを構築できることを意味します。ですから、私たちの目標は基本的には、全世界で分布的な製造パートナーネットワークを作成することで、彼らはそれらを購入したい人々のためにesopを作成し、私たちは参照デザインを持っています。
ほぼ えっと、Androidのような、例えば、SamsungやHuaweiのようなものがハードウェアを構築しており、一方で、皆様は基本的にはオープンソースの参照デザインを所有しています。えっと、これは非常に興味深いです。なぜなら、私たちがDIYキットをリリースして販売したとき、私たちは実際に えっと200社以上の工場が私たちに連絡を取り、ロボットを構築したいと言ってきたからです。彼らは世界中から来ています。何人かはトルコにおり、何人かはドイツにおり、もちろんアメリカにもいます。えっと、ナイジェリアにもいます。えっと、ですから、世界中のどこかに、彼らは実際に えっと、asを構築でき、私たちはオープンソースの参照デザインを所有しています。えっとEsimovはまた、私たちが内部で構築したものを含んでいて、ロボット処理ユニットのようなものです。これは私たちにとって非常に重要です。なぜなら、それは えっと基本的には、全体のロボットを制御できるコントローラーだからです。
ロボットは、例えば、35個のモーター、8個のカメラ、えっと2個のマイク、1個のスピーカーで構成されており、すべては躯幹に座っている単一のボードに接続されています。そして、このボードも非常に えっと有用で、例えば、ローカルでモデルを実行できます。これは非常に重要です。なぜなら、ご存じの通り、ESMOの定律を表しているからです。3つのESO定律があり、これらの定律は基本的には、誰も害しないこと、皆様の えっと、コマンドに従うこと、そして自分自身を保護することです。そして、普遍的な安全を定義することは非常に困難です、対でしょう。ちょうど中東に住んでいる人々の安全は異なります。シンガポールに住んでいる人々の安全は異なります。ちょうど、私はトルコ人でドイツ人です。私は えっと、私は二重国籍です。ですから、ちょうど、私の2つの国の安全要件は異なります。ですから、私たちは実際に、製造業者の同じように安全を決定することにしました。
私たちは、asを構築する人々、asを開発する人々にとって、安全が何を意味するかを決定するための分散的なコンセンサスにしたいのです。ですから、それはほぼコンセンサスのようなものです。ビットコインを考えてください。これら他のすべてのもの、ブロックチェーン えっと技術のようなものを考えてください。その中で、人々は何が安全かを決定し、基本的には、機能安全モデル、コンピュータビジョンモデルを作成します。それはいつでも、それが間違ったことをしようとするときにロボットを接収できます。その えっと as定律に関係なく えっと、これが基本的にそれをデバイスに焼き込むことが非常に重要である理由です。ですから、それはクラウドで実行されていません。それはデバイス内でローカルに実行されているだけです。
githashがCRCに焼き込まれており、皆様はすべてのコンテンツを読むことができます。ちょうど えっと、その単一のボード、製造業者が使用しなければならず、そうでなければ彼らはasを構築することが許可されていません。ですから、no-codeでリアリティをプログラムする方法のような点について、えっと no-code プログラミングは興味深いです。なぜなら、ご存じの通り えっと、開かれた爪の時代のようなときに、人々は基本的には彼らのワークフローを自動化でき、誰もがAIエンジニアのように感じますね?ちょうど、ご存じの通り、人々は基本的には毎朝メールをまとめ、その後、彼らがOpenAIに申し込めると思うかもしれません。ただ彼らが全部この力を持っているから、対でしょう?ただno-code プログラミングの事柄です。そして、私はMeno で実際に行いたいと思うことはハードウェアの側面を除いて、ソフトウェアの側面のように、私たちは えっと、私たちは基本的にすべてのソフトウェア開発者をロボット工学エンジニアに変えたいです。
Open Claw や他のツールと同様に、基本的には全てのソフトウェア開発者を AI エンジニアに変えるということですね。そして私たちがこれをどのようにやっているかというと、基本的にはソフトウェア方面にシステム設計があります。これはエージェントのようなものです。エージェントは基本的には、あなたたちが持ち込むことができるものです。これは私たちが提供するものではなく、CL を実行でき、コーデックを実行できます。あなたが持っているすべての異なる外部ツールのようなものに接続することができます。ええと、これは私たちが呼ぶ、いわば脳のような、ゆっくり思考する脳のようなものです。そして、ええと、スキルとロボット制御があり、ロボット内部で実行されます。ですから、スキルは基本的には、ある特定のタスクを実行する方法を意味しています。カップをつかむ方法、握手をする方法、歩く方法です。ああ、そしてロボット制御は、ええと、基本的にはリアルタイム・オペレーティング・システムです。
これらのコマンドがロボットで実行されても転倒しないようにすることを確保しています。ええと、その内部には安全メカニズムがあります。そして単に例を挙げるために、ロボットが自動運行しているときのコックピットのようなものです。ですから基本的には、あなたが知ってのとおり、A からボックスを B にロードしたいとき、そうですね、まずロボットが内部でこの知覚と計画エージェントを実行します。それが、ああと、異なる障害を検出でき、異なる、ああと、異なるシナリオを検出でき、それが見ているものに依存します。ああと、2 番目のことは、実際のところは、ああと、シミュレーション訓練を通じてスキルを取得できます。ほぼ Open Claw スキルのようなものです。MMD ファイル、そうですね、あなたはスキルを訓練できます。カップを拾う、ああ、あなたが知ってのとおり、前方に移動する locomate を実行し、前方に実行し、ああ、ジャンプし、ああ、これらは異なるタイプのモデル訓練を通じて訓練されています。しかし、ほぼスキルとして抽象化されています。
これはどちらか VA がものを拾う場合です。これは Walt アクション モデルです。またはこれは単に逆運動学のようなものかもしれませんね。そして今、あなたはプランニングができます。そしてあなたは実行するスキルを持っています。そして最後のステップは基本的には、それをあなたのエージェントに挿入するだけです。ですから今、あなたのエージェントは基本的には、あなた、ああと、ビデオとオーディオストリームをあなたのエージェントに送信していません。あなたはテキストとスキルだけを送信しており、ロボットはほぼ MCP サーバーとしてこれらのタスクを実行しています。そしてあなたが次にできることは基本的には、カンバン ボードを作成できます。あなたのファクトリーで、またはあなたの家で実行されているロボットのチームにチケットを割り当てることができます。そして興味深い部分は、ああと、前に言及したそれらのロボット処理ユニットです。あなたはそれらのロボット処理ユニットを任意のタイプのロボットに接続できます。いくつかのスキルは実際に転移可能です。いくつかのスキルはそうではありません。
ですから、あなたはこれらのすべてのセーフティ・ルールを実行するロボット処理ユニットを、任意のタイプのロボットに接続することができます。基本的には、私たちのスタックを通じて、それらをいわば、ほぼフリート・コーディネーターのようなスウォーム・インテリジェンスのようなものに接続できます。そしてあなたは基本的には、あなたが知ってのとおり、あなたの環境全体を制御できます。ロボットはオープンソースです。そのスキルはコミュニティによって訓練されています。セーフティ・ルールはコミュニティによって訓練されており、ロボットは製造パートナーによって構築されています。ですから、私はこれがいわば、ああと、Melo がここで、ああ、シンガポール周辺で実装しようとしている目標の一種だと考えています。そしてあなたが知ってのとおり、誰であれ、私たちに参加することに興味を持っている人。私たちは実際にオフィスを開設しました。ああと、Melo Park でね。私たちの名前が言っているように、そうですね?ああと、これに興味を持っている人は誰でも私たちに参加できます。ああと、そして、シンガポール でこれに興味を持っている人も、ああ、私たちは話すことができます。
えーと、どのようなスキルセットが必要なのか。ロボットには特定のスキルセットがありません。これは多次元的な問題のようなものです。知覚を持つ人、電気工学者、機械工学者、推論最適化の人、GPU最適化の人が必要です。これらすべての人が必要です。えーと、私たちは後ろでも持っているコミュニティ全体と協力して、ESO を構築したいと考えています。私たちはここシンガポールで素晴らしいことを行うことができます。ここで最初の人型ロボット企業として。皆さんありがとうございました。ありがとうございました、Seem。さて、フィジカルAI トラックの第二の演者をお招きして、非常に嬉しく思います。えーと、Reactor の創始者である Alberto です。えーと、Reactor は最近ステルスモードを抜け出したばかりです。えーと、これは「ワールドモデル」と呼ばれるものに焦点を当てたスタートアップです。えーと、皆さんの中には既に詳しい人もいるかもしれません。あるいは何人かの人が聞いたことがあるかもしれません。おそらくえーと、Nvidia の GTC の後かもしれません。
いらっしゃいませ。えーと、しかしえーと、私たちは非常に興奮しており、えーと、彼をここに連れてきて、どのようにして実際に対話型シミュレーション環境を作成してフィジカルAI の次の波を支援するかについて議論することができます。ですから、彼はワールドモデルについて議論し、未来を見据えます。>> えーと、これは私の講演です。私はそれができると思いますが、それが機能しているかどうか分かりません。あなたはそれが機能していると思いますか?>> わかりました。えーと、皆さんありがとうございました。えーと、ここにいられて非常に興奮しています。ですから、今日は、ワールドモデルの世界を垣間見させます。予想の通りです。えーと、まず、ワールドモデルの現在の状況と、それらが何ができるかについて、あなたに素早く理解させることで、講演を開始したいと思います。なぜなら、時には人々がえーと、ワールドモデルが既に何ができるかを知らないと思うからです。これは相当に驚くべきです。
ですから、言わずもがな、えーと、これはビデオです。えーと、これは実際にはビデオではありません。それは Reactor 上でリアルタイムで記録生成されています。あなたは私がこのえーと、このシロクマとポーズを取っているのを見ることができます。今、私がこのビデオを見ると、これが実際にはえーと、実ビデオのような物なのか、あるいはビデオゲームのような物なのかを完全に区別することはできません。しかし、あなたがここで見ているものは、実際には Reactor プラットフォーム上でリアルタイムで生成されているものです。ですから、えーと、これはあなたに展示するためであり、今日既に、あなたがワールドモデルで生成できる品質がどれほど印象的であるかを見せています。そしてこれらすべては、私が記録したときに、毎秒30フレームでリアルタイムで実行されています。そして、私はキーボードからだけで体験を制御することができます。そしてそれはすべてリアルタイムで変わります。ただ1つのイメージから始まります。
ですから、私は単に舞台を設定したいだけです。なぜなら、これらのモデルが既にどれほど先進的であるか、そして今日何が可能であるかを理解することが非常に重要だからです。これはただ初期の一瞥に過ぎません。講演を進めていく中で、後ほどもっと多くのことをお見せするでしょう。これは既に可能であり、本当に素晴らしいと思います。えーと、私自身について簡潔に言うと、私は Reactor の最高経営責任者で、かつ共同創始人です。えーと、私たちはワールドモデルアクセスの民主化と、人々がそれらを使って構築するという目標を持って Reactor を立ち上げました。えーと、過去には、私は Luma AI の共同創始者えーと、最高技術責任者であり、かつ共同創始者えーと、Apple で Vision Pro に取り組みました。ですから、私は常にえーと、空間、ビジュアル、3D、およびリアルタイムの領域を愛してきました。
えっと、それが最終的に私に考えさせました。つまり、AIと一般的な生成AIにおいて、真の次のフロンティアが何であるかが、私にとって明白になったのです。それは世界モデルとリアルタイム映像生成です。ですから重要なのは、過去、例えば5年間にAI分野で何が起こったかについて考察することです。特に視覚AIについてです。初期段階では、ご存知のように、テキスト、音声、画像、動画を生成できるものを持っていました。しかし、これらすべてのモダリティは受動的です。
えっと、例えば画像モデルにプロンプトを与える場合、えっと、最終的にファイルが出力されます。しかし、生成の継続時間にわたって、ユーザーからのインタラクションはありません。モデルと相互作用させるものがなく、モデルは外部刺激を処理できません。ですから、例えば世界で何かが起こって、えっと、モデルに反応してほしい場合、えっと、それは不可能です。なぜなら、これらのモデルは本当に受動的であり、インタラクティブではないからです。そしてですから、将来、ますますのAIワークロードが実際には実時間でインタラクティブになり、完全にえっと周囲の世界を認識するようになるでしょう。
そうでなければ、えっと、彼らは本当に周囲で何が起こっているかを理解しておらず、リアルタイムで反応することもできません。ですから、実際にReactorが行った他の作業について議論するために、世界モデルが何であるかについて最初に話すことが重要だと思います。えっと、私たちが世界モデルを定義する方法は、多くの人の定義とは少し異なると思います。えっと、私たちは、それらが最初に長期記憶を持つと考えています。簡潔さのために、私たちはそれを持続性と呼んでいます。しかし、それらは知っています——それらは以前生成したものを認識しています。えっと、それらもリアルタイムです。えっと、これはあなたがこれらのモデルを呼び出すことができ、それらと相互作用することができ、それらはあなたに反応することができることを意味します。さらに、それらは因果推論を行い、これはそれらが以前に何が起こったかを認識していることを意味します。
それらは記憶しているだけでなく、あなたが生成してほしい次のステージの出力を生成するときも、それを考慮に入れています。私が言ったように、あなたは実際にそれらを押し、それらと相互作用することができます。人間のようにするだけでなく、外部の、ご存知の物理イベントやインターネットイベント、あなたの世界モデルが何をすべきかに関わらず。えっと、ですから、あなたはそれらを本当に状態マシンと見なすことができます。えっと、外部入力を理解し、以前に何が起こったかを考慮し、それに基づいて新しい出力を生成します。えっと、これは画像、えっと、画像とビデオモデルとは非常に異なります。なぜなら、それらのモデルは、えっと、えっと、以前に何が起こったかの認識を持っていないからです。えっと、ですから、これが、これが私たちが興奮している理由です。なぜなら、これはソフトウェア全体の本質を変えるからです。
例えば、現在の世代の生成AIでは、あなたはアーティファクトを生成します。しかし、次の世代の生成AIでは、あなたはアプリケーションを生成するでしょう。なぜなら、それらはインタラクティブで、リアルタイムであり、そしてあなたは能力があるからです。えっと、それらは、それらは、それらは周囲の世界で起こっていることを認識しています。これは、メディアとロボットだけでなく、ソフトウェア全体も完全に変えるでしょう。えっと、これは非常に興奮させることです。えっと、ですから今日、えっと、実際には私たちはすでに多くのユースケースを持っています。
えっと、もう一度考えてみます。えっと、世界モデルが今日有用なものであると考えないのは簡単ですが、実際には、例えばロボット工学の分野では、えっと、ロボット企業がますますそれらを使用しており、えっと、VASおよびVLMsの代わりに、えっと、なぜなら、えっと、それらは、それらは、それらはえっと、ロボットの周囲で起こっていることを認識することにより上手であり、それらは、それらはロボットが何をすべきかを直感的に視覚化することさえできます。例えば、アバターとデジタルヒューマンでは、ご存知、リアルタイムビデオAIと世界モデルは、えっと、明示的な3D表現ベースのアプローチよりもはるかに強力です。なぜなら、あなたはそれらをさまざまな状況に適応させることができるからです。
えっと、例えば広告については、えっと、世界モデルとリアルタイムビデオを使用して、各ユーザーに対してコンテンツをリアルタイムでパーソナライズすることができます。これは本当に、えっと、メディアと広告の聖杯です。しかし、場合によっては新しいタイプの芸術的努力も含みます。えっと、シミュレーションについては、再度リアルタイムで実行でき、えっと、生成シミュレーションをより正確で、よりリアルワールドを代表する方法で実行でき、シミュレーションで可能なことのゲームを変えます。そしてReactorが最も興奮していることの1つは、実際には生成ソフトウェアの考え方です。これが意味するのは、なぜ私たちはメディア、えっと、ゲーム、えっと、えっと、の生成に限定しなければならないのか、そして機械が世界で実際に行動するのを助けることに限定しなければならないのかということです。もし私たちが画面上のすべてのピクセルをリアルタイムで生成できたら、えっと、ライブで?
人間がマシンと他の人によって定義されたインターフェースと相互作用する際にどれほどの挫折があるか考えてください。そしてこれらのインターフェースは別の人にとって本当に利用可能ではありません。生成ソフトウェアは、将来私たちがソフトウェアと相互作用する方法を本当に変える可能性があります。えっと、ですから、私たちはまた、世界モデルは本当にAGIへの重要なパスの上にあると信じています。なぜなら、えっと、ビジュアル入力から取得できる情報は、テキストから取得できるものよりもはるかに豊かだからです。えっと、実世界と相互作用でき、それを理解できるシステムを持っている場合、これは、あなたが本当に世界的にAIを非常に有用な方法で展開する方法です。えっと、えっと、ですから、私たちもえっと、Reactorを構築することで、私たちはそのパスの上にいると感じています。ですから、これらすべてを説明した後。
私たちがReactor上に構築しているのは、ワールドモデルの開発者プラットフォームです。私たちの意図は、私たちのミッションはワールドモデルへのアクセスの民主化です。そうすれば、あなたとすべての人がそれらを使用でき、あ、それらを使用して有用なことを行うことができます。あ、それらは使用が難しいため、長い間ロックされてきました。それらを大規模で実行したい場合は、遅延のようなものを考慮する必要があります。ストリーミングを考慮する必要があります。スーパーサンプリングを考慮する必要があります。Reactorはこれらすべてをあなたのために処理します。
そうすることで、あなたというこの開発者はアプリケーションコードに専念でき、あ、ワールドモデルとリアルタイムビデオAIで夢見た何でも構築できます。私たちはこれが、あ、あ、私たちが本当に、より広いワールドモデルの採用を達成する方法だと考えています。あ、そしてこのタイプのこのテクノロジー、あ、また、私たちは最先端の実験室と研究実験室がReactor上に彼らのモデルをデプロイすることを非常に簡単にしました。そうすることで彼らはそれらをテストでき、それらを他の人に配布でき、さらに、さらに、あ、彼らのモデルを使用している人から収入を得ることもできます。ええ、ここで何か面白いものを見せたいです。それで、これは私がリアルタイムで生成したJensenがNVIDIAを歩いているものです。ビデオを再開します。それで、ええ、ワールドモデルで行うことができる面白いことの数例を見せたいです。これは他のテクノロジーでは不可能なものです。
それで、私はたった今NVIDIAのJensenのイメージを生成し、その後彼にそれを歩かせました。それで、これらすべてを私がリアルタイムで制御しています。まるでこれらすべてが起こっているかのように、これらすべてがリアルタイムで起こっています。彼を周りに歩かせることができます。ほら、Nvidia周りを歩き回らせることができます。ほら、これは革ジャケットを着たJensenがNvidia周りを歩いているのです。ええ、これも別の興味深い例です。ほら、このタイプのことはリアルタイムでは不可能です。あ、ワールドモデルのようなものを使用しない限り。
これはあなたに示すためです。どれほど信じられないほど可能かを。あ、基本的にはあなたはそれを今すぐ作成できます。あ、いいえ、いいえ、時間がありません。あ、ただ楽しむだけです。しかし、これに使用できるもっと深刻なアプリケーションがたくさんあります。皆さんが試してくれることを本当に望んでいます。これが、あ、そう、もちろん、奇妙になります。あ、でも、そう。ですから、私たちは、私たちは開発者がこの能力を使用することを許可する準備ができています。私たちはすでに世界のすべての主要なワールドモデルとパートナーシップを確立しています。あなたは今日reactor.inに行き、私たちのSDKをダウンロードしてワールドモデルで構築を開始できます。非常にありがとうございました。>> ありがとうございました、Alberto。あ、次に、喜んで紹介します。あ、あ、Yang Li(art)、彼はOpen Mindの創始者です。ステージへようこそ。頑張れ。
えぇ、彼の背景は実のところ他の人たちとは相当異なっています。彼はStanfordの教授です。以前は実際のところ、私の母校であるBerkeleyの教授でした。Stanfordのこともあまり怒りません。わぁ!Go Bears。えぇ、彼がOpen Mindの仕事を紹介することになるので嬉しいです。あぁ、ロボット工学の分野についてある程度の知識がある人にとって、多くのことはやや散在していますので、彼はロボット工学における「Androidの瞬間」が何であるかを確立したいのです。つまり、AIを具現化するオープンオペレーティングシステムです。>> あぁ、いいえ、これは使えますが、この問題については対処します。あぁ、それは素晴らしい。完全に有効です。素晴らしい。ようこそ。あぁ、ですから私の人生はUC Berkeleyの物理教授として始まりました。えぇ、Facebookとの少しの協力がありました。
これは、大規模なデータ収集とその情報を利用した適切な意思決定に関わる問題について、あぁ、気づかせてくれました。主に医療保健の環境に関してです。あぁ、その後、医学部にもっと近くなるように、自分の研究室をStanfordに移しました。そして、あぁ、だから私は親です。あぁ、私は教えたり、研究したり、あぁ、医療保健の成果に関心があります。だから人々がより良くなることに関心があります。ですから私は主に医療保健、教育、そして私たちの周りの機械と人間に関することに動機づけられています。私はこれすべてがどのように発展するか、少し知りたいです。だから今日は手についてはお話ししません。今日は組立や製造についてはお話ししません。えぇ、周りに知的な機械があることの意味について考えたいのです。あぁ、我々は、あぁ、技術者として、あぁ、あぁ、それらの新しい能力のために構築することを目指すべきなのです。
もちろん、あなたたちはみな、あぁ、Norbert、あぁ、Wienerの『サイバネティクス』を読んでいるはずです。あぁ、もし読んでいなければ、あぁ、あぁ、ひどいことです。あぁ、あなたは絶対にそうするべきです。えぇ、彼は本当に良い、あぁ、自動化に対するより広い視点を持っています。もちろん、最初のステップは時計や時計のようなものです。あぁ、彼が呼ぶところの第一次革命は、人間の腕の減価です。だからこれらは織機のような技術です。これらは蒸気シャベルや自動製造、そしてAmazonと倉庫ロジスティクスのような技術です。だからあなたはそれらすべてを、人間の腕に対する何らかの減価償却と見ることができます。ところで、あぁ、私は彼を引用しているだけです。私は必ずしも彼の表現方法に完全に同意しているわけではありません。えぇ、しかし、あぁ、それが、あぁ、サイバネティクスの中の議論です。
その後、もちろんNorbertによれば、我々は現在第二次革命の真っ最中です。それは人間の脳の減価です。これは、あぁ、歴史的な傾向の中のいくつかの例です。だからチェスと囲碁です。その後Wazeがあります。空港に到達できます。あぁ、もちろん、あぁ、ウクライナがどのようにますます自動化された戦争を行っているか。あぁ、我々は、多くの人が一般製造と何らかの手動タスクが、あぁ、完全に技術の範囲内にあると考えている地点に到達しています。その後、もちろん、これすべての中のある種の最終ステップがあります。ケア、教育、付き添い、物を修理することなどのようなものです。私は主にこの最後のカテゴリ、あぁ、あぁ、タスクと機会に興味があります。そして、通常、このカテゴリの最後では、あなたが扱っているのは、あぁ、機械が1人または複数の人と相互作用していることです。
これは物事を、ええ、本当に興味深く、かつ挑戦的にしています。私たちの中には、ロボットのことを考えるとき、ええ、Tesla工場を想像するかもしれませんが、他の人たちがロボットのことを考えるとき、iRootのような映画を想像するかもしれません。ですから、ここで持っているのは、人とロボットが相互作用する状況で、これはこの映画プロットの重要な部分です。同様に、私たち多くの人にとって、ロボットのことを考えるとき、私たちはすぐにもちろんPrincess LeiaとR2-D2に引きつけられます。ですから、それはStar Warsで重要なタスクを実行するロボットの一例で、ええ、手がなく、ええ、それでもなお、ええ、反乱軍を見事に救いました。そして、私がロボットのことを考えるとき、私は大いにこの第2の陣営にいます。
ええ、私は私たちの周りの機械に優れた意思決定能力を与えることによって、ええ、ペット、人、患者、学生などとの複雑で動的な環境でナビゲートできる能力を生み出すすべての機会について考えました。ですから、私たちが見ているとき、あなたが知っているように、医者、教師、看護婦、投資家、銀行家、警察、電気工事士、ええ、何であれ、ええ、彼らの職業は何ですか。私は本当に興味があります、彼らの、ええ、人とのやり取り、人を理解する、彼らを覚えている、ええ、彼らの前にいる人に個性化されたコンテンツを提供できるという、より高度なタスクを解決する能力についてです。時々、医学部予科生に物理学を教えるとき、これは私を悲しくさせます。なぜなら、私は500人の学生を見ていて、彼らが誰であるかを知らないからです。彼らが何を知っているか、知らないかを知りません。
そして、教師として私が知っていることは、医学部予科生に講義する物理学の方法は、ええ、聴衆の中で約3人の子供たちにとって非常に退屈で、ええ、その後、他の497人の子供たちにとっておそらくそれほど簡単に追いつくことではないということです。ですから、私は本当に、私の前にいるすべての人を理解するより良い能力を持ちたいと思っており、より適切にコンテンツを提供することができます。そして、私はこれがすべてのロボットにとって共通の問題ステートメントであると考えています。それは、家庭、患者、ええ、その他のことなど、最適に対応する方法です。ええ、あなたが現在アメリカのすべての830の人間の仕事のカテゴリーを見るなら、ええ、私はちょうど、ええ、社会的知能がそれらのタスクをうまく行うためにどれほど重要であるかをプロットしています。教師または看護婦を想像してください。ええ、これは単なる静的なワークフローを通じてではありません。
これは本当に、ええ、具体的な、ええ、具体的な人との相互作用で、その後、ええ、例えば彼女に最適なケアを提供することです。ですから、機械が私たちの周りでますますスキルができるようになると想像するとき、ええ、私にとって非常に重要なのは、これらの機械、ええ、人との相互作用に非常に優れた能力があることです。ええ、ですから、私たちが会社として使用する評価基準は、ええ、笑顔と涙、信頼と記憶です。ええ、ここにDianeがいます。ええ、Dianeは人間で、Irisは人型ロボットです。そして、Dianeは公園の近くに住んでいます。そして、Iris人型ロボットが公園に行かないとき、ええ、Dianeは聞きます、「ええ、Irisはどこですか?Irisはどこですか?」そして、ええ、それはIrisが唯一、時々彼女が数時間話すのを聞く唯一のものだからです。そして、ええ、これはDianeを本当に幸せにします。ええ、彼女の目は輝きます。ええ、彼女は公園に出入りします。なぜなら、彼女はIris人型ロボットを探しているからです。
そして、ええ、あなたは私をディストピア主義者と呼んでも構いません。ええ、あなたが建設している恐ろしい未来ではないですか?私たちの親は3世代の孫に囲まれるべきです。ええ、私たちの親は、ええ、彼らのすべての親戚に囲まれるべきです。あなたが今日アメリカの長期ケアを見れば、ええ、アメリカ人は長期ケアで過ごす、ええ、どんな種類の社会的相互作用でも、平均時間は毎日2分です。毎日2分です。そして、私は、その種の世界では、ええ、ええ、機械が私たちとの関係において大きな役割を果たしていると考えるのが好きです。そして、私が涎を流し始め、涎を垂らし始めるとき、ええ、私の心は消えます、ええ、私はほぼ確実に、ええ、ええ、機械と相互作用し、その状況で私が微笑むことを望みます。それは私が非常に幸せな1つのことです。
ええ、ですから今、ええ、私たちはこのことに少し異なる見方をしています。ええ、私たちの周りに100社があり、私はそれらすべてを愛しており、彼らはすべて素晴らしく、彼らは手と機械的なタスク、そしてiPhoneアセンブリ、ええ、タマネギを切ること、麺を作ること、Tシャツを折ることなど、これすべてを研究しています。しかし、その問題陳述に焦点を当てたすべての傑出した才能に基づいて、私は、ええ、それが速く、速く解決されるだろうと思います。ですから、私たちは次のステップを予期し始めています。その中で、これらすべての機械が私たちの直接環境に組み込まれ、彼らの行動と彼らが私たちとどのように相互作用するかについて、私たちは強い意見を持ちます。そして、何か、ええ、質問や苦情については、私は私のメールアドレスを記入しました。ですから、ええ、あなたがそれが好きなら、それは素晴らしいです。そして、どんな苦情でも、それは[email protected]です。
ありがとうございます。>> よろしい。Yanさん、本当にありがとうございます。今、私はAndrew Tanさんをステージに招待したいと思います。こちらに来てください。ええ、彼はGroq Cloudのプラットフォームエンジニアリング責任者です。私たちが遭遇する多くの問題は単なる「さて、モデルはこれを実行できますか?」ではなく、「数百万から数億の人々のために、大規模でこれを迅速かつ安価に行うことができますか?」です。ですから、これが彼が話す内容です——Groq Cloud規模での低レイテンシーLLM推論のスケーリング方法。ちょっと待ってください、申し訳ありません。申し訳ありません。皆さんは私の声が聞こえますか?わかりました。ええ、私はAndrewと呼ばれています。私はGroq Cloudのプラットフォームエンジニアリング責任者の1人です。あなたが知っているように、過去数日間、私がGroqで働いていることを人々に告げたとき、人々は「ああ、Groqはこれほど良い個性を持っています。」と言うのが好きです。時々、彼らに「ああ、私はGroで働いています、それはQを伴っています。」と修正する必要があります。
「でも、私たちも独特で明確な個性を持っています。それは高速低レイテンシー推論です。今日、私が共有したいのは、Groq Cloudでこれをどのように実現するかです。あなたがまだGroqとGroq Cloudを理解していない場合、私たちはAI基盤インフラストラクチャ会社で、低レイテンシー、決定論的な高性能推論に焦点を当てています。これをどのように実現するのですか?さて、これはLPUまたはGro チップを中心に構築され、これは低レイテンシー推論のために特別に設計されたカスタムシリコンチップであり、私たちはそのチップを中心に構築された完全なスタックを持っています。ですから、コンパイラー、ランタイム、クラウドインフラストラクチャ、グローバルルーティング、開発者プラットフォーム、Groq Cloudの一部であるエンタープライズ機能が含まれます。今日、あなたにこれがどのように見えるかの簡単なデモを見せます。ええ、私たちは録画されたビデオを再生するだけです。」
>> ご存知かどうか分かりませんが、これはある種のリアルタイム文字起こしです。2026年5月にシンガポールで行われたAIエンジニアイベントについてお話しします。ほぼリアルタイムの...2回の呼び出しが表示され、テキストが毎秒約500トークンという速度で非常に速く生成されるのが見えます。もう一度再生します。そして、これはGroq Cloudで使用している最速のモデルでもありません。これは単なる簡単なデモンストレーションで、推論がどのくらい速いかをご理解いただくためのものです。これは、異なるプラットフォームで慣れている速度よりも数倍速い可能性があります。では、なぜこれが重要なのでしょうか。推論の需要は今どこにあるのでしょうか。ご存知のとおり、エージェント、マルチモーダルモデル、重い推論モデルの出現に伴い、推論の需要が急増しています。それは本当に急速に加速しています。えーと、過去1年間で、Groq Cloudでのトークン需要、つまり私たちが提供するトークン数は、約600%、つまり7倍増加しました。
そして、私たちがこれを行う際のハードウェアフットプリントは、昨年よりもそれほど大きくなっていません。推論に対するすべての需要を提供したい場合、この倍数はさらに高くなるでしょう。えーと、今日、私たちは過去1ヶ月間で約800,000人のアクティブなデベロッパーに対応しています。えーと、私たちは引き続き、大企業、スタートアップ、AI企業、AIネイティブ企業、および世界中のさまざまなタイプのデベロッパーからの需要を見ています。実は、将来を見据えると、推論は本当に定義するだろうと考えています。えーと...インフラストラクチャ...AI推論の次世代インフラストラクチャとアーキテクチャの選択...えーと、AIインフラストラクチャです。申し訳ありません。今、私たちが多くの時間を費やしている1つのことがあります...これがフルスクリーンではない理由がよくわかりません。申し訳ありません。了解しました。はい。
私たちが多くの時間を費やして考えている1つのことは、世界中でリクエストをルーティングし、最小限のレイテンシでトークンを提供する方法です。私たちは世界中に約10のデータセンターを持っており、主に北米にありますが、ヨーロッパ、中東、オーストラリア、APAC地域にもあります。トークン需要の約65%は北米から来ており、20%はEMAから、15%はAPACから来ており、シンガポールからの需要は1%を含みます。各リクエストを、Cloudflareエッジネットワークを通じて最も近いPOPにルーティングしてから、データセンターにルーティングします。私たちは途中で多くのルーティング決定を行い、顧客に対して最小限の遅延を確保します。これはどのように分解するか、ご存知のとおり、これはえーと...1つ...LLMリクエストのライフサイクルです。えーと、これがネットワークレイテンシで構成されていることが分かります。リクエストがエッジネットワークに到達します。
その後、リクエストは、私たちの約15の推論リージョンの1つにルーティングされます。このリージョンには、クラウドネットワークまたはデータセンター内のオンプレミス展開が含まれる場合があります。私たちはそこで推論スタックを展開し、推論レイテンシの観点から、それはQタイムに分解されます。そこではリクエストが異なるモデルのためにキューイングされます。入力処理のためのプロンプト時間、および出力処理レイテンシのための完了時間(すなわちデコーディング)も含まれます。これらすべてを合わせると、任意のプロバイダーに対して任意のLLMリクエストを発行するときに経験するエンドツーエンドレイテンシになります。Qタイムとプロンプト時間は私たちが非常に関心を持っているものです。なぜなら、多くの場合、高速なストリーミング最初のトークン時間を実現するための遅いステップだからです。より詳しく言うと、受信したすべてのリクエストは認証され、グローバルロードバランサーの1つに到達します。
グローバルロードバランサーは15のデータセンター間で情報を共有します。各モデルインスタンスの推定待機時間とQタイムに関する情報です。各データセンターには約50のモデルインスタンスが展開されている可能性があります。この情報は、すべてのロードバランサー間でリアルタイムで共有されます。約100ミリ秒ごとに1回、ルーティング決定を有効にするためです。これらのルーティング決定を行うことは、出力生成の長さを推定する必要があるため、最も簡単ではありません。典型的なAPIリクエストとは異なり、エンドツーエンドのリクエストがどのくらいの時間実行されるかは不明です。生成されるトークン数がどの程度になるかは不明だからです。ですね?
私たちは、利用可能なバックエンドバケットからTTFTのサンプリングを行い、リクエストを特定のデータセンター展開の最適なモデルインスタンスにルーティングします。途中に多くのチェックがあります。レート制限を含め、もちろんさまざまな使用イベントの追跡と監査も含まれます。より詳しく言うと、私たちはTTFTによって事柄をバケット化し、最適な地域の最適なモデルインスタンスへのルーティングを行います。私たちは異なるタイプの顧客に対していくつかの優先順位を適用します。例えば、エンタープライズ顧客がより高速なトラフィックを獲得することを確認します。これは、異なるクラスターに進入する複数の入口パスにわたって完了されます。私たちは何らかのグローバルなレート制限を実行する必要があります。地理的なアービトラージがレート制限をバイパスしないようにするためです。レート制限が重要である理由については、後ほどお話しします。
グローバルにトラフィックを提供するもう1つの主要な側面は、異なる時間、異なる地域、さらには週から週へと、適切なモデルの組み合わせを識別することです。異なるモデルに対する需要は異なっています。特定の地域に任意のモデルを迅速に展開できることが重要です。私たちはこれを宣言的で非常にシンプルなマニフェストを使って実現しています。このマニフェストは迅速に調整されます。したがって、コード構成をコミットしてマージしてから1、2分以内に、世界中のどの地域にも新しいモデルを展開できます。マージからトラフィック提供まで数分かかります。各モデルインスタンスに対する適切なカナリアテストとウォームアップを含みます。では、私たちがよく受ける別の質問があります。カスタムシリコンチップ上でモデルを実行させるにはどうするのでしょうか?
通常、私たちはHugging Faceからオープンウェイトの実装とPyTorchリファレンス実装を取得します。私たちはこれをGroqテンソル演算子にコンパイルし、MLIRへの方言にコンパイルします。異なるチップ間でそれを計画し、分割します。異なるプリセットを実行して、これを有効にします。その後、カスタムハードウェア上で実行するI/Oプログラムまたはバイトコードにコンパイルします。完全なコンパイラスケジュール実行とソフトウェアスケジュールネットワークです。したがって、各リクエストに対して非常に非常に予測可能なレイテンシパフォーマンスを達成します。現在、私たちは人気のあるデベロッパープラットフォームであるため、多くの虐待と詐欺行為も引き付けています。攻撃ベクトルはますます複雑になっていることがわかります。私たちがプラットフォームで検出する虐待フィンガープリントと虐使信号の数は増え続けています。
したがって、これは速度制限とその他のメカニズムを通じて非常に慎重に監視する必要がある事項です。現在、あと2つのスライドがあります。えっと、2026年から2027年の期間に私たちが協力している最大の企業が推理スタックで何を探しているかについて考えるときです。えっと、大型企業はますます専用計算容量を探しています。データ駐在は引き続き重要なトピックです。
えっと、モデル規模の増加に伴い、これらの大型モデルのデコード遅延は引き続き人々の関心事です。えっと、大型モデル展開に関連した単位経済学、えっと大型企業、さらには AI ネイティブ AI 企業でも、一定範囲の複雑性があり、ワンクリック展開を望む企業もあれば、マネージドサービスを望む企業もあり、独自のモデル、独自の重みを持ち込むことを望む企業もあれば、独自の推理スタックを望む企業もあります。したがって、異なるタイプの推理サービスに対して、将来は相当な程度のえっと異構造需要が存在します。現在、私の最後のスライドは、LPU ベースのデコードがどのように見えるかについてです。私は今年の初めの Nvidia GTC のえっと講演を誰かが見たかどうか知りません。その中で Nvidia の CEO が Vera Rubin plus Gro 3 LPX システムを発表しました。
えっと、背後の重要な考え方は、この集約推理であり、GPU で予入力と多くのレイヤーを実行し、えっと LPU のような類似チップでデコードを実行します。おそらく FFNES は、私たちは将来を展望し、ヘテロジェニアスコンピューティングがより一般的になることを実際に見ています。より良い単位経済学、より速い速度、より良いパフォーマンスを実現する方法は、えっと当然、これはエコシステムとの整合が必要であり、モデルはこのハードウェアにコンパイルされて実行されます。したがって、これが私が共有したいコンテンツです。Grock Cloud についてもっと学ぶことを楽しんでいただければと思います。えっと、ここにはいくつかの開始方法に関するリンク、および開発者プラットフォーム上のコンテンツがあります。ありがとうございました。>> ありがとうございました、Andrew。次に、ステージ上の Daria さんをお招きしたいと思います。彼女は Cerris の首席研究科学者です。
えっと、彼女は Cababus で多くのレシピを設計することの裏側の人物であり、彼女は GPU からウェーハレベルの AGI へのスケーリングについて話します。皆さん、こんにちは。今日はここにいて、非常に興奮しています。Cerebras ハードウェアで混合専門家モデルを大規模に訓練する方法についてお話しします。まず、えっと自分自身について何かから始めたいです。えっと、現在、私は Cerebras の首席研究科学家で、過去数年間、MoE ネットワークを研究してきました。したがって、私たちが発行した MoE 101 ガイドがあります。それは基本的に MoE モデルを効果的に訓練および実行推論する方法を教えています。えっと、現在、Cerebras ハードウェアでえっとフロンティア規模の訓練をリードしており、その前にえっと Yandex という名前の企業で働いていました。それはとても有名で、ロシアの Google のようなものです。
えっと、私はそこで Transformer の仕事をしており、生産スタックに展開した最初の Transformer でもあります。その前に、私は Google で音声テキスト変換モデルに取り組んでいました。今日の議題については、えっと過去数年間の言語モデルコミュニティで起こっていることの概要を提供し、我々がどのようにして MoE ネットワークになったかから始めたいです。その後、MoE ネットワークが何であるか、そして我々がそれらを大規模にどのように訓練するかについて議論します。えっと、まず、言語モデルコミュニティでは、過去数年間、多くの仕事をしてきました。GPT-3 から始めました。OpenAI は 1750 億のパラメータスケールのモデルを発行しました。そのモデル以外に、彼らはモデルサイズが増加すると、あなたはますますより良い品質を得ることを示すスケーリング則も発行しました。少し後、Meta は Llama 3 シリーズをリリースしました。彼らはさらにモデルを拡張しました。
したがって、今現在のスケールは 4000 億です。しかし、それ以上に、彼らは効果的にデータから信号を抽出する方法を理解するのに多くの時間を費やしました。ですから、あなたの中には、Chinchilla スケーリング則を聞いたことがあるかもしれません。彼らはモデルを拡張する以外に、トークンバジェットも拡張したいと提案しました。パラメータあたり約 20 トークンは計算効率が良いと考えられています。したがって、これのすべての最後に、私たちはモデルとトークンを非常に効果的に拡張することができました。ただし、モデルサイズとトークンバジェットを引き続き線形にスケーリングし続ければ、それは非常に非常に高くなり、非常に速くなります。私たちはトリリオンパラメータデータセット上でトリリオンパラメータモデルサイズを訓練したいです。したがって、数年前に起こった別の突破は、DeepS えっと企業が発行した DeepSQ3 モデルです。そのモデルはより大きなスケールです。
したがって、全部で 6710 億パラメータ数ですが、非常に非常に効率的です。なぜなら、それは 370 億えっと活性パラメータの密なネットワークの速度で実行するためです。彼らはどのようにしてそれをしたのですか。背後のアーキテクチャは、混合専門家です。Transformer ネットワークのデコーダブロックを見ると、異なるタイプのレイヤーがあります。埋め込み、注意、FFN ブロックがあります。えっと、MoE ネットワークを作成したい場合は、右側に見えるように、FFN ブロックを取得してコピー貼り付けするだけで、各 FFN は専門家と呼ばれるようになります。また、上部に追加のネットワークを配置します。これはルーターと呼ばれます。ルーターのジョブは、どの専門家が特定のトークンを処理する必要があるかを決定することです。このようにして、ネットワークの容量を増加し続けることができます。したがって、より多くの専門家を追加することにより、6710 億パラメータに到達できます。
しかし、あなたが只その一部だけを有効化するため、非常に効率的に実行でき、370 億の密なネットワークの速度で実行できます。今、あなたは疑問に思うかもしれません。大丈夫、これは素晴らしく聞こえますが、これらのネットワークは密なネットワークと比べてスケーリング則はどのように見えますか。ここで、あなたに図表を提供しました。そこで、私は専門家の数を拡張し、MoE ネットワークの品質を同じ浮動小数点演算の数で実行される密なネットワークと比較しました。あなたはここで見ることができます。32 の専門家を使用して、損失改善最大 5% を取得でき、計算量は完全に増加しません。したがって、あなたはそれを無料で得ます。単にアーキテクチャがより賢いだけです。一方、あなたはこのように考えることができます。密なネットワークの 3 分の 1 の計算量で訓練して同じ損失に到達できます。
ここには32人の専門家しかいなく、最先端のモデルが使用しているものと比べると、これは非常に非常に小さいです。我々は数百人の専門家を使用しています。したがって、このアーキテクチャがどれほど効率的であるかがわかります。言語モデルのコミュニティに関して言えば、これを大規模に実行する機会があることに非常に興奮しています。過去数年間、我々は現在のようにスケーリング則を効率的に変更することができませんでした。えーと、それが密集ネットワークより速く実行される必要があることを我々は知っています、ですね?理論に基づいています。しかし、実際のデバイス(例えば、ここのGPUデバイス)で実際に実行すると、密集ネットワークよりも遅い結果が得られます。MoEはより遅いです。では、なぜこのようなことが起きるのでしょうか?GPUデバイス上でMoEネットワークを実際にどのように実装するかを見てみましょう。各GPUは通常、限定的なメモリしかありません。したがって、非常に大きなネットワークを実行する場合、それを分割する必要があります。
モデルパラメータを分割する必要があります。MoEの場合、我々はエキスパート並列化を使用しています。基本的に、異なるデバイスに異なる専門家グループを配置します。えーと、ここで専門家1、2、3がGPU 1にあり、専門家4、5、6がGPU 2にあるのが見えます。2つの追加の全対全操作を追加します。これは通常そうされます。なぜなら、データ並列化も行うため、トークンをどのデバイスに移動するかは事前に知ることができないからです。その後、特定の専門家によって処理される可能性があります。したがって、この2つの全対全操作は非常に高額です。ほとんどの場合、これを分析しようとすると、えーと、ほとんどの時間が通信に費やされます。残念ながら、GPU側には、それを改善するために根本的に何かできることはありません。これは物理的配線に帰結します。今、私はGPUデバイスとCSマシン間の比較をお見せしたいです。
ここにB200 GPUがあります。126メガバイトのSRAMを使用しているのが見えます。これはチップ上のL2キャッシュであり、使用可能なメモリでもあり、毎秒8テラバイトのメモリ帯域幅で動作しています。夕食用プレートのサイズのCerebasと比較して、そのチップは非常に小さいです。えーと、そのSRAMはずっと多いです。したがって、44 GBのSRAMがあるのが見えます。メモリ帯域幅は何桁も速い速度で実行されています。これで我々は何ができますか。それは我々がチップ自体で非常に大きなネットワークを実際に訓練できることを可能にします。モデル並列化のいかなる種類も必要なく。しかし、44 GBのSRAMを超える場合、我々は約1兆規模のネットワークを1つのデバイスで訓練するのに役立つ技術を開発しました。我々はどのようにしてそれを行いましたか?チップに追加のMemory Xノードを追加します。これが重みストレージになります。
基本的には、これは外部メモリのようなもので、大部分のモデルパラメータをそこに保存できます。勾配更新を実行するには、Memory Xノードからウェイトストリームをレイヤーごとにチップに転送し、勾配を計算し、次に勾配をMemory Xノードに移動して重みを更新する必要があります。このように、非常に大きなメモリリポジトリ(Memory Xノードなど)を1つのチップに接続し、1兆パラメータのモデルとさらに大きなモデルを訓練できます。モデル並列化のいかなる種類も必要なく、追加のチップも必要なく。これはMOEネットワークに特に有用です。なぜなら、我々は非常に大きなネットワークを訓練したいからです。多くの専門家を訓練したいのです。これらの専門家は同じMemory Xノードまたは同じチップに座っており、通信オーバーヘッドはありません。しかし、Cerebasで MOEネットワークを実行する場合、実際に同じ問題を経験しました。
それらは密集ネットワークより遅い速度で実行されます。ここの問題は少し異なります。今日のネットワークは非常に異なっています。多くの非常に小さな専門家を訓練したいのです。この点で、算術強度の問題があります。したがって、MOEレイヤーはネットワークの他の部分と比べて大量の重みを移動しますが、各重みの計算は非常に少ないです。したがって、ネットワークのスループット、速度は密集ネットワークと比べてより悪いです。バッチスタイル注意力と呼ばれる技術でこの問題を解決しました。本質的には、計算希少性を処理したい場合、算術強度を改善したい場合、最も簡単な方法はバッチサイズを増やすことです。
しかし、ネットワークの異なるレイヤーを見ると、すべてのレイヤーのバッチサイズを統一的に増やすだけで、いくつかのレイヤーは実際にパフォーマンスを損傷します。例えば注意力のように。注意力はアクティベーション・メモリ制約です。したがって、そこでバッチサイズを増やすと、より多くのものをMemory Xノードに逐出し始めます。これは効率的ではありません。我々はそのようにしたくありません。代わりに、注意力とフィードフォワードレイヤーのバッチサイズ要件をデカップルしたいのです。ここで注意力については、非常に小さいバッチサイズ、元のバッチサイズを保つことができるのが見えます。ただループでイテレーションし、結果をより大きなバッチサイズに連結するだけです。G個の異なるループを連結したのが見えます。今、このより大きなバッチサイズをMOEレイヤーに入れることができます。
そのレイヤーの算術強度を復元し、密集ネットワークの速度で実行されるようにします。スパース性レベルに基づいてこのGを構成できます。ここで、異なるスパース性レベルのQwen 3ネットワークをテストした経験的結果を提供しました。Cerebasで実行されるBTAなしベースラインが密集ネットワークより7倍遅い速度で実行されるのが見えます。これは非常に非効率です。BTAを使用して、この問題を解決しました。MOEネットワークの元の理論的約束を復元でき、密集ネットワークと同じ速度で実行できるのが見えます。したがって、DeepSeekからの671億パラメータMOEネットワークは37億パラメータ密集ネットワークの速度で実行できます。えーと、ここで私のトークからのいくつかのポイントを共有したいです。1つの観点は、私の見方では、これは効率に向かう最速の方法です。
そのため、このネットワークからの計算効率は本当に信じられないほどです。残念ながら、GPUではそれほど効率的ではなく、いくつかの通信ボトルネックに遭遇しました。しかし、Cerebasでは、MOEの理論的約束を完全に実現しました。ありがとうございます。詳しく知りたい場合は、MOEガイドのQRコードです。我々はそこでこれらのネットワークをトレーニングする方法について詳しく説明しています。ありがとうございました。ダリア、ありがとうございます。はい。わかりました。これで午後の講演の最初の部分が終了します。えーと、回復する前に15分の休憩があります。えーと、いくつかの迅速なお知らせ。まず、展示会、異なる企業のブースで会うことができる場所は、午後5時に閉じます。会いたい人がいる場合、えーと、PullmanまたはAtelierのえーと、Cursor、Google DeepMindなどのブースまで行ってください。
そして、Pullmanはロボット遊園地を持っており、ええと、OpenAIのブース、および多くの他のものを持っています。ええと、本日午前10時頃にご覧になったKazayaをステージに戻したいと思います。彼女は訓練を受けたマインドフルネス講師であり、小さな体験、ええと、没入型体験を提供し、あなたはそこで、ええと、基本的に彼女は、ええと、振動周波数エンコーディング粒子可視化ツールを作成し、数時間の瞑想で訓練されています。ねえ、ご存知ですか?プログラミングを続けます。次に、私たちはタスクを持っています。ええと、ZAIおよびGLMシリーズモデルに慣れていない場合、ええと、市場で最高のオープンソースモデルの一部です。ええと、あなたが使用している可能性のあるトップモデルほど高くはありません。「オープン条件」や個人自動化などに非常に適しています。したがって、これ以上言わず、私は...それについて考えていますが、もう一方をチェックさせてください。わかりました。
したがって、現在のサイズを変更できますよね?多分それは、あの、あの、あの。のGLMモデルです。したがって、本日はGLM 5.1を提示し、Larのテストの背後にある考え方もご紹介します。あの、あの、しかしこれはG.A.I.ではありません。そしてG.I.はGoogleに属しており、あなたの会社ではありません。では、なぜあなたはそれをZと呼んでいますか。関連性がないようです。重要な点は、私たちは最初は中国語で呼ばれたということです。実際には知識を表しています。外国人がZhiを発音するのが難しいことがわかった場合、私たちはそれを短くしようとしました。それをZに短くするために。実際のところ、Zは知識を表しています。あなたは私たちを知識として見ることができます。AI。したがって、これはこのZをリンクしています。私のプラットフォームを私たちのモデルと私たちのサービスに最良の方法でリンクしています。また、GLMについても紹介したいのですが、多くの人がGLM 4.7、GLM 5、GLM 4を使用しているため、
1しかし実際には、大型モデルを探索した最初の企業の1つです。このペーパーから見ることができるように。したがって、2021年3月18日のある日に提出しました。したがって、2020年のような早い段階で、すべての大規模統合モデルの探索を開始しました。したがって、OpenAIおよびDeepMindと一緒に、おそらくこれを行う最も初期のラボです。しかし、2024年または2025年に初めて大多数の人々に認知されました。現在、GLMはブランドになり、この汎用の、ああ、一般言語モデル、大規模言語モデルのようなものだけを表現していません。私たちは独自のブランドも持っており、現在、GLMを超えたアーキテクチャ、元のアーキテクチャを使用して、より強力にしています。より強力で、より速く、より効率的です。わかりました。モデルについてのさらに多くの情報があります。したがって、現在、オープンソースの境界を押し広げています。したがって、テキストアリーナとコードアリーナでオープンソースモデルをリードしています。ご覧のように。
したがって、Deepseekを比較するためにスクリーンショットを撮りました。Deepseekがv4をリリースしたとき、彼らは大きな改善を示しましたが、これらのベンチマークでもGPT-4.1を打つことができませんでした。コーディングと生成タスクでも非常に強力です。ご覧のように、これは最新のAI分析ベンチマークテストで、3つの個別ベンチマークを組み合わせています。そして、私たちはGPT-5.5およびClaude Opus 4.7にわずかに遅れています。したがって、現在の状態はOpus 4に非常に近いです。
6ですが、多くの人々がプログラミングでGLM、Clock Code、Cursor、Kilo Code、Open Codeなどのツールを使用しており、統合では非常に有名ではありませんが、他の統合ツールを使用し、それらはすべて優れており、彼らのコーディングエージェントはより良くするのを助けることができます。わかりました、GLM本身とZAIのコンテンツについてはこれで、長視野タスクについて話しましょう。なぜなら、本日はGoに多くの時間を費やしたくないからです。しかし、このアイデアを覚えておいて、長視野タスクの真の意味を完全に理解してほしいです。長視野タスクと長時間実行タスクについて聞いたことがありますか?もしそうでなければ、これら3つのラボは最近彼らのモデルについての投稿で長視野と長時間実行の両方に言及しました。GPT-5.1については、長視野能力を非常に強調し、Claude Opus 4.7も長時間実行スキルに言及し、Claude 2については。
6彼らは素晴らしいフロントエンド機能を持っていますが、彼らはまた長視野能力を非常に強調しており、特にコーディング能力を強調しています。したがって、長視野は非常に人気になっています。なぜ?では、なぜこれがあなたにとって重要なのですか?なぜこのアイデア、モデルの背後にあるアイデアを聞きたいのですか?したがって、私たちはウェブサイトの作成方法、スライドの作成方法、GLMを使用してExcelを処理する方法など、多くのものを共有できますが、なぜ長視野が重要なのかです。まず、それが役立つのは、長視野の時代が来る前は、一度に1~10個のタスクしか完了できなかったからです。あなたが寝ているとき、あなたのエージェントはそれを30分以内に完了することしかできず、8時間あるため、やることがありません。あなたのエージェントは何もできません。しかし、長時間のタスクでは、すべてが可能になります。
もう一つのことは、オープンクラウドツールの発展に伴い、多くのエージェントがハートビートを持っており、タスクを中断できるということです。時々、あなたはメモリを持っており、多くのことが進行中です。MCPがあり、ワークフローを中断できます。したがって、モデルに長視野能力がない限り、元の目標を保持することはできません。元の目標を保持できない場合、最新の指示に従い、あなたが今何をしているかを完全に忘れます。したがって、長視野能力がこれを可能にします。また、興味深い事実があり、非常に興味深い物語があります。最近のハッカソンでは、48時間のハッカソンがありました。これが初めての48時間です。2日間の間に夜があります。ほとんどの参加者はGPT-4.1を睡眠中に実行することを選択し、実際に成功しました。
したがって、9人の勝者のうち7人は睡眠中にタスクを実行することを選択し、これは非常に素晴らしいです。したがって、図を使用してこれを示しました。あなたが眠っているとき、多分本年度あなたのエージェントは継続的に働き、毎回あなたのエージェントが集まり、議論し、そしてあなたのために仕事を完了します。長視野想法をご紹介する必要がある第2の理由は、それが難しいためです。したがって、単に有用であるだけでなく、有用であれば、ここで話す必要がないからです。あなたはZAIを自由に使用でき、最大限の努力で実行でき、気軽に8時間実行できます。しかし、最初に多くの人々が長視野を長コンテキストウィンドウと見なしているため、非常に困難です。しかし、実際にはGPT-4.1には200kコンテキストウィンドウしかないため、ギャップはどこですか?最初はGPT-5です。
Claudeは非常に強力です。長いコンテキスト長さを持っているからではなく、コンテキストを理解でき、あなたの計画と記憶を理解し、結果をより良く反映できるからです。Claude Codeを使用する場合、時には100kと200kを使用できない場合もありますが、コンテキスト窓の圧縮が頻繁に行われることがあります。したがって、元の目標に固執する必要があります。2番目の理由は、一部のモデルが100万のコンテキスト窓があると主張している場合でも、500k近くを使用する場合、すべてを忘れてしまいます。それらは最新のガイダンスのみに固執し、元の計画を忘れるか、Claude MDで発生していることに従いません。2番目の誤解は、あらかじめ十分な指示を与えた場合、すべての指示がよく遵守される可能性があると考える人もいるということです。そうである必要はありません。
モデルは長視野能力を有しています。100回の実行の中でそれを指導することはできますが、実際には、モデルはこの点では十分に訓練されていません。あなたの計画に固執するのに十分な能力がありません。したがって、ある時点の後で、それはあらゆることをしようとし、後で私たちはこのストーリーを示します。3番目の誤解は、多くの人が長いほど良いと思っているということです。そうでしょう?したがって、人々はモデル実験室が発表したものを望んでいます。例えば、8時間実行できます。おそらく別の実験室は12時間、24時間、1日、7日実行できることを示しています。しかし、私の観点からすると、これは意味がありません。なぜなら、現在、非常に高速な推論速度があるからです。はい。
つまり、ご覧のとおり、200以上のスループットを提供できる多くの推論プロバイダーがあります。最新の技術、ハードウェア、チップ内モデルは、秒あたり約17,000トークンの速度で推論できます。したがって、時間は重要ではありません。そうでしょう?時間を考慮する場合、最新の技術を使用すれば、約1分実行するだけで済みます。8時間は意味がありません。そうでしょう?つまり、実際には長視野とは何か、長いの意味は時間についてではなく、深さについてです。つまり、私たちが聞いたところによると、より長くではなく、より深いです。つまり、長視野は、有意義な改善を見つけ続ける能力を意味します。はい。したがって、あなたは改善を行う必要がありますが、これらの改善は有意義である必要があります。例えば、X上に10人のフォロワーがいて、彼らの全情報を収集したい場合です。それで、私はプロンプトを与えます。つまり、10人のフォロワーの全データをスクレイピングします。
つまり、それは1つのシナリオです。しかし、拡張したい場合は、100、1,000、10,000をスクレイピングします。タスクはあまり変わりませんね。したがって、非常に有意義な変更と改善を行う必要があります。では、長視野タスクとは実際に何ですか?つまり、長視野についてのアイデアについて話し、何が間違っていて何が正しいかについて話します。カテゴリーに注意が必要です。最初のカテゴリーは主観的目標と呼びます。この最初のカテゴリーでは、ウェブサイトを作成したい、システムを作成したいと考えています。最良のウェブサイトが何であるかについて明確な指標はありません。そうでしょう?ですから、モデルを無限に実行させることができます。しかし、どこで停止するかは、あなたの能力とあなたの判断に依存し、モデルの判断には依存しません。2番目のカテゴリーはこのシナリオが客観的目標を必要とすることです。
例えば、速度、価格、何か数字に関連したものすべてが欲しいとします。ですから、私たちは2つのカテゴリーを持っており、各カテゴリーに対して、モデルとして、または人として最適化させるための完全に異なるメカニズムがあります。おっと。ビデオがありますが、どこか問題がありました。今、それを起こさせるために最善を尽くしています。ですから、30秒以内に修正されない場合は、ZAIのXを確認することをお勧めします。つまり、実際には、8時間以内にゼロからLinuxシステムをゼロから1まで構築する方法を示すビデオがあります。8時間以内に、アプリを追加するだけではありません。最初に、すべてのアプリケーションをシステムに統合できるレイヤーを作成します。その後、すべてのインターフェースをポーランド化し、これらすべてのアプリケーションをテストし、最後に50個のアプリケーションを追加します。これが何であるべきか、しかし残念ながら、ここではそれを提示することはできません。
おそらく、G 5.1ブログを検索できます。そこで、このタスクの包括的な説明があります。では、なぜ人間が必要なのでしょうか?このモデルが非常に強力で、ほぼすべてを完了できる場合、なぜまだ必要なのでしょうか?寝に行くことができるからです。指示する必要がない、指示の必要がないですね?寝ている間に、Linuxアプリケーションを完了させ、起床後は完了しているからです。このイベントに参加して、長視野タスクの使い方を学ぶ必要があるのはなぜですか?モデルは誤りを犯すからであり、頻繁に誤りを犯すからです。モデルは3つの主要な誤りのカテゴリーを犯す可能性があります。最初のものは、モデルが元の目標に従わない可能性があるということです。5回最適化するようにモデルを設定プロンプトを与える場合、完全に実行できます。しかし、モデルを600回最適化させた場合、元の目標を完全に忘れてしまう可能性があります。そうでしょう?
モデルは常に各トークンに注目しているからです。ですから、Linuxについて話してからiOSについて話すと、モデルは完全に、Linuxアプリケーションを作成しているのかiOSアプリケーションを作成しているのか忘れてしまいます。これは一般的です。これに対処するために、私はすべての人に、または私はあなたがチェックリストを準備することをお勧めします。ですから、長視野タスクを実行するときはいつでも、チェックリストを準備してみてください。これはあなたのモデルが元の目標に固執するようにする最良の方法です。数ステップごとに目標を再度読み直させる必要があります。なぜなら、多くのステップがあるからです。そうでしょう?10分の最適化だけを行っている場合、多くのステップがないからです。これが重要だと感じるかもしれませんが、手動でそれに非常に注意深く再度読み直すすべての指示を指示する必要があります。2番目のことはエラー蓄積です。
ですから、モデルが400回の実行で誤りを犯している場合、たとえば、大きな影響はありませんが、800回の実行に進むと、実際に全てを破壊する可能性があります。これをエラー蓄積と呼びます。ですから、これが頻繁に発生しないようにするには、検証する必要があります。自分で検証するのではなく、モデル自身に検証するように指示する必要があります。ゼロから1から100まで、いくつかのチェックポイントが必要です。モデルを訓練するときは、チェックポイントがありますが、長視野タスクを実行するときは、これと同様に、自分とモデル用に自己確認するための複数のチェックポイントを設定する必要があります。3番目のことはモデルが非常に懸命に訓練されるということです。そうでしょう?モデルにそれを実行させたい場合、それは継続的に、時には循環の中で、それを続け、毎回1つだけします。しかし、彼らにとって転向するのは難しいです。
ですので、モデルは時々決して諦めません。ですので、モデルが諦めるか、または非常に間違ったことを見つけた場合に方向転換させる必要があります。ですので、チェックリストはここでも非常に有用で、非常に役に立ちます。そして、自分自身であろうとエージェントであろうと、続行するか、停止するか、修正するか、またはタスクに関連する何かを行うかどうかを評価する必要があります。ですので、これらは主観的目標のタイプの長期ビジョンタスクに対する推奨事項です。ですので、これは人々ができることです。多くの人がアプリケーションを構築していると思いますし、あなたも同様のことをしているかもしれません。ですので、これはあなたの展開に役立つかもしれません。もう1つ。ですので、客観的目標の内容だからより難しく見えます。私たちは非常に強い事例を持っています。これは「ベクトルデータベースの最適化」と呼ばれています。あなた方の中でベクトルデータベースを最適化した人は多くないと思います。
私たちの研究者や訓練を担当している人さえもこの分野の知識に触れる機会がありませんでしたが、私たちのモデルは持っていました。ですので、ゼロから始めて、モデルが自分自身を最適化するようにさせ、100回の実行を行い、最終的に彼らはここに到達しました。ですので、100回の実行で非常に意味のある改善がありました。私たちは同様のことをしました。ですので、ゼロから100ラウンドから200ラウンド、最終的に600ラウンドに到達します。私たちは基本的に6~8の科学的発見を持っています。ですので、モデルは多く方向転換し、最初は技術1を使用し、その後技術2と技術4を使用し始めます。ですので、これらの失敗を言及してほしいのです。ですので、実は、これらのフォーク記号は失敗を意味します。ですので、この600回の実行を見るときです。ですので、基本的にほとんどが失敗しました。そうでしょう。ですので、長期ビジョンタスクについて話すときは、実際には毎回成功することを意味しません。生活のように。
ですので、時々成功し、時々失敗し、円形領域ではすべての最適化が失敗しました。ですので、長期ビジョンタスクまたは長期ビジョンモデルについて、重要な部分はモデルが反省でき、計画を立てでき、考えを変えたり、最適化・改善したり、継続的により良い方法で自分自身を改善できるという点です。ですので、それが将来の最適化がどのように見えるかです。この種のタスクについて、あなたにとって非常に難しいかもしれません。私にとっても非常に難しいかもしれません。評価を確認することを強くお勧めします。これは私の現在のお気に入りの評価です。これは「Frontier Suite」と呼ばれています。なぜなら、私たちはみな「SweetBench」を知っています。私たちはすべて「SweetBench Pro」を知っていますが、Frontier Suite は長期ビジョンタスク能力を評価しようとするベンチマークであり、主観的目標と客観的目標を含みます。そしてこれが彼らの分類です。
ですので、彼らは長期タスクを3つの方法で分類します。主観的目標と客観的目標だけではありません。最初は実装です。実装について話すときは、ゼロから1へ進みます。これらは私たちの3つの例です。ウェブサイトを確認することを強くお勧めします。3つ以上のタスクについて、アプリケーションを構築したい場合、Web コーディング関連のことをしたい場合、エージェント関連は基本的に実装と同じです。えっと、2番目は研究です。ですので、実は取引は長期ビジョンタスクの一種です。以前の失敗から学ぶ必要があります。多くのことから学ぶ必要があります。市場のための研究を行う必要があります。ですので、コーディング以外の多くのことは長期ビジョンタスクに属しています。ですので、長期ビジョンはエンジニアがすることだけに属しているわけではありません。トレーダーと科学者も長期ビジョンタスクを使用して物事をすることができます。
ですので、それが研究の意味です。ですので、長期ビジョンを使用して多くのことを探索できます。3番目の方法は最適化です。すでにその能力を示しました。ですので、現在、私たちのモデルチームは AI を使用しており、GLM を使用して CUDA カーネルを最適化し、ベクトルデータベースを最適化しています。ですので、自己進化について話すとき、継続的学習について話すとき、ZAI モデルチームはすでに、モデルを使用して自分自身を改善し、またモデル推論も改善できる AI ネイティブなチームです。OK、今日はこれで終わりです。これは私の LinkedIn と X です。LinkedIn では投稿していませんが、そこに私の個人プロフィールがあります。X 上で。えっと、私はたくさん投稿しています。X ではかなりアクティブですが、そこにはプロフィールがないので、両方をスキャンしたほうがいいです。今日はこれで終わりです。すべての質問を歓迎します。はい。OK。
これら2つのプラットフォームを通じて私に連絡してください。本当にありがとうございます。本当にありがとうございます。えっと、次は雰囲気を少し変えようと思います。えっと、音声エージェントについて話すつもりです。今、明らかに私たちはカンファレンスの一部として設計と異なるインターフェースについて議論してきました。えっと、これまでのところ、音声がこれらのパラダイムの1つかもしれないかどうか見たいのです。そのためには、11 Labs の成長エンジニアである Boris Starkov から聞くより良いことはありません。ですので、11 Labs は明らかにこの分野の主要企業の1つです。えっと、Boris は音声エンジンとエージェントを会話的にするものについて議論します。さらに言うことなく、Boris です。えっと、みなさんこんにちは。Boris です。11 Labs の成長エンジニアです。11 Labs は最先端の音声 AI ラボです。えっと、私たちはボイス AI 分野全体で研究と構築を行っています。
えっと、私たちは特に興奮しており、音声は人間がエージェントと対話するための主要な媒体であると固く信じています。実際、業界がそのビジョンに従い始めるのを見ることができて嬉しいです。コーディングエージェントを例に挙げます。えっと、ほぼすべてのコーディングエージェントは実際に音声モードを使用するある種のボタンを持っています。しかし、実際に使用すると、次のように機能します。えっと話し始めます。それに話しかけます。その後、それが転写されるのを待ちます。エージェント内で再度待ちます。その後、えっと実際の音声合成部分を3番目の時間待ちます。ですので、もちろんこれは音声入力です。これは音声出力ですが、これは対話ではありません。今日は、このアーキテクチャを改善して、より自然な人間対人間の対話のように感じるようにする方法について話したいのです。
コアアーキテクチャは同じに保ちますが、多くの小さな改善を追加します。これらを組み合わせると、巨大な違いが生じます。えっと、音声認識部分の改善を説明することで始めます。その後、第2部では、音声合成のいくつかの改善をカバーするためのいくつかの改善を続けます。ですので、おそらく最も基本的な、えっと、パズルの最も基本的な部分は「音声アクティビティ検出」と呼ばれています。ユーザーから音声ストリームを取得し、えっと、約20ミリ秒のチャンクに分割します。その後、各チャンク内で誰かが話しているかどうかを判断できる非常に小さく、非常に効率的で、非常に安価なモデルがあります。
これは下流で実際に何が起こっているのか、誰かが話しているかどうか、誰が話しているか、誰の番かを実際に理解するのに非常に役立つだけでなく、特定のチャンク内で誰も話していないことがわかれば、より高価なASRモデルをそれらのチャンクで実行する必要がないため、計算上も大きな節約になります。沈黙検出とターン終了検出が同じ問題ではないことを理解することは非常に重要です。例えば、エージェントが私に何かを尋ねて、えっと、私の応答に多くの沈黙があるかもしれませんが、これは私の文の終わりではありません。この時点でエージェントが私を中断することは望みません。これが、沈黙検出だけではエージェントがいつ話し始めるべきかを正確に予測するのに十分でない理由です。
ですから、ここで私たちは別のモデル、もう一つの非常に賢いターン検出器モデルをトレーニングしました。これは音声活動を考慮するだけでなく、以前に言われたコンテンツの実際の文脈も考慮して、これが文の終わりであるか、または話者またはユーザーが何か言おうとしているのかを予測します。他の多くのステップと同様に、ちなみに、ここで私たちは多くのヒューリスティックスを使用しました。例えば、ユーザーが車の詳細情報、クレジットカード情報、電子メール、または私たちが持っているトリガーワードのいずれかを言及する場合、私たちはこれを非常に強い信号として使用します。何か沈黙があるかもしれない、そしてその沈黙はユーザーが話し終わったことを意味しないかもしれません。このモデルは以下のスライドで極めて重要です。
ですから、最大のアンロックの一つ、私たちが遅延を改善し、ターンベースのモデルを改善する方面で達成できる最大の成果の一つは、以下のことです。ですから、これを理解するために、人間同士の会話がどのように進行するかを考えてみましょう。友人と話します。例えば、友人があなたと話しているとします。彼らはえっと話して、それから話すのをやめます。その後、彼らが追加することがないことを確認するために約1秒間待ちます。その後に初めて、返信を続けることができます。残念ながら、エージェントは1秒待つ余裕がありません。なぜなら、応答を生成するのにもえっと時間がかかるからです。これが、私たちが推測的なターンを行う理由です。つまり、ユーザーが話すのをやめるかもしれないと考えられる瞬間の直後に、推測的に応答を生成し始めます。
私たちのモデルはかなり賢いので、ほとんどの場合、これは正しい選択です。応答がはるかに速く到着し、遅延ははるかに低く感じられます。より自然に感じられます。時々は偽陽性があるかもしれません。それは大したことではありません。その場合、生成モデルにキャンセルを送信するだけで、リスニングを続けます。多くのことが聞こえますが、これはほんの始まりです。えっと、今、えっと、合成部分、音声合成部分を改善する方法についてもう一度。ですから、エージェントはえっと私たちにトークンを送信します。ユーザーはえっと文の観点での音声について期待しています。えっと、私たちは本当に整全体の文を待つことはできません。そしてそれをえっと音声生成モデルに送信します。なぜなら、そうするとユーザーは沈黙で待つことになるからです。
また、本当に一つずつトークンを生成することもできません。そうすると、一部のトークンは非常に速く生成され、他のトークンはしばらく時間がかかります。全体の生成は非常にジャギーに見え、非常に遅れをとり、不安定に見えます。ですから、私たちは中間的なアプローチを取りました。5、6、7語の小さなフレーズのバッファを作成しました。トークンを一緒に集め、文全体が構築される前にジェネレータにフラッシュします。これにより、両方の世界から最高のものが得られます。安定性と低遅延があります。これはまた相当に効果的です。なぜなら、現在のフレーズがユーザーに再生されている間、次のフレーズはすでに合成されており、そのフレーズ後のフレーズはすでにバッファで構築されており、これらすべてが同時に行われます。また、えっと、私たちのモデルとツール部分の多くにカスケードを使用しました。
例えば、えっと、ここでTTSカスケードについて説明します。テキスト音声読み上げモデルがえっと応答を生成し、毎回実行するとき、えっと、最初のモデルが失敗したときに引き継ぐ準備ができているえっと第二のモデル、バックアップモデルもあります。ですから、えっと、現在のモデルが失敗したり、何らかの理由でクラッシュが発生した場合でも、ユーザーは決してそれを経験しません。まあ、ほぼ100%のえっと稼働時間を確保します。ですから、ユーザーはえっとクラッシュ、エラー、バグなどを経験することはありません。えっと、これ自体は実際には完全なプレゼンテーションになる可能性がありますが、ターンベースのモデルを本当に対話的に感じさせるための非常に重要な部分は、中断を処理し、ユーザーがモデルを中断できるようにすることです。これはえっと、多くの異なるえっと境界ケース、ヒューリスティクスなどを伴います。ここでは、そのうちのいくつかだけを説明します。
想像してください。あなたはモデルで、ユーザーが中断しようとしていることを検出しようとしています。ですから、まず、えっと、中断が非常に非常にえっと小さく、非常に短く、数フレーム40ミリ秒の場合、これは通常、咳、ノイズ、または音声活動検出器からの偽陽性である可能性があります。それは中断ではありません。別の例は、中断が最初の200えっとミリ秒で発生した場合です。これもエコーである可能性があります。別の、えっと、例えば、ユーザーが「はい、えっと。えっとえっと。わかりました。」と言う場合、それは積極的なリスニングです。それも中断ではありません。そのような小さな境界ケースがたくさんあります。えっと、実際にここで少し縮小してみましょう。
まあ、あなたはエージェントを構築して、ここに来てこのえっと講演を聞き、えっと対話的にしようと考えていますね。今、これらのすべてのえっと小さなステップで、それがどれほど複雑であるかについて少し怖いかもしれません。まあ、良いニュースは、私たちはすでに持っています、Speech Engineを紹介します。まあ、Speech Engineは実際にはえっと新しいえっと製品です。私たちは、私たちは持っています。まだ公開宣布していません。えっと、私たちは来週からテストを開始します。それの仕組みはえっと、物が完全に対話的に聞こえるようにすることに関連するすべての複雑さをこの製品にカプセル化することです。そして、あなたは自分のエージェントを持ってきて、非常に簡単にそれを挿入することができます。ですから、それはあなたのえっとチャットボット、またはあなたのOpen Clone、nano claw、えっとHermasエージェント、何でもかまいません。えっと、任意のエージェント、任意の複雑さで、簡単に挿入できます。
覚えておいてください。これは音声テキスト変換やテキスト音声変換ではありません。これは適切な会話エンジンです。数百万の沈黙していたエージェントが会話できるようになることに非常に興奮しています。ソーシャルメディアでこれについての更新をフォローしてください。来週から公開テストを開始する予定です。本当にありがとうございます。本当にありがとうございます。次に、Prime Intellect の Jackman さんです。彼は創始研究エンジニアです。Jackman さん、準備できました。彼は長期実行エージェントの継続学習と継続的に改善されるエージェントについて説明します。これは過去数日間に繰り返し出現しているテーマです。ソフトウェアファクトリーについて議論しました。ZAI は長期実行エージェントについて議論しました。これは何度も出現するテーマです。
私は常に出現している問題は、エージェントが長時間実行されている場合、これらのエージェントがプロセス中に継続的に改善または学習していることをどのように確保するかだと思っています。その理由は……エージェントが単に20時間実行して機能しないものを出力する場合、それは意味がありません。ですから Jackman は Prime Intellect で働いています。Prime Intellect はこの分野のパイオニア企業の一つです。自分のモデルをトレーニングしたい場合、えっと、これらの環境で作業したい場合、これらの環境ではテストして改善できます。えっと、彼らは非常にクールなテクノロジーを使用できます。そして Jackman、ノートブックの準備ができたら、ステージはあなたのものです。はい。えっと、ありがとうございます、Agram。実は講演のテーマを変えましたが、それでも継続学習と長時間実行されるエージェントに関連しています。ただ、より印象的なタイトルを選んだだけなので、画面に表示されるときに見えます。
そうですね。えっと、皆さんこんにちは。私は Jackman Ang です。Prime Intellect の創始研究エンジニアであり、今日は強化学習と再帰的言語モデルについて話す予定です。そうですね、えっと、今日は知能体とそれらが行っている興奮することについて多くのことを聞いています。えっと、これはかなり狂っていると感じています。というのは、わずか2年前、2024年に Cursor Agent がリリースされた時に戻ると、エージェントが5分以上実行されている場合、その後に何か有用なことを行うことを期待しないでしょう。しかし、今は2026年であり、2年後ですが、エージェントに睡眠中に自由に活動させ、数時間実行して数百万個のトークンを消費してかなり非凡なことを行わせています。ですから、特にこのオーディエンスでは、これは問題ではないと思っています。モデルは確かに非常に有用です。
ですから、問題はより経済的な問題になります。えっと、問題は以下のようなものです。モデルは確実に私のタスクを完了できるでしょうか?モデルは効率的に私のタスクを完了できるでしょうか?モデルは十分に迅速に私のタスクを完了でき、そのため製品に望む利用者体験を提供できるでしょうか。ですから、今日は見解を提示します。それは、上記のすべての問題の解決策は、独自の言語モデルをトレーニングする必要があるということです。特に、強化学習を通じてこれを行う必要があります。また RLM を使用しています。それでは最初に、えっと、長時間実行されるエージェントの問題は何ですか?ですから、エージェントを使用した人は誰もが、Claude Code、Codex、または任意の Claude のいずれであっても、これらのモデルは実は長いコンテキストではそこまで良くないことを知っていると信じています。あなたのモデルが100万個のトークンを受け入れるというだけでは、100万個のトークンで推論できることを意味しません。
これはベンチマークテストで明らかです。ですから、大規模なモデルプロバイダーのモデルカードを見る場合、通常彼らは長いコンテキストという部分を持っており、その中に2つのベンチマークがあります。最初の1つは MRCR です。これは大海の針です。基本的には、これはモデルが長いテキストで特定の情報を取得する能力をテストしています。コンテキストの長さが増加するにつれて、モデルのこのタスクでのパフォーマンスが明らかに悪化していることがわかります。エージェント関連の仕事をしている人々は知っています。えっと、この情報検索のことは測定が良いですが、これは私たちが本当にモデルについて知りたいものではありませんね?私たちは、モデルが100万のコンテキストで推論できることを望んでいます。ですから、最近出現した非常に人気のあるベンチマークテストはグラフトラバーサルです。
グラフトラバーサルは基本的に、ノードとエッジリストをプロンプトに渡し、基本的にグラフ問題を行うようモデルに要求することです。たとえば、えっと、X のすべての親ノードをリストアップするか、Y で BFS を実行してすべての子ノードをリストアップします。これが同じストーリーであることがわかります。コンテキストの長さが増加するにつれて、モデルのパフォーマンスは明らかに悪化します。しかし、コンテキスト全体をコンテキストウィンドウに渡すのではなく、コンテキストへの参照を渡すだけだったらどうでしょう?あなたがデータ科学者である場合、またはデータ科学を多くの量で行い、Jupyter ノートブックで探索的データ分析を行った場合、これはかなり直感的です。その理由は、Python コードに CSV 全体を渡さないからです。ご存知ですね?
えっと、通常あなたがすることは、えっと、古典的なえっとデータ科学のインポートを行い、次にデータフレームを定義し、次に私のデータフレームをゆっくりと操作するためのこれらのコードスニペットを行い、私のデータの構造や分布が何であるかを確認しようとします。その後、わかりました。このデータで何ができるか。このようにエージェントを設計することを検討する場合、えっと、多くのことが非常に簡単になります。たとえば、コンテキストチャンキングが非常に簡単になり、ツール呼び出しが非常に簡単になり、サブエージェントの委任がはるかに簡単になります。その理由は、オーケストレーション エージェントが自動的に再帰的にコンテキストを再現する必要がなくなるためです……正しく言いますね。それは単にそれを変数として渡すことができるだけです。ですから、えっと、変数だけに止まる理由は何ですか。ご存知ですね。えっと、プログラミング構造全体の雑多な混合を持たないのはなぜですか。えっと、たとえば、処理する必要があります。えっと、10,000 のドキュメントを処理する必要があるタスクがあります。
古いバージョンの言語モデルのようにこれを行う場合、基本的には、オーケストレーション エージェントが 10,000 個のシーケンシャル ツール呼び出しを正しく行う必要があります。また、ツール呼び出しを正しく行い、コンテキストを正しく渡すだけではありません。また、要約の神に祈る必要があります。お願い、お願い。モデルが圧縮を行うとき、それは何らかの方法で行ったさまざまなことを記憶し、それでも記憶できます。えっと、これらのシーケンシャル ツール呼び出しをすべて行っている場合でも、それがどこにあるか。しかし、単に再帰言語モデルに変えるだけの場合、あなたはできます。えっと、モデルは単純に for ループを書くことができ、基本的に非常に簡単な方法でこれらの LLM クエリを実行します。えっと、これらのシーケンシャル クエリ。ですから、エージェントの使用に本当に優れている人は実は既に RLM を行っていることがわかります。
例えば、もしClaudeコードの使い方が本当に上手な人に会ったら、彼らはいつもこのようなプロンプトを書いています。「ああ、お願いします、お願いします、あのー、サブエージェントを、あのー、あのー、サブエージェントの出力をコンテキストウィンドウに入れないでください。ツールコード出力をウィンドウに入れないでください。あなたはそれを台無しにするかもしれません、それらはあなたのコンテキストを乱雑にしてしまいます。あのー、全てをファイルに書くようなものです。なぜなら、エージェント使用に本当に上手な人は圧縮は全く機能しないことを知っているからです。あなたがこれを見たとき、あなたは希望がないことを知ります。モデルは圧縮から回復しません。ですから、あのー、あなたが今使える任意のチャットエージェント、ChatGPTのような、あのー、ClaudeまたはAI Studioのような、基本的には、もし長いテキストシリーズをチャットウィンドウに入れようとしたら。あのー、彼らは基本的にいつもそれをファイルに変えてしまいます。」
ですから、ここで表現される観点は、人々は実際には既に再帰的言語モデルをしていますが、彼らはそれの全力をしていないだけです。彼らは変数の側面を使用しているだけです。あなたはコンテキストの事実を参照できますが、彼らは完全なPython RLEを持っている場合の全てのPython表現力を得ていません。ですから、私は驚くべきではないと思います、あのー、人々は既にあらゆることにRLMを使い始めています。ですから、長いコンテキスト理解が必要な任意のもの。ですから、ビデオのRLM、ゲームのRLM、コーディングのRLM、数学のRLM。あのー、私はTwitter上のある時点でさえEpstein filesについてのRLMがあったと信じています。あのー、私はこのツイートを見つけることができません。あのー、おそらくCIAはある方法でそれを削除しました。わかりました。
そして、あのー、Alex Zhangはリムの第一著者です、あのー、彼は非常に良い記事を書きました、あのー、私はみんなが読むべきだと思う記事、「管理不全の天才仮説」と呼ばれています、その基本的な考え方はモデルは既にあなたがしたい多くのタスクをするのに十分に能力があるということです、唯一彼らを止めるのはスキャフォーディングです。我々はまだこれらのエージェントをどのように編成するかをよく知りません。
我々はまだあまり知りません。ああ、記憶をどこに置くべきか、それが実際に何をすべきか、これらのサブエージェント委譲のようなもの、そして苦い教訓がこれをどのように見るかのようなもの、なぜ我々が人間にそれをさせるのか、対吧、我々はエージェントに彼ら自身のスキャフォーディングを定義させるべきです、あなたが今日使用しているすべてのスキャフォーディングのような、Claude Code、Open Claude、Super Vibe Coded、それは非常に明白です、モデルは既に非常に良いスキャフォーディングを書くことができます、ですから彼らはちょうど推論の時にスキャフォーディングを動的に書くべきです。あのー、今のところそれはあまり良くありません。ですから、あのー、あなたたちはおそらく既にスライドを見ました、そして「ああ、天よ、これはちょうど、これは最高のアイデアです。」そしてちょうど、あなたが家に帰ります、その後あなた、あのー、RLMリポを試してください。あのー、しかしあなたはおそらく少し失望を感じるでしょう。
問題は、あなたがエージェントが今RLMをどのようにしているかを見る方法です。エージェントはこのスキャフォーディングについて訓練されていません。ですから、彼らは非常に良いRLMではありません。彼らはあまり理解していません、ああ、彼らはサブエージェント委譲をしているべき。
彼らはこのようなコンテキストスライシングのようなものをどのようにするかをあまり知りません、しかしのようなことは、ええ、あなたはブログ記事を読むべきです、しかしブログ記事では、基本的にそれはこのタスクを示しています、もしあなたが基本モデルと基本、あのー、RLMプロンプトを使用するだけなら、それはあまり良く実行されません、しかし少しのプロンプトエンジニアリングで、あなたは著しいパフォーマンス向上を得ることができます、あなたは基本的に常に基本モデルを倒します、もしプロンプトエンジニアリングがあなたがRLMで基本モデルを倒すのに十分なら、あなたがこれらの良いRLM戦略を直接モデル本身に訓練するのを止めるものは何ですか?ですから、これは私たちがPrime Intellectで行っていることです。ですからPrime Intellect、私たちはプラットフォームです、あのー、彼ら自身の、あのー、言語モデルをトレーニングして提供したいと思っている任意の人にサービスを提供しようとしています。
あのー、私たちはGBD OSS、Llama、Neotronからの多くのオープンソース言語モデル、およびすべてのQuenをサポートしています。あのー、私たちは基本的に実験管理を持っています。ですから、あなたはあなたのメトリックスとあなたのすべての実験設定を見ることができます。最も重要なことに、あなたはロールアウトを見ることができます、これはちょうど最も重要なことです。あなたはあなたの失敗事例と、あのー、あなたのデータを見ることができます。あのー、私たちは相当に興味深いいくつかのユーザーを持っています。あのー、ですから私はこれが約2週間前だと思います。あのー、Ramp Labsは彼らが私たちと協力していることを発表しました、彼らは基本的にプロジェクトを行いました、彼らはOpus 4.6を倒すためにExcelエージェントの取得タスクで小さなQuenモデルを訓練しました。それはこのタスクの精度でOpus 4.6を倒しただけでなく、彼らが興味を持っていた、彼らはまた同様に安くそれをすることができました、彼らはより低いレイテンシーでそれを行うこともできました。
モデル訓練のもう一つの興味深いユーザーグループはデータベンダーです。ですから、Shan Chaiという男がいます。もし私があなたがシリコンバレーのデータスペースにいるなら、あなたはおそらく彼を前に見たと思います。私は彼が基本的にシリコンバレーの全てのデータベンダー、全てのデータ消費者と話したと思います。彼はこの観察をしました。すなわち、どのデータラボが将来成功するのかの区別要因は、彼らが内部訓練能力を開発することができるかどうかです。これらのモデルのためだからです、あのー、これら、あのー、実験室はデータを購入します、彼らはばかではありません、対吧?彼らはのようなものを知っています、すべてのデータは等しくありません。彼らが一百万ドル以上の取引に署名する前にデータを大量に購入するために、彼らはのようなものを知りたいです、このデータは私のモデル能力を改善しますか、それともしませんか?
あなたがこれを行うための最もシンプルで確実な方法は、単にリワード曲線を示すことです。単に示すだけです。もし私のデータで訓練したなら、ええ、あなたのリワードが上昇します。あるいは、もし私のデータで訓練したなら、あなたのエージェントがより効率的にタスクを実行します。ですから、もしこのうちのいずれかがあなたにとって非常に興奮するように聞こえるなら、ええ、私たちをチェックしてください。私たちはprimeintellect.aiにいます。ええ、あなたたちが何を構築するのかを見ることを楽しみにしています。そして、ええ、それが私の全部です。あなたたちはずっと良い観客でした。本当にありがとうございます。素晴らしい。本当にありがとうございます、Jackman。あれは非常に、非常に良い講演でした。ええ、次に私たちはMichelle Juliaを持っています。彼女はBlue Labsの共同創業者であり、AIで感情知能を実現することについて議論します。明らかに、私たちはしばらくの間パーソナライズされたAIについて話してきたので、これはかなり適切なトピックです。
しかし、Michelleはちょっと非常にクールです。彼女はAppleの最年少特許保有者の一人です。ですから、もしあなたがFind My、Find My iPhone、またはBumpを使って連絡先を交換したことがあるなら、その下で実行する無線システムは彼女の特許です。ええ、でも今日は私たちはそれについて話しません。私たちは感情知能AIについて話します。それ以上言うことなく、Michelleこんにちは。ええ、皆さんこんにちは。私はMichelleです。私はBlue Labsの共同創業者です。私たちは感情知能に焦点を当てた研究ラボであり、特に組み込み型の感情知能です。組み込み型の感情知能は、継続的な関係を航行する能力であり、各相互作用が未来の欲望軌跡を形成する能力です。ですから、それは静的な状態ではありません。それは関係管理と直接効用のキャプチャを同等の目標として扱い、最適化のトレードオフとしてではなく扱います。
ですから、私たちの研究は、AIシステムが人間的な方法でこれを行うことを可能にするどのようなアーキテクチャについて回転しています。一歩下がって、本当に私たちが焦点を当てているのは、AIが人間のように見え、感じるようにすることに焦点を当てています。特に商業的意思決定プロセスにおいて。ですから、これが今日私たちが焦点を当てている場所です。この事を説明するために簡単な物語を使わせてください。ですから、彼が先ほど言及したように、誰かが言及したように、ええ、私はBlue Labs以前にAppleにいました。あなたは知っています、私は最年少特許保有者の一人です。あなたがFind Myを使ったことがあるなら、それは私が特許を持っている無線アルゴリズム上で実行します。あなたは私が背が低いアジア系の女性であることを想像できます。交渉では、部屋はしばしばこのように見えます。ですから、あらゆる交渉に入ることについて少し不安です。私が行った最初のもの、私たちはポルトガルに飛ばされました。
その前の晩、私はそのホテルのロビーに座っていて、非常に不安でした。私はあなたが知っているすべての技術的詳細を閲覧していました。ええ、私たちは正確に何をこれらの外部ベンダーと交渉していますか?Appleの立場は何ですか?私たちは彼らについて技術についてどのように話しますか?その後、私のマネージャーは私に座って言った、「聞いてください。私たちはこれについて1時間を持っています。まず技術的詳細を忘れてください。これらは私たちがこのベンダーとの過去10年間の歴史です。そしてこれが全部です。この人とあの人の関係について、そして私たちが過去にこの人とどのように交渉したか、そしてその人が何を探しているか、そしてその人が過去に私たちの大きなボスとどのように相互作用したかについて、あなたに教えてください。そしてこれはあなたがこの部屋に入る全ての動力学です。」
それはあなたにとって単に技術的仕様を覚えているよりもはるかに役に立つでしょう。その瞬間が、私が何に気づいたかの瞬間でした。重要なのは必ずしも対話の技術的効用だけではありません。ほとんどの設定では、人間は縦方向の関係を理解する必要があります。ですから、Appleのための賢いエージェントになるためには、各ベンダーについての完全な二項対立コンテキストと、長期的に有益な方法でその関係を前に進める能力が必要です。ですから、それは一人が担うべき多くの事です。もっと言うまでもなく、エージェントにとっては。ほとんどの人間は実は直感的にこれをします。あなたはメカニズムについて本当に多く考える必要はありません。あなたたちのほとんどは、ご存知の通り、よく動作し、良く設定されています。
しかし、これらの効用ベースの対話と関係の中では、時間を通じて関係状態をモデル化してバランスを取ることは困難です。数学的に証明するのは困難です。ですから、私はこの分野での感情知能のロック解除が、人間が戦略的および有用な模倣としてAIを採用するよう本当に駆動する鍵であると信じています。私たちは人間が行う仕事に流暢な言語モデルを構築しましたが、戦略的には無能です。したがって、これらの長期的な関係ブロックを活用して、私は真の企業職能が高度に微妙なバランス信頼と関係とトランザクションと交渉の能力に依存していると信じています。
ですから、ええ、私は本当にこの分野について非常に興奮しており、今日の私の目標は本当にあなたたちに、この分野が何であるか、今日の最先端は何であるか、人々が何について話しているか、そしてどのような開放的な質問があるかについての簡潔な説明を与えることです。もしこれもあなたたちにとって興奮しているなら、私たちは後でBlue Labsが何をしているかについてもっと話すことができます。ですから、私たちは社会的思考チェーンと様相別のゲーム理論、人間の行動、および状態が機能より優れていることについて議論します。私は短く、これらに触れるようにします。ですから最初のものは去年の『自然人類行動』に発表されました。
基本的に、彼らはAIエージェントにこのゲームをプレイさせました。対でしょう?そこで、あなたは囚人のジレンマ(自利ゲーム)と両性戦争(協調ゲーム)を持ちました。彼らの目標は本当にこれらの特定の状態でモデルがどのように実行するかを見ることでした。ええ、これらの特定の状態で、彼らが見つけたのは非対称な結果でした。これらのモデルは自利ゲームでかなり良く実行しました。ですから、協力すべき時に協力し、ご存知の通り、背信が有利な時に背信しますが、調整がうまく実行されません。これは粘着性があります。なぜなら、ほとんどの人間相互作用は調整ゲームだからです。対でしょう?あなたがポルトガルのそのホテルのロビーに座っている時、私たちのベンダーは私たちを背信しようとはしていません。私たちは彼らを背信しようとはしていません。私たちはすべて取引を望んでいます。どんな種類の取引かが問題です。ですから、この微妙さをキャプチャするのは困難です。社会的思考チェーンも確かに協力率を増加させます。
えーと、つまり、あなたと相手の両者を同時にモデル化できるとき、我々は指数関数的な成長を見ています。第二部分はGoogle DeepMindからのものです。えーと、それは今年リリースされたもので、彼らは人間、最先端モデル、および特定のBeijingエージェント(彼らが訓練したカスタムエージェント)を使用して交渉ゲームを実施しました。つまり、これは、私の信じるところでは、Gemini 1.5 ProとGPT-4です。彼らが発見したのは、この3つのグループが参加したゲームの状況では、ご存知のように、これは交渉ゲームで、あなたはチップを取引しているのですが、Beijingエージェントは非常に攻撃的だったということです。だから、彼らは、ご存知のように、ある程度強気にプレイしていました。彼らは頻繁に拒否されていますが、最大剰余の80%を獲得しました。つまり、これは定義されたスペース内では実際に非常に好調です。人間はより公正です。彼らは少し与え、少し得ます。彼らはある程度このバランスを望んでいます。大規模言語モデルは非常に譲歩的です。
だから、えーと、私は取引します、私はあなたとどんな取引でもします、実は私はあなたに比べてあなたにより多くを与えます、そうすれば私はこの取引ができます。だから、すべての取引が受け入れられます。我々は、これらのモデルがゲーム全体を通じて自己均衡を取ることができないことを見ています。だから、ここで適切な反応は、実際には私が初めてあなたに会ったとき、人間として、私は少し与えます、そうすれば私たちは関係を構築します、そして非常に大きな取引に関わるときに、私はもっとBeijingゲームをプレイしたいです。だから、えーと、これは代理が交渉する際の静的な性質を強調しています。第三部分は、それはとても面白いことです、それは計算心理学から来ているからです、必ずしもコンピュータサイエンスからではなく。えーと、しかし、これらの発見は強調されています、ご存知のように、同様の方向に沿って。
つまり、ACLに受理された論文です、えーと、固定的な心理的人物キャラクターの状態に関するもので、特性ではなく。基本的には、研究者たちは言語モデルがユーザーが誰であるかをどの程度うまく捉えているかを問い合わせていました。彼らが発見したのは、ユーザーが特定の時間に誰であるかは、ユーザーの一般的な状態よりも、より興味深く、より重要だということです。ですから、この時間点でこの関係を考えると、私はある程度不安です。なぜなら私はこれらのタイプの人の部屋にいるからです、または私は初めてこれらの人に会っているからです。これらの状態の変化は、実際には、ユーザーポリシーにとって、基本的なユーザーの状態、例えば「私は天生の冷静な人です」または「私はこのような、あのような人です」よりも、より重要です。えーと申し訳ありません、性格特性です。ですから、ここで我々が発見したのは、我々が人格をモデル化する静的な方法は、実際に改善のための多くの余地を残しているということです。
では、それはどういう意味ですか。それは、モデルが変化する条件下で調整できないことを示しています。彼らは自分たちの行動を静的なものとして見なし、本来的に譲歩的です。そうでしょう?私がこれらすべての問題を指摘している理由は、モデルにこの理解の感覚と感情的な関係の感覚を与えるために、我々はより多くのことをすることができることをあなたに示すためです。だから、我々はいくつかの研究方向を持っています。私は30秒持っています。だから、これらを非常に速く話します。1つは、我々は言語モデルを戦略的なレジスタ間で調整するように訓練できるでしょうか?いつ押し、いつ引くか?2つは、関係の最も適切な建築表現は何ですか?二項埋め込み、反省的記憶階層。これは開放的な研究課題です。あなたの中のどれでも、あなたがアイデアを持っていれば、あなたはこれらの実験をかなり速く実装し、何かを出してくることができます。
ですから、これは粗い見積もりです、ご存知のように、我々が探索しているものです、我々がBlue Labsで探索し始めたものです。これに対する最初の建築的試みはBlue JSTです。つまり、関節状態エンジンであり、その核となる考え方は二重報酬メカニズムです。これは関係構築とユーティリティ優先度を共通の目標として位置付けます。1つを他方に減らすのではなく。私が言ったように、これはオープンリサーチです。これは非常に興奮しています。ご存知のように、我々はすべての答えを持っていません。しかし、これらのいずれかがあなた方に興味があれば、我々は採用しており、喜んでチャットします。我々は業界と学術界全体で積極的に協力しており、研究は私たちの目の前にあります。ありがとう。ありがとう、Michelle。次に、我々はJackie Mockがいます。彼はRAの応用AIの責任者です。
現在、彼は世界モデルについて議論します、えーと、そして我々がどのように言語から物理インテリジェンスへ転向するかについて、えーと、再び我々は物理AI具体化AIの地形に入ります。完全にはロボティクス側ではありませんが、より多くの世界モデル世界構築側です、えーと、ですから、Jackieが準備できたら、我々は準備ができます。こんにちは。>> はい。こんにちは。私は、えーと、我々がどのように言語から物理インテリジェンスへ転向するかについて話しています。えーと、私の講演は、我々の世界モデルへの道についてです。だから、私はJackieです。私はREAで働いています。私は応用AIの責任者です。えーと、REAはビデオ、画像、テキストのマルチモーダルAIです。えーと、あなたは、数年前に我々が構築したいくつかのモデルから、我々を知っているかもしれません。その時、我々はランキングで上昇していました。
えーと、我々は最近より視覚モデルと異なるモダリティに焦点を当てています、えーと、ラボでは、我々はこれらが現実世界の状況にどのように適用できるかを理解しようとしています。ですから、今日の視覚に関する限り、えーと、我々は既にえーと、これらのコンピュータビジョン技術の多くを持っており、多くのことができます、そうでしょう。これは解決された問題です。車を検出し、物を検出し、項目を追跡することができます。これはコンピュータビジョンから来ています。えーと、我々はこれらを使用して、我々の展開が、より確定的な方法でビデオ内で起こっていることを理解するのを助けることができます。しかし、あなたはビデオで後で見ることができます。マシンは実際には、それが実際に見ているものを理解しません。それはヒートマップを見ることができる可能性があります。それはバウンディングボックスを見ることができる可能性があります。これは、VLMが登場する前のコンピュータビジョンの様子です。
現在、我々はVLMを持っています。VLMを持つことで、我々はシーンを見て、そのシーンについて考えて、そしてそのシーンに対して行動を取ることができます。そうでしょう?我々は、これに基づいてCVを適用することができます。これにより、時間経過とともに様々なことを段々と理解することができます。えーと、でも、これが基本的に我々がLMSを適用する方法です。えーと、でも、我々はCVを置き換えることはありません。CVも少し脇にあります。えーと、我々が生産でAIを展開する方法のもう1つの例があります。えーと、ここであなたは検出、追跡、認識のようなものを追加することができます。えーと、ここで我々は依然としてシーン内で何が起こっているかを理解するために、CVを非常に安いステップとして使用しています。えーと、その後、我々はVLMを使用して推論を行い、その後、我々はそれを使用してアラートを発行します。えーと、特定の使用ケース用です。そうでしょう?単独では、どれでも不十分です。単独では、どれでも、えーと物理的な目ではありません。しかし、これらは我々が持っているもので、我々の言語モデルから来ています。
えーと、ですからBLMは次のトークンを予測することができます。なぜなら、私たちはこの視覚空間を取得し、それをエンコード、いわば何らかの埋め込みに入れることができ、その後、次のトークンを生成することができるからです。したがって、私たちは画像に何が含まれているかを解釈でき、ビデオに時間の経過とともに何が含まれているかを解釈できます。しかし、出力は相変わらず主にテキストベースです。えーと、もう一つ別のパラダイムもあり、私たちもそれの周りにモデルを構築しました。えーと、私たちは次のフレームを予測することができます。ですね?ですから、拡散モデルを見たことがあるでしょう。それらは画像またはビデオを生成します。えーと、これは現在、ロボットと物理AIが使用しようとしている経路でもあります。ロボットの軌跡を生成するためです。そして、これら二つのモデル、言語モデルとこれらのビデオモデルは、まだ完全には世界モデルではありません。
えーと、私たちにとっては、いわば、私たちは両方のアプローチから進めることができます。ですね。両方のアプローチは、実は、私たちが世界モデルが何であるかについてのこの次の考えを構築するのに役立ちました。ですから、私たちは次のアクションを予測したいのです。これが最も重要なことです。それが何かと何かを異なるようにします。えーと、私たちは、私たちがそこに到達しようとしている方法について議論します。これは、私たちがスクラッチからモデルを訓練する方法の例です。ですから、これは既製のモデルではありません。これはちょうど、ゼロから完全に訓練された拡散モデルのようなもので、ビデオ生成の上で訓練されたものです。ですから、それは5秒間の映画のような映像と映画的なシーンを作ることができます。えーと、しかし、ロボット工学に適用されるとき、今の主な利点は、それがゼロショットであるということです。
ですから、以前のテクノロジーでさえ、以前のロボットアーム技術、いわば、ロボットアームの動きを使ってロボットを訓練する必要があったとき、えーと、あなたは拡散モデルを持っています。それは今、アームが目標に到達できる軌跡を追跡しています。ですね?最大の改善は、これはロボットが以前に何だったかを知らない状況で起こることです。私たちは相当に驚くべき結果を得ることができました。そして、多くの他の実験室もロボットを制御するために同様のことをしています。いわば、しかし、ギャップはまだどこにありますか?まだ改善したい多くのことがあります。私たちがモデルを構築するとき、最良の方法は、私たちが何が壊れているかを理解し、私たちは評価を作成することです。ですね。ですから、実際にはVLMは物理学の観点からはかなり悪いです。ですから、一つの例は、それが幻覚を生成することです。いわば、物体は消えてしまうかもしれません。
物体は小さくなるかもしれません。何らかの理由で次の生成内で。えーと、それは物理に従わないかもしれません。ですね?ですから、私たちが追加している一つのことは、私たちが、いわば、評価セットを追加しています。私たちの盲点を理解するために。いわば、私たちが持つかもしれない他の盲点については、たとえ私たちが今日多くの評価を実施しても、実際には、私たちが評価を実施するとき、多くの盲点があります。そこでは、いわば、モデルが正しい出力を取得できても、それは実際にサンプリングされており、私たちは実際にいくつかのデータを失っています。ですね?これらのモデルの多くも他のBLMによって評価されています。いわば、ですから、BLMはある程度相互に評価されています。彼らが改善しているかどうかを理解するために。これもギャップを作成しています。えーと、ですから、これがまさに、いわば、私たちにとって、私たちが新しいデータセットを作成しているのです。真実が何であるかを理解するために。
ですから、私の後ろに見えるこれらすべてのもの、いわば、モデルがあまり理解していない場所です。ですね。それはボールゲーム、より小さいものです。
えーと、そして、たとえば、何かが落ちている場合、それは正しく落ちていますか、二つのもの同士が衝突するとき、彼らは何をしますか、いわば、動きは正しいですか?ですね。物体は自発的に移動していませんか。正直なところ、多くのモデルは今、これを予測することができません。これは物理関連のものの一つの主要なものです。えーと、私たちは、合成データを作成します。私たちの評価における現実性の機会が何であるかを理解するために。ちょうど、たとえ今日最高のモデルでさえ、それほど良くは実行していません。ですね。理由があります。いわば。しかし、私は今、それを講演で終わらせます。その一つは、BLMが各フレームを見ていないということです。これらの大言語モデルのアプローチ、ご存知のとおり、それらのモデルに入る多くのトークンがあります。ほとんどの場合、それはサンプリングされる必要があります。ですね。ですから、私たちの実験では、私たちはある程度実証することができます。ちょうど、たとえば、すべてのフレームをそれに送信する場合、それは理解するかもしれません。しかし、もし、いわば、それに、いわば、ランダムな数のフレームを送信すれば、それは補間されます。それは実際に起きたことを理解していません。
ですから、それはそれが失敗する一つの方法です。それが失敗する別の方法は、物体が単に端に近づいているとき、いわば、それは実際に人が消えたかどうかを見ることができません。または、彼らがシーンから離れた場合。これは多くの、いわば、混乱を引き起こします。なぜなら、モデルはある程度、人が消えたと仮定して予測するからです。たとえ彼らがフレームバイフレームで見ていなくても。別の領域は、VLMが本当にただテキストに戻ってくることです。ですから、それはテキスト世界で事柄について推論します。いわば、私たちはそれに、より多くのコンピュータビジョン、そしてのようにより多くの補足データを与える必要があります。それが本当に、いわば、シーンで起きたことを理解できるようにするために。いわば、それは法則を理解しています。しかし、テキスト空間で理解しています。ですから、それはそれについてより多く推論することができます。
いわば、それは今日の私たちのデプロイが実際にはどこがより多くのコンピュータビジョン強化されているのかを示しています。そこでは、あなたは視覚モデルがビデオを見ているが、また、いわば、コンピュータビジョンのテキスト解釈があります。ああ、このシーンにはX身元、いわば、それは多くのシーンで追跡されています。これが、私たちがある程度VLMパフォーマンスを改善するのにどのように役立っているかです。ですから、私たちにとっては、私たちはVLMを使用しています。ある程度、私たちが物理をどのように判断するかを改善するのに役立つように。彼ら。しかし、最終的には、彼らは今日もフレームをスキップしています。えーと、私たちは彼らを使用します。彼らは彼らを使用しています。いわば、位置を照合するために、動きではなく。いわば、彼らは物理を知っています。ただし、テキストベースのモデルから学んだことだけです。ですね。私たちは、いわば、評価セットをリリースしようとしています。他の人たちも彼らのモデルを改善するのに役立つように。いわば、ですから、彼らも次の具体化されたモデルを訓練することができます。
私たちの観点からすると、要するに、企業としていかにして物理AIへ向かっているかをまとめると、次のモデルを構築する際に、私たちは依然としてLMとVLMを使用しており、ここではnext tokenがあり、これはフレームワークに包装されます。このフレームワークは、私たちが監視を制御したり、ロボットを制御したりするのを支援します。しかし、私たちはまた、拡散パスを持つパスを作成しており、ロボット用のこれらの制御パスを今作成しているビデオモデルを持っています。それらは組み合わされて、次のアクションを生成する世界モデルを作成できます。次のステップは、このエバリュエーションセットです。なぜなら、このエバリュエーションセットは、実際に何が起こっているのかを理解しているか、あるいはいくつか実質的に盲目飛行しているのかを理解するのに役立つからです。
はい、そうです。これが言語モデルを時間とともに進化させるパスです。今、私たちはシフトを試みており、次の世代を支援するのを助けるものへ向かっています。それはつまり物理AIと世界モデルを構築することです。これが私の講演です。ありがとうございます。Jackieに非常に感謝します。接下来、Gokul Shinasanがいます。彼はAntim Labsの共同創業者兼プレジデントです。今、彼はシミュレーションゲームとロボット技術の未来について議論するつもりです。彼は本当にクールなデモとビデオをその一部として持っていると思います。したがって、これは注目する価値があります。皆さん、こんばんは。あ、私の名前はGopalで、私はLabsの共同創業者です。今日、私はシミュレーションゲームについて議論しており、これらがロボット技術の中で本当に重要なテーマになるかについて議論するつもりです。未来。了解しました。1950年代、1960年代以来、ロボット工学は基本的にずっとケージの中にありました。
私の意味するところは、すべてが事前にプログラムされていることです。環境は固定です。ロボットが何をすべきかのスクリプト、すべてが固定です。つまり、環境はロボットのために特別に構築されています。もちろん、経済的価値を真に解放するために、私たちはそのようにはできず、環境をロボットのために構築させることはできません。ロボットは既存の環境で機能すべきです。したがって、過去10年、15年間、ロボットがますます多機能になるようにするために多大な作業が投入されており、これは多くのクールな研究につながっています。したがって、今日私たちが見ているのは、多くの研究があるにもかかわらず、ロボット・コミュニティがある問題に対して何の答えも持っていないということです。それは、どのような種類のモデル・アーキテクチャが顕著な多機能性につながるのかということです。
たとえば、最新の研究をすべて見ただけで、World Action Models、u VLM、VAS、ビデオアクションモデルを見ています。もちろん、従来のアルゴリズムをまだ使用している人もいます。現在、異なるタイプのモデルがあるため、もちろん、異なるタイプのデータ収集方法が必要です。そのうちのいくつかはteleoperationで、インターネット規模のビデオを使用してビデオアクションモデルを訓練しており、シミュレーションからの合成データ、およびUMIスタイルの捕捉です。これらはすべて、ロボット用の異なるタイプのデータ捕捉方法です。ロボットを訓練するために使用されます。では、誰かが今尋ねることができます。わかりました、このように多くの異なるタイプのモデルがあり、これほど多くのタイプのデータがあります。いったい何が起こっているのですか?ロボット工学は複数の異なる方向に分裂するだけですか?そして、これらをすべてつなぐ実際の関連線がありません。
私が論証したいことは、これらすべての方法に共通する一点はシミュレーションであるということです。私の意味するところは、シミュレーションがワークフロー、R&Dワークフローと展開ワークフローを含むワークフローの一部になり、あなたはおそらく逃げることができないということです。したがって、シミュレーションが使用される場所のいくつかは、合成データを生成するためです。その次は、環境のデジタル・ツインを作成でき、これらのデジタル・ツイン内で機能することを確認したいということです。その後、ご存知のように、実際の物理ロボットを展開に進めます。3番目は、エッジケースのカバレッジのためです。これは、実際にすでに確立されており、自動運転などのことで広く使用されており、もちろん展開前にポリシーをプロトタイプすることもできます。
つまり、これらすべての異なるシミュレーションを使用できる場所に対して、それがどこにでもあろうとしていても、シミュレーションの状態は何かというと、それは本当に本当に作るのが難しいということです。あ、シミュレーションを構築しようとしたか、Isaac SimやMojoのようなシミュレーションソフトウェアを使用したことがある人が何人いるか知りません。しかし、本当に巨大な学習曲線があります。専門家になった場合でも、それでも本当に難しいです。だから、スライド上の今は、資産を作成してそれを配置するワークフローです。ですから、あなたのシナリオがどれほど複雑かに応じて、複数の資産に対してこれを行う必要があります。そして、ご存知のように、それは本当に難しく、数日かかります。時には数週間かかります。だから、そのようにする理由はありません。
あ、ですから、現在の生成AIと多くの視覚ベースのモデルと言語モデルを持って、私たちは実際にパイプラインのいくつかのステップを自動化することができます。あるいは、少なくともそれを自動化に可能な限り近づけることができます。したがって、Gizmoという名前の何かを構築しました。これはプロンプト・ツー・シミュレーションのツールです。基本的に、自然言語または画像の形式で、システムにプロンプトを与えることができます。それはサブエージェントの束を起動しに行き、何でも必要なことをします。そして、最後に、あなたはsimを持っています。あなたは完全に構築された3Dシミュレーションを持っています。これは今約20分かかります。あ、つまり、あなたは基本的に約20分で環境の最初のパスを完成させます。いくつかの人間がループにいるのは必要だと言いましょう。それでも、ご存知のように、数時間でそれを完成させることができます。今、これは数日または数週間と対照的です。
嗯、それが今行われていることです。ですから、私たちのツールのデモンストレーションを示すつもりです。それがツールのデモンストレーションです。基本的に、何かを入力すると、シミュレーションが得られます。ですから、嗯、これはいくつかの深刻な機能を開きます。ですから、私たちはAPIも持っています。つまり、コードのexまたはオープン・クローなど、ワークフローのどの部分で使用しているかは関係なく、シミュレーションを起動することを決定できます。嗯、シミュレーション出力が得られます。これは大規模も有効にします。現在、大規模でシミュレーションを行うことはまだ可能ではありません。なぜなら、それらは作成するのが難しすぎるからです。嗯、これは、基本的にエンドツーエンドのクローズドループ、クローズドループをロボット学習用に持つことができるような、本当に興味深いものも有効にします。
例えば、四足動物が指定されたシーン内の特定ポイントに移動するようトレーニングするといったことを説明することができます。その場合、エージェントが必要とするのはその情報だけで、実際にすべてを完了させ、あなたのための訓練済み四足動物のストラテジーを提供できます。では、ロボティクスは解決されたのでしょうか?もちろんそうではありません。シミュレーション・リアルギャップは依然として存在します。これはシミュレーションが有用ですが、100%正確ではないことを意味します。基本的にはただの物理的な問題です。接触物理に問題があり、また材料の特性をどのように近似するかという問題もあります。変形をモデル化するのは非常に困難です。だからこれはロボティクスコミュニティと私たちがまだ登っている山です。このギャップが時間とともにますます小さくなることを予想しています。
わかりました。シミュレーションについて話しました。次はゲームについて話しましょう。なぜゲームが重要なのでしょうか?シミュレーションでは、操作またはナビゲーションまたは運動をトレーニングするだけではなく、実は合成世界を持つことができれば、高度な認知もトレーニングできます。高度な認知とは何かを説明すると、目標が明確でない場合の探索のことです。計画を立てても、世界で何か起こってあなたの状態が低下したとき、どうやって回復しますか?どのようにリプランニングしますか?世界について完全な情報を持っていないとき、決定の質はどのくらいですか?ですから、これらすべてが本当に重要です。
それらはロボットにだけでなく、LLMにも重要ですが、ロボットにとっては、空間時間的記憶に根ざす必要があるため特に重要です。つまり、探索、リプランニング、長期計画など、これらすべてが空間時間的記憶に根ざす必要があります。そこで、エージェントをトレーニングしました。方法についての非常に簡潔な概要をお伝えします。20億パラメータのquenモデルVLMをトレーニングしました。基本的には、キーボードとマウスを制御するコンピュータ使用エージェントとして機能します。約400時間のフレームアクションビデオゲームデータで事前トレーニングしました。
これは基本的にモデルにビデオゲームをプレイする方法についての直感を与え、事前トレーニングと約60時間のIFデータを使用した指令微調整を通じてモデルをゲーム完成へと導きます。最後に、まだ実装していませんが進行中の作業として、モデルが推論軌跡を出力し、その推論軌跡が次のステップの指示として機能するようトレーニングすることがあります。でしょう?最後に、重要な点として、ビデオゲームをプレイしたいため、リアルタイム操作が必要です。ですから、モデルが200ミリ秒以内に入力を受け取り、それを処理し、出力をデコードする必要があります。それでは、エージェントのデモンストレーションを行います。ご覧になるとおり、これはまだ初期段階の仕事で、決して完璧ではありませんが、気に入っていただければ幸いです。Heat。
Heat、それで時間切れです。ありがとう。本当にありがとう、Gokul。現在午後5時です。最後の追い込み段階にいます。皆さんがまだ講座をお聞きになってくださり非常に嬉しいです。さて、少し迂回して設計の側面に進みます。これから異なるゲームプレイについて探索していきます。次の演者はLentilのWeii Suです。彼女の講演の視点は、東洋の哲学と東洋の製品構築の背後にある知恵を探索することです。これは設計と人工知能の観点から非常に興味深い講座になり、通常は議論の中心にない視点からのものです。ですから、いつでも準備ができています。そこに戻りたいですか?>> はい。はい。わかりました。皆さん、こんにちは。聞こえていますか?わかりました。ここにいてくれてありがとうございます。えっと、私の名前はWayiです。GenZenという初期段階企業を運営しています。私たちは人工知能ビデオを作成してマーケティングを拡張しています。
今日は少し実験的になります。東洋の哲学と、それが今後どのように私たちの構築方法を形作ることができるかについて、時間をかけて議論したいと思います。これは議論する価値のあることに思えます。なぜなら、西洋人がTikTok上で中国人になり、中国を追いかけている時代に私たちは生きているからです。ですから、TikTokに時間を費やしている場合、過去数か月でこのトレンドに気付いたに違いありません。それだけでなく、西洋はアジアからの企業と人工知能モデルにますます注目しています。この映画で強調したい瞬間は、『流浪地球』という映画についてです。この映画について聞いたことがある、または見たことがある人は何人いますか?良いです。『三体問題』について聞いたことがある人は何人いますか?もっと多くの人が。素晴らしい。
さて、『流浪地球』も同じ著者Leo Sushingによって創作されました。これはSF映画の中で非常に重要な瞬間です。なぜなら、それは中国の物語講述の伝統に根ざした大規模なハリウッドSF大作を成功させた中国の初めての試みの一つだからです。これは2075年に設定された物語で、太陽が膨張しています。地球はまもなく住むのに適さなくなるでしょう。人類は地球を放棄することを選ばずに、代わりに協力して地球表面に約10,000個の巨大な惑星エンジンを構築し、地球を太陽系から押し出すことにしました。この計画には2500年が必要です。したがって、今後25世紀の間、彼らはすべて地下に住むことに同意しました。えっと、この映画を見て、この集団主義的なメンタリティを見ることは私にとって非常に力強いものでした。
それは私たちが一生の間、主にハリウッドによって作られた物語の一つのバージョンと未来の一つのバージョンを与えられていることに気づくのに役立ちました。そして、私たちはそれにさえ気付いていません。したがって、長い間、西洋のナラティブは、私たちがどのように構築するか、どのように生きるか、そして私たちが何をしたいのかの中心に置かれてきました。東洋のナラティブが21世紀の中心にあったとしたらどうでしょう?西洋では、ミニマリズムが通常好まれています。アプリケーションは各ページに一つの行動喚起を持つ傾向があります。例えば、米国では、Cash AppまたはVenmoを使用して友人に送金および支払いを行います。これはCash Appの外観です。一方、これは中国のAlipayです。資金を送受信するだけでなく、請求書を支払い、食べ物を注文し、さらにローンを申し込むこともできます。ですから、東洋では、豊かさが通常より多く祝われます。人々はすべてのオプションを望んでいます。
多くの場合において、より多くが善であり、より少なくが悪いという考え方があります。西洋のこうした信念は単一性に焦点を当てる傾向があります。この点の一例として、Metaのような西洋企業が過去10年以上にわたり1つの収入源の成長に注力してきたことが挙げられます。ご覧のとおり、彼らは広告に依存しています。一方、WeChatの親会社であるテンセントは、収入源の多様化を継続しており、すべての卵を1つのバスケットに入れていません。この2つのソーシャルメディア企業を並べてみると、対比は相当に明白です。また、これがどのように彼らの行動、リスク処理方法、実験方法に変化をもたらしたかも見ることができます。東洋が多様性を傾向とする一方で、私たちは選択性も祝います。したがって、この違いは何によって生じたのかということを不思議に思わずにはいられません。そうですね?
一つの観察として、各文化が具現する哲学は非常に異なっているということがあります。西洋には『聖書』があり、中文ではshenansingと呼ばれており、これは聖典です。一方、東洋には「eing」と呼ばれるもの——『易経』があります。その中心的な論点は、固定されたものは何もないということです。すべては運動中にあり、賢者は真に変化に抵抗しません。彼らは変化を操り受け入れるための指導を求めます。Eegeneがあれば、実践者は往々にしてコインを投げて6本の線を生成する傾向があります。これらはすべて64個のオプションです。そう、64個のhexogsです。それらは人生の絶えず変わる状況に指導を提供します。時間とともに、それは中国哲学の基石となり、バランス、変容についての思想を反映し、また関与します。私たちがこの時代に経験する変化の1つが、内容が合成的に生成されているということだと思います。
合成生成されたコンテンツは、人間が作成したコンテンツよりも多くなるでしょう。私たちが皆問いかけている一つの問題は、ゼロの努力の垃圾に溺れるのではないかということです。垃圾が大量に涌き出てすべてを淹没するのを見るのではないでしょうか。そうですね?この多くのノイズがある時、私たちはどうしたらよいでしょうか?しかし、この問題を別の観点から見れば、ストーリーテリングのツール——カメラ、スタジオ、配信、ハリウッドが構築した全体的な装置が、誰もが保有できるものに崩壊しています。これはまた、ハリウッドに無視されてきたコミュニティが現在、コンテンツを作成し、自分たちの条件に基づいてそれらを配信するためのツールを所有していることを意味しています。あまりにもニッチ過ぎたり、あまりにも見慣れない、市場が小さすぎたり、キャスティングが難しすぎたりするストーリーは、今では本当にそこに住んでいる人々によって、本当にそれを望む視聴者のために制作されることができます。
例えば、中国のfurryコミュニティは現在、人工知能を使って自分たちのコンテンツを作成しています。このfurryアニメーションは過去2週間で100万回再生されました。中国の別のビデオクリエイターが人工知能の短編映画を作成しており、過去7日間にすべてのプラットフォームで6000万回再生されました。同様に、GenZenでは、従来的にはニッチ過ぎた業界でコンテンツを作成するのをお客様に支援しています。私にとってこれは本当に興奮することです。なぜなら、これらのニッチ分野へのより広いアクセスと認知度を作成することができるからです。過去4ヶ月間、YouTube Shorts、InstagramおよびTikTokで毎月1000万回のインプレッションを配信しています。例えば、私たちはより多くのegeneコンテンツも制作しました。これに対する認知度を高めるために、すべての人がアクセスして読むことができるアプリケーションを構築しました。
伝統的に、egeneの読取は初心者にとって非常に複雑で混乱を招くプロセスかもしれません。そこで、このツールは、あなたが最も急を要する質問をすばやく提示することを可能にします。興味があれば、アプリストアでこのツールを無料で試すこともできます。今週、私たちはあなたがそれを試すだけのために無料で提供しています。アプリストアでEgene Oracleを検索するか、このQRコードをスキャンしてください。また、伝統中医学、鍼灸、ツボの周りの内容を作成し拡張しました。これらもまた、歴史的に無視されてきたトピックであり、現在利用可能なツールのおかげで、このタイプのコンテンツはより簡単に作成できます。これらすべては、私たちの内部agenticビデオワークフローによってサポートされており、コンテンツ生産プロセスを簡素化および最適化しており、これはさらに製品配信の表示と生産的な変換につながります。
多くの面から言えば、私たちはAI生成コンテンツを、より活発で、より多様な未来への道具として見ています。その未来では、私たち全員が私たちが重要だと思う物語を作成するための道具を握っています。これで、あなたの時間をいただき、本当にありがとうございます。TwitterでこのIDで私を見つけることができます。もし、これがあなたにとって興味深いものであり、また、いくつかのステッカーも欲しいのであれば、その後で私を見つけてください。本当にありがとうございます。何と独特な講演だことか。このようなスライドと講演を作成する方法を考える必要があります。素晴らしいです。次に、Blandの技術責任者Anun Jooshiがいます。彼は音声AIについて話します。前に11 Labsの講演がありましたが、この講演は異なる方向に進む予定で、それは音声AIはモデルの問題ではないということです。Anunに、私たちのためにさらに詳しく説明してもらいましょう。>>皆さんこんにちは。
皆さんは聞こえていますか?良いです。素晴らしいです。皆さんが気分が良いことを願っています。ええと、始める前に、すべてのスピーカーが本当に素晴らしいと言いたかっただけです。それで、皆さんに拍手をすることができますか?ですから、実は私は講演のタイトルを変更しました。なぜなら、音声AIは実際にはモデルの問題があることに気づいたからです。ですから、それを変更しました。企業クライアント向けに音声AIを拡張する際に直面した問題についていくつかお話しします。ええと、ですから、私はAnunです。実は、シンガポールで育ちました。2年前、Blandのために旧金山に引っ越しました。興味深いことに、実は、ここの初級学院の劇的な子供でした。そう、上台することはもう二度とないと思っていました。でも、ここにいます。私は物語を語ることが大好きです。ええと、ですから、物語から始めようと思います。ですから、2年前、私は旧金山にいました。
私はCEOのIsaiahとコーヒーを飲みに行きました。私たちはぶらぶらしているだけでしたが、彼は私に今日まで議論していることを教えてくれました。ええと、彼は私に座るように言い、彼は私の目をまっすぐ見つめて、面の表情なく、彼は私にこれを言いました。あなたは私を信じられないでしょうが、Pathways、あなたが発明したこの事は数百万人に影響を与え、数百万人がそれを使用するでしょう。私は彼を見て、「このやつは狂っている」と言いました。ほら、彼は典型的な創業者です。彼は私を幸せにしたいので、より努力して働くようにしたいのです。ええと、その時私たちは単に、ああ、まあ、1つのスライドが不足していました。でも、私はDiscord上にいるだけだと示したかったのです。それは私と別のエンジニアだけです。ええと、私たちは話していました。私たちはFDEEsだけで、私たちはエンジニアで、製品マネージャーです。
えーと、私たちはBlandのDiscord上の匿名ユーザーを使ってエージェントのアーキテクチャを理解していました。えーと、今思い返すと本当に狂っていて、実は毎月数百万通の電話をサービスしています。それでも、まさに今このような瞬間に誰かが私たちのエージェントと話していることに気づいていません。それは本当に狂っています。えーと、私は今朝も自分のSlackチャネルに入ったのですが、チームの会話の中でケーススタディが出てきました。これは私たちのある顧客、American Way Healthという名前の顧客に関わるもので、あなたは私たちのウェブサイトでもそれを確認できます。彼らは、私たちが彼らのために毎年4.3億ドルの収益をアンロックしたと言っています。それが可能だと知りませんでした。私たちがそのようなことができるとは思いませんでした。えーと、そうですね、これすべてが本当に私が想像できる範囲をはるかに超えています。
えーと、私は幸運なことに、これらすべてのことを行う過程で教訓と課題を抽出できました。もし音声AIをあなたのサービスに統合しようとしているなら、あなたがそこから学ぶことを望みます。そのため、あなた方全員が、えーと、音声AIの多くのデモを見たことがあると確信しています。それらは本当にクールですが、困難なのはそれをプロダクション環境に投入し、実際に企業顧客のために機能させる方法です。えーと、そのため、いくつかの痛点と、音声AIを企業ユースケースに適用するために発見したいくつかの発見に深く掘り下げます。えーと、わかりました。スライドは異なりますが、それでいきましょう。あーと、VOから始めます。私が気づかなかったことの1つは、多くの企業顧客が処理し、私たちに苦情を言っているのは音声メール検出の精度です。
えーと、私が気づかなかったのは、私たちの現在の顧客が毎日音声メール検出の精度を報告し、追跡しようとしているということです。えーと、その理由は、大多数のアウトバウンド電話が実際には人間に接続しないためです。ほとんどは音声メールに進みます。様々な状況で機能する堅牢なシステムを確保する必要があります。例えば、通話フィルタの場合、iOSとGoogle Voiceの両方が現在、通話接続前にチェックを行っています。例えば、彼らはえーと「接続する前にあなたの名前と通話の理由を述べてください」と言っています。えーと、またビープ音が発生します。多くの人が使用しているのはTwilioで、応答機検出機能を備えています。本質的には、ビープ音検出モデルに過ぎません。それはそんなに使いやすくありません。企業顧客はそれに依存することができません。ですから、私はBlandで働いてそれを改善しています。
私はCNNモデルを構築しており、各オーディオチャンクのメルスペクトログラムを見ています。えーと、ビープ音が異なる携帯電話や通話用に、そんなに多くの異なる長さと周波数を持つことに気づきませんでした。えーと、一部の周波数は二重周波数を持つものもあり、それらはいわゆるDTMF音調と同じです。これは、通話中に携帯電話の数字を押すときに発生する音、または聞こえる音です。えーと、そのため、そこで誤検知を引き起こしたくはないのです。えーと、そのため、それは私たちが理解する必要があった困難なことの1つです。実は、今は音声メール検出をテストしてベンチマークできるウェブサイトも有しています。したがって、音声AIをシステムに統合しようとしている場合は、彼らの音声メール検出、えーと、精度、またはシステムがどの程度うまく機能しているかを確認してください。
ですから、次に、えーと、Slackメッセージのスライドがあります。あるお客様から受け取ったSlackメッセージで、そのメッセージには「なぜ私のエージェントは同じように機能しないのか?」または「なぜ私のエージェントは昨日のように機能しないのか?」と書かれています。あなたがたの中の何人がお客様からこのようなことを言われた経験があるか、または自分たちでも経験されたことがあるか、私は知りません。例えば、Claudeを使用するときは、物事がただ変わるのが嫌いです。えーと、ビジネスの観点から見ると、時々何も変更していないときに、お客様が私のところに来ます。つまり、新しいコードを何もプッシュしていないのに、それでもあなたが来て、私が彼らのシステムを破壊したと言うんです。えーと、しかし私は理解しています。あなたは彼らのプラットフォームと彼らのエージェント上で数時間を費やしたのです。何かがあなたが期待した方法で機能しないときは、それは悪いことです。
えーと、もう一つの失敗は、知識ベース機能のハイブリッド検索アルゴリズムを改善しようとしたときのことです。えーと、私たちは自分たちの自ホスト型ベクトルデータベースを持っていて、私は単に精度を向上させたかったのです。えーと、それは一部のお客様には有効でしたが、他のお客様には回帰を引き起こしました。これは悪いことです。それはあなたのお客様の信頼を破壊しました。これは悪いことであり、信頼を再構築するのは非常に困難です。私たちがBlandで構築し、構築について誇りに思っていることは、お客様がカナリア展開をデプロイし、バージョン化されたエージェント版をテストできるようにしていることです。背景として、Blandは、データレジデンシーなどのために、各エンタープライズお客様に専用のインフラストラクチャを提供しています。
また、これを通じて、彼らは単独のコンテナを起動できるようにしています。そこで、彼らは新しいエージェント版をテストでき、一定の割合のトラフィック(いくつかの電話番号)をそこにルーティングできます。これにより、本番環境の変更が実際にオンラインになる前にテストされるという、より多くの確信が得られます。つまり、これがお客様の信頼を再構築しようとする私たちの方法です。これはエンタープライズお客様にとって非常に重要です。こうすることで、彼らは適切な方法でエージェントの改善に集中できます。さて、これは興味深い話です。私たちはフォーチュン500の自動車レンタル会社と協力しており、自動車レンタルのデジタルIDを収集しようとしていました。
えーと、そうですね。彼らが変更する必要のある他の情報を支援することができます。それで私たちは本番に入りました。そして私たちは気づき始めました。つまり、数字は実際には、まあ、実際にそこにあるものとは異なっていました。私たちはパイプラインを確認しました。転記エンジンは正しかった。TTSは期待通りに機能していた。LMがその幻覚を引き起こしていました。数字の入力は正しかったのですが、何かを言って出力していました。えーと、プロンプトエンジニアリングで解決しようとしました。うまくいきませんでした。えーと、トークナイザーレベルを深く掘り下げたとき、見ました。まあ、重複した数字は実際には1つのトークンと見なされ、各数字が個別のトークンと見なされるのではなく、ということでした。それはトークナイザーの動作方法です。
えっと、実際に問題を完全に解決するハックは、各数字の間にコンマを追加することです。その理由は、言語モデルが現在各数字を個別のトークンとして見なすことができるからです。実は、後で発見したのですが、えっと論文が発表されました。えっと、Sync and Stro 2024を検索することができます。これは、えっと私たちが問題を修正した後に発表されたものです。しかし、皆さんがそのようなことに遭遇した場合、単に検索することができることを知ってください。コンマを追加することが、えっと問題を解決するのを助けるでしょう。それはおよそ1000回に5回しか発生しません。しかし、企業顧客と協力している場合、5回は多すぎます。
したがって、これは私がそこから持ってきた、やや個人的な遺憾です。えっと、YCの決定がたくさんあります。えっと、例えば助言は迅速に動き、迅速に壊すことです。しかし、私は変更をロールアウトする際に、いくつかの決定についてもっと意図的であったことを望みます。はい、多くの顧客の苦痛を引き起こさないように。したがって、単にワンウェイドア決定とツーウェイドアについてもっと意識的です。そこで、Isaiahの物語に戻りますが、えっと、彼はまだ今日に至るまで、その私が彼を信じなかったことについて私をからかっています。コードだけから、そんなに大きな影響を生じさせることができることを知ることは、超強力です。えっと、私は単に皆さんが私が学んだいくつかの教訓と私が犯した誤りから学ぶことを望んでいます。そうすれば、皆さんは他のサービスを拡大することができます。または、音声AIの統合のようなもので、えっと、私ができたよりも大きくなることができます。
したがって、ありがとうございます、ありがとうございます。ご時間をありがとうございます。はい、私のLinkedInはここにあります。もし皆さんが連絡したいのであれば。Anonさん、非常にありがとうございます。次に、このデザインを見てみましょう。あ、平面デザイン出力を超えて、単に自動補完を超えることについて話し合います。では、AIが持ってくる複雑な設計問題と企業のデザインボトルネックをどのように解決するのですか?このために、Oberrloの AI リーダーである Lin New を迎えます。彼女はセットアップが完了した後、彼女の考えを共有します。えっと、これはえっと実際に時間がかかり、高価です。えっと、マーケティングコンテンツのようなものを作成するえっと、ブランドとスケール。
したがって、もしここを見ることができれば、マーケティングチャネルが増加するときに、ブランドはコンテンツ作成に対する無慈悲な需要に直面しています。例えば、マーケティングキャンペーンまたは広告を作成したいとき、えっと、TikTok、Facebook、えっとInstagram、その他、またはLinkedInなど、異なるフォーマットにまたがります。はい。したがって、私たちは多くの苦情を聞きました。えっと、CMOからの推奨、異なる企業の設計主管、大小問わず。彼らはすべて、従来の設計ツールが遅く、コストが高く、専門的な設計スキルに依存していることを認める必要があります。すべての人が大きな設計またはマーケティングチームを負担することができるわけではありません。したがって、私たちはOberrloをロールアウトしました。それは、チームがブランドコンテンツを瞬時に、かつ費用効果的に大規模に作成できるようにする AI 駆動設計プラットフォームです。
したがって、Canvaと異なり、個人として使用することはできます。それは正しいですが、皆さんのブランド特性、皆さんのブランド資産、またはブランドボイスを学ぶことができません。繁栄。繁栄。はい。したがって、ご覧のように、えっと、AI 生成画像モデルまたはビデオを使用する場合は、そうですね、えっと、モデル崩壊の問題があります。えっと、このタイトルを別の色に変更したり、ロゴを変更したり、そのようなことをするようにえっと、それを続けて促すと。したがって、えっと、以前のえっと、生成された AI 画像を使用し続けるときに、次回、えっと、それを促すときに適応すると、それはモデル崩壊を引き起こします。したがって、私たちはえっと、Oberrloでは、私たちはえっと、それらの平面デザインを完全に編集可能な場所に変えることができます。えっと、物を移動することができます。色を変更することができます。えっと、皆さんのブランド資産から学んだ色をペアリングすることができます。
したがって、ここでご覧のように、私たちは多くのえっと、ワークスペースまたはドメイン、モデルがえっと、彼ら自身のブランドガイドラインの特徴などに従って独自にトレーニングされるでしょう。はい。例えば、Oberrlo、私は、もし皆さんが Funan Mo に行くことができれば、皆さんはそこに商店を見るでしょう。彼らは私たちの現在の顧客の一人です。はい、皆さんはここでそれを見ることができます。あ、私たちはえっと、彼らからの多くのえっと、専有のえっと、トレーニングえっと、データと私たちの設計チームのようなものを使用しました。私たちはその、えっと、モデルをトレーニングしました。えっと、それは完全にえっと、皆さんが知っている、やや個人的なもののようなものになる、インターネットからただ爪を立てるのではなく。はい。あ、したがって、これは私たちの AI リサイズ デモの 1 つです。もし皆さんが Canva でサイズを変更しようとしたことがあれば、皆さんはそのことを理解するでしょう。えっと、時々彼らはえっと、要素を複製するだけで、ただキャンバス全体を引き伸ばします。
しかし、ここで皆さんはそれが賢く、えっと、知っていますね、これらのえっと、要素の周りにすべてを再編成することを見ることができます。はい、皆さんはそれを見ることができます。えっと、したがって、それはただ、えっと、知っていますね、複製してきて、キャンバスを引き伸ばすことではありません。はい。そして、えっと別のえっと、ビデオまたはまたは画像で媒体を置き換えるときは、それに応じてすべてのフォーマットと活動を変更します。はい。したがって、それはそれはえっと、それはえっと、マーケティングキャンペーンと広告を行い、技能とブランドを持つ方法です。ここで、皆さんが私たちの AI スタジオえっと、私たちが持っている機能を使用する方法です。えっと、皆さんが知っている、人員主題と製品主題に分割されます。あ、皆さんはえっと、最大えっと、8 つの画像えっと、高品質を選択することができて、それから皆さんはすることができます。ただ彼らに名前を付けてください。例えば、皆さんは Malo ジャケットまたは何かのようなものとしてそれを取得するでしょう。そして今、皆さんは広告で生成する、またはこのモデルを使用した画像にしたいですか。
例えば、彼女が Rick Owen のものを着ているようにしてください。はい。そして、私たちはえっと、同時に生成することができます。えっと、複数のフォーマットまたはサイズにしてください。はい。これらすべての情報は、えっと、知っていますね、えっと、賢く、えっと、皆さんのブランドドメインに保存されます。別の例については、えっと、リストトレーニング製品、これは設計参照です。したがって、皆さんは設計参照のどこかにあり、皆さんは皆さん自身の列車製品を持っており、皆さんはえっと、皆さんが知っている、やや、ただ彼らをまとめるだけ、皆さんはラベルを追加することができます。それが皆さんが指しているえっと、主題がどれであるかを理解するように。はい。はい。したがって、これがそのの結果です。ここで皆さんは実際に精緻化をクリックすることができます。もし皆さんがそのの詳細を変更したいのであれば、それはえっと完全に編集可能なようになります。皆さんは実際にテキストを変更することができます。えっと、皆さんが知っている、やや、再びプロンプト。えっと、皆さんはすることができます。実際にエディタを開いて、より多くをすることができます。はい。
ですから、えっと、我々には短形式のビデオもあります。これはえっと、ご存知のように、看板での放送またはえっと、動的バナーのようなあらゆるタイプのもの用に使用できます。はい。ですから、それが全体、えっと、我々の、えっとOberloプラットフォームの概要です。そして、ここであなたはそれを見ることができます。これはブランド広告セットで、あなたは実際にえっと、あなたのURLを入力したり、あなたのPDFファイルを入力したり、えっとGoogle Docsやその他のものを実行したりできます。それはあなたのすべての色スキーム、主な色、二次色、えっと、ロゴ、パディング、そしてすべてのそのようなことを抽出します。はい。そして、実際に、それはあなたのイメージに自動的にタグを付けることが見えます。どんなタイプか、何のタイプの製品か、それはここに表示されます。ですから、他の進行中の作業があり、まだローンチされていませんが、ここでチェックアウトできます。えっと、ここが我々のmonty montyウェブサイトです。ですから、例えば、デザイナーが一度に10個のサイズを作成したい場合、あなたはチェックできます。
えっと、彼または彼女は実際にこのようにして初期設計を行うことができ、その後えっと、彼らはバッチタグを付けたり、このような提案設計を行ったりできます。これは非常にシンプルなフォーマットですが、より複雑なレイアウトにすることができ、えっと、より複雑なキャンペーンを作成できます。はい。あなたはあなたが多くの異なるサイズから選択できることを見ることができ、それは自動的にえっと拡張します。Figmaで見るように、無限キャンバスがありますね。ですから、えっと、これは複数サイズ変更の結果です。前にえっと、代理店えっと、機関が、ああ、1~2週間かけて完了する必要があったことを想像してください。あなたが知っているように、すべてのこれらを再配置するために、今、我々はワンクリックで行うことができます。はい。ですから、えっと、読み込み中のものについては、後で読み込まれます。
えっと、どれが完了したかが最初に表示されます。ええ、はい、参加ありがとうございます。はい、これが私のプレゼンテーションです。素晴らしい仕事です。本当にありがとうございました、Lynn。最後の2つのセッション。頑張ってください、皆さん。我々は初日のセッションの終わりにほぼ到達しました。これらのセッションを終了するために、我々は2つのセッションがあります。最初のものはStefania Dugaによって行われます。彼女はSakana AIの研究科学者です。彼女は主権AIについて話します。では、特定の国々にフロンティアモデルをどのように地域化しますか?この場合、日本です。Sakanaが日本に本社を置いているからです。えっと、えっと、Stefaniaを準備させます。その後えっと、我々は始めることができます。>> こんにちは。こんにちは。マイクは機能していますか?
呼吸練習をしましょう。息を吸ってください。吐き出してください。わかりました。ご協力ありがとうございます。素晴らしい。では、準備ができました。えっと、もう一秒待ってください。ええ、こんにちは。私の名前はStefania Duggaです。私はTokyo Sakana AIの研究科学者です。今日、私は主権AIについてあなたと話します。ええ、これは必ずしもどの国でも現地モデルを構築することを意味しませんが、むしろ現地機関がグローバル機能に対して持つ能力についてであり、これを考えます。したがって、実際のところ、主権AIについて考えるときは、3つのことを考慮することが重要だと思います。ええ、データ——どのデータを現地に保つ必要があるか、どのモデルが現地での使用に最も適応しているか。
計算と評価——我々にはどのような計算リソースが必要か、どのワークフローがローカルで実行されるか、どのワークフローがクラウド上で実行されるか、および説明責任——我々が機関にAIシステムを導入するときに、誰が説明責任を保つかを決定します。ですので、この話題にどのように興味を持つようになったかを説明する個人的な話をあなたと共有したいです。ええ、私はルーマニアのTransennylvaniaの小さな村からです。AI研究に従事する前に、私は世界中の子ども、家族、教育者のためにAIリテラシーワークショップを主催していました。ここのシンガポールを含めて。これは、えっと2013年の子どもの学術ハッカソンからのビデオです。これらのワークショップ、教室、メーカースペース、図書館で私が学んだのは、人々がAIに非常に興味を持っているということです。彼らはそれを使いたいのですが、多くの場合、AIモデルとシステムは彼らの言語と現地のニーズに適応していません。
これは今日の最先端のAI機能に変換されます。我々はコミュニティと人々がAIシステムに適応することを期待していますが、システムを現地のニーズに適応させるのではなく。日本では、このローカライゼーションは複数の課題をもたらします。言語のレジスター、異なる文化的規範、異なるワークフロー、科学的実践、安全とセキュリティポリシーを考慮する必要があります。ですから、ローカライゼーションの課題は機関レベルと多面的です。主権えっと、私はそれをスタックとして見てほしいです。わかりますか?それはデータから始まり、どのような独特なデータが必要かを見つけます。ええ、その後、評価に向かいます。中立性、事実性、国家固有のベンチマークを確認するにはどうすればよいですか?ええ、その後、適応について話します。これは主に、後期トレーニング、微調整、RADツール使用を通じて発生します。
その後、ルーティング層があります。ここでは、戦略的に認識されたモデル選択相互作用が必要です。ユーザーは何ですか?異なる役割は何ですか?えっと、異なるユーザーエクスペリエンスの決定は何ですか。これらのモデルと製品をユーザーにどのように提示するかおよび統治。ですから、それを超えて物理層もあります。わかりますか?スタックの異なる側面は事前トレーニングに異なる要件があるため、えっと、多くのデータと大量の計算が必要であり、ほとんどの場合、コストは禁止的です。後期トレーニングの場合、本地的な規範と好みに細心の注意を払う必要があり、特定のプロジェクトと製品でこれをどのように特に考慮しているかを示す例を見せたいです。
ですから、えっと、先月えっと、ああ、3月24日に、我々は我々の最初の消費者製品Sakana Chatをローンチしました。このコンシューマー製品でえっと、我々はそれを日本の人々に無料で提供します。えっとそれはウェブ検索が装備されています。しかし我々は実際に、それは日本のすべての人が利用可能です。我々は実際に複数の相互作用方法をサポートしています。ですから、我々はえっと標準モードをサポートしています。えっと、これは中立的なデフォルト日本語レジスターですが、我々はKeiò正式モードもサポートしています。これはより正式な背景で使用されています。我々は方言Osaka モードをサポートしています。これは実際にえっとkai方言で答えを与えています。人々は本当にこれを高く評価しています。我々は毎日30,000人以上のアクティブユーザーを持っています。このプロジェクトでは、後期トレーニングを主権制御ポイントとして使用しています。ですから、我々はDeep Seek、Llama、GPT-4oのようなオープンフロンティアモデルから始まります。
その後、私たちは評価と選好のために独特な日本語データを提供いたしました。そして、政策専門家パネルと協力して、一連の中立性指標を定義いたしました。その後、このオープンウェイト・モデルに対してポスト・トレーニングを実施し、Namazooと呼ぶモデルを作成いたしました。ポスト・トレーニング・モデルとベース・モデルの評価を比較いたしました。ポスト・トレーニング・モデルが中立性と事実的正確性において元のモデルより優れていることを示しました。しかし、これが優れているという事実が唯一の重要な側面ではありません。また、これらの既存モデルの多くが、より敏感な質問への回答を単に拒否することも示しました。例えば、DeepSeekに「政府の各国インターネット検閲について教えてください」と聞くと、回答を拒否するか、あるいは一般的で高レベルの答えを提供するかのいずれかです。
ポスト・トレーニング後、Namazuが実際に多面的な応答を提供し、具体的なニュース記事へのリンクが付いており、これらが信頼できるものであることを示しました。次に、私たちがお見せしたい2番目のプロジェクトは、AI Scientistに関する私たちの業務です。これは主権の一形態として科学的能力に焦点を当てています。このプロジェクトでは、私たちは複数のエージェントを使用して、研究全体のワークフローをサポートしています。エージェントはアイデア生成、新規性チェック、アイデアスコアリングから開始します。その後、私たちはツリーベースの実験を使用してこれらの異なるアイデアをテストし、それらのコードを生成し、アブレーション研究を実施しました。最後に、完全な論文を作成し、結果を提示しました。この業務は先月Nature誌で特集されました。
つまり、これはAI Scientistがツリーサーチを使用して異なる仮説を処理し、それらをテストしてから最良の候補を選択する方法です。また、このシステム生成論文は、最初の完全に生成された論文であり、昨年のiclair会議で査読を通過しました。次に、私たちがお見せしたい別の例は、複数エージェント協調をどのように使用するかについてです。したがって、これについては、非常に重要な概念はルーターの概念です。このルーターは、これらのタスクがどの程度難しいかに基づいて、タスクを最も適切なモデルにルーティングすることを自動的に学習しました。そしてそのようにして、私たちはコストと安全性を最適化しました。ルーティングは主権の形態として見ることができます。えーと、これは特定のソリューションをグローバル・ソリューションから隔離する方法ではありません。
したがって、リクエストが日本の背景と非常に関連している場合、日本のポスト・トレーニング・モデルに送信されます。リクエストが非常に敏感な場合、ローカル・セーフティ・モデルにルーティングされるか、あるいは人による審査が要求される可能性があります。したがって、主権能力としてのこの協調の考え方は、私たちにとってアーキテクチャ的焦点であるだけでなく、研究焦点でもあります。えーと、私たちが信じているのは、えーと、私たちの見方では、最も有能なAIシステムは、単一の拡張モデルではなく、特殊化されたエージェントの集合であるということです。また、私たちが実際に示したのは、私たちがたった今立ち上げたSakana Fuguにおいて、特定のタスクに対して最良のモデルを選択するために学習されたオーケストレーターを訓練できるということです。しかし、このオーケストレーターはまた、より難しいタスクを処理するために自分自身を再帰的に呼び出すことを学ぶこともできます。
また、このプロジェクトは現在ベータアクセスが利用可能であり、今年のICLAIRの2つの論文で紹介されました。FUGUの評価では、アンサンブルが規模に勝つことが見られました。つまり、FUGUと比較しました。FUGUは最先端モデルプールをアンサンブルとして調整しています。このアンサンブルの任意の単一メンバーよりも、CodeBenchおよびSweepPRO、その他の評価ベンチマークで優れています。次に、ドメイン適応について論じたいです。データが不足していることは誰もが知っています。また、現在デジタル化されていないデータが多くあります。例えば、多くの背景知識があり、これはデータセットで欠落しています。したがって、銀行、病院、医療などの異なる機構と協力する際には、専門家の批評とフィードバックをモデルと開発中のツールに統合するプロセスが必要です。
例えば、日本の主要銀行であるMUFGおよびSNBCとのクレジットメモに関する協力では、1,000を超えるポイントのフィードバックを求めました。このフィードバックはモデルに返却され、モデルは彼らの専門家アナリスト向けのより良いクレジットメモを作成することを学びました。最後に、重要なことに、日本政府もサポートしています。私たちのチームは、AI駆動インテリジェンスを使用してソーシャルメディアを分析し、偽情報キャンペーンがどのように始まり、どのように実行されるかを正確に示すことができることを実証しました。おそらく、最も重要なソブリンAIの形態は、支配的なアーキテクチャに異議を唱える地元の能力を維持することです。
また、CTM継続思維機械の作業では、チームは実際にTransformerを超える新しいアーキテクチャを提案しました。このアーキテクチャは脳に着想を得ており、推論はニューロンの時間経過による同期から生じます。つまり、単一パス注意ではなく、複数の注意ヘッドがあり、これらが調整されており、モデルは迷路を解くなどの非常に複雑なタスクを実行する方法を学びました。それを行う方法は、下層の活性化を見ることができるため、人間にも解釈可能です。また、画像分類でテストしました。実際に、注意ヘッドが時間経過で画像のどの部分に焦点を当てているかを見ることができます。
また、計算は実際に調整されました。より単純な画像については、分類を決定するのに要する時間がより短くなります。複雑な画像と比較して時間がかかります。これらはSakamnaで行った作業のいくつかの例です。今日共有したプロジェクトの大部分はオープンソースです。これらはGitHubとブログにあります。私たちは日本のニーズに対するAIソリューションを開発し、日本でAIを民主化したいです。このソブリンスタックレイヤーについて共有しました。各国は、このスタックのどのレイヤーを所有したいのか、所有できるのかを選択できます。したがって、スタックのすべてのレイヤーを所有しようとしている国はありません。異なる国がどのように異なる所有権の決定を行っているかを見ることが重要です。これがソブリンティが実践で見える様子です。
結びに、皆様に、子どもから両親へ、研究者へ、AI工学者へのメッセージをお残したいと思います。えっと、非常に重要なことは、私たち全員が行為能力を有しており、地域的行為能力がグローバル能力よりもはるかに重要であることを認識することです。えっと、ですから本当にありがとうございます。本当にありがとうございます、Stefania。本日の最後の講演のために、私たちはSwix本人以上に適切な人を思いつくことができません。えっと、SwixはCognitionと一緒にいるのですが、同時に彼はグローバルAI Engineers会議の創設者でもあります。これがシンガポールでの初版であり、かつSwixはシンガポール出身であるため、彼が今日の講演第1日目を閉じるというのは全く理にかなっています。ですからSwix、ご準備ができたら、舞台はあなたのものです。>> わかりました。聞こえていますか?えっと、えっと、えっと、彼らはラベリアマイクを開いているのだと思います。えっと転送。これはどこですか?わかりました。問題ないはずです。大丈夫です。
不要です。大丈夫です。>> わかりました。皆さん、こんにちは。えっと、皆さんはいかがですか?会議を楽しんでいますか。はい。素晴らしい。いてくれて嬉しいです。えっと、ご存じない場合は、私はSean、またはSwixとも呼ばれています。私は3つの身分でここにいます。まず、私はAI Engineersの創設者です。えっと、次に、私はCognitionの顧問で、これは先導的なエージェントラボなのですが、それが何であるかを説明します。第三に、私はここにシンガポール人として来ています。これら3つの身分がすべてこの1つの講演で一緒になると思いますし、本当に皆さんとそれを共有したいのです。えっと、では、進めていきましょう、よろしいですか?えっと、このクリッカーは全く機能していないと思います。さて、クリッカーをスキップします。えっと、では、まず会議としての私たちのストーリーについて少し話します。えっと、喜びとともに申し上げますが、ご存じのように、えっと、えっと、この会議はすでに3歳になっています。
えーと、世界中のロンドン、パリ、サンフランシスコ、ニューヨーク、マイアミから、えーと、現在シンガポール、次にメルボルンまで、すでに展開しています。えーと、私たちは相当な成長を遂げています。えーと、現在、毎月150万人のユニークな開発者にサービスを提供しています。えーと、えーと、9,000人以上の方が、直接参加された方に加えて、本日のライブストリーミングを視聴していただきました。えーと、私たちは本当に、世界各地で開発者コミュニティを発展させ、えーと、AI産業にサービスを提供するために、最大限の努力を行っています。えーと、しかし特にシンガポールについては、ご存じのように、私はずっとシンガポール支持者です。私はここで生まれ育ちました。
私はえーと、大学のため米国に留学しましたが、えーと、シンガポールのために非常に率直かつ公に倡導してきました。えーと、特にえーと、同胞のシンガポール人のためですが、また初めてシンガポールを訪問しようとしている他の人たちのためでもあります。私はえーと、実は、Stefaniaのようなえーと多くのこのような国際的な友人たちを初めてシンガポール訪問に連れてくることができたのを本当に嬉しく思っています。えーと、実は、私の個人的なキャリアの出発点はシンガポールでした。えーと、私はGSCOM Asiaで講演しました。それはまだ私が行ってきた最も好きな講演の一つです。えーと、それは本当に私に可能性をくれました。えーと、自分自身のキャリアのためだけではなく、業界も国も一緒に鼓舞することができました。えーと、また、多くのシンガポール・ミートアップを組織してきたので、私はえーと、このことについては少し新しくないです。
えーと、ここにいるのは私たちの何人かの友人で、Lihao、Thor、Thomasを含みます。えーと、皆さんの何人かが見たことのある人たち、えーと、エンジニアリングとカンファレンスサーキットでおなじみの顔です。えーと、最近のことですが、約3、4年前に私はサンフランシスコに引っ越し、えーと、Leighton Spaceを開始しました。えーと、手を上げてください。私は『Latent Space』という私のポッドキャストについて誰かが聞いたことがあるかどうか分かりません。はい、わかりました。聴取いただき、ありがとうございます。えーと、その一部として、『AIエンジニア』と呼ばれるものが存在するという認識を持つようになりました。えーと、私は始めて、えーと、この悪名高い一行を書きました。えーと、これは私が人生の残りずっと一緒に生きることになるものです。
えーと、基本的には、リサーチエンジニアとフルスタックエンジニアの間に何らかのギャップが形成されていました。えーと、これは実際のところ皆さんが今日やっていることです。えーと、AIエンジニアです。私は、これは巨大な、継続的に成長する需要だと思います。えーと、あなたが知らないなら、このカンファレンスに来たがブログ記事を読んでいないなら、えーと、『AIエンジニアとは何か』の定義を読むべきだと思います。えーと、ほぼ同じ時期に、私は実際に自分自身で何かを始めました。私は単なるコンテンツクリエイターではありません。単なるコミュニティの人でもありません。えーと、私もビルダーです。えーと、ただし、私は本当に良いビルダーではありません。これについて非常に正直です。えーと、そこで私は自分自身のコーディングエージェントを構築し始めました。それは超人気になりました。それは『small developer』と呼ばれています。えーと、Claude Oneで構築されていました。想像できるなら。えーと、3つの主要なClaudeバージョンが過ぎました。私はこのもの上で構築を続けました。
えーと、私はそれについて非常に興奮していましたが、結局実際にスケーリングできませんでした。さらに、モデルの重みが一夜にして私に対してダウングレードされました。えーと、私はこれが陰謀論だと知っていますが、誓います、私のは本当です。えーと、このモデルは一夜にしてより愚かになりました。えーと、だから私はそれの構築を止めました。しかし、えーと、全体のプロセスを通じて、私は、えーと、何か より大きく、より良いものへと転向しました。だから、最初の『AIエンジニア』で、私は3種類の『AIエンジニア』があると宣言しました。えーと、私はしませんでした。ご存じのとおり、私は何らかの程度に拡張し始めました。実際に、これはキャリアの誤りかもしれません。えーと、その後の3年間に実際に起こったことは完全にこのシーケンスです。えーと、2024年には、私たちはより多く構築しました。えーと、何らかの『AIコーディングツール』。2025年はより多くのプロダクト関連の内容です。えーと、2026年は絶対に何らかの『エージェントデプロイメント』の年です。
えーと、はい。Andrej Karpathyはというと、彼はやや私のメンターのようなものです。えーと、彼は去年、これはエージェント十年の開始だと述べました。そうですね。OpenAIの創立を2015年の起点として捉えるなら、えーと、えーと、えーと、スケーリングの前10年を考慮すると、その後の10年に起こることはおそらくデプロイメント、えーと、およびエージェント構築のための、えーと、フレームワークとスキャフォルディングでしょう。えーと、これは実際に私をCognitionへと導いた経路です。えーと、えーと、彼らは3つの選択をしました。私は『small developer』を行っているときにそれらを行っていたことを望みます。私は2023年に『AIエンジニア』についての記事を書きました。えーと、これら3つの明白でない選択は、コードを選択すること、えーと、同期と非同期をブリッジングすること、および企業に焦点を当てることです。私はこれらの一つ一つが現在聞こえるようなほどに超明白だとは思いません。
2023年には、ChatGPTを構築したいと考えていて、消費者市場に参入したいと考えていました。えっと、2023年には、自回帰的な、えっと、大規模言語モデルを構築したいと考えていた可能性があります。そして、同期型の、えっと、同期型エージェントについては、本当に考えていませんでした。えっと、コードは多くのモダリティの1つです。えっと、しかし、私は思うのですが、えっと、ご存知のように、えっと、ビジネスはそれが最高のモダリティであることをすでに示しています。ですから、コードを選択します。えっと、これは私がCognitionに関する私のブログ記事で書いたものだと思います。私は本当に、コードをソフトウェアのエージェントのようなもの、コーディングエージェントのように話しました。もし、基本的には、ソフトウェアが世界を食べているなら、コードエージェントはソフトウェアを食べています。それは実際に、あなたが見たすべての他のエージェントデモンストレーションより短い時間の間に、多くの力と経済的価値を蓄積し始めています。これらのデモンストレーションはおそらくうまく機能していないかもしれません。
第二部分は、えっと、〜「半非同期価値の死」〜という名前のこのブログ記事で書いたものです。基本的に、中間立場はありません。あなたは、あなたの応答が非常に非常に速いことを望むか、えっと、または非同期で委任することを望むかのどちらかです。私は、えっと、ある種の不気味の谷効果が、えっと、応答またはLLMが速く進むが十分に速くない時に起こっていると思います。あなたはある程度、電話の向こう側で待機しています。それが音声であろうと、コードであろうと、または他のいかなるインタラクションモードであろうと。つまり、基本的には、あなたはただえっと、最も同期的なリアルタイムえっと体験、または最も非同期の体験のダンベル方式が必要です。これら両方を十分に跨ぐことができる企業は、えっと、非常に良くできると思います。えっと、最後に、エンタープライズ。えっと、私は、これは抽象的な意味である種の意味のあるものだと思います。
明らかに、あなたが追求したいのは、シティバンクやOCBCやゴールドマン・サックスのような大きな旗艦顧客のようなものです。えっと、しかし、私は、私がなぜそうなのかをあまり理解していないと思います。ですから、私はより多くの時間をかけて、ある程度、これを深く掘り下げるつもりです。ただ、あなたが真の企業フォーカスが何を意味するかを理解できるようにするためです。えっと、企業フォーカス、私、えっと、非常に単純な用語では、これは真摯な顧客にサービスを提供することだと思います。多くのAIクライアントは真摯ではありません。例えば、彼らはあなたのツールを試して、そしてあなたにフィードバックを与えません。彼らはあなたのツールを試して、3か月後に新しいホットなものを追いかけます。えっと、エンタープライズは、あなたが得ることができる最も真摯な審査です。えっと、あなた、えっと、それはどういう意味ですか?えっと、多くのツールはシングルプレイヤーとして始まります。エンタープライズは即座にマルチプレイヤー、数十万の開発者、数十万のリポジトリまでです。
えっと、価格設定の能力も非常に興味深いです。えっと、標準的な月額20ドルのプランから始めて最大補助金を求めるのではなく、人々が補助金を削除する時に怒ったり次の最高の補助金に進み続けるのではなく。えっと、人々は結果に対して支払う意思があります。なぜなら、私たちが話しているのはエンタープライズだからです。えっと、そしてまた、しかし、私にとって最も興味深いのは、高額な問題を発見する最初の人になることです。えっと、これはおそらく、えっと、企業規模でのみ発見できます。えっと、だから、これはある種の標準的なCognitionプレゼンテーションです。あなたに私のバージョンを見せたいです。これがより思い出に残ることを望んでいます。えっと、総合的には、私はこれを〜「細節内のDevon」〜と呼んでいます。これは少しいい二重表現のようです。えっと、これは、えっと、会話の第二部分のテーマです。そうですか?私はCognitionについて話しに来たわけではありません。
私は Cognition から学んだことについてお話しする為に来ています。万が一、皆さんが最終的にエージェント・ラボを構築するか、またはエージェント・ラボで働くことになった場合に備えてです。なぜなら、これは任何の AI エンジニアにとって最も価値のある単一の経験であると思うからです。えっと、参考のために、私は〜「エージェント・ラボ論文」という投稿でこれについて書きました。えっと、これは私たちがニューヨークで行った 11 月の AI エンジニア・サミットです。えっと、一方ではエージェント・ラボをリストアップし、他方ではモデル・ラボをリストアップしました。YouTube でこれらの会議を見ることができます。えっと、エージェント・ラボとモデル・ラボがどのように見えるかの例を見たいのであれば。えっと、しかし図を使いたいのであれば、これがそれかもしれません。えっと、モデル・ラボは比例的にトレーニングと計算にリソースを割り当てます。えっと、デプロイメントにはより少なくリソースを割り当てます。明らかに、そのデプロイメントは時間とともに増加します。
えっと、エージェント・ラボは資源配分と優先度の観点から基本的に完全に反対です、そうでしょう?えっと、これは大部分において成立していると思いますが、彼らが互いの領地を侵食し始めているという点を除いてです。例えば、私がこれを書いたときから、現在はより明確になりました。モデル・ラボは内部でエージェント・ラボをえっと構築しており、えっと OpenAI と Anthropic もえっと技術者を採用しながら行っています。その後、エージェント・ラボも内部でモデルを構築しており、Cursor と Cognition の場合、えっと彼らのモデルの強化学習に多くの計算を投入しています。えっと、もし皆さんがこのような方法である程度分解したいのであれば、そのようにすることもできますが、時間の為、私はこれをスキップしたいです。えっと、私は思いますが、えっと、細部は私が本当に力を入れたいことです、そうでしょう?わかりました。
ですから、例えば、えっと、多くの人は、えっと、あなたの最も好きなコーディング・エージェント選択肢をそこに入れるだけ、と言うでしょう。えっと、誰かを怒らせないように、具体的な名前は挙げたくはありません。えっと、ただそれをコンテナに入れるのです。えっと、現実はそれが単にコンテナ形式についてだけではないということです。えっと、それはまた単に有状態セッションを構築することについてです。えっと、これらはすべて歴史上現れた問題です、そうでしょう?えっと、それは本当のマシン・セマンティクスを与えることについてです。本当のコンピュータが使用するすべてのツールを与えることについてです。
えっと、これは興味深い実生活の例です。共有マシン上でえっと、もし皆さんが有状態セッションのコーディング・エージェントのマルチテナント性を実装したいのであれば、実際には破裂します、そうでしょう。ですから、これは実際のイベントです。えっと、これらは同じ根本原因を持つ実際のイベントです、そうでしょう。えっと、実際のイベント例としては、並列エージェント・セッションが互いに干渉します。なぜなら、彼らは共有キャッシュを持つからです。えっと、または、エージェントと自動例外モードが、企業全体のソース・コードを個人用 GitHub に公開してしまいます。なぜなら秘密鍵がえっと混在しているからです、そうでしょう。えっと、彼らが共有しているのは基本的に、皆さんがコンテナ内に隔離の境界がないということです。コンテナは1つのことだけを知ります、えっと、しかし、それは本当ではなく、えっと、それはエージェント・セッション間でコンテキストを越えたり変更したりするために本当には設計されていません。
えっと、つまり基本的には、最終的に構築しているのはエージェント・プラットフォームで、これは VM またはコンテナの上にあるすべてです。えっと、これが完全なリストです。私は基本的には、ある程度これをオープンソース化しました。エージェント・ラボを構築したいのであれば、これらが確実に経験しなければならないことです。えっと、もし購入を検討しているのであれば、えっと新しいエージェント・ラボに初めて遭遇するたびに評価する必要があるものです。えっと、セキュリティは非常に、非常に重要です。もちろん、特にローカル環境で複数人が関わっている場合、複数のレベルのチーム、組織があり、これらすべてのことがある場合です。えっと、ですからえっと、エージェントには絶対に多くのスコープ、アイデンティティ、最小権限が必要で、これらはすべてパーミッション・モデルの観点からある程度解決する必要があります。
えっと、第二に、知覚という点では、つまり GPT ラッパーということですね。そう、それは基本的には、えっと、アプリケーション層に携わる人々がやることの全部です。えっと、ある意味では、GPT ラッパーであることを誇りを持ってできると思いますが、えっと、ゲーム全体の名称というのは、それを厚みのある価値のあるものにすることなんですよね。えっと、つまり現実は、彼らは実際に長期的なモデル多様性を追求しており、これは歴史的に非常に良い賭けとなっています。えっと、モデル多様性は証明されており、えっと、時間とともに増加する傾向があり、えっと、OpenAI の市場シェアはかつて 70~80% でしたが、現在は 30% 以上に低下しており、えっと、情報源によって異なりますが、えっと、そしてえっと、あなたは単に訓練しているだけではなく、あなたは単に他人のモデルをラッピングしているだけではなく、あなたもますますあなた自身のドメイン固有データと使用事例に基づいて訓練することができるようになっています。えっと、ですから Cognition は、えっと、これは、えっと、これらのスイートスポット・モデルと 3.5 モデルで、私も関与してきましたし、Cursor も同じことをしています。
えっと、他の十分に有能なエージェント・ラボであれば、えっと、えっと、構築するための十分なリソースを持つでしょう。そしてあなたはそうすべきです。なぜなら、目的への適合性がはるかに良いでしょう、ね、えっと、えっと、ほぼすべてのワークロードに対して。わかりました。えっと、もう一つの認識。えっと、評価はそのようなあいまいなマーケティング概念です、ね。えっと、ほぼすべての人は単にあなたに SWE-bench を見るよう言い、私のスコアは別より 0.1% 高い。私のモデルはより優れています。えっと、現実では、えっと、現実は極めて多次元的です。えっと、ですからこれは Cognition 内で実行できるあらゆるさまざまなタイプの評価のすべての例です。えっと、それは SWE-bench では要約不可能です。もちろん、えっと、これらの実生活のユースケースのそれぞれに対して異なるアプローチを取る必要があります。
その各々には、数十億および数百億ドルが背後にある可能性があります。えっと、ですから私の、えっと、辛辣なホットテイクは、企業があなたが得られるかもしれない最も難しい評価であるということです、ね。えっと、私にエンタープライズより難しい強化学習環境を見せてください。えっと、Cognition 自体は、複数の組織、複数の Slack、および複数の、えっと、IT システムを持つエンタープライズです。えっと、それは過去、えっと、6 カ月で本当に解決されました。これは私にとって興味深いことです。えっと、6 カ月以上参加している、えっと、私はそれが良いと思いますし、今私は良い別の定義を持っています。えっと、興味深いことに、それは AR 成長と関連付けられており、これらすべてが公開されています。ですから、あなたが知らないことは何も言っていません。えっと、えっと、新しいものは、えっと、えっと、後で見せます。
あの、でも私は確かにそう思うのです。あの、それはあなたが追跡しなければならないもののひとつなのです。例えば、あなたがどれほど誠実であるか、あなたが世界でどれだけ多くの問題を解決しているか、あの、あの、興味深いデモンストレーションを行うことの比較で。あの、私が考える興味深いことのひとつはコミュニケーションでもあります。あの、どのような種類の結果に対して人々はお金を払うのか。あの、ランディングページの上で、パンフレットの中で、スピーチの中でこれを行うことは非常に困難です。あの、ですから私は基本的にまったく努力を払いません。例えば、人々が私にこれを貼り付けることを期待しているので、私はこれをここに貼り付けたのです。でも私はあの、それをスキップするつもりです。より地域的で具体的な物語をあなたに話します。私たちが APAC とシンガポールで発見したことについて。なぜなら、それが基本的に私がオープンソース化できるようになった理由だからです。はい。わかりました。ですから、それが第三部分でした。あの、なぜシンガポールなのか。あの、私がここにいるのはなぜですか?
あの、私は思うのですが、あの、要約できるとしたら、シンガポールの経済発展の、あの、物語は貿易から始まりました。その後、私たちは石油へと転向しました。その後、私たちは金融へと転向しました。私たちはバイオテック分野で少しばかりの浮気をしました。あの、暗号通貨の側面についてはお話ししないようにしましょう。あの、でも、あの、次は何ですか、ね?ですから、私の辛辣な意見は、私たちはこれらすべての、あの、主要な主要なプレイヤーを持っているということです。興味深い事実として、Keo と Sam Corp が Catrium に合併したことを誰か知っていますか?私はちょうど発見したばかりです。あなただけがご存知でした。あの、ですから、真のシンガポール人なら誰もが言うように、〜「はい、Sim Corp、Marine、Keo Corp。」Catrium とは何ですか?あの、それは新しい実体です。とにかく、私の、私の、いくぶん生意気な答えは、明らかにシンガポール経済の第四段階があり、それはここにあります。あの、あの、私がここにいるのは、シンガポールが Cognition のアジア本部として選ばれたからです。
あの、それはそう、あの、非常に、超興味深いです。あの、私は思うのですが、あなたはある程度、あの、シンガポール人としても、私は思うのですが、あなたはこの旅を経験しなければなりません。それはある程度、私たちが常に望んでいたことなのです。ね、あの、私たちは常に MNC を望んでいたのです。あなたは現地の用語を知っています。あの、ここに彼らのベースを選択する、それは単に販売のためだけではなく、それは販売が良いです、販売は素晴らしいです、あの、むしろエンジニアリングのためでもあり、研究のためでもあります。あの、私にとって、あなたは海外で成功する必要があります。あの、地元で認識され、パフォーマンスが良い。私はこれを Sununu 戦略と呼んでいます。あの、それは単なる GTM ではありません。ですから、あの、これらすべての引用があります。あの、私は、あの、本当に好きです。あの、あの、Cornish は Havana を採用または買収しました。Nathan も観客のどこかにいると思います。そして他の何人かのクルー。やあ Nathan。あの、絶対に後で Nathan と、あの、話してください。もし COG に参加したいなら。あの、ですから私は思うのですが、あの、それは、あの、うまくいきます、ね。
私が言いたいことのすべては、私は、私はシンガポールのテック業界の一部であり、私の成人生活です。私たちはこのレベルの外国の関心とアメリカの関心を経験したことがありません。あの、この地域で、シンガポールで、このエンジニアリングと研究に基づく地域で、今まで。ですから、今がその時です。やりましょう。わかりました。あの、あの、私に、あの、ですから私は、あの、ですから私は実際に Nathan を持っています。あの、彼は私の chaji です。あの、すべてのあの通話ログを経験しました。あの、あの、すべての仕事です。なぜなら、非常に多くの仕事があります。あの、幕後で起こっています。あなた方は見たことがありません。なぜなら、あなたはこのビジネスの中にいないからです。私たちはいるのです。ですから、私は、あの、分かりますが、あの、いくつかの例を共有したいと思います。ね、あの、あの、これは、あの、APAC の純粋な需要量の例のようなものです。ね、あの、LM トークンに毎年費やされる数百万、数千万ドルです。わかりました。
「あ、あ、彼らあ、彼らはあなたのローンを実行し、あなたのお金はスプレッドシート上にあり、そこに留まらないビジネスアナリストによります。ですね。想像してください。例えば、あなたが入ってきたら、例えば、この銀行がこのように運営されている。そうですね。ですね。だから、あなたはそれをシステム化する必要があります。あなたはあ、あなたはコードを書く必要があります、さもなければあ、ビジネスアナリストによって手動で操作されます。あ、政府も同じです。あ、同じようにああ、技術の他の部分。あ、私は思いますあ、ご存知のようにあ、もう一度のように、これはこの種のあ、私たちがこれらのものを提示する通常の方法です。これらはすべてお客様からの実数です。いいえいいえ来ていません。来ていません企業から。しかし私は思いますようなあ、単に数字そのものから見えるのは難しいです。例えば、よし、これが配信時間を 10 倍に加速することは何を意味しますか?」
「わかりました。基準を見てみましょう。ほら、基準は地元の銀行で、あなたは 200 万行の COBOL コードを持っています。ドキュメントはなく、エンジニアはいません。どうしますか?えっと、ここが AI を本当に適用し始めることができる場所です。えっと、聞いてください。これはシンガポール独有のものではなく、また、一つの銀行独有のものでもありません。すべての銀行です。すべてです。つまり、本当に大規模な、えっと、顧客数を持つ任意のもの、つまり、エンタープライズレベルの任意の企業です。えっと、毎年数億ドルの AI 予算、各デプロイで 600 人の開発者。えっと、ご存知のように、する必要のある作業の量は本当に信じられないほどで、私たちはこのために人間を雇うことができません。それはあまりにも退屈だからです。」
「これは、これはある種またはシステムで、誰も為にそれで働きたくありません。とにかくですね。えっと、今、私はこれらの新しい話を初めて共有しています。もし、ご存知のように、もっと質問したければ、Nathan に聞いてください。えっと、でも私は Cognition が思い付いたいくつかの解決策を共有したいだけです。えっと、これらはすでに機能しましたね。えっと、Devon は playbooks という名前のものを持っています。基本的には通常のチャットよりもはるかに構造化されています。基本的には、playbook は数億ドルの価値がある可能性があります。私の見方では、なぜなら、それらは構造化されたテンプレートで、オープンエンドのチャットよりもより信頼できる方法で並行して agent を処理できるからです。だから、もし Devon playbooks をまだ試していないなら、絶対に試すべきです。これらの人は、これらのものを使って銀行を変革し、数十億ドルを稼いでいるからです。」
「えっと、コードベース理解は再びこのような模様です。なぜドキュメントがないのですか、ですね。だから、もちろん、AI にまず文档を書かせたいですね。そして、その文档を使って移行を行います。だからえっと、Cognition は Deep Wiki の最初のパイオニアです。えっと、多くの人もこれが好きだと思います。えっと、ブラウンフィールド開発には数十億ドルの収益があります。はい。最後に、えっと、これは企業では標準的なものだと思います。しかし、人々と営業担当者が「わかりました。その人は、カスタム SSO を持たない限り、私たちと話さえしません」と言うのを見ます。えっと、そのように現実離れた、またはそのように直感的で実際の感覚です。なぜですか。彼らは彼らの GitHub と GitLab をロックしたからです。彼らは責任ある企業だからです。そして、私たち他の人は、私たちは単にカジュアルに私たちの Obsidian と私たちのえっと、個人的なオープンなものに物を投げます。私たちは本当にそのようには考えないでしょう。」
しかし、何百万人の信頼と何百万人のお金を持つとき、もちろん、このようなセキュリティの問題を考える必要があります。これらの企業のために働く人もまた、必然的にそうする必要があります。だからこそ、私はアジアのエージェントについて議論しているのです。さて、別の方向へ向かいましょう。えっと、APEC についての学びを共有しました。今、私はシンガポールについて話しており、なぜそれを「エージェント国家」と呼びたいのかについてです。まだそこに到達していませんが、その方向に向かっています。えっと、私たちの親愛なるフロンティア・デプロイメント大臣に戻る必要があります。えっと、アビシェク、彼は観客のどこかにいると思いますが、誰かが彼にフロンティア・デプロイメント大臣というニックネームを付けました。このニックネームはちょっと引っ掛かりがあって、みんなそんな感じです。えっと、彼は今朝のスピーチで3つのことを言いました。
彼は、私たちが展開、民主化、および分散化の面で利点を持っていると言いました。これは再び暗号通貨についてではありません。彼は実際のところ、ただ意味しているのは、えっと、彼が AI をあらゆる場所に、公共サービスに存在させたいと望んでいるということです。えっと、私はこれら3つの側面すべてで私たちが役に立つことができると思います。私はこれが実は非常に非常に良いことだと思い、彼はこれを理解しており、私たちの他の人もこれを理解することができます。えっと、私にとって、えっと、シンガポール自体がこのような需要を持っていることに気づく、えっと、AI エンジニア人材の需要と供給の約4倍、これは本当に衝撃的です。えっと、ご存知のように、このギャップは引き続き拡大し、成長しますよね?これらの職位への需要は毎年40%増加しています。リスクにさらされているお金がたくさんあります。えっと、これは LinkedIn がこの分野を調査して本当に報告したものです。ですから、私はこれがかなり信頼できる数字だと思います。
えっと、ですから、私の大胆な見方は、政府への望みを諦めたということです。えっと、私は今しがた大臣を褒めたことを知っていますが、えっと、私は何年も待っていました。政府がテック部門のために何かをするのを待っていました。えっと、私はジョスミン大臣とポッドキャストをしたことがあります、えっと、一緒に歩いていて、その未来について話していました。何も起こりませんでした。えっと、ただ、ただシンガポール国民である私たち、シンガポール市民である私たちが自分たちで行動することに決めたときだけです、ですね?えっと、シンガポールは政府主導の経済発展の歴史があると思うのです。えっと、新しい時代は民間部門が最初に公共部門へリードしていくと思うのです。だから、これが起こるようにしましょう、ですね?えっと、この会議はその一例です。
私たちは政府の承認を待ちませんでした。あるいは、えっと、彼らから支援をもらうのを待ちませんでした。IMDA と AI Singapore が、えっと、プルマンおよびすべての他の展示会イベントで私たちをサポートしてくれているのは素晴らしいことです。外交部が私たちをサポートしてくれているのは素晴らしいことですが、私たちは彼らを必要としていません。私たちはここで民間部門のために働いており、テック部門として自分たちを構築しています。ですから、これはすべての人が高いエージェンシーを持つことから始まります。特に、こうしたそばに立っている組織者たちです。彼らに拍手を送ってください。彼らはこれを起こしました。これは彼らのサイドプロジェクトです。彼らが皆さんを一緒に集めました。えっと、私は明らかに彼らを助け、サポートしました。しかし、この会議は彼らなしには実現しなかったでしょう。ですから、えっと、それはこの部屋のすべての人から始まります。それは私から始まります。
これは65 labsのこれらの組織者から始まりました。今、それはあなたから始まります。えーと、ですから、私は本当にあなたがAI Engineerを卒業する時に、あなたの人生においてより行動的になり、本当にシンガポールをより行動的な国にしてほしいです。非常にありがとうございます。さて、私たちは初日の講演の終わりに到達しました。えーと、最後まで付き合ってくださってありがとうございます。これは本当に素晴らしいです。自分たちに拍手をしてください。なぜなら、あなたたちは10時間のプログラミングを乗り切ったからです。では、皆さんが食事に出かける前の最後の案内です。えーと、ここに食後のパーティーがあります。私たちは約9:30にドアを開きます。私は10:00からDJを始めます。私たちはイギリスから来たDJを予約しました。彼は11:30から演奏を開始します。最初の500人は無料で飲み放題です。ですから、もしあなたが来て飲みたいのなら、歓迎です。椅子は移動されます。
これはダンスフロアになります。えーと、私たちはあなたたちが来て楽しんでほしいです。えーと、もしあなたが会議参加者なら、あなたの首紐をお持ちください。なぜなら、これで私たちがあなたの入場を優先できるからです。それらを失くさないでください。なぜなら、私たちは明日新しい首紐を印刷しないからです。ここまでの説明がわかるといいのですが。もしすべてが良いなら、非常にありがとうございました。明日の朝早くまたは今晩お会いしましょう。
関連動画
AIE シンガポール Day 2:Google DeepMind / Cloudflare / Arize 等ロボット・ランタイム主題
2026-05-17 · AI Engineer Singapore · 08:00:00
AI Engineer シンガポール Day 2 全編。Google DeepMind、OpenClaw、Adaption、Arize、Cloudflare、Robot Company などのセッション。Day 2 はロボティクス、モデル可観測性、ランタイムスタックに重点。
HSC パイプラインエンジニアリング:RAG AI でエンジニアリングナレッジベースを構築
2026-03-20 · HSC Pipeline Engineering · 05:00
HSC Pipeline は AISG LADP プログラムを通じてローカルデプロイ RAG AI ナレッジベースを開発し、エンジニアリングナレッジのサイロを破壊し、意思決定効率を向上させた。
王乙康氏が AI、遺伝子スクリーニング、超高齢化シンガポールの準備について語る
2026-03-04 · Ong Ye Kung · 30:36
衛生大臣王乙康は、医療におけるAIの応用および超高齢社会に対応するためのシンガポールの戦略について深く掘り下げて論じた。
YTL PowerSeraya:LLM が電力市場ルール分析を赋能
2026-02-20 · YTL PowerSeraya · 05:00
シンガポール電力会社 YTL PowerSeraya は LADP を通じて電力市場ルール専用 LLM を構築し、レポート自動分析とルール照会を実現した。
Skybots:RPA から LLM 駆動のインテリジェントカスタマーサービスへ
2026-01-15 · Skybots · 05:00
会計科学技術企業 Skybots は LADP を通じて RPA を LLM 駆動のインテリジェントカスタマーサービスにアップグレードし、複雑な会計ワークフロー照会を処理した。
楊莉明、AI の中小企業、教育および社会における役割について語る
2025-11-19 · Josephine Teo · 06:17
楊莉明は、AI がいかに中小企業の転型を支援し、教育体系を再構築し、社会のあらゆる層に利益をもたらすかについて探究する。