AI業界デイリーニュース
Codex Windows対応、grok-build-0.1、Claude Opus 4.8、Command A+、Rosalind Biodefenseを中心に、AI業界の一日を整理。
本日のハイライト
OpenAI、CodexにWindowsネイティブのComputer use対応を追加
ChatGPTモバイルアプリからWindowsマシンの操作・タスク起動・ステアリングが可能になり、開発者体験が一気に最強クラスと評される段階に到達した。
xAI、agentic coding特化モデル「grok-build-0.1」をAPI public betaで公開
256K contextと最大8体までの並行エージェント実行に対応。$1/M input・$2/M outputという低価格でClaude/Codex対抗の選択肢が増えた。
Claude Opus 4.8、会話途中でのシステム指示追加に対応
プロンプトキャッシュを維持したままmid-taskのinstructions更新が可能になり、コストとレイテンシを削減できるようになった。
Cohere Command A+、機械翻訳ベンチマークで新記録
Mistral Medium 3.5、DeepSeek、gpt-oss、Claude Opus 4.6、Google Translateを上回り、特化モデルの存在感を示した。
OpenAI、生物防衛イニシアチブ「Rosalind Biodefense」を発表
GPT-Rosalindへの米国政府・同盟国アクセスを拡大。安全保障領域でのAI利用がまた一段、実装寄りに進んだ。
注目トピックと反応
OpenAI、CodexにWindowsネイティブのComputer use対応を追加
CodexがWindowsネイティブで直接デスクトップを操作できるようになり、クリック、ドラッグ、ファイル生成、アプリ起動までを扱えるようになった。ChatGPTモバイルアプリからWindowsマシン上のタスクを起動、レビュー、ステアリングできる点も大きい。
開発者向けのQoL改善も同時に投入され、外出先からモバイルで進捗確認しつつ複数エージェントを並行実行するワークフローが現実的になった、という評価が目立つ。
一方で、Windows版はlaggyでバグが多いという苦言もある。スクリーンショットが一瞬で消える、モバイルから添付画像が見えない、モバイルからのファイルアップロード不可といった具体的な報告もあり、安定性は当面の課題になる。
xAI、agentic coding特化モデル「grok-build-0.1」をAPI public betaで公開
xAIがGrok Build CLIを支えるagentic coding特化モデル「grok-build-0.1」をAPI public betaで公開した。256K contextと最大8体までの並行エージェント実行が可能で、価格は$1/M input・$2/M outputと低水準。
ChatGPT、Codex、terminal accessを足したような存在と位置付ける声があり、コスト効率が高くagentic workflowに向く新星としてベンチマークする価値がある、という評価が出ている。CLI中心でpublic beta段階のため、実運用でのバグ報告はまだ少ない。
Luma Agents、記事やニュースレターから販促ビジュアルを一括生成
Luma Agentsはブログ記事やポッドキャスト原稿、ニュースレターを投入するだけで、hookやaestheticの指示に従ってサムネイル、クリップアート、プロモグラフィックを一括生成する。
クリエイターからはcreative automationの完成形、デザインスキル不要でscroll-stopping visualsが出ると高評価。ニュースレターを投入すると、レイアウト、タイポグラフィ、視覚階層まで自動処理してくれる点が支持されている。
Kling AI、AI長編「RAPHAEL」の制作ワークフローを公開
Kling AIがカンヌ出品のAI長編「RAPHAEL」の制作ワークフローを公開した。アイデア出しからストーリーボード、4K画像生成、一貫性を保った動画化までを一気通貫で行う事例が示されている。
Kling O1ではreference videoに基づいて表情、ポーズ、スタイルがショット間で一貫し、character consistencyが強固になったという声がある。複雑なアクション連続では微調整が必要との指摘も残るが、single imageをdynamic sequenceへ変換するパイプラインは成熟期に入った印象だ。
カテゴリ別ハイライト
基盤モデル
Anthropic Claude Opus 4.8がKVキャッシュを維持したままmid-taskのinstructions更新に対応し、コスト・レイテンシ両面で改善。StepFunはagentic向けオープンウェイト「Step 3.7 Flash」を投入。Alibaba Tongyi LabはVision-Language-Action統合モデル「Qwen-VLA」(Qwen3.5-4B + 1.15B DiT)を発表。Gemini 3.5 Proの来月リリース観測も浮上。Cohere Command A+は翻訳ベンチで主要モデルを総なめした。
動画生成
Runwayが一人月製作事例「The Rogue」の舞台裏を公開し、Runway APIにSeedance 2.0やGPT Image 2など外部モデルを統合してハブ化を進めている。Vidu Story Gridチャレンジも始動し、画像からシネマティック映像への変換コンペが開催中。
音声・音楽
Together AIがArtificial Analysis計測でSTT最速2モデルを提供。NVIDIA Parakeet-TDT 0.6B v3を含み、20時間音声を10秒未満で文字起こしできる水準に到達した。
プラットフォーム
fal Assetsがローンチし、画像・動画・音声・3Dを統合ライブラリ化してセマンティック検索を提供。Databricks Unity CatalogではManaged Iceberg、Iceberg v3、Foreign IcebergがGAになり、オープンレイクハウス基盤が前進。Pika Founder Starter KitがClaude MCPで利用可能になり、Google ADKは長時間稼働エージェントの構築フローを整備。Chromium WebMCPはエージェント信頼性向上と専用DevToolsを公開した。
イベント
NeurIPS 2026 May Newsletterが公開。Databricks Data+AI Summitの開催告知も進んでいる。
キートレンド
エージェント型コーディングがOSを越えて主戦場化
Codex Windows対応、grok-build-0.1、Step 3.7 Flash、Pika Founder Kit on Claude MCPと、専用モデルとComputer Useの組み合わせが一気に揃った。モバイルからデスクトップを動かす運用が現実解になりつつある。
エージェント信頼性インフラの整備
WebMCP、Chrome DevTools for agents、Google ADKの長時間稼働エージェント、評価フレームワークの整備など、本番運用に耐える評価・実行基盤が前面に出てきた。一方で、Web経由の間接プロンプトインジェクションとSEO poisoningを組み合わせた新攻撃手法も警告されている。
アセット統合とマルチモーダル自動生成への収斂
fal Assets、Luma Agents、Runway APIの外部モデル統合により、生成物の管理とワークフロー横断が一気に進む。クリエイティブ系AIは生成だけではなく、保管、検索、再利用まで含む運用基盤へ広がっている。
特化モデルが汎用LLMをベンチで上回るアピール
Cohere Command A+が翻訳で主要モデル超え、Parakeet-TDT v3がSTTで圧倒的速度を出すなど、ジャンル特化モデルの存在感が増している。