人工知能の今を、世界にいち早く。

𝕏inrss
Technical Brief

モデル、動画、音声、実行基盤の技術動向

カテゴリ別ハイライトを技術領域ごとに整理。

基盤モデル

Anthropic Claude Opus 4.8がKVキャッシュを維持したままmid-taskのinstructions更新に対応し、コスト・レイテンシ両面で改善。StepFunはagentic向けオープンウェイト「Step 3.7 Flash」を投入。Alibaba Tongyi LabはVision-Language-Action統合モデル「Qwen-VLA」(Qwen3.5-4B + 1.15B DiT)を発表。Gemini 3.5 Proの来月リリース観測も浮上。Cohere Command A+は翻訳ベンチで主要モデルを総なめした。

動画生成

Runwayが一人月製作事例「The Rogue」の舞台裏を公開し、Runway APIにSeedance 2.0やGPT Image 2など外部モデルを統合してハブ化を進めている。Vidu Story Gridチャレンジも始動し、画像からシネマティック映像への変換コンペが開催中。

音声・音楽

Together AIがArtificial Analysis計測でSTT最速2モデルを提供。NVIDIA Parakeet-TDT 0.6B v3を含み、20時間音声を10秒未満で文字起こしできる水準に到達した。

プラットフォーム

fal Assetsがローンチし、画像・動画・音声・3Dを統合ライブラリ化してセマンティック検索を提供。Databricks Unity CatalogではManaged Iceberg、Iceberg v3、Foreign IcebergがGAになり、オープンレイクハウス基盤が前進。Pika Founder Starter KitがClaude MCPで利用可能になり、Google ADKは長時間稼働エージェントの構築フローを整備。Chromium WebMCPはエージェント信頼性向上と専用DevToolsを公開した。