Groq

Groq, Inc.

🇺🇸
チップ設計🇺🇸 US非上場
groq.com

主要製品

GroqChip LPU、GroqCloud AIインファレンスサービス

サプライチェーンを追跡 →
詳細情報▼ 展開

Groq, Inc.はカリフォルニア州マウンテンビューに本社を置く非上場AIインフラ企業で、GoogleのファーストTPUのリードエンジニアでもあったJonathan Rossによって2016年に設立された。Groqの創業の洞察は、LLM推論——トレーニングとは異なり——は本質的にコンピュート制限ではなくメモリ帯域幅制限であるという点だ:ボトルネックは、シーケンシャルなトークンごとの生成プロセスに追いつくのに十分な速さでモデルの重みをメモリから処理コアに移動させることだ。GroqはLPU(言語処理ユニット)を、根本的に異なるアーキテクチャアプローチでこのボトルネックを排除するソフトウェアプログラマブルな確定的データフロープロセッサとして設計した。 LPUアーキテクチャはTemporal Instruction Set Architecture(TISA)を使用したSystolic Arrayデザインを使用する——コンパイラがコンパイル時に各命令がいつ実行されるかを正確に決定する静的スケジューリング実行モデルで、動的スケジューリング・キャッシュ階層・アウトオブオーダー実行ハードウェアがない。これにより、GPU推論タイミングの高い分散を引き起こすすべての非確定的レイテンシの原因(キャッシュミス・動的メモリアロケーション・分岐予測失敗)が排除される。結果として、バッチサイズや同時ユーザー負荷に関わらず、大規模モデルに対して完全に確定的なシングルデジットミリ秒のトークンごとのレイテンシを提供する推論プロセッサが実現した。1チップのLPUはHBMではなくSRAMを使用して約750 GB/sのメモリ帯域幅を実現する。 GroqCloudというGroqの公開推論APIサービスは、2024年初頭にLLaMA 2 70B推論でユーザーあたり毎秒300トークン以上を実証した際——当時の同等GPUベースの推論サービスの約4〜10倍速い——AI推論速度論争で最も引用されたベンチマークのひとつとなった。GroqCloudのスループット優位性はLPUのメモリ帯域幅アーキテクチャとGroqのコンパイラ最適化モデルサービングパイプラインの両方から来ている。Groqは2024年8月のシリーズD資金調達ラウンドでSamsung Ventures・Ciscoなどの参加を得て6.4億ドルを調達し、総資金調達額を約11億ドル、企業評価額を28億ドルとした。 GroqのチップはTSMCが製造している。現行のGroqChip(LPU1)はTSMCの14nmプロセス上にあり、後継世代はより先進ノードで計画されている。Samsung Venturesの投資は将来の製造代替としてのサムスンとの潜在的な戦略的関係を示唆しているが、TSMCがGroqの主要ファブパートナーとして残っている。LPUのSRAM中心の設計——HBMスタックではなく分散オンチップSRAMアレイを使用——はGroqがHBMパッケージングのためにSK HynixやSamsungに依存しないことを意味し、GPUベースの推論インフラと差別化しサプライチェーンの複雑さの一層を排除する。 Groqのターゲット市場は、コストパートークンスループットよりもレイテンシが重要なリアルタイムAI推論アプリケーションだ:音声AI・カスタマーサービスエージェント・リアルタイム翻訳・コード補完・サブ秒の応答時間を必要とする企業アプリケーション。同社はまた確定的レイテンシがミッションクリティカルな要件となる国防・諜報コミュニティ契約も追求しており——LPUの予測可能なタイミング特性が固有のスケジューリング分散を持つGPUベースシステムに対して意味ある優位性を提供するユースケースだ。AIコンピュートの全体的な混在においてLLM推論ワークロードがトレーニングワークロードよりも速く成長するにつれて、Groqの特化した推論専用アーキテクチャはGPUベースのトレーニングインフラの補完(置き換えではなく)として位置づけられる。

クリティカルパス — 原料シリコンから配備まで

ファウンドリ

TSMC

CoWoS先進パッケージング、N3/N2ロジック

EDAツール

Synopsys

Design Compiler(合成)、PrimeTime(タイミング)、VCS(シミュレーション)、IC Compiler 2

EDAツール

Cadence

Virtuoso(アナログ)、Genus/Innovus(デジタル合成)、Tempus(タイミング検証)

チップ設計

Groq

GroqChip LPU、GroqCloud AIインファレンスサービス