
こんにちは、マネックス・ラボの氏原です。
マネックス・ラボでは、証券サービスにおけるAI機能の開発等も行っているのですが、大きな課題としてLLMの推論コストの問題があります。
コストを下げるために色々な工夫の余地はあるのですが、多くのお客様に使っていただけるように様々な機能を提供しようとすると、将来的に月額数百万円レベルで費用が膨らんでしまう懸念があります。
例えば、自社サーバーで軽量なモデルをホストして、そこで推論を回すやり方もあると思いますが、これはこれでインフラ運用コストがかかります。
そこで、個人的に理想形の1つだと考えているのが、ユーザーの端末側で推論が完結する「オンデバイスLLM」です。これが実現すると、事業者側の推論コストは完全にゼロになる可能性もあります。
ただ正直なところ、オンデバイスLLMは性能的にまだまだ実用性に欠けるという認識で止まっていました。
きっかけは Gemma 4
ところが最近、ラボ内でGemma 4のE4B(4.5Bパラメータ)の量子化版を試してくれた方がいたので聞いてみたところ、意外とちゃんと答えてくれるという評価でした。
ちょっとした要約・書き換え・分類くらいなら、プロダクトに組み込むことも検討できるのではという話になりました。
後から調べてみると、Gemma 3からGemma 4への進化は1年とは思えないペースで、特にコード生成や数学系のタスクで大きく伸びているようでした。Gemma、Llama、Qwenといったオープンソース勢は、かなりの速度で毎年性能を更新しているようです。
現時点で普及しているスマホのスペックでは、まだまだ課題があると思いますが、2-3年のタイムスパンで見れば、オンデバイスLLMをプロダクトに組み込むという選択肢は現実的なものになるのでは、という感触を持つようになりました。
オンデバイスLLMをプロダクトに組み込む方法
これについては、大きく2つのアプローチがあることが分かりました。
一つは、オープンソースのモデルを自分でアプリにバンドルする方法です。iPhoneでもGemma 4 E4Bを動かせるみたいですが、現実的には
- モデルデータ数GBをダウンロードさせる必要がある
- メモリ・バッテリー・発熱の制御は自前で行う
- 最新のiPhoneでも、他のアプリをバックグラウンドで動かしたまま、それなりのサイズのモデルを動かすのは結構厳しい
といった制約や実装コストが発生することがわかってきました。
もう一つのアプローチが、OSに組み込まれたオンデバイスLLMを呼び出す方法で、その代表例がApple Intelligenceです。(Androidにも似たような仕組みはあります)
スルーしていたApple Intelligenceを見直してみる
Apple Intelligence自体は、WWDC 2024で発表されており、Appleの生成AI機能の総称です。約3Bパラメータのオンデバイスモデルと、Private Cloud Computeと呼ばれるサーバーサイドモデルが動いています。
また、開発者目線で重要なのが、WWDC 2025で発表されたFoundation Models Frameworkです。これはApple Intelligenceのオンデバイスモデルを、サードパーティアプリから直接呼び出せるようにしたフレームワークで、iOS 26から利用可能になっています。
一番大きいのは、実装・運用まわりをOS側で全部吸収してくれることです。アプリからは数行のコードで呼び出せるようになっていて、モデル更新もOS任せ、メモリ・発熱・安全性もOSが面倒を見てくれる。そしてアプリ開発者が負担する推論コストはゼロです。
世の中的に「AppleはAIで出遅れている」という論調をよく目にしていたので、正直なところ完全にスルーしていたのですが、オンデバイスLLMをプロダクトに組み込むという観点で見直した時に、OS組み込みでシームレスに扱える。かつ自前でバンドルするときの課題も解消されるということから、結構高いポテンシャルを持っているのではと感じました。
ただし現状は、オンデバイスモデルの性能の低さがボトルネックだと思います。
Googleとの契約で、Apple Intelligenceの性能が一気に伸びるかも
ここで重要になりそうなのが、2026年1月に決まったAppleとGoogleの契約です。
次世代のApple Intelligenceのモデルは、Geminiを基盤に構築されることが決まっていて、ざっくり言うと「大きくて賢いGeminiの能力を、小型のオンデバイスモデルに凝縮する」というアプローチが取れるようになります。
これがうまく回ると、Apple Intelligenceのオンデバイスモデル性能は、今後1〜2年でかなり向上する気がします。
今月のWWDC 2026で詳細が発表される見込みなので、そこは注目したいと思っています。
コストの話だけじゃない、Apple Intelligenceの独自性
イチiPhoneユーザーの視点で見たときにApple Intelligenceに期待しているのは、プライバシーを守りながらユーザーの端末内にある文脈を使えることと、OSレベルでアプリ操作までつなげられることです。
後者はApp Intentsという仕組みで、ユーザーがアプリを直接開くことなく、特定の操作を実行したりデータを呼び出すことができます。
将来的にモデル性能が実用的なレベルになってくると、この辺りはChatGPTなどのAIアプリにはない強みになりそうです。
おわりに
ハードウェアの高性能化や、蒸留・量子化といった手法、LLM側の進化も踏まえると、スマホのオンデバイスLLMが大半のユースケースにとって十分なレベルに達する日は意外と遠くないかもしれません。
また、プライバシーが守られるオンデバイスLLM + App Intents(アプリ操作) + MCP(外部サービス)による高度なパーソナルAIエージェントが実現すると、開発者にとっても現在のAI機能開発とは前提が大きく変わってくるはずで、個人的にはそんな未来にも期待しています。
マネックス・ラボでは、AI含め最新の技術トレンドを追いながら、新しい資産形成サービスや顧客体験を創るお仕事をしています。興味ある方は採用情報もぜひご確認ください。