2024/08/08

オフラインで動作するLLMモデルの量子化に成功！エッジデバイスで開花するLLMの新たな可能性

AI事業の主要サービスである特化型LLMのカスタマイズサービス「WAVE」（以下、「WAVE」）より、R&DにおいてオフラインのAndroid端末で動作するLLMの量子化に成功したことを発表します。

当社WAVEサービスは、LLM （Large Language Model）モデルに関する研究開発を行なっております。
最先端のAIモデルであるLlama2、Llama3、Phi-3など、最新LLMモデルの選定から、
ファインチューニングやモデルの量子化までを網羅しております。
今回成功した研究開発「LLMの量子化」では、端末上でLLMが動作する為、
インターネットを介さずにIoT端末を含む様々な小型機器に適用でき、高いセキュリティとプライバシー、コスト削減を実現します。

LLMの量子化の効果

オフライン機能：
インターネット接続なしで動作。
プライバシーとセキュリティの強化：
ローカルでデータを処理・保存する為、不特定多数のネットワークを介す必要が無く安全性が高い。
パフォーマンスと効率性：
　ローカル処理により、クラウドベースのモデルと比較した際の待ち時間が短縮され応答時間が早い。
専門性：
　特定のニーズに特化することで専門性の高い活用が期待できる。
コスト削減：
　サーバーやクラウドのコストが不要、高い費用対効果を実現。必要な範囲内だけでの利用が可能。
利便性：
　モバイル上で利用できるためどこでも使いやすく持ち運びしやすい。

ユースケース

LLMの量子化によりエッジデバイス上での推論が可能になり、低消費電力、低コストで安定したパフォーマンスを保ちながら動作します。

製造業：異常検知

カメラによる異常検知（不良品検知）及びAIによる問題特定と原因の分析をオフライン上で可能にします。

各検知カメラにモニターを接続しLLMを連動させることで、属人化解消のほか、異常検知に対しての迅速な対処が実現できます。
さらに、多言語処理を可能にすることにより外国人労働者への翻訳時間を短縮し、効率的な業務改善が見込めます。

カスタマーサポート：災害活動支援

災害発生時には、住民やボランティアに向けて緊急情報や避難指示を提供し、多言語での翻訳を行います。

被災者向けのQ&Aシステムを構築することで、支援や資源に関する質問にも迅速に回答できます。
さらに、SNSやニュースデータを分析して災害の影響を把握し、適切なレポートを生成することが可能です。

避難計画の策定や災害時の行動シミュレーション、復旧支援にも役立ちます。