2026
3/19
目 次
クラウドにファイルを置きさえすれば…
「ファイルをここに置けば、あとはAIが処理してくれます!」
ある企業の情シスAさんが、目を輝かせて話していました。
この企業のファイル管理は、長年オンプレミスのサーバーで行われてきました。部署ごとにフォルダが作られ、過去数十年にわたる大量の業務ファイルが眠っています。その数は膨大です。
昨今のAIの台頭により、Aさんは「このままオンプレに置いていてはデータが活用できない」と危機感を抱き、クラウドストレージへの移行を探していました。
そこで、クラウドベンダーからAI機能の説明を受け、心酔した様子。
最近は、クラウドベンダーが相次いで「AI機能」を売り込んできます。クラウドストレージにファイルを置くだけで、AIが勝手に読み取って処理してくれる。なかなか強烈なキャッチコピーです。
最大のメリットは、ExcelやWord、PDFなどの「非構造化データ」をそのまま処理できる点です。従来、システムで処理できるのは「構造化データ」であるデータベースだけでした。
企業ナレッジの大半は、非構造化データだと言われています。
どの企業にも、過去の膨大な業務ナレッジが保管されています。しかし、それを活用するために「データベース化」しようとすれば、途方もない労力がかかります。二の足を踏んでしまいます。
この企業でも、過去のファイル群はそのまま放置され、サーバー代だけがかかる「経費」となっていました。
しかし、その膨大なファイル群を、大きな手間をかけずにそのままAIが読み取ってくれるとなれば、話は大きく変わってきます。
過去のデータをどう活かすかという情シスの重い課題に、一筋の光明が見えたように感じます。
ですが、本当にファイルを放り込むだけで、AIが魔法のように自社のナレッジを活用してくれるのでしょうか?
データレイクとAIの限界
では、各ファイルをクラウドストレージにアップロードして、AIで何ができるのでしょうか。
この雑多なファイルがドサッと置かれる領域は、「データレイク」と呼ばれます。
ここに置かれた非構造化データのファイルに対して、AIは「ドキュメント理解」の力を発揮します。具体的には、文書検索、要約、Q&A、類似文書の比較などがAIの得意とするところです。
自然言語(チャット形式)で検索できるため、システム操作に不慣れなユーザーにとっても非常に扱いやすいでしょう。過去の膨大な資料から、似たような書類を探し出す際などには強みを発揮します。
しかし、AIといえど万能ではありません。
横断的な集計・比較・分析は苦手なのです。
複雑な計算式や参照が含まれるExcelの理解、正確な数値計算、大量データの処理などは、AIの得意領域ではありません。
つまり、非構造化データのままでは、従来のシステムやBI(ビジネスインテリジェンス)の代替にはならないということです。
雑多なファイルを参照させても回答が不安定になり、数値分析などをさせると堂々と嘘をつく「ハルシネーション」が起きやすくなります。
データベース(DWH)が引き出すAIの真価
では、これらのファイル群を構造化して、データベースに移行した場合はどうでしょうか。
この領域は「データウェアハウス(DWH)」と呼ばれます。
クラウドストレージのファイル群から「重要な指標(数値)」だけを抜き出し、綺麗に整理されたデータベースです。
まず、データベース化することで、正確な計算や処理実行といった「定型業務の自動化と標準化」が可能になります。
さらにBIツールと連携すれば、データ可視化と分析による「データドリブン経営(経営判断や予実管理)」が実現できます。
そして何より、AIでできることの「次元」が大きく変わってきます。
正確な数値に基づく資料の新規作成や、自然言語によるデータ分析(Text-to-SQL)が可能になります。
さらに、蓄積されたデータを用いた機械学習による将来予測(需要予測、解約予測、異常検知など)、独自データを起点とした予測型ビジネスモデルの創出にも繋がります。
将来のトレンド予測や入力データの異常値検知を行うには、ノイズのない綺麗な過去データ(学習データ)が大量に必要です。
データレイクの「泥水」では、精度の高い予測AIは作れません。
DWHの「浄化されたデータ」があって初めて、自社独自の強力なAIを構築できるのです。
データをデータレイクに置くか、データウェアハウスに置くかで、AIにできることは全く異なります。
「クラウドストレージに放り込めば、AIが何でも処理してくれる」というのは幻想であり、ベンダーのマーケティングの誇張です。騙されてはいけません。
ファイルの置き場所と「Access」という時限爆弾
また、ファイルの置き場所は「オンプレミスサーバー」と「クラウドストレージ」の2つに分かれます。
オンプレにファイルを置いたままAIと接続することは、技術的には可能です。しかし、システム構成が複雑になるため、よほど内製力の高い企業でなければお勧めしません。
基本は、クラウドにアップロードしてAIと接続すべきです。
とはいえ、オンプレサーバーにある膨大な過去ファイルを、すべてクラウドに移行する必要はありません。AIに処理させたいものだけを選び取り、移行すればよいのです。
オンプレには、原本保管や機密文書のネットワーク隔離といった重要な役割があります。
昨今のランサムウェア対策やテレワーク対応を考えれば「クラウドシフト」が基本ですが、すべてをクラウド化することが唯一の正解ではありません。
余談ですが、オンプレサーバーに残るファイルの中で、最も厄介な課題があります。
それは「Access」です。
実は、AccessはAIでは読めません。まったく扱えないのです。
Accessは、属人化とブラックボックス化の極みであり、データ破損の脆弱性リスクも抱えています。AIと連携できずデータがサイロ化しており、DXを阻む構造上のリスクそのものです。
ちなみに、Access(買い切り版)は、最新の2021でも今年10月にサポート終了を迎えます。別の意味でも猶予はありません。
重要な業務データがAccessで管理されている場合は、とりあえずCSV出力してクラウドに置くか、クラウドDBへ早急に移行する計画を立てるべきです。
社内ナレッジデータは3層アーキテクチャで整理する
「構造化データと非構造化データで分けて考えないとダメですね」
冒頭のAさんは、ようやく腹落ちしたようにつぶやきました。
過去の膨大な業務ファイルは、社内の貴重なナレッジです。これをどう活かすかは、DXの最大のテーマと言っても過言ではありません。
その後、この企業ではナレッジデータの蓄積方針を、大きく3つの層(アーキテクチャ)で整理しました。
① オンプレサーバー(非構造化データ/インターネット隔離層)
・マスターデータの原本保管、アーカイブ
・AI処理を必要としない機密ファイルの厳重保管
② クラウドストレージ(非構造化データ/データレイク)
・テレワーク対応、ランサムウェア対策
・AI活用(文書検索、要約、Q&A、類似文書比較など)
③ クラウドデータベース(構造化データ/DWH)
・システム化(定型業務の自動化と標準化)
・BI活用(データの可視化・分析)
・高度なAI活用(生産性向上、予測型ビジネス等の新規ビジネス創出)
「AIが何とかしてくれる」という幻想から抜け出し、オンプレミスの良さも残したハイブリッド運用へと舵を切りました。
自社のナレッジデータを正しく認識し、明確な蓄積方針を定めたことで、真のデータ活用が動き出したといえます。
貴社のIT部門・情報システム部門では、ナレッジデータの蓄積方針が明確になっていますでしょうか?
コラム更新情報をメールでお知らせします。ぜひこちらからご登録ください。
情シスコンサルティング株式会社
田村 昇平
情報システム部門(情シス)を起点に、経営戦略とDXを統合するコンサルタント。
システム開発を10年、ユーザー側のITプロジェクト支援を13年。ベンダーとユーザー、双方の立場を経て独立。これまで30社以上、100を超えるプロジェクトに携わる。
近年は、現場主導のDXが行き詰まる企業が多い現実を踏まえ、「経営主導」への転換を提唱。トップダウンでDX戦略を策定し、実行可能な形で「仕組み化」する支援を行っている。併せて、「情シスをDX推進の中核組織」へと進化させる独自メソッドも確立してきた。
膨大な現場経験での数多くの失敗や板挟みとなる葛藤。それらを乗り越えてきた知見をもとに、机上論ではない「再現性のあるDX」を追求する実務家として、経営者・CIO・情シス部長と伴走している。
主な著書に『システム発注から導入までを成功させる90の鉄則』『御社のシステム発注は、なぜ「ベンダー選び」で失敗するのか』『DXで経営戦略を仕組み化する技術』がある。
著書の詳細は、こちらをご覧ください。
