インターネット上にテキストはどれくらいあるのか

ふと気になった。
インターネットには膨大なテキストがあると思うんですが、実際どのくらいあるんだろうって。公開非公開に関係せず、AI に予想させてみた。
なんでこれを疑問に思ったかというと、職場であるソフトウェアを使っててそのソフトウェアが一瞬でバッと大量のログテキストを吐き出しているのを眺めているときに、俺たちはキーボードでちまちま一文字ずつ言葉を選んで、削って生み出しているのに、なんだこの量と速度は、、って思ったのがきっかけ。
そのソフトウェアはログを吐き出すだけだったけど、AI の書く文章は大抵の場合、速度、質、量、すべてにおいて人間は勝てないのでじゃあ人間が書く意味って何だろうとかも思う、故に我あり。
ゼタバイトスケール
インターネット上のテキスト総量は推定で 10の22乗〜10の24乗文字 と言われている。
インターネット全体のデータ量(動画・画像・音声なども含む)は2024年時点で約150ゼタバイトと推計されていて(IDC調べ)。
いや多すぎィ!
ゼタバイト(ZB)、まず単位の感覚から整理すると:
- 1GB = スマホの写真 約300枚ぶん
- 1TB = 1,000GB。一般的なPCのストレージ
- 1PB(ペタバイト)= 1,000TB。大企業のデータセンターの単位
- 1EB(エクサバイト)= 1,000PB
- 1ZB(ゼタバイト)= 1,000EB = 1兆GB
つまり150ZBは、1TBのHDDが1,500億台分。全人類(80億人)が一人あたり約20台ずつ持つ計算になる。
このスケール感を別の角度で言うと:
- 高画質の映画1本が約5GB とすると、150ZBで映画3兆本分
- 毎日24時間365日映画を観続けても全部見終わるのに 約680億年
宇宙の年齢が約138億年なので、それの5倍ある。スケールがでかすぎて AWE(オウ)起こす。
ただしその大半は動画で、テキストだけを抽出するとグッと小さくなる。純粋なテキストとしての総量は 数十〜数百ペタバイト規模と見るのが妥当なラインとされている。
じゃあテキストだけで考えると何文字か。テキストは1文字あたり平均1〜3バイトと見ると、
100ペタバイト(中央値)÷ 2バイト ≒ 約50京文字(5×10の16乗文字)
さらにサーバーログなどの機械生成テキストを含む推計値だと 10の22〜24乗文字という数字も出てくる。
それでも人類の書籍総量をはるかに超える。
比較として、人類史上のすべての書籍の文字数は合わせて 10の14乗〜15乗文字くらいと言われてる。
- 10¹⁴ 文字 = 100,000,000,000,000 文字(100兆文字)
- 10¹⁵ 文字 = 1,000,000,000,000,000 文字(1,000兆文字 = 1京文字)
インターネットはその書籍総量を 1億倍以上上回ってる。
は?「俺」
分野別ランキング(年間生成量)
で、その膨大なテキストって実際どこから来てんのランキング。
1位 クラウド・サーバーログ(機械生成)
推定 10の20乗〜22乗文字 / 年
APIのアクセスログ、セキュリティログ、エラーログ、ゲームのイベントログ、IoTのセンサーデータ……
そしてこれらはサーバーの中で生成されているテキストで一般の人は見れない。
これが全体の大半を占める。
2位 メッセージング・チャット系
推定 10の18乗〜20乗文字 / 年
LINEのDM、Slackのやり取り、グループチャット……
人が無数にいるのと、テキスト量は小さいけどやり取りの数がめちゃくちゃあると思う。
毎日無数に送られてるメッセージの累計が大体この数字
3位以下 ネットに公開されているテキスト全般
推定 10の15乗〜18乗文字 / 年(カテゴリによって幅あり)
1・2位と違ってここからは一般に見れるテキスト。まとめるとこんな感じ:
| カテゴリ | 具体例 |
|---|---|
| SNS投稿 | Twitter のツイート、Instagramのキャプション、Redditのスレッド |
| 動画プラットフォーム | YouTubeのコメント、自動生成字幕、ライブチャット |
| ECレビュー | Amazonの商品レビューとか |
| ニュース・ブログ | 記事本文、コメント欄 |
| ソースコード | GitHubの公開リポジトリ(コードもテキストなので) |
ちなみにこれが「AIが学習しているテキスト」のほぼ全部にあたる。1・2位のサーバーログやDMは基本的に非公開なのでAIには学習されていない。
量としては1・2位と比べるとオーダーが下で、インターネット全体のテキストからするとごく一部だけど、人間が「読む」「書く」という意識で触れているのはここだけだったりする。
機械生成 vs 人間生成
インターネットのトラフィック(通信量)のうち、約50%はボットや自動システムが生成したものというデータがある(Thales Group, Imperva調査)。
テキストコンテンツに絞った場合の正確な比率は実は公式な集計が存在しないが、1位のサーバーログだけでも膨大な量が機械によって生成されていることは間違いなく、「人間が書いた読まれるためのテキスト」は全体からすれば一部にすぎないという構造は変わらない。
「インターネット上の情報量」って言うけど、そのかなりの部分はシステムが動くために生成してる機械の独り言みたいなもん。
もじおおすぎ
- インターネット全体のデータは 約150ゼタバイト(2024年)、ただし大半は動画
- テキスト限定でも推定 10の22〜24乗文字規模(人類の書籍総量の1億倍以上)
- ボットや自動システムによる生成がトラフィックの**約50%**を占める
- 1位はぶっちぎりでサーバーログ。ゲームのプレイログとかも1日で数GB
インターネットって、人類の知識の集積みたいなイメージあったけど、実態はシステムが吐き出したログの海に、人間の言葉がちょっと浮かんでる感じっぽい。
そしてこのテキストデータの海に、このしょうもないブログのテキストも加わりました。