vol.1 情報資産としてのデータ、それって一体何だ?

2013/02/11

サーバをはじめ、デスクトップPCやスマートフォンなど普段利用している様々なコンピュータ。これらコンピュータ内部で情報を扱うためには、「0」と「1」で構成されるデジタル情報が用いられています。毎日欠かさず見ているニュースサイトやTwitterでつぶやく文字情報、Youtubeで見るアーティストのPV、旅行先で撮った記念写真の画像、電車の中で夢中になっている携帯ゲームなど、コンピュータ上で扱われるあらゆる情報=データは、すべてこのデジタル情報が元になっています。

では、なぜデジタル情報を利用するのでしょうか。それは、表現が簡単なために回路が単純化でき、データそのものの圧縮や伝送が容易になるからです。また、データの再利用がしやすく、束ねることで大きな数値の計算も行えるだけでなく、画像や映像など数値とはかけ離れた情報も0と1に置き換えて表現できるようになるためです。ちなみに、デジタル情報の最小単位である「0」や「1」は「1ビット(bit)」と表現されます。

ただ、0と1だけで英数字や漢字、ハングル語、中国語、ロシア語のような言語や「@」「#」などの記号が扱えないため、言語ごとに何らかの決めごとが必要になります。そこで登場したのがコードと呼ばれるものです。

著名なコードには、1962年に米国規格協会であるANSIが制定した「ASCIIコード」をはじめ、日本工業規格が設定した「JISコード」、マイクロソフトやアスキー、IBMなどによって共同開発された「Shift-JISコード」、言語やプラットフォームに依存しないコード体系として広く利用されている「UTF-8」などが挙げられます。これらのコードを選択することで、コンピュータ上でも英数字や漢字が扱えるようになるのです。

ちなみに、普段私たちは10進法と呼ばれる0~9までの数字を用いて様々な計算を行っています。しかし、コンピュータの世界では、0と1という2つの基数とする記数法が採用されています。10進法に対してこれを「2進法」と呼び、この2進法で表現される数値を「2進数」と呼びます。また、コンピュータの外側で2進数を表現する場合は、0~9とA~Fのあわせて16個の基数を用いた16進数で表現されるのが一般的です。

前述したASCIIコードを例に挙げると、大文字小文字のアルファベットや制御文字、記号など128文字に対して7ビットの2進数(128)が割り当てられています。Aであれば「01000001」という数字でコンピュータ内部では認識されているのです。