UTF-8 (UCS Transformation Format 8) は WWW において最も一般的な文字エンコーディングです。1文字あたり1~4バイトで表します。UTF-8 は ASCII に対して前方互換性を持っており、Unicode 規格内の基本的な文字はすべて表現することができます。
UTF-8 が扱う文字集合における最初の128文字は ASCII の128文字にちょうど一致しており、今ある ASCII テキストは UTF-8 テキストとしても当然ながら有効です。また、UTF-8 にエンコードされた各バイトには、エンコードに必要なビットがいくつか含まれています。非 ASCII 文字を UTF-8 エンコードする際には2バイト以上を要するため、各バイトが分割された後に UTF-8 として再結合されないとデータが破損するおそれがあります。