文字化け修正ツール
エンコーディングを自動判定して文字化けを修復します。
文字化けテキスト
修復結果
文字化けとは
文字化けとは、テキストデータのエンコーディング(文字コード)の不一致によって生じる現象です。 日本語は UTF-8・Shift_JIS・EUC-JP・ISO-2022-JP(JIS)など複数のエンコーディングが混在するため、 他の言語よりも文字化けが発生しやすい環境です。 特にWindowsのExcelはShift_JISを既定として使うため、UTF-8のCSVを開くと文字化けが起きます。
日本語の文字コードの歴史
日本語のコンピューター処理には長い歴史があり、複数の文字コードが併存してきました。 1978年にJIS C 6226(現JIS X 0208)が制定され、これを元にShift_JIS(1982年、Microsoft/ASCII)、 EUC-JP(1985年、UNIX系)、ISO-2022-JP(メール用)が生まれました。 2000年代以降、Unicodeの普及でUTF-8が標準となりましたが、古いシステムや一部のWindowsアプリでは 今もShift_JISが使われており、文字化けの主原因となっています。
文字コード早見表
| 文字コード | 登場年 | 主な使用環境 | 特徴 |
|---|---|---|---|
| UTF-8 | 1993年 | Web全般・現代の標準 | ASCII互換・全世界の文字を収録 |
| Shift_JIS | 1982年 | Windows・Excel(旧) | 日本固有・2バイト文字の先駆 |
| EUC-JP | 1985年 | UNIX・Linux・古いWebサーバー | UNIXでの日本語処理に最適化 |
| ISO-2022-JP | 1993年 | メール(MIME) | 7bit安全・エスケープシーケンス方式 |
よくある文字化けパターン
| 現象 | 原因 | 対処 |
|---|---|---|
| ExcelでCSVが文字化け | UTF-8をShift_JISと誤認識 | BOM付きUTF-8で保存 |
| メールの本文が文字化け | JISとUTF-8の混在 | SJIS→UTF8変換を試す |
| Webページの一部が??? | HTMLのmeta charsetが未指定 | UTF-8に統一 |
| ダウンロードしたTXTが文字化け | EUC-JPをUTF-8として開いた | EUCJP→UTF8変換 |
| 古いシステムからのデータ | レガシーShift_JIS | SJIS→UTF8変換 |
文字化けを防ぐためのベストプラクティス
CSVファイルの作成時
ExcelでCSVを保存する際は「UTF-8(BOM付き)」を選択してください。 BOM(Byte Order Mark)が先頭に付くことで、ExcelがUTF-8として正しく認識します。 プログラムからCSVを生成する場合も、先頭に \uFEFF(BOM)を付加するのが確実です。
Webサイトの場合
HTMLの <head> 内に <meta charset="UTF-8"> を 必ず記述しましょう。HTTPレスポンスヘッダーの Content-Type にもcharset=utf-8 を付けるとより確実です。
データベースの場合
MySQL/MariaDBでは utf8mb4(4バイトUTF-8)を使用してください。 古い utf8 は3バイトまでしか対応しておらず、絵文字(4バイト)が文字化けします。 PostgreSQLはデフォルトでUTF-8です。
よくある質問
文字化けを根本解決PR