文字コード変換ツール(無料・登録不要)
登録不要 無料 ブラウザ完結
文字を貼るだけでUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JPのバイト列を一覧表示。逆変換(コード→文字)・HTMLエンティティ生成・絵文字/サロゲートペア対応・CSV出力付き。ブラウザ完結・サーバー送信なし・完全無料。
0文字
バイト表示
区切り
変換結果
Unicode
UTF-8
UTF-16 BE
Shift_JIS ※1
EUC-JP ※1
HTML (hex)
HTML (dec)
| # | 文字 | Unicode | UTF-8 | UTF-16 BE | Shift_JIS ※1 | EUC-JP ※1 | HTML |
|---|
※1 Shift_JIS / EUC-JP はひらがな・カタカナ・半角カタカナ・基本記号のみ対応。漢字・絵文字は「—」(変換対象外)と表示されます。
よく使うコードポイント クイックリファレンス
1
文字→コード変換
「文字→コード」タブで調べたい文字を入力欄に貼り付けます。1文字でも文章全体でも対応しています。絵文字(😀等)も正確に処理します。
「文字→コード」タブで調べたい文字を入力欄に貼り付けます。1文字でも文章全体でも対応しています。絵文字(😀等)も正確に処理します。
2
「変換」ボタンをクリック
各文字のUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JP・HTMLエンティティが一覧テーブルで表示されます。各セルをクリックするとコードをコピーできます。
各文字のUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JP・HTMLエンティティが一覧テーブルで表示されます。各セルをクリックするとコードをコピーできます。
3
表示形式の切り替え
「16進」「10進」ボタンで表示形式を切り替えられます。プレフィックス(0x / \x / % / 区切りなし)も選択可能です。
「16進」「10進」ボタンで表示形式を切り替えられます。プレフィックス(0x / \x / % / 区切りなし)も選択可能です。
4
逆変換(コード→文字)
「コード→文字」タブに切り替え、U+XXXX・16進数・10進数のいずれかを入力すると対応する文字と全エンコード情報を確認できます。
「コード→文字」タブに切り替え、U+XXXX・16進数・10進数のいずれかを入力すると対応する文字と全エンコード情報を確認できます。
5
ダウンロード
「CSV」または「TSV」ボタンで変換結果をスプレッドシートに保存できます。プログラミングやドキュメント作成に活用してください。
「CSV」または「TSV」ボタンで変換結果をスプレッドシートに保存できます。プログラミングやドキュメント作成に活用してください。
主要なエンコード方式の特徴と使い分けを解説します。
| エンコード | 日本語バイト数 | 主な用途 | 特徴 |
|---|---|---|---|
| UTF-8 | 3バイト | Web・Linux・現代の標準 | 国際標準。ASCII互換。全世界の文字を扱える |
| UTF-16 | 2バイト(BMP) | Windows内部・Java・JavaScript | BMP文字は2バイト固定。サロゲートペアで4バイト |
| Shift_JIS | 2バイト | 旧Windows・業務システム | 日本語特化。ASCII+半角カタカナ混在で1〜2バイト |
| EUC-JP | 2バイト | 旧Unix・Linux日本語環境 | Unix系日本語標準。ASCIIは1バイト、日本語は2バイト |
Unicode と UTF-8 の関係
Unicodeは「文字に番号を割り当てる規格」、UTF-8/UTF-16/UTF-32はその番号をバイト列に変換する「エンコード方式」です。
- 「あ」の Unicodeコードポイント: U+3042(10進: 12354)
- UTF-8では:
E3 81 82(3バイト) - UTF-16 BEでは:
30 42(2バイト) - Shift_JISでは:
82 A0(2バイト) - EUC-JPでは:
A4 A2(2バイト)
絵文字とサロゲートペア
絵文字(😀など)はUnicode補助多言語面(U+10000以上)に属します。UTF-16では通常の2バイトで表現できないため、上位サロゲート(U+D800〜U+DBFF)と下位サロゲート(U+DC00〜U+DFFF)の組み合わせ4バイトで表現します。
例: 😀(U+1F600)のエンコード
- Unicode: U+1F600
- UTF-8:
F0 9F 98 80(4バイト) - UTF-16 BE:
D83D DE00(サロゲートペア・4バイト) - HTMLエンティティ:
😀
JavaScriptでの注意点
- ES6以前:
str.lengthが絵文字を2カウント - ES6以降:
[...str].lengthまたはArray.from(str).lengthで正確にカウント str.codePointAt(0)でサロゲートペアを正確に処理
HTMLエンティティはHTML文書内で特殊文字を安全に表示するための記法です。
エンティティの種類
| 記法 | 例(「あ」U+3042) | 用途 |
|---|---|---|
| 名前付きエンティティ | < → < |
HTML予約文字(< > & " ')のみ利用可能 |
| 16進数エンティティ | あ → あ |
全Unicodeで利用可能。HTMLメール・テンプレートに最適 |
| 10進数エンティティ | あ → あ |
全Unicodeで利用可能。古いパーサーとの互換性 |
HTMLエンティティが必要な場面
- HTMLの予約文字(< > & " ')をテキストとして表示したい場合
- 文字エンコードに依存しないメール配信(HTMLメール)
- 特殊文字を含むテキストをXMLやHTMLに埋め込む場合
- フォント対応が不明な環境(Shift_JIS環境へのUTF-8文字送信など)
現代のWeb開発では:
UTF-8が標準化された現代では、日本語をそのままHTMLに書いても問題ありません。HTMLエンティティへの変換が必須なのはHTML予約文字(< > & " ')のみです。ただしメールテンプレートや古いシステムとの連携では依然として有用です。
UTF-8が標準化された現代では、日本語をそのままHTMLに書いても問題ありません。HTMLエンティティへの変換が必須なのはHTML予約文字(< > & " ')のみです。ただしメールテンプレートや古いシステムとの連携では依然として有用です。
- Q UnicodeとUTF-8の違いは何ですか?
- A Unicodeは世界中の文字に番号(コードポイント)を割り当てた「文字の規格」です。UTF-8はそのコードポイントをバイト列に変換する「エンコード方式」の一つです。例えば「あ」はUnicodeコードポイントU+3042(10進:12354)で、UTF-8では3バイト「E3 81 82」として保存されます。
- Q Shift_JISとUTF-8はどう違いますか?
- A Shift_JISは主に日本語Windowsで使われてきたエンコード規格です。日本語文字を1〜2バイトで表現します。UTF-8は国際標準で、ASCII文字は1バイト、日本語は3バイトで表現します。現代のWebシステムではUTF-8が標準で、Shift_JISは旧来のWindowsシステムや一部の業務システムで使われています。
- Q 絵文字(サロゲートペア)の文字コードを調べるには?
- A 絵文字は通常のUnicode基本多言語面(U+0000〜U+FFFF)の範囲外にあるため、UTF-16ではサロゲートペア(上位サロゲート+下位サロゲート)で表現されます。このツールは絵文字にも対応しており、正確なUnicodeコードポイントとUTF-8/UTF-16バイト列を表示します。
- Q HTMLエンティティとは何ですか?
- A HTMLエンティティは、HTML内で特殊文字を安全に表現するための記法です。「XXXX;」(16進数)または「DDDDD;」(10進数)の形式で記述します。例えば「<」は「<」、「あ」は「あ」を表します。
- Q 文字化けの原因と対処法は?
- A 文字化けはファイルの保存エンコードと読み込みエンコードが一致しない場合に発生します。主な原因は、UTF-8で保存したファイルをShift_JISとして読み込む(または逆)ケースです。このツールで各エンコードのバイト列を確認することで、文字化けの原因特定に役立てられます。
- Q EUC-JPとはどのようなエンコードですか?
- A EUC-JP(Extended Unix Code for Japanese)は、UNIXシステムで日本語を扱うために使われたエンコード規格です。日本語文字を2バイトで表現します。現在はUTF-8が主流ですが、古いUNIXシステムや一部のLinuxサーバーの設定ファイルでまだ使われることがあります。
- Q このツールはサーバーにデータを送信しますか?
- A いいえ。このツールはすべての処理をブラウザ内(JavaScript)で完結しています。入力したテキストは外部サーバーに一切送信されません。機密情報を含むテキストも安心してご利用いただけます。