UnicodeとUTF-8の違いは何ですか？

Unicodeは世界中の文字に番号（コードポイント）を割り当てた「文字の規格」です。UTF-8はそのコードポイントをバイト列に変換する「エンコード方式」の一つです。例えば「あ」はUnicodeコードポイントU+3042（10進:12354）で、UTF-8では3バイト「E3 81 82」として保存されます。

Shift_JISとUTF-8はどう違いますか？

Shift_JISは主に日本語Windowsで使われてきたエンコード規格です。日本語文字を1〜2バイトで表現します。UTF-8は国際標準で、ASCII文字は1バイト、日本語は3バイトで表現します。現代のWebシステムではUTF-8が標準で、Shift_JISは旧来のWindowsシステムや一部の業務システムで使われています。

絵文字（サロゲートペア）の文字コードを調べるには？

絵文字は通常のUnicode基本多言語面（U+0000〜U+FFFF）の範囲外にあるため、UTF-16ではサロゲートペア（上位サロゲート＋下位サロゲート）で表現されます。このツールは絵文字にも対応しており、正確なUnicodeコードポイントとUTF-8/UTF-16バイト列を表示します。

HTMLエンティティとは何ですか？

HTMLエンティティは、HTML内で特殊文字を安全に表現するための記法です。「&#xXXXX;」（16進数）または「&#DDDDD;」（10進数）の形式で記述します。例えば「<」は「<」、「あ」は「あ」を表します。このツールでは各文字のHTMLエンティティを自動生成します。

文字化けの原因と対処法は？

文字化けはファイルの保存エンコードと読み込みエンコードが一致しない場合に発生します。主な原因は、UTF-8で保存したファイルをShift_JISとして読み込む（または逆）ケースです。このツールで各エンコードのバイト列を確認することで、文字化けの原因特定に役立てられます。

EUC-JPとはどのようなエンコードですか？

EUC-JP（Extended Unix Code for Japanese）は、UNIXシステムで日本語を扱うために使われたエンコード規格です。日本語文字を2バイトで表現します。現在はUTF-8が主流ですが、古いUNIXシステムや一部のLinuxサーバーの設定ファイルでまだ使われることがあります。

このツールはサーバーにデータを送信しますか？

いいえ。このツールはすべての処理をブラウザ内（JavaScript）で完結しています。入力したテキストは外部サーバーに一切送信されません。機密情報を含むテキストも安心してご利用いただけます。

UTF-8とUnicode規格の関係を教えてください。

Unicodeは国際標準化機構（ISO）とUnicode Consortiumが共同管理する文字コード規格です。2024年現在、Unicode 15.1では約149,813文字が収録されています。UTF-8はUnicodeのコードポイントを可変長バイト列（1〜4バイト）に変換するエンコード方式で、RFC 3629で標準化されました。ASCII（U+0000〜U+007F）は1バイトでエンコードされるため、ASCII互換性を保ちながら全世界の文字を扱えます。

テキスト処理登録不要無料ブラウザ完結

文字コード変換ツール（無料・登録不要）

文字を貼るだけでUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JPのバイト列を一覧表示。逆変換（コード→文字）・HTMLエンティティ表記・絵文字/サロゲートペア対応。ブラウザ完結・登録不要・完全無料。

最終更新：2026年5月15日

文字を貼るだけでUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JPのバイト列を一覧表示。逆変換（コード→文字）・HTMLエンティティ生成・絵文字/サロゲートペア対応・CSV出力付き。ブラウザ完結・サーバー送信なし・完全無料。

変換する文字を入力 0文字

変換結果

使い方

文字→コード変換
「文字→コード」タブで調べたい文字を入力欄に貼り付けます。1文字でも文章全体でも対応しています。絵文字（😀等）も正確に処理します。

「変換」ボタンをクリック
各文字のUnicode・UTF-8・UTF-16・Shift_JIS・EUC-JP・HTMLエンティティが一覧テーブルで表示されます。各セルをクリックするとコードをコピーできます。

表示形式の切り替え
「16進」「10進」ボタンで表示形式を切り替えられます。プレフィックス（0x / \x / % / 区切りなし）も選択可能です。

逆変換（コード→文字）
「コード→文字」タブに切り替え、U+XXXX・16進数・10進数のいずれかを入力すると対応する文字と全エンコード情報を確認できます。

ダウンロード
「CSV」または「TSV」ボタンで変換結果をスプレッドシートに保存できます。プログラミングやドキュメント作成に活用してください。

エンコード方式の比較と選び方

主要なエンコード方式の特徴と使い分けを解説します。

エンコード	日本語バイト数	主な用途	特徴
UTF-8	3バイト	Web・Linux・現代の標準	国際標準。ASCII互換。全世界の文字を扱える
UTF-16	2バイト（BMP）	Windows内部・Java・JavaScript	BMP文字は2バイト固定。サロゲートペアで4バイト
Shift_JIS	2バイト	旧Windows・業務システム	日本語特化。ASCII+半角カタカナ混在で1〜2バイト
EUC-JP	2バイト	旧Unix・Linux日本語環境	Unix系日本語標準。ASCIIは1バイト、日本語は2バイト

Unicode と UTF-8 の関係

Unicodeは「文字に番号を割り当てる規格」、UTF-8/UTF-16/UTF-32はその番号をバイト列に変換する「エンコード方式」です。

「あ」の Unicodeコードポイント: U+3042（10進: 12354）
UTF-8では: E3 81 82（3バイト）
UTF-16 BEでは: 30 42（2バイト）
Shift_JISでは: 82 A0（2バイト）
EUC-JPでは: A4 A2（2バイト）

絵文字とサロゲートペア

絵文字（😀など）はUnicode補助多言語面（U+10000以上）に属します。UTF-16では通常の2バイトで表現できないため、上位サロゲート（U+D800〜U+DBFF）と下位サロゲート（U+DC00〜U+DFFF）の組み合わせ4バイトで表現します。

例: 😀（U+1F600）のエンコード

Unicode: U+1F600
UTF-8: F0 9F 98 80（4バイト）
UTF-16 BE: D83D DE00（サロゲートペア・4バイト）
HTMLエンティティ: 😀

JavaScriptでの注意点

ES6以前: str.length が絵文字を2カウント
ES6以降: [...str].length または Array.from(str).length で正確にカウント
str.codePointAt(0) でサロゲートペアを正確に処理

HTMLエンティティの使い方

HTMLエンティティはHTML文書内で特殊文字を安全に表示するための記法です。

エンティティの種類

記法	例（「あ」U+3042）	用途
名前付きエンティティ	`<` → <	HTML予約文字（< > & " '）のみ利用可能
16進数エンティティ	`あ` → あ	全Unicodeで利用可能。HTMLメール・テンプレートに最適
10進数エンティティ	`あ` → あ	全Unicodeで利用可能。古いパーサーとの互換性

HTMLエンティティが必要な場面

HTMLの予約文字（< > & " '）をテキストとして表示したい場合
文字エンコードに依存しないメール配信（HTMLメール）
特殊文字を含むテキストをXMLやHTMLに埋め込む場合
フォント対応が不明な環境（Shift_JIS環境へのUTF-8文字送信など）

現代のWeb開発では：
UTF-8が標準化された現代では、日本語をそのままHTMLに書いても問題ありません。HTMLエンティティへの変換が必須なのはHTML予約文字（< > & " '）のみです。ただしメールテンプレートや古いシステムとの連携では依然として有用です。

よくある質問（FAQ）

UnicodeとUTF-8の違いは何ですか？: Unicodeは世界中の文字に番号（コードポイント）を割り当てた「文字の規格」です。UTF-8はそのコードポイントをバイト列に変換する「エンコード方式」の一つです。例えば「あ」はUnicodeコードポイントU+3042（10進:12354）で、UTF-8では3バイト「E3 81 82」として保存されます。
Shift_JISとUTF-8はどう違いますか？: Shift_JISは主に日本語Windowsで使われてきたエンコード規格です。日本語文字を1〜2バイトで表現します。UTF-8は国際標準で、ASCII文字は1バイト、日本語は3バイトで表現します。現代のWebシステムではUTF-8が標準で、Shift_JISは旧来のWindowsシステムや一部の業務システムで使われています。
絵文字（サロゲートペア）の文字コードを調べるには？: 絵文字は通常のUnicode基本多言語面（U+0000〜U+FFFF）の範囲外にあるため、UTF-16ではサロゲートペア（上位サロゲート＋下位サロゲート）で表現されます。このツールは絵文字にも対応しており、正確なUnicodeコードポイントとUTF-8/UTF-16バイト列を表示します。
HTMLエンティティとは何ですか？: HTMLエンティティは、HTML内で特殊文字を安全に表現するための記法です。「&#xXXXX;」（16進数）または「&#DDDDD;」（10進数）の形式で記述します。例えば「<」は「<」、「あ」は「あ」を表します。
文字化けの原因と対処法は？: 文字化けはファイルの保存エンコードと読み込みエンコードが一致しない場合に発生します。主な原因は、UTF-8で保存したファイルをShift_JISとして読み込む（または逆）ケースです。このツールで各エンコードのバイト列を確認することで、文字化けの原因特定に役立てられます。
EUC-JPとはどのようなエンコードですか？: EUC-JP（Extended Unix Code for Japanese）は、UNIXシステムで日本語を扱うために使われたエンコード規格です。日本語文字を2バイトで表現します。現在はUTF-8が主流ですが、古いUNIXシステムや一部のLinuxサーバーの設定ファイルでまだ使われることがあります。
このツールはサーバーにデータを送信しますか？: いいえ。このツールはすべての処理をブラウザ内（JavaScript）で完結しています。入力したテキストは外部サーバーに一切送信されません。機密情報を含むテキストも安心してご利用いただけます。
UTF-8とUnicode規格の関係を教えてください。: Unicodeは国際標準化機構（ISO）とUnicode Consortiumが共同管理する文字コード規格です（Unicode Standard公式サイト）。2024年現在、Unicode 15.1では約14万9,813文字が収録されています。UTF-8はUnicodeのコードポイントを可変長バイト列（1〜4バイト）に変換するエンコード方式で、RFC 3629で標準化されました。ASCII（U+0000〜U+007F）は1バイトでエンコードされるため、ASCII互換性を保ちながら全世界の文字を扱えます。

録音・録画をアップするだけで議事録を自動生成。AI 文字起こしの定番サービス。

議事録作成の手間を大幅に軽減【Notta】

※ このリンクはアフィリエイト広告（A8.net）を含みます。

文字コード変換ツール（無料・登録不要）

変換結果

よく使うコードポイントクイックリファレンス

使い方

エンコード方式の比較と選び方

Unicode と UTF-8 の関係

絵文字とサロゲートペア

例: 😀（U+1F600）のエンコード

JavaScriptでの注意点

HTMLエンティティの使い方

エンティティの種類

HTMLエンティティが必要な場面

よくある質問（FAQ）

Notta を試してみませんか？

文字コード変換ツール（無料・登録不要）

変換結果

よく使うコードポイント クイックリファレンス

▶ 使い方

📊 エンコード方式の比較と選び方

Unicode と UTF-8 の関係

絵文字とサロゲートペア

例: 😀（U+1F600）のエンコード

JavaScriptでの注意点

🌐 HTMLエンティティの使い方

エンティティの種類

HTMLエンティティが必要な場面

❓ よくある質問（FAQ）

Notta を試してみませんか？

関連ツール

よく使うコードポイントクイックリファレンス

使い方

エンコード方式の比較と選び方

HTMLエンティティの使い方

よくある質問（FAQ）