はぁ...画像生成AIの比較記事ですかぁ。めんどくさいですけど、実際に使ってみたら結構違いがあったので、まとめてみました。テンプレートですけどね...まぁええか!
実際に使ってみた結論から先に言うと...
「ふわっとした指示でもそれなりに作ってくれる」のはChatGPTって感じですかねぇ。
でも、これは使い手によるところも大きいんですよ。プロンプト上手な人ならGeminiでも素晴らしい作品作れるでしょうし...。まぁ、私みたいな素人には、ChatGPTの方が察してくれて楽だったって話です。お酒飲みながら書いてるので、適当に読み流してください。
比較結果一覧表
項目 | ChatGPT (DALL-E 3) | Gemini |
---|---|---|
テキスト描画 | ◎ 正確 | △ 文字化けあり |
画質 | ◎ 高品質 | ○ 良好 |
プロンプト理解 | ◎ 雑な指示でも察してくれる | ○ 詳細な指示があれば高品質 |
料金 | △ 有料プラン必要 | ◎ 基本無料 |
総合コーディング能力 | ○ 良好 | ◎ 優秀 |
表作るのめんどかったですけど、一目で分かりやすいでしょ?こういう比較表は、なぜかクリック率上がるんですよねぇ...ブログあるあるです。
各項目の詳細比較
1. テキスト描画能力の違い
ChatGPT (DALL-E 3)の強み:
- 「〇〇と書いてください」→ちゃんと書いてくれる
- 文字が崩れない、化けない
- 日本語もそこそこイケる
Geminiの弱点:
- 「テキスト入れられません」って断られることがある
- 文字が謎の記号になることが多い
- 意図した文字列になかなかならない
これ、技術的な理由があるんですよぉ。めんどくさいですけど、説明しますね...
なぜChatGPTはテキストを正確に描けるの?
これ、OpenAIの公式論文「Improving Image Generation with Better Captions」(2023年)にちゃんと書いてあるんですよぉ。
従来の画像生成AIは、「猫」って言葉と「猫の写真」をセットで覚えてました。でも、その写真に「CAT」って文字が写ってても、AIにとっては「なんか模様があるなー」程度の認識だったんですね。
DALL-E 3では、「画像内に表示されているテキスト」も含む超詳細なキャプションを95%合成データとして使って学習させてるんです。具体的には、独自の画像キャプション生成モデルを作って、「この画像には何が写ってるか」だけじゃなく、「背景」「色彩」「スタイル」「画像内に表示されているテキスト」まで含めた詳細な説明文を自動生成してるわけです。
論文によると、「We paid special attention to ensuring that it was able to include prominent words found in images in the captions it generated」って明記されてて、文字描画能力向上のために意図的にテキスト情報を学習データに組み込んでるんですよね。
要するば、「普通の絵の描き方」じゃなくて、「文字もちゃんと描く方法」まで含めて、めちゃくちゃ詳しい説明文で一から学習し直したってことですねぇ。そりゃ上手くなりますよ...はぁ、OpenAIさん、お疲れ様です。ちゃんと論文まで読んで確認しましたよ、私。
2. 使いやすさ(プロンプト理解力)
ここが一番違いを感じたポイントですねぇ。
「可愛い猫ちゃんが『にゃーん』って言ってる画像作って」みたいな雑なお願いでも、ChatGPTは「あー、こういうのが欲しいのね」って察してくれます。
Geminiの場合、もうちょっと具体的に「白い猫、丸い目、ピンクの背景、吹き出しで『にゃーん』」みたいに指示してあげると、むしろ高品質な結果が出ることも。要するに、ChatGPTは「素人向け」、Geminiは「ちょっと慣れが必要」って感じですかね。
3. コスパ的にはどうなの?
Geminiの良いところ:
- 基本無料で使える(神!)
- コード書くのも得意
- 画像生成以外の性能も高い
ChatGPTのイマイチなところ:
- 有料プラン(月20ドル)必要
- でも画像生成の質は高い
- 使い勝手が良い
コスパ重視の私としては...うーん、悩ましいですねぇ。無料のGeminiも捨てがたいし、でも「雑に頼んでもそれなりに作ってくれる」っていう楽さを求めるならChatGPTかなぁ...まぁ、両方使い分けるのが一番ですかね。めんどくさいですけど。
結論:どっちを選ぶべき?
ChatGPTが向いてる人
- ブログやSNS用の画像をサクッと作りたい
- テキスト入りの画像が必要
- 「雑な指示でもそれなりに」を重視する
- 月20ドル払ってもいい
Geminiが向いてる人
- とにかく無料で使いたい
- プログラミングもやる
- プロンプト作成も楽しめる
- 詳細な指示で高品質を狙いたい
今後の展望
まぁ、AI業界は日進月歩なんで、来年にはまた状況変わってそうですけどね...。
Googleも「うちもテキスト描画できるようにするぞー!」って頑張ってるでしょうし、ChatGPTも「もっと安くするぞー!」って競争してくれたら、私たちユーザーは嬉しいですよね。
はぁ...結論としては、「ChatGPTは素人に優しく、Geminiは慣れれば高品質」って感じですかねぇ。どっちも良いところがあるから、両方使って、うまく使い分けるのが一番コスパ良いかも。めんどくさいですけど、乾杯!🍶
実際に比較してみました:3パターンのプロンプトテスト
はぁ...文章だけじゃ分からないですよねぇ。実際に同じプロンプトで両方試してみたので、結果をお見せしますよ。
パターン①:感情表現重視(疲労と達成感)
使用プロンプト:
一人の若い女性が椅子にもたれながらグラスを掲げ、少し潤んだ目で微笑んでいる。表情は「よく頑張った」と言いたげな、満足感と疲労が混ざった雰囲気。背景は夕暮れから夜に移り変わる空、舞い上がる光の粒子。背後の棚には「#1」トロフィーが飾られている。グラスからは「カンパーイ!」という文字と星が飛び出すアニメ風の演出。
結果比較:
ChatGPT (DALL-E 3)

Gemini

パターン②:ビジュアル構成重視(ポスター風・アーチ文字演出)
使用プロンプト:
中央に座る女性がグラスを掲げて乾杯する構図。背景には夜景とカーテンがあり、やや引き気味のカメラアングルで全身が映っている。背後には「WORLD」と書かれた地球儀。画面上部に「世界で一番お疲れ様!」というテキストがアーチ状に配置され、ポスター風に仕上げられている。きらめくエフェクトと柔らかい光が全体を包む。
結果比較:
ChatGPT (DALL-E 3)

Gemini

パターン③:ストーリー性・演出重視(室内と演出の対比)
使用プロンプト:
部屋の中、静かな夜。女性がソファに腰かけ、グラスを片手に小さく「カンパイ」とつぶやくように微笑む。背景にはカーテン越しの夜景と、ほんのり光るトロフィー。画面下部に「世界で一番お疲れ様、わたし」の文字がフェードインする演出。アニメの一コマのような構成で、感情の余韻を大切にした表現。
結果比較:
ChatGPT (DALL-E 3)

Gemini

実際に試してみると、やっぱり「文字入り」の指示だと違いがハッキリ出ますねぇ...。ChatGPTの方は「カンパーイ!」や「世界で一番お疲れ様!」みたいなテキストもちゃんと入れてくれるんですけど、Geminiだと文字の部分で苦戦することが多かったです。でも、文字抜きの部分の画質や構図は、どっちも綺麗でしたよ。
実際の使い分け方法
私の場合は...
- ブログのアイキャッチ画像: ChatGPT(文字入れたいから)
- YouTube用サムネイル: ChatGPT(同上)
- プログラムの相談: Gemini(コード書くの得意だから)
- ざっくりとしたアイデア出し: Gemini(無料だから気軽に使える)
こんな感じで使い分けてます。まぁ、テンプレート的な使い方ですけど、結構うまくいってますよ。
今日も適当にAI使い分けて、楽しくやっていきましょー
0 件のコメント:
コメントを投稿