以下は、提供された5chログ(442〜642)から、指定された生成AIの「モデル」に関する話題をすべて抽出したものです。抽出対象は以下のモデルに限定し、各モデルの言及箇所をレス番号付きで引用・整理しました。特に、そのモデルが選ばれている理由(例: 性能、使いやすさ、再現性など)が明示的に述べられている場合、それを強調して抽出しています。言及がないモデルについては「該当なし」と記載します。
NovelAI (NAI)
- 516: 「このスレの前身はNAIが初誕生したときの向こうのスレなんだよな 向こうでpart100ぐらいまで行ってなんUに移転してまた★1スタートになった 今回のsora2はその時を思い出すレベルや」
- 選ばれている理由: 特に明示されていないが、ログの文脈からNAIがスレの起源として歴史的に重要なモデルとして言及されており、初期の生成AIブームを象徴する存在として振り返られている。
Pony
illustrious(イラストリアス, リアス,ill,IL)
- 580: 「あの、あの…… ちょっと手始めにillustrious3.5ぐらいまで公開される程度の金を出してくれませんか?」
- 選ばれている理由: 明示的に理由は述べられていないが、文脈からillustrious3.5が公開レベルの高いモデルとして望まれている(資金提供の文脈で言及)。ジェネリックtakane開発計画の「手始め」として挙げられているため、性能の高さや進化版としての期待が理由と推測される。
Noobai
FLUX
Wan
- 492: 「nano-bananaで画像作ってstartとendに画像指定で動画作成!からまだ全然経ってないのにこれ どんだけ進化スピード早いんだよ」
- 選ばれている理由: 進化スピードの速さが強調されており、動画生成の進歩(start/end画像指定による動画作成)が理由として挙げられている。
- 497: 「でも10秒以上の動画をStart and End frame指定で繋げて長尺にとかは出来ないからまだまだWan2.2の方がポテンシャルは上やと思うけどな 10秒ぶつ切りの動画を繋げるにしても今度は音と台詞が邪魔になるっていう 編集で無音にすりゃええだけやけどそれなら別にsora2じゃなくて良くない?って事にもなるんよな」
- 選ばれている理由: Wan2.2のポテンシャルが高い点(長尺動画の接続可能性、LoRAの使用など)が理由として挙げられ、Sora2との比較で優位性が強調されている(音声や台詞の柔軟性、編集のしやすさ)。
- 552: 「Wan2.2の時点でフル性能のfp16そのままには5090でもきびちいってレベルだからな Sora2レベルがローカルにって話あるけどPro6000(VRAM96GB)でフルのWan2.2動かしたらそんなに差がなかったりして 版権アニメを露骨に学習してる今のSora2にはその部分は勝てないだろうけど、そのうち牙を抜かれるだろうしな」
- 選ばれている理由: フル性能(fp16)の高さが理由だが、ハードウェア要件(VRAM96GB必要)が厳しい点が指摘されている。Sora2との比較で、版権再現性以外の性能面で互角以上と評価されている。
- 576: 「sora2はi2vではt2vに比べて動きが悪くなる なのてi2vであれだけ動いてるwan2.2はかなりの性能なんやなとおもた LoRAも使えるしな ただBGM音声効果音は羨ましいンゴねえ」
- 選ばれている理由: i2v(Image-to-Video)の動きの良さとLoRAの使用可能性が理由として挙げられ、高性能さが評価されている(Sora2との比較で動きの優位性)。
- 577: 「Easywan22で光がめちゃくちゃ強くなる現象を抑える方法ってある? 白飛びするほど光が強くなってしまう 動き強化は使ってない」
- 選ばれている理由: 明示的に理由は述べられていないが、使用中の問題(光の強さの制御)について相談されており、動画生成の利便性が高いモデルとして選ばれている文脈。
- 585: 「wan2.2の逆順生成でパンツ下げさせたいんやけどプロンプト力が足りん というか実際の動作を思い浮かべると先にスカートの左右を持ち上げてパンツを掴む動作が 入るので正しいよね?なんかパンツずりさげ手順がゲシュタルト崩壊してきたで ストロングスタイル 器用 オートマティック」
- 選ばれている理由: 逆順生成の機能が理由として挙げられ、詳細な動作再現(パンツ下げのシミュレーション)への適応性が高い点が選ばれている。
- 614: 「WAN2.5はSora2と同じで音声も行けるぽい? 素のままだとローカルに来ても動かないだろうから量子化や高速化したうえで実用範囲になるかは問題だけど」
- 選ばれている理由: WAN2.5の音声対応可能性が理由として挙げられ、Sora2と同等の機能(音声生成)が期待されている。ただし、ローカル動作の難しさ(量子化必要)が課題として指摘。
Qwen
- 474: 「完全に匙加減だと思うよ、単純にどう学習させてるかだけだもの 素のQwen imageで版権キャラがどこまで出せるか検証したけど 中国展開できてるアニメの主人公はかなり出る、ポケモンはピカチュウ・リザードンは完璧だけど他はピカチュウとリザードンに汚染される形 マーベル系は映画の主人公格はちゃんと出るけど実写映画に出てないと全然反応しないみたいな状態 sora2は今だけの宣伝用ということでネットミームしやすいやつ選んでるんじゃないかな」
- 選ばれている理由: 版権キャラの再現性が高い点(中国展開アニメや特定ポケモン、マーベル系)が理由として挙げられ、学習データの影響で特定のコンテンツに強いことが検証されている。
- 536: 「今qwen image edit 2509のnunchaku版使ってるんやけど なんか通常版よりプロンプトの追従具合が悪い気がすんな 気のせいやろか? それともやっぱ圧縮過程で精度は犠牲となったんやろか」
- 選ばれている理由: 明示的に理由は述べられていないが、使用中の問題(プロンプト追従の悪さ、圧縮による精度低下)について相談されており、画像編集機能の高さが選ばれている文脈(nunchaku版の検証)。
- 538: 「QwenImageEdit2509用のLightningが10月4日から10月9日にリリース予定と書いてあるからこれで精度が上がるとええな」
- 選ばれている理由: Lightning版のリリースによる精度向上期待が理由として挙げられ、既存版の性能をさらに高めるための選択肢として注目されている。
- 548: 「既に動いてるこういうもんなんだと思ってたけど 最適化されるならこれは楽しみやね 明日くれ(強欲)」
- 選ばれている理由: 最適化(Lightning)による性能向上期待が理由(538の続き)。QwenImageEdit2509の既存動作を基に、さらに実用性が高まる点が選ばれている。
- 561: 「Qwen Image Edit 2509しゅごすぎて草 もうこれゲームエンドだろ(2週間ぶり58回目)」
- 選ばれている理由: 「しゅごすぎて」(すごすぎて)と高性能さが理由として強調されており、ゲームエンド級のインパクトがあるモデルとして選ばれている。
抽出の補足
- 上記の抽出は、ログ内で明示的にモデル名(または指定の別称)が登場した箇所に限定しました。文脈的に関連するがモデル名が直接出ていないものは除外。
- 複数のモデルが比較されている場合(例: WanとSora2の比較)は、対象モデルの強みを抽出。
- 全体として、WanとQwenの言及が多く、動画生成や画像編集の性能(再現性、動き、LoRA対応など)が選ばれる主な理由として挙げられています。
以下は、提供された5chログから抽出された生成AIの「モデル」に関する話題のまとめです。抽出の基準は以下の通りです:
- 生成AIのモデル(画像、動画、音声など)を指す言及に限定。
- 除外モデル一覧(NovelAI (NAI), Pony, illustrious(イラストリアス, リアス,ill,IL), Noobai, FLUX, Wan, Qwen)に該当するものは除外(例: Wan2.2, Qwen Image Edit 2509などは除外)。
- モデル名が明示的に言及されているもの、または文脈からモデルを指していると判断できるものを対象。
- 特に、そのモデルが選ばれている(または評価されている)理由がログに記載されている場合、それを抽出・強調。
- 抽出はログの投稿番号を参考にし、重複を避けて要約。話題の流れを尊重し、関連する投稿をグループ化。
1. Sora/Sora2 (OpenAIの動画生成モデル)
- 関連投稿: 468, 470, 471, 474, 479, 488, 492, 495, 497, 498, 499, 503, 507, 508, 510, 512, 513, 516, 529, 530, 531, 533, 534, 543, 546, 547, 549, 564, 567, 568, 569, 576, 588, 597, 604, 605, 606, 607, 614, 617, 622, 635, 636, 637, 639.
- 抽出された話題の概要: Sora2は動画生成のクオリティが高く、版権キャラの再現性(例: ぼっち、チノちゃん、邪神ちゃん、シャミ子、一方通行、上坂すみれ、ウマ娘など)が優れている。音声(台詞、BGM、効果音)の自動生成が可能で、10秒以上の動画作成(Proプランで20秒可能)。i2v(画像から動画)では動きが悪くなるが、t2v(テキストから動画)は強い。プロンプトの追従性が高く、雑な入力でも理解度が高い。ローカル実装は難しく、クラウドベースのため法的リスクを運営側が管理しやすい。
- 選ばれている理由:
- 版権キャラや声の再現性が飛び抜けている(YouTube学習の影響か、運営のさじ加減)。ネットミームしやすいキャラを選んで学習されている可能性。
- 音声周りが優秀で、BGM/台詞/効果音が自動付与され、編集不要。エロシチュエーションの生成も可能だが、現在は規制あり(エロ解禁で新時代到来の期待)。
- 一般人向けのアクセシビリティが高く、プロンプト力が低くても高品質出力。動画生成の世界一レベルで、進化速度が早い(例: 静止画から動画への移行が急速)。
- 批判もあるが(エロ不可、秒数が短い、著作権問題)、影響力と資本力で訴訟リスクを耐えられるため選好(アメリカ企業ゆえの強み)。
- 比較: Veo3よりt2vで優位だが、i2vではVeo3の方が上。
2. Takane (音声生成モデル、自己回帰型TTS)
- 関連投稿: 480, 481, 482, 483, 566, 567, 568, 569, 571, 575, 578, 579, 582, 584, 586, 588, 589, 590, 591, 592, 594, 621.
- 抽出された話題の概要: Takaneは日本語音声生成に特化し、生成速度が速く、Busyになりにくい。エロ対応が可能で、自然なプロソディ(抑揚)と表現力が豊か。StyleTTS2とは構造が異なり、自己回帰型のため自然さが高い。作者がイラン人で、声優ファン。公開終了(終わった)し、ローカル配布なし。法的リスク(声優対応表作成によるオモチャ化)で継続困難。
- 選ばれている理由:
- 自然な日本語とエロ音声対応(エロゲデータ学習の影響か)。抑揚や喋り方が商業ボイロを超えるレベルで、棒読みになりにくい。
- 声質のマージが難しく、第三者声作成がトレードオフになるが、表現力が抜群。サンプルボイス作成に便利で、EasyLIasa(Llasa?)と組み合わせやすい。
- 鯖増強で生成速度が向上し、使いやすいが、公開終了の原因は訴訟リスク(声優オタク作者の判断)。
3. StyleTTS2 (TTSモデル)
- 関連投稿: 579, 584, 586, 621.
- 抽出された話題の概要: StyleTTS2は日本語とエロ音声学習が可能。Tsukasa(Takaneの前身?)は同じ作者が作ったが限界あり。Takaneとは構造が別で、自己回帰型ではないため自然さで劣る可能性。エロゲボイスデータ(数万時間分)で学習可能だが、Takaneのようなものは出てこない。
- 選ばれている理由:
- 日本語エロ音声学習に適し、基本的な話し方を大規模クリーンデータで扱える。声質追加学習が数十分のデータで可能だが、演技の自然さはベースモデル次第(エロゲデータが必要)。
4. GhostXL (画像生成モデル?)
- 関連投稿: 545, 550.
- 抽出された話題の概要: 鉛筆画(超絶微細からラフまで)や色鉛筆画の生成が可能。メタデータ付き出力例あり。
- 選ばれている理由:
- 鉛筆画のタッチを細かく制御可能(例: 色鉛筆で色が出る)。ラフスケッチやアウトラインに強い。
5. Hunyuan Image3 (Tencentの画像/動画モデル?)
- 関連投稿: 475.
- 抽出された話題の概要: T2V(テキストから動画)で採用。LLMベースでマルチモーダル。
- 選ばれている理由:
- LLMベースのため、モデルサイズが大きくても重要(マルチモーダルが肥大化する問題を解決)。設備とサイズの違いを考慮した選択。
6. Ebara4 (画像モデル?)
- 関連投稿: 476, 478.
- 抽出された話題の概要: 背景に光の粒(light particles)が出やすい。Danbooruタグで抑制可能。
- 選ばれている理由:
- 過去のモデルでlight particle対策が必要だった記憶から選ばれている(抑制プロンプトの適応例)。
7. Veo3 (Googleの動画生成モデル?)
- 関連投稿: 637.
- 抽出された話題の概要: i2v(画像から動画)の動きがSora2より優位。
- 選ばれている理由:
- 技術的にSora2と大差ないが、i2v性能で上回るため、動き重視の場面で選好。
8. Deepseek (生成AIモデル)
- 関連投稿: 630.
- 抽出された話題の概要: 中国発の技術として叩かれやすいが、米産モデルも似たバイアスあり。
- 選ばれている理由:
- バイアス問題の議論で言及(中国発ゆえの政治的叩かれやすさ)。
9. その他の音声関連モデル (Gemini TTS, A.I.VOICE, AivisSpeech)
- 関連投稿: 597 (Gemini TTS), 618, 619 (A.I.VOICE), 640 (AivisSpeech).
- 抽出された話題の概要: Gemini TTSは日本語の自然さが最強だが、ワンショットリファレンス不足。A.I.VOICEは2年前の古いエンジン(ディープラーニング搭載)。AivisSpeechは潰された事例。
- 選ばれている理由:
- Gemini TTS: 日本語自然さだけ最強(ワンショット追加でゲームエンド級)。
- A.I.VOICE: 古いが、抑揚処理の変化を議論(2年で研究が進化したため)。
- AivisSpeech: 特定声優コソコソ使用が悪く、潰された(openAIのような開き直りが重要)。
これらの抽出はログの主な話題(特にSora2とTakaneが中心)を反映しています。ログ全体がAI生成のエロ/動画/音声に偏っているため、抽出もそれに沿っています。不明瞭なモデル名(例: WAI15, obsession)は文脈からモデルと判断しにくく除外しました。