以下は、提供された5chのログから、指定された生成AIのモデル(NovelAI (NAI), Pony, illustrious(イラストリアス, リアス,ill,IL), Noobai, FLUX, HiDream, Wan, FramePack, Qwen)に関する話題をすべて抽出したものです。抽出の基準は以下の通りです:
- 指定モデルに直接言及しているレスを対象とし、関連する文脈(例: 使用例、問題点、選ばれている理由など)を可能な限り含めました。
- 選ばれている理由が明示的に述べられている場合、それを強調して抽出。
- ログ内で言及のないモデル(Pony, Noobai, HiDream, FramePack)は「なし」と記載。
- 抽出はログのレス番号順に整理し、重複を避けつつ要約。
NovelAI (NAI)
- 17: NAI(推定)で「chestnut」で剥き実が出ない問題。秋っぽい残暑見舞いの生成で、栗の表現が難しい。
- 57: NAI(推定)のオートコンプリートで「masturbation」が「mast」まで入力しても出てこず、「mastu」まで入力してようやく正解する。よくあるミスとして挙げられている。
- 221: ChatGPTでNAIv4.5Full形式のプロンプトを相談可能で、エッチな提案もOK。一方、GeminiはNovelAIの話題だけで警告文が出る(基準が厳しいため?)。選ばれている理由: プロンプトの改善相談がしやすく、生成画像のフィードバックが可能。
Pony
illustrious(イラストリアス, リアス,ill,IL)
- 78: Illustrious系はエロが十分学習されているが、背景・小物・モブ顔の人物が難しい。食事シーンはフリー素材を他のAIでスタイル変換した方が早いとアドバイス。
- 178: wai-ill-v14で最新キャラを出したい場合、LoRAを探すか作るしかない。
- 202: リアスは現在SDXLベースに注力中だが、今後Lumina Image 2.0ベースで研究予定(v0.03で止まっている)。選ばれている理由: SDXLベースの進化が止まっていない勘違いを訂正し、Lumina Image 2.0への移行でさらに進化が見込める。
- 213: リアスで生成したAI絵をデータセットとして使用(ロリ系10枚)。
Noobai
FLUX, HiDream
- 98: USOがfluxベースに見える(コードにdit_lora.safetensorsとprojector.safetensorsの記述)。Style-drivenとSubject-drivenの統合が可能で、一貫性を保ちつつ多様な絵が出せる。選ばれている理由: 文体と主題の一貫性を統合し、さまざまな絵を生成できる主張(ただしサンプルでわかりにくい)。
(HiDreamについてはログ内に言及なし)。
Wan
- 55: wan22ちゃんで吐息を吐き出しまくる問題。止める方法として、白背景とブレスしない素材を徹底する。
- 73: easywan22で不要モデルを削除推奨(Q3モデルはQ4で生成可能なら不要)。選ばれている理由: 以前のQ3モデルからQ4へ移行し、生成効率が良い。
- 82: wan22のzuntan兄貴のItoVワークフローで高速化LoRAをnoneにし、High/lowステップを20に、fp16fastをfp16に変更したが動かない問題。
- 117: wanちゃんで「脱いで裸の状態を維持しながら○○して」と命令しても、最後に服を着てしまう問題。
- 118: wan(推定)で服が戻らないプロンプト例(”She strips off her clothes. Then, completely naked, she jumps up and down, her breasts bouncing continuously.”)。他のプロンプトが邪魔している可能性。
- 120: wanちゃんで10秒で脱がせると5秒目で服が戻り、再び脱ぐ現象。
- 123: wan22でblockswapを減らすとloraを切ると動かなくなる(環境の問題?)。高速化が基本のためloraが必要。
- 128: WANで騎乗位や逆駅弁をすると全身が揺れて動きは大きいが、顔がブレやすい(仕方ない?)。
- 129: ComfyUIのデフォルトWan2.2でblockswapの指定方法が不明だが、普通に使えている。
- 130: easywan2.2でswap40とswap0を比較すると、swap0の方が15%速いが最近は差が少ない。選ばれている理由: VRAMお漏らしなしで処理速度が速い(ただし最近の工夫で差が縮小)。
- 152: easywan22のpostprocessでwebp読み込み時にエラー(impactwildcardprocessor seed)。以前はできた。
- 161: wanとQwenに手を出したらSSDがキツくなる。
- 216: ComfyUIでWan2.2が上手くいかないのでEasyWan環境を作成。ワークフロー・最適化・アドバイスが充実。選ばれている理由: Lora付きで品質が高く、勉強用に偉大(自前環境より優位)。
FramePack
Qwen
- 74: qwenで食事シーン(ベーコンエッグ、ワカメ味噌汁、サンマ塩焼き、千切りキャベツ)を生成。山盛りのキャベツ以外はそれなりに出るが、実写風/イラスト風で精度違い、チャッピー訳プロンプトとgrokで差あり。視線指示が通らない。選ばれている理由: プロの漫画家より速いが、自分で描いてi2iの方が上手くいきそう。
- 99: Qwen-image-editorでフリー素材の食事写真を加工(白黒、イラスト化)。イラスト化でディテールが欲しい。
- 138: Qwen-LoRAの学習設定でVRAM10GB未満(block_Swaps40、画像10枚640解像度バッチ1、adamW8bit)。メインメモリ使用が増えるが、低VRAMで動く。GUIツール公開予定。
- 161: wanとQwenに手を出したらSSDがキツくなる。
- 172: qwen imageで画像生成後、全く違うプロンプトで前の影響を受けた画像が出る(キモい)。
- 209: QWEN-LoRA-GUI公開(Musubi-tunerのQWEN-ImageLoRA学習特化)。GUIでコマンド生成/実行、バッチ実行、Slack通知。選ばれている理由: 学習を効率化し、スケジューラーでバッチ実行可能。
- 210: Qwen(推定)のオプティマイザー検証(AdamW8bit_1e-3, RAdamScheduleFree_1e-3, CAME_1e-4, Lion_2e-4, Prodigy_1)。同一設定で学習(画像10枚640ステップ8エポック)。
- 213: Qwen(推定)のデータセットとしてリアス生成のAI絵10枚使用。
- 218: musubi-tunerでQwen学習完走。版権キャラがQwenでいける可能性。
- 227: qwenはしっかり描くタイプのため、企業ロゴ使用はリスク高い。選ばれている理由: 描き込みがしっかりしている(ただし商標権のリスクあり)。
これらの抽出はログの文脈を尊重し、生成AIのモデルに焦点を当てています。指定外のモデル(例: nano-banana, Midjourney, Geminiなど)は抽出対象外としました。
—以下は、提供されたなんJ(5ch)のログから、生成AIの「モデル」に関する話題を抽出したものです。抽出の基準は以下の通りです:
- 生成AIのモデル(主に画像生成、動画生成、音声生成関連のもの)を対象とし、除外リスト(NovelAI (NAI), Pony, illustrious(イラストリアス, リアス,ill,IL), Noobai, FLUX, HiDream, Wan, FramePack, Qwen)に該当するものは除外。
- モデル名が明示的に登場し、話題として扱われている部分を抽出。
- 特に、そのモデルが選ばれている理由(例: 性能、使いやすさ、特定の機能)が述べられている場合、それを強調して抽出。
- ログのレス番号を参考に、関連する文脈を簡潔にまとめ、元のログのニュアンスを保つ形で記述。
- 抽出対象が少ないため、関連度の高いものを優先的にリストアップ。
抽出されたモデルと話題
- SUPIR (関連レス: 31, 68, 33)
- 話題: アプスケ(アップスケール)&ノイズ除去のためのワークフロー作成で使用。写真や昔のアニメの解像度向上とノイズ除去を目的にモデルを探している中で、SUPIRを試用中。動画の4K化やディテールアップにも関連づけられる。
- 選ばれている理由: なかなかよさげで、時間はかかるが効果的。hires(高解像度処理)やtile(タイル処理)と組み合わせやすい。原画に忠実なディテールアップが難しい中で、ノイズ除去の解決策として期待されている。
- RVC (Retrieval-based Voice Conversion) (関連レス: 50, 83, 84, 85)
- 話題: ボイチェン(ボイスチェンジャー)として使用。アニメキャラの吹き替えや詐欺電話のような自然な音声生成を目指すが、機械的な歪みが出やすい。エロソシャゲの音声で学習すると良い結果が出るが、話し方や抑揚の再現が難しく、死にたくなるレベルの恥ずかしさが生じる。
- 選ばれている理由: ボイチェン分野で一番の選択肢だが、音質ががんばっても元話者に似にくく、トレードオフがある。低遅延目当てでボイチャやVRC(VRChat)で使う人が多い。エロ演技や喘ぎ声の学習に便利だが、表現の崩れやすさが課題。
- Beatrice (関連レス: 84)
- 話題: ボイチェンとして最近アプデ(アップデート)され、自分で学習可能。音声スレッドで話題に。
- 選ばれている理由: 低遅延でボイチャやVRC向き。RVCの代替として、逃げ出した開発者が出戻りするような状況の中で、進化が目立つ選択肢。
- SBV2, AivisSpeech (関連レス: 83)
- 話題: テキストからの音声合成として使用。学習データそっくりの声が出るが、イントネーションや表現の細かい操作ができない。
- 選ばれている理由: RVCとのトレードオフで、声の似せやすさがビビるレベル。演技レベルの音声生成が難しい中で、合成の精度が高い。
- nano-banana (関連レス: 107, 124, 125, 131, 134, 185, 187, 188, 193, 194, 195, 235)
- 話題: 学習素材の少ないキャラの画像を増やすのに便利。顔の細部が苦手だが、構図生成後にADetailerで補正可能。服の画像を読ませてキャラに着せる機能がすごい。Google製AIチップ(TPU)に特化した設計で、一般GPUでは動かない可能性。DALL-E3の絵の描き足しが可能で、密度の高い描き込みが戦慄級。
- 選ばれている理由: 素材増やしや衣装再現に万能で、服LoRAが不要になるレベル。日本語指示でバグが出やすいが、英語で通る。複雑な衣装(例: ソシャゲキャラの後ろ姿)の破綻を抑え、無難にまとめる。顔の弱点を補うと完璧。Googleの新型AIチップ(性能2倍)のおかげで追い上げがエグく、CN(ControlNet)機能が凄い。
- Lumina Image 2.0 (関連レス: 202)
- 話題: ローカル静止画の進化が止まっているように見える中で、今後研究していくベースモデル。v0.03で止まっているが、SDXLベースに注力中。
- 選ばれている理由: SDXLではなくLuminaをベースにすることで、進化の可能性が高い。研究の焦点として選ばれている。
- USO (関連レス: 98)
- 話題: Style-drivenとSubject-drivenの統合が可能で、一貫性を保ちつついろんな絵が出せる。コードからFLUXベースっぽいが、理解が追いつかないレベル。サンプルがいまいちわからない。
- 選ばれている理由: 文体の類似性と主題の一貫性を優先する相反する手法を統合できる主張があり、柔軟な生成が可能。
- Musubi-tuner (関連レス: 209, 210, 216, 217, 218, 219, 220)
- 話題: Qwen-ImageLoRA学習に特化したGUIツール。コマンド生成、実行、スケジューラーによるバッチ実行、Slack進捗通知付き。オプティマイザー(AdamW8bit, RAdamScheduleFree, CAME, Lion, Prodigy)ごとの学習検証済み。VRAM消費を10GB以内に抑えられる設定可能。
- 選ばれている理由: 学習をGUIで簡単にし、バッチ実行で効率化。進捗管理がSlackで便利。低VRAM(例: block_Swaps40で画像10枚学習)で動くため、弱GPUユーザー向き。サンプルプリセットで640ステップの学習が20-25分で完了。
抽出の補足
- 上記のモデルは除外リストに該当せず、ログ内で生成AIの文脈で明確に議論されているものを抽出。音声生成(ボイチェン系)が多く、画像生成の補助ツール的なモデル(nano-banana, Musubi-tuner)が目立つ。
- 理由の抽出: ログ内で性能(例: 低遅延、効率化)、使いやすさ(例: GUI、英語指示)、特定機能(例: 衣装再現、ノイズ除去)が挙げられている場合を強調。
- 該当なしのモデル: WanやQwen関連は除外したため、多数のレス(例: Wan22の高速化、Qwen-LoRAなど)をスキップ。Illustrious(リアス)関連も除外。
- 全体のログでモデル話題は散見されるが、除外対象が多いため抽出数は限定的。もし追加のログや уточненияが必要ならお知らせください。