NovelAI (NAI)
- 31: NovelAIの元素法典(2022年10月18日)が出てきた。過去の資料として振り返り。
- 138: NAIちゃん誕生の頃(約3年前)からプロンプトエンジニアリングの原点として言及。プロンプトをじっくり書くとクオリティが上がる文脈で、NAIの影響を懐かしむ。
- 155: animagineV3が盛り上がるまではNAIみたいな企業パワーが必要だった。SDXLのillustriousは個人ではチューニングしきれないパワーがあり、NAIの企業力に匹敵する例として挙げられる(選ばれていないが、過去の強さを肯定的に回想)。
選ばれている理由: 企業パワーによる高品質チューニングの象徴として過去の栄光を振り返るが、現在は使われていない。
Pony
- 80: ponyZ頼むで(Z-Imageのポニー系派生を期待)。
選ばれている理由: なし(Z-Imageとの組み合わせを望む程度)。
illustrious (イラストリアス, リアス, ill, IL)
- 35: illustrious汎用爆速プリセットを使ってLoRA作成。4070ti SUPERで画像8枚、30分弱で完了。速度はこんなもんか?と疑問。
- 155: SDXLのillustriousは個人じゃどうこうできないパワーでチューニングされている。NAI並みの企業パワー例として。
選ばれている理由: 爆速プリセットでLoRA学習が効率的(手順通りで短時間完了)。高性能チューニングの代表例。
Noobai
- 172: noobとの接触とか公式がワイらのニーズ理解してそう(Z-Imageの文脈で、VRAM8~12GB勢へのアプローチとして)。
選ばれている理由: なし(Z-Imageの競合/類似として軽く触れ、VRAM低スペックユーザー向けの親和性を期待)。
FLUX
- 20: FLUX2やらQwenやら結局ローカルでも制約を気にしないといけないなら、高い機材よりWEBサービスが良い。ローカル疲れが出てきた。
- 64: flux2は重すぎて開発用PCじゃないと学習できない。zimageはSDXLの次世代になれるか、軽いは正義。
- 118: fluxは画風のノリがかなり悪かった(qwenは逆に良すぎた比較)。
- 130: Flux2品質の向上は良いけど重い。
- 140: FLUX2はエロNG、学習も困難ならFLUX1と同じ道。Z-imageはファインチューニングやLoRAが充実したらフォトリアルでqwen超える可能性。
- 228: 今ならFlux1でマークダウン記法が通用するんやろか(環境無し)。
選ばれている理由: 選ばれていない。重さ・学習困難・エロNG・画風LoRAの乗り悪さがデメリットとして繰り返し挙げられ、Z-ImageやQwenに劣ると比較。
Wan
- 36: 常用のwanVideoのWFからPainterLongVideoに挑戦。Native用でプロンプト無茶でこんなもんか。
- 42: wan2.2を久々のnativeで動かしたらdeprecatedのblockSwap撤去。VRAM12GB中10GBしか使わず、もう少し攻めた使い方を望む。
- 45: PainterI2V for KJとPainterLongVideoはwanVideoのFLFで使うノードの改善版。
- 62: 動画はzimage+WAN2.2+mmaudio。
- 125: DDR4 16GBの旧PCでもWan2.2動いてる(SSD使用か画像サイズ次第でVRAM16GBで足りる?)。
選ばれている理由: 動画生成(wanVideo, WAN2.2)で常用。Native対応やVRAM効率の改善を望むが、Z-Imageとの組み合わせで使われる。旧PCでも動作可能で手軽。
Qwen
- 20: FLUX2やらQwenやらローカル制約でWEBサービス推し。
- 64: flux2重い比較でqwenも(暗に重い?)。
- 67: qwenのおかげで自然言語データセットはある。base待ちでkhoyaニキ対応期待。自然言語タグ付けツール思い出し中。
- 97: qwenチーム(アリババ超エリート)にZ-imageが後出しで勝ってる。qie(Qwen Image Edit?)のクオリティも上げないと。
- 105: Qwenはほぼedit2509一辺倒。Baseとeditどっちが主流か楽しみ。
- 118: qwenは画風LoRAの乗り良すぎ(flux悪かった比較)。
- 125-126,129: qwen2509やQIE2509 GGUF Q2で7GB、量子化で旧PC動く。Q8で1152x1536動くがBF16/fp8はVRAM16GB無理?
- 173: Qwen3VLからQwen3(テキストエンコーダー)指示。モデルの出し入れ激しいが軽快(1バッチ4枚90秒)。
- 182: SDXL後継はQwenだろうという流れからのZ-image大逆転?
- 205: Qwenで学習すると一桁以上時間かかるから無理。
- 207-209: Qwenは量子化で生成可だが学習無理? メインメモリ退避で低VRAM学習可だが時間短縮なしでコスト重い。
- 234: QwenやZ-Imageの精度を簡体字プリセットで上げそう。
選ばれている理由: 自然言語データセット作成・画風LoRAの乗り良し・量子化で低スペック動作(旧PC/VRAM16GB)。edit2509主流で動画/画像編集に強いが、学習コスト高くZ-imageに劣ると比較多し。軽快生成とテキストエンコーダー賢さが利点。
Z-Image (Z-image, ZIT, Z-image-Turbo, Turbo, Base, Edit)
- LoRA作成の話題が非常に多い (»13, »14, »32-33, »35, »47, »54-55, »62-64, »68-70, »74, »76-77, »83-85, »89-90, »92, »95, »100, »102-103, »106-107, »109, »113-116, »136, »140, »144, »146, »152, »161, »165, »171, »172, »178, »180, »195, »199, »205, »208, »209, »230-231 など)。
- Turbo版でLoRA学習が可能で、画像5-35枚、1000-5000ステップで1-6時間程度 (4070ti SUPER/5070TI/3060/5090使用)。
- デフォ設定で1024x1024画像60枚が1時間、VRAM 12-16GBで現実的 (13.7-14GB使用、メモリオフロードで低VRAM対応可)。
- SDXL比2.4倍速、Lumina比1.8倍速。画風/キャラ再現良好だが細部(髪/背景)は調整必要。
- タグ(Danbooru) + 自然言語キャプションで効果的。テキストエンコーダーが賢く、画像要素を自動認識 (Gelbooruタグ/自然言語どちらも可)。
- マークダウン/改行/構造化プロンプト(ハイフン/箇条書き)が有効で、複数キャラ/位置関係/構図を正確再現 (例: 厨房で少女/男の左右配置)。
- 選ばれる理由: 軽量・高速・低コスト (SDXL超え、6BパラメータでVRAM12GB以上対応、量子化/オフロードで8GB可。トライエラーしやすく参入障壁低く、コミュニティ熱量高くCivitaiでLoRA急増)。次世代SDXL候補、ポストSDXL覇権臭い。Base/Edit待機中だがTurboで既に実用。
- 生成/動画関連 (»20, »24, »27, »36, »43, »45, »49, »52, »62, »80, »88-89, »96-97, »153, »166-169, »172, »173, »175, »216, »221-223 など)。
- 推奨サイズ1920x1440でも破綻少なく、ループ/長動画対応 (PainterLongVideo連携)。
- プロンプト反応良好 (マークダウンでキャラ書き分け/位置指定完璧、1girl出力強い)。
- 選ばれる理由: 軽さの正義 (高解像度/複数人/構図が楽、動画映え、VRAM8-12GB層にアプローチ。Qwen後出しでクオリティ勝ち、SDXL移行しそう)。
- 学習ツール関連 (ai-toolkit, musbi-tuner, sd-scripts後継、kohya対応予定 »63, »71, »73, »75, »79, »83, »85, »89, »156)。
- ai-toolkit楽で実装早いが容量食う。Base来たらmusbi-tunerでブロックスワップ対応。
- 選ばれる理由: 学習しやすさ (低スペックPCで暖房代わり、Base6Bでコスト変わらずエロFT期待)。
- 全体評価 (»64-66, »80-82, »92, »96-97, »101, »105, »109, »112, »140, »172, »181-182, »208)。
- Base/Edit coming soonでエロ/イラストFT待ち。フォトリアルでQwen超え可能性。
- 選ばれる理由: 軽量高速でコミュニティ承認爆速 (VRAM/時間削減、SDXL黎明期再来、Qwen/Flux超えの現実性。エロ取り込み期待、中国勢として客取りマウント)。
SDXL
- LoRA学習比較 (»35, »64, »66, »74, »144, »146, »148, »151, »158)。
- Z-imageが軽さ/速さで上回る (DMD2使用でも同等)。
- 選ばれる理由: なし (Z-image移行示唆、過去の移行成功例)。
その他のモデル
- Ovi / s2v / infinite talk: 英語リップシンク動画 (»37, »41, »44, »48)。VRAM16GBでOOM注意。
- Grok: 動画化相性良い (憑依シチュ »50)。
- Sora2: リップシンク/ジェスチャー自然、パイズリ説明具体的 (»81)。
- Lumina: 速度比較でZ-imageに劣る (»74)。
- animagineV3: スレ盛り上がり例 (»155)。