以下は、提供された5chのログから、生成AIに関連する「ツール」に関する話題をすべて抽出したものです。抽出の基準は以下の通りです:
237, 240, 243, 256, 263, 271, 276, 278, 281, 282, 284, 287, 288, 289, 292, 293, 294, 296, 300, 301, 303, 305, 306, 310, 312, 315, 320, 321, 322, 328, 378, 405, 420, 425, 428, 430, 434, 435 (EasyLlasa関連)
EasyLlasaをインストールして使用。素材ボイス次第で感情操作可能。喘ぎ声の生成は可能だが、Takaneに劣る可能性あり。普通の話し言葉をサンプルにすると良さそう(喘ぎ声サンプルは1敗)。スピード、音量、バッチ数しか弄れない。リファレンス音声の厳選が必要で、テキスト化や生成の仕組みとしてXCodec2という音声トークナイザを挟んでLLMに直接音声学習。リファレンスでチュパ音をテキスト化可能にすると、入力テキストでチュパ音生成可能。ファイル名にカッコが入ると不具合発生(修正済み)。リファレンス音声の途中から続きを生成する仕組み(アウトペインティング風)。喘ぎ声系のボイスで可能性を感じる。モデル変更方法として、起動コマンドに–whisper openai/whisper-large-v3-turboを追加(BatchGenerateにも)。音質は体感96-128kbps程度でクリアな音声ならノイズ減る可能性。イントネーションの不自然さが少なく最高。
選ばれている理由: 素材ボイス次第で感情操作可能。喘ぎ声を含むリファレンスで質が上がる。シンプルイズベストで脳に効く。busy状態の代替として便利。
237, 243, 249, 298, 301, 306, 310 (Takane関連)
Takaneがbusy状態でめんどいのでEasyLlasaを試す。喘ぎ声生成ではTakaneの方が優位。セクシーボイスのリファレンスを作ってEasyLlasaで続き生成可能。Takaneは無限busy状態。バイノーラル生成可能か?(囁き、吐息、耳ふーなどのリファレンスで試す)。
選ばれている理由: 喘ぎ声生成でガチ性能が高い。セクシーボイス作成に適するが、busy状態が多いため代替ツールを探すきっかけに。
264, 276, 282, 284, 292, 293, 294, 296, 420 (Anime-Llasa / Whisper関連)
Anime-Llasaで使われるWhisperをlitagin/anime-whisperに変えると、参照音声の喘ぎ声やチュパ音がきちんと文字化され質が上がる。easyLlasaではlargeV3を使っても駄目だが、flyfront/anime-whisper-fasterに書き換えれば可能。アップデートで書き換え不要に。チュパ音がええ感じにテキスト化。safetensor形式。素早い対応に感謝。
選ばれている理由: 喘ぎ声やチュパ音のテキスト化で質が向上。アニメ向けWhisperとして喘ぎ声対応が優秀。
267 (banana関連)
bananaを使って簡単に目だけ光らすことができた。ハロウィンのコスプレで下着っぽいのもいける。
選ばれている理由: 簡単に目だけ光らすなどの特殊効果が可能。chibiでやりたい人に適する。
274, 283 (crystools関連)
crystoolsを入れる。
選ばれている理由: (理由の明記なし、導入推奨のみ)。
277 (Paperspace関連)
Paperspaceはどうや。A6000なら使い放題。
選ばれている理由: Googleコラボ以外でローカルGPUのように気軽に使えるクラウドGPUとしてお手頃。H100不要で使い放題。
297 (sox関連)
音声結合はsox入れて一発。
選ばれている理由: 音声結合が簡単にできる。リファレンス音声の準備で便利(5秒以上のファイルを繋げる)。
423 (Ultimate Vocal Remover関連)
Ultimate Vocal Removerというフリーソフトでボーカルのみ抽出すれば良質学習データ取り放題。
選ばれている理由: 雑音のない音声データを得るのに便利。学習データとしてクリアなボーカル抽出が可能。
これらの抽出は、ログ内で生成AIのツールとして明確に言及されている部分に限定しました。モデル関連の話題(例: GLM-4.5, Llamaなど)は除外しています。抽出された内容はツールの使用方法、修正、不具合、利点を中心にまとめました。