以下は、提供された5chログから、生成AIに関連する「ツール」に関する話題をすべて抽出したものです。抽出対象は、指示に基づき、ComfyUI(comfy), A1111, webUI, SUPIR, nano-banana などのツール類(主にUI、フレームワーク、TTSツールなど)を指し、モデルリスト(NovelAI (NAI), Pony, illustrious(イラストリアス, リアス,ill,IL), Noobai, FLUX, Wan, Qwen)に該当する画像生成AIモデルに関する話題は除外しています。抽出はログの番号順にまとめ、各話題の文脈を簡潔に記述。ツールが選ばれている理由が明記されている場合、それを強調して抽出しています。
37: Tsukasa_Speech をローカルで動かしてみたけど、gradioのUI立ち上げてる間はvram使用3gbくらいだな。
(Tsukasa_Speech: TTSツールとしてローカル動作を確認。Gradio: UIツールとしてvram使用量を理由に言及。)
45: s://huggingface.co/spaces/Respair/Takane 音声やけどかなりヤバいのが出たで チュパ音や喘ぎ声も対応して、アニメ調の音声のTTSならたぶん最高峰の品質っぽい感じ 一応リファレンス音声にも対応してゼロショットTTS機能もあるっぽい。
(Takane: Hugging Face Spaces上のTTSツール。チュパ音や喘ぎ声対応、最高峰の品質を理由に抽出。ゼロショットTTS機能あり。)
46: こういうかんじで音声でてきるということは ローカルで日本語でいけるのもすぐ来そうですね。
(Takaneの文脈でローカルTTSツールの可能性を議論。)
61: Tsukasaのほう、今ダウンロードしてセットアップしてみたけど、タカネとは反応違うみたい?! ただかなり自然にはなしていて驚きおじさんにならざるを得ない。
(Tsukasa_Speech: TTSツールとして自然な発声が理由で評価。セットアップの容易さを言及。)
63: 自己レス、app_tukasa.pyだけ、linux系のフォルダ の呼び方になってるからそこ含め少し調整するとwindows でも動きます。
(Tsukasa_Speech: Windows対応のための調整方法を抽出。)
64: Tsukasa、今は亡きRVCスレでは2月の時点で名前出てたんやな 多言語対応のKokoroってのもあるみたいや。
(Tsukasa_Speech: TTSツールとして言及。RVC: 音声変換ツールとして過去スレで話題。Kokoro: 多言語対応TTSツールとして言及。)
76: zuntanのほうがローカルで使いやすいんだが、あかんのか?
(zuntan: TTSツールとしてローカルでの使いやすさを理由に選好。)
96: voicevoxとかSBV2とかいじってきたが takaneの打率は異常ンゴ どうやってこのレベルの自然なアクセント実現したんやろ アルゴリズムが凄いんかモデル作り名人なのか。
(voicevox: TTSツールとして過去にいじった言及。SBV2: TTSツールとして過去にいじった言及。Takane: 自然なアクセントの実現を理由に高評価。)
98: takane調べてみたけど、金を持て余した優秀エンジニアが趣味で個人的に作っただけだから公開する予定はないってことなのかな。
(Takane: TTSツールとして個人作成の背景を抽出。)
99: イントネーションを手動調整せんでも完全に自然に発声させられるの凄すぎる。
(Takane: イントネーションの自然発声が理由で評価。)
101: ビジネスとして展開したいみたいな感じだから公開するなら有料サービスじゃないかな。
(Takane: 有料サービス化の可能性を抽出。)
106: 声でビジネスはやばい気がするけどなあ 正規のデータで学習なんて絶対やってないだろうし違法なデータセットから学習してたらauthropicみたいなことになりそう。
(Takane: ビジネス利用のリスクを議論。)
111: 前のTsukasa speechはモデル公開してるし今も使えるんだから絶対ってことはないんじゃないの。
(Tsukasa_Speech: 公開と利用可能性を理由に言及。)
112: 無断で声で金とんのはどう考えても不味いだろ だから無料公開してくれ。
(Tsukasa_Speech/Takane: 無料公開を望む声。)
115: ファッ!? LLMでそこまでシステムプロンプト用意したらサプライズできるんかいな 音声入力?そこまでガチ勢はやるんかいな もうオープンワールドのモブと話せるmodが来る日が近そう。
(LLM関連ツール: 音声入力とインタラクティブmodの可能性を抽出。)
116: 絵師タグみたいな「俺はこの絵柄をパクってます宣言」と違って tsukasaは「ゼロショットで学習できるモデルを作成しました、使い方は各自判断下さい」って感じだから 責任は使った人間に行くやろうから公開自体は全然問題ないんちゃうか。
(Tsukasa_Speech: ゼロショット学習の柔軟さを理由に公開の正当性を議論。)
123: 最近おそまきながらtictokみだしたけど、説明音声とか、ai音声だらけでまじ無法地帯すぎる。 ツカサの説明とかではトレーニング次第っぽいので、loraとかつくりなれてる人とか、あえぎ声バージョン つくれたりしないの?
(Tsukasa_Speech: トレーニング次第での喘ぎ声バージョン作成の可能性を抽出。TikTok: AI音声ツールの無法地帯を言及。)
126: sbv2でloraは作ったことあるが画像loraほど補間してくれんのや ナレーションはその声でまあまあの精度やが素材にない発音は変だしエロやあえぎも無理 nsfw音声でlora作ってもノイズまみれやしnsfwモデル混ぜても多少ましになるだけで今回騒がれてるツカサのような精度には絶対ならん モデル次第でこんなに違うのかとびびったわ。
(SBV2: LoRA作成経験を基に、精度の限界(ナレーションはまあまあだが、エロ/喘ぎは無理、ノイズまみれ)を理由に抽出。Tsukasa_Speech: 高精度を比較対象に評価。)
129: simplecomfyuiに を表示するにはどうすればいいのでしょうか?
(simplecomfyui: ComfyUIの簡易版ツールとして表示方法の質問。)
136: このスレの方が早いなら本当に驚くべき技術だとは思う nano bananaよりすごいとかいってたなんかみたいにこのスレで一切話題にならなかったのに驚いてたら大した事ない技術。
(nano-banana: 技術のすごさを比較対象に言及。)
138: Tukasa も Cosy Voice2 系なので「リファレンス音声」(短 い音声サンプル)を与えると、非言語音の表現が改善するこ とがあります。 モデル微調整 (LoRAやfinetune) HuggingFace で公開されている Tukasa モデルをダウンロ ードし、追加で「非言語音を含むデータ」でLORA 学習する と Takane に近い挙動を再現可能です。
(Cosy Voice2: リファレンス音声による非言語音改善を理由に抽出。Tsukasa_Speech: LoRA学習でTakaneに近い挙動再現の可能性を抽出。)
141: そいえばStyleTTS2って記載ありました。別物かあ。
(StyleTTS2: TTSツールとして独立した別物と抽出。)
144: 「この画像変なとこある?」 「こことここがひねりすぎに見えますね、よければ直しましょうか?」 「頼む!」 「もちろんです!直しましたよ」 「(修正前画像と重ねたうえで)なんも直ってないやんけ!」 「直ってない様に見えましたか?微妙に直したので分かりづらくてすみません」 が多くて鬱陶しい。
(nano-bananaの文脈?: 画像修正ツールの挙動(微妙な修正が分かりづらい)を理由に不満抽出。※ログ144はnano-banana関連の挙動を示唆。)
151: Tsukasaのほうしばらく触ってみたけどまあTakaneとはかなり差がある印象 あんまり理解してないから使い方の問題かもしれんけど リファレンス音声のほうはTsukasaのほうがだいぶ寄せてくる。
(Tsukasa_Speech: リファレンス音声の寄せやすさを理由に評価。Takane: 比較で差を指摘。)
155: Tsukasa Speechの方、しゃべり方とかを自然言語で指示できるけど、音声のキャプショニングっていい方法あるんかな?
(Tsukasa_Speech: 自然言語指示の機能とキャプショニング方法の質問。)
156: zuntan兄貴は他の音声系に携わってくれとるな 話題になってるwebのも凄いけど やっぱり音声指定できるのはでかいわ お気に入りの版権キャラでの目覚まし音声は最高やったで。
(zuntan: 音声指定のしやすさを理由に評価。webツール: 話題の凄さを言及。)
159: なんかtsukasaとtakane混同?してる人いるようで、いまのところはいいけど、あとあと面倒になりそう? とりあえずtsukasaのほうでlora初挑戦してみます。 エロ音声は、スレ754でした。
(Tsukasa_Speech: LoRA初挑戦とエロ音声対応の試みを抽出。Takane: 混同の注意。)
163: Tsukasaでも頑張ればTakaneレベル出せるんか?
(Tsukasa_Speech: Takaneレベル再現の可能性を質問。)
164: 少なくとも自分は出せてない てかドキュメントもそんなにないし まずため息とか喘ぎ声の言語外音声の出し方すらわからん。
(Tsukasa_Speech: ドキュメント不足と非言語音声の出し方の難しさを理由に抽出。)
165: ThinkingチャッピーにTakaneのページ貼り付けて使い方を解説して貰ったら めっちゃ分かりやすかったンゴ。
(Takane: Thinkingモード(チャッピー?)での使い方解説が分かりやすい理由で評価。)
167: easy llasaでええやん。
(easy llasa: 簡易TTSツール?として代替提案。)
169: エロゲ音声データセット自体はhuggingで大量公開されてるから このスレにもTakaneで音声に目覚めたスーパーエンジニアがいれば…。
(Takane: Hugging Faceでのデータセット活用による音声生成の可能性を抽出。)
173: まあ音声は公式販売が主流になるんとちゃうかな。スケベ系声優さんのある程度自由に使ってええよっモデルが出てくるやろ。
(音声ツール全般: 公式販売の主流化を予測。)
186: このAnime-Llasaってのも割と自然じゃない?
(Anime-Llasa: 自然な生成を理由に評価。)
190: 数年前にMoe-goeが話題になった時と似た流れを感じる。
(Moe-goe: 過去の話題性として抽出。)
213: 気になって Cosy Voice2とStyleTTS2調べてみたけど、 StyleTTS2はcomfyと相性よさそうですね。
(StyleTTS2: ComfyUIとの相性の良さを理由に抽出。Cosy Voice2: 調査対象として言及。)
218: それで生成したwaveファイルをDLして再生するとちょいちょい固まって操作受け付けなくなるンゴ。
(Anime-Llasaの文脈: 生成waveファイルの再生時の固まりを理由に不満抽出。)
232: そろそろRVC部復活したらどうや?
(RVC: 音声変換ツールのスレ復活を提案。)