サンイチ
音声の新しいオモチャが出たで
https://huggingface.co/spaces/OmniAICreator/Anime-Llasa-3B-Captions-Demo
>>6
https://huggingface.co/NandemoGHS/Anime-Llasa-3B-Captions
モデルはこれか
システムプロンプトにメタデータを入れたり、(囁き)って入れたりして制御できるらしいな
>>6 のローカルでの動かし方メモ(cu129は使いたいCUDAのバージョンに合わせる)
git clone https://huggingface.co/spaces/OmniAICreator/Anime-Llasa-3B-Captions-Demo/
cd Anime-Llasa-3B-Captions-Demo
pip install torch torchaudio –index-url https://download.pytorch.org/whl/cu129
pip install -r requirements.txt
pip install spaces
python app.py
Anime-lasa-3Bの参照できたんやけど喘ぎ声ってどう指定するんやろ?
https://litter.catbox.moe/zco1o52qr0o2asql.wav
ちな >>106,111,151 でできたんやけど >>106 はvenv切った方がええやろね
git clone https://huggingface.co/spaces/OmniAICreator/Anime-Llasa-3B-Captions-Demo/
cd Anime-Llasa-3B-Captions-Demo
py -3.12 -m venv venv
venv\Scripts\activate
pip install torch torchaudio –index-url https://download.pytorch.org/whl/cu128
pip install -r requirements.txt
pip install spaces
python app.py
あとffmpegは ffmpeg-7.1.1-full_build-shared.7z 落さんとDLLに分離されてないで
>>403
すまん素の環境てのがわからんのやが、>>106のはrequestにはこのアドレス指定されてるから44kやないんか?正直アドレスを指定しての導入はよく分かってなくてな…
ベースラインのは確かに16kらしいやが、そっちはNandemoGHS/Anime-XCodec2らしいやし
ニキの音質良くて感動したから当環境にも音質向上のを導入したいんや
https://huggingface.co/NandemoGHS/Anime-XCodec2-44.1kHz/
一応python_embededを使ったAnime-Llasa-3B-Captions-DemoのWindows用パッケージ作ってみたよ
https://huggingface.co/asfdrwe/WAI14DMD2-GGUF/blob/main/Anime-Llasa-3B-Captions-Demo.zip
展開したらAnime-Llasa-3B-Captions-Demoフォルダ開いてrun.batをダブルクリックしてね
元のライセンスがわからんから怒られたら消す
>>224のパッチは好きに使ってね
参照音声を使う場合、元のAnime-XCodec2-44.1kHzは
https://huggingface.co/NandemoGHS/Anime-XCodec2-44.1kHz?not-for-all-audiences=true#1-model-summary
- Input Sampling rate: 16 kHz (for encoding, same as XCodec2).
- Output Sampling rate: 44.1 kHz (decoded audio).
となっているんだけど、この辺の処理がおかしい気がしたので
- Sampling rate: 16 kHz (XCodec2 operates at 16 kHz).
のみのAnime-XCodec2にしてsr_codec=16000にしたのが >>224 のパッチ
参照音声を使わないならAnime-XCodec2-44.1kHz modelにsr_codec=44100で動く
https://huggingface.co/pixai-labs/pixai-tagger-v0.9
こいつreforge拡張のtaggerで使えはせんのやろか
需要があるか分らんけど、
QwenImage用のリアル系のおしっこloraを学習してみたからよければ使って
https://huggingface.co/Yanagi099/My_Loras/tree/main/QwenImage
Qwen-Image-Edit-Rapid-AIOを試したくてはじめてcomfyuiのワークフローを触ります
以下ページの説明にある画像と同じワークフローを作りたいですが、jsonが配布されて無い場合は目視で真似するしかないんですかね?
https://huggingface.co/Phr00t/Qwen-Image-Edit-Rapid-AIO
https://huggingface.co/meituan-longcat/LongCat-Video
5分弱生成できるんやと
https://huggingface.co/valiantcat/Qwen-Image-Edit-MeiTu
一貫性が上がったファインチューニングモデル。まだ改善の余地あるけどこの手のモデルまだ出るのかな
qwenベースのよさげなリアルモデルを見つけた
NSFWは含まれてないらしいけど造形がアジア系で良い感じ
https://civitai.com/models/2064895?modelVersionId=2336581
https://civitai.com/models/1901521?modelVersionId=2152373&dialog=commentThread&commentId=985535
Pony開発者「Too many mean comments, we decided not to release it.(あまりに意地悪なコメントが多いので、公開しないことにした。)」
V7はもう終わり!閉廷!以上!みんな解散!
ちびたいのponyから作者の公開モデルから行けばすぐやで
直ならhttps://civitai.com/models/1901521/pony-v7-base
>>518
ライティング関係のLoRAやとこれが好きだけど明るくなるってよりコントラストが強くなるって感じかも
https://civitai.com/models/1697073?modelVersionId=1967210
ちょっとだけクオリティが上がる系のやつはワイの腐った目だと違いがわからないのでlora化したやつでええかなって
https://civitai.com/models/2075957