Posts

2026 年のローカルで使える OSS 音声クローン AI の音質について

Qwen3-TTS を ComfyUI で使えるカスタムノードが一部で話題になっていたので、 現在ローカルで動かせる OSS の音声クローン系 AI を一通り調べてみた。 「音声クローン生成 AI」とは何か 今回調べたのはいわゆる「音声クローン生成 AI」で、 音声データをリファレンスとして与えることで、 その声色で任意の発話を生成できる AI のことを指している。 なお、一口に「音声クローン生成 AI」と言っても、 内部的な仕組みによって大きく 2 種類に分類できる。 TTS (Text-To-Speech)

個人的なインターネットのプライバシー防衛策

自意識過剰というわけではないつもりですが、インターネット上のプライバシー防衛には、そこそこ気を使っています。 もちろん、プライバシーを極限まで守りたいのであれば、そもそもこのようなブログを書くこと自体が矛盾しているという指摘もあるでしょう。それは重々承知の上ですが、発信したい情報と、意図せず漏洩してしまう行動履歴や識別情報は、自分の中では別物として切り分けています。 今回は、私が普段どのような考えで、

Misskey.io で bot を作る ―― MiAuth からストリーミング API、そしてレートリミットとの戦い

今回は Misskey.io で bot を作成するにあたって調べたことや、実際に手を動かしてハマったポイントなどをまとめておきます。 これから Misskey で bot 開発を始めようと思っている方の参考になれば幸いです。 bot アカウントの作成と心得 まず最初に、bot 用のアカウントを作成する必要があります。 ここで重要なのは、アカウントを作成したら設定画面から必ず「bot フラグ」を有効にしておくことです。 これは単なる自己申告ではなく、システム側や他のユー

AI を使った自作言語リファレンス生成の実験記録

最近、 自作プログラム言語のリファレンス を AI(LLM) を使って整備する検証を進めている。 入力には自作した既存の org 形式のリファレンスをそのまま流し込み、 出力は人手で監修しつつ段階的に磨く。 結論から言うと、 監修前提なら十分実用になる ところまで仕上がってきた。 作成したリファレンスは以下。 <https://ifritjp.github.io/ai_agent_Lune/artifacts/index.html> 背景と狙い 目的: 言語仕様の抜け漏れを減らし、 参照性の高いリファレンス を短時間で更新する。 アプローチ: 既存 org の章立てを棄てて新しく

macOS 起動時にログインなしでスクリプトを実行する (LaunchDaemons)

macOS でログインを伴わない起動直後に処理(バックグラウンドサービス)を走らせるには、 LaunchDaemons を使用する。ここでは最低限の plist と登録手順、ハマりやすい点をまとめる。 こういう設定は一度すると暫く変更しないので、改めて設定しようとするとすっかり忘れてしまう。そんな場合の備忘録。 TL;DR MacOS 起動時に自動実行したいなら LaunchDaemons に plist を配置し、 launchctl で登録 必須キーは UserName, Label, Program, RunAtLoad Program はメインボリュームの絶対パスを指定(外部ボリュームは起動時に未マウ

Redmi Watch 5 Lite: コスパ最強スマートウォッチとの上手な付き合い方

ネタのドラフトを元に Gemini で作成。 スマートウォッチ市場において、その圧倒的なコストパフォーマンスで存在感を放つ Xiaomi。 その最新作とも言える Redmi Watch 5 Lite を購入した。 ここ数年、スマートウォッチはコモディティ化が進んでいるとはいえ、 「自分にとって必要な機能」と「価格」のバランスが取れたモデルを見つけるのは意外と難しい。 多機能だが高価で毎日充電が必要なモデルか、安価だが機能が限定的でオモチャのようなモデルか

emacs の補完フレームワーク vertico に移行した

ここ数年 emacs 環境を更新していなかったので化石状態だったが、 少しだけパッケージの入れ替えをしてみた。 それが vertico。 vertico は 2021 年辺りに登場したらしいので、 既に 4 年経過していてイマサラ感が半端ないが、 一応説明しておくと vertico は補完フレームワークだ。 emacs の補完フレームワークといえば anything, helm と使ってきたが、 その次世代が vertico になるらしい。 大きな特徴としては、補完候補表示にミニバッファを活用し、動作も軽快ということらしい

Antigravity を使って Gemini3 で Vibe Coding をやってみた所感 (簡易資産シミュレーター)

Gemini3 が発表されたので、Antigravity を使って Vibe Coding をやってみた。 お題 今回のお題は、金融企業の Web ページにありがちな簡易資産シミュレーター。 前回のお題とくらべてハードルが下っている気がしないでもないが、 同じツールを作るのも芸がないのと、既存のものを作っても嬉しくないので、 その辺りは気にしない。 なお、前回の tcp forward ツールで作成するのは go のスクリプト 1 ファイルだが、 今回は HTML, CSS, JS の3ファイルになるので、 複数

go の bubbletea で簡易ターミナルエミュレータを作る

CUI で動くアプリを作ると、 そのアプリ実行中に stdin からのキーボード入力を受け付けるケースが少なくない。 そして、そのキーボード入力をしたときに shell では標準的な C-a や C-f, C-b などキーが効かずにガッカリする。 そうした時に利用するのが bubbletea になる。 なお、bubbletea は go のライブラリなので、今回は go の CUI アプリを前提とする。 また、go のターミナル制御系で利用できるライブラリは他にもあるが、 今回は bubbletea を使う。 理由としては、各

RTX5000 シリーズで RVC を動かす

RVC で音声生成 AI技術が話題になってから、 音声生成 AI のサービスが幾つか立ち上がっている。 また、サービスとして立ち上がっているくらいだから、 それらは品質もそれなり以上なんだろう。 (実際には使っていないので不明) ただ、RVC の特徴であるローカルで動くこと、そしてオープンソースであることは 個人で遊ぶ分には非常に魅力的であるので、 RVC を動かすことに一定の需要はあるだろう。 ということで、 RVC を動かそうと思ったが github