リポジトリを訪問してください。100%オープンソース。Vibe が作成した PR を受け付けます!これは MLX のラッパーで、より高度な推論機能を備えています。ベースの Swift MLX よりも多くのモデルがサポートされています。これは100%Swift です。Python は不要です。PIP でインストールできますが、それがすべてです。
0.9.7 の新機能
https://github.com/scouzi1966/maclocal-api
pip install macafm もしくは brew install scouzi1966/afm/afm
Telegram 統合: ボットIDを指定して、Telegramクライアントからどこからでもローカルモデルとチャットできます。第一フェーズは基本です
実験的ツールパーサー: afm_adaptive_xml。下位の quant/B モデルは、クライアントスキーマに適合させるツール呼び出しの準拠には最適ではありません。
--enable-prefix-caching: KVキャッシュ再利用のための基数木プレフィックスキャッシュを有効にします
--enable-grammar-constraints: ツール呼び出しのためのEBNF文法制約付きデコードを有効化します(--tool-call-parser afm_adaptive_xml が必要です)。生成時に有効なXMLツール呼び出し構造を強制し、XML内のJSONや欠落パラメータを防ぎます。xGrammar と統合します
--no-think: 思考/推論を無効化します。過度に考えすぎる傾向のある Qwen 3.5 に有用です
--concurrent: 最大同時リクエスト数(バッチモードを有効にします。0 または 1 は直列に戻ります)。 バッチ推論のため。 並列リクエストによって直列リクエストよりスループットを向上させます
--guided-json: スキーマ出力を強制します
--vlm: マルチモードモデルを vlm としてロードします。 これにより、より純粋なテキスト出力のために vlm を回避できます。 デフォルトはテキストのみです
[リンク] [コメント]




