Siri、Alexa、Bixby、Cortana、Google assistant のような仮想アシスタントはどのように動作するのでしょうか?私は、Google assistant と Siri がどのように機能するのかを調べる中でいくつかのことを見つけました。それと、Google Books 上のこの本も見つけました。Google Scholar を使う:https://books.google.com/books?hl=en&lr=&id=H7daEAAAQBAJ&oi=fnd&pg=PP12&dq=info:OJRgUdIalvcJ:scholar.google.com/&ots=9luE8VnJh1&sig=RW40JMpgGsZgenYaI2GEsLfbGUk&redir_esc=y#v=onepage&q&f=false ですが、本以外ではそれらがどのように動くのかは見つけられませんでした。また、図や説明を見ると、かなり曖昧で、図の中でコンポーネントを箱にまとめるような感じで、多くを一般化しているように見えます。
それとも、それらは特定のニッチ向けにあまりにも細かすぎるようです。私は、LLMが人気になる前に、それらがどのように動いていたのかを知りたいです。つまり、LLMが音声をテキストに変換し、その後ツールを呼び出して、テキストから音声へ変換するような AI エージェントがあるような状況です。openclaw のようなものです。ChatGPT がリリースされる前に、それがどのように行われていたのかを知りたいのです。
私は「インテント(意図)マッチング」に関する言及を見つけました。おそらくこれは、カスタムで学習させた分類器と、プログラミングにおける else if のような条件分岐での文字列マッチングに似たルールベースのマッチングを使うテキスト分類器で、そして結果に基づいて「ツール」を呼び出す、というものだと思います。ただ、本当にそれだけなのでしょうか。
もし誰かが、広く使われている文献をいくつか教えてくれるなら、ありがたいです。
[link] [comments]




