要約:

  • OpenAIのVoice Modes for ChatGPTのリリースが遅れている間に、LLMボイスアプリケーションを構築し、インタラクティブブースに統合した経験を共有
  • カトリックの告解室のアイデアとLLMの機能に着想を得て、AI告解室を構築することを決定
  • ユーザーがブースと対話する方法について検討し、距離センサーと赤いボタンを使用
  • ユーザーフローはArduino、バックエンド、ウェブUIの連携で構成される
  • ハードウェアには、ESP32モデルのArduinoなどが使用され、各コンポーネントはSTT、LLM、TTSから構成される
  • STTにはWhisperモデルを使用し、LLMはGPT-4を選択、TTSで応答をユーザーに再生
  • LLM応答の遅延を隠すためにUIを構築し、ポジティブなフィードバックを得た

感想:

この記事では、限られたリソースと厳しい外部条件下でさえ、LLMに直感的で効率的な音声インターフェースを追加することが可能であることが示されました。ユーザーフィードバックを重視し、工夫を凝らしたアプローチにより、成功裏にAI告解室を運営することができた点が興味深かったです。


元記事: https://hackernoon.com/how-build-your-own-ai-confessional-how-to-add-a-voice-to-the-llm