要約:
- OpenAIのVoice Modes for ChatGPTのリリースが遅れている間に、LLMボイスアプリケーションを構築し、インタラクティブブースに統合した経験を共有
- カトリックの告解室のアイデアとLLMの機能に着想を得て、AI告解室を構築することを決定
- ユーザーがブースと対話する方法について検討し、距離センサーと赤いボタンを使用
- ユーザーフローはArduino、バックエンド、ウェブUIの連携で構成される
- ハードウェアには、ESP32モデルのArduinoなどが使用され、各コンポーネントはSTT、LLM、TTSから構成される
- STTにはWhisperモデルを使用し、LLMはGPT-4を選択、TTSで応答をユーザーに再生
- LLM応答の遅延を隠すためにUIを構築し、ポジティブなフィードバックを得た
感想:
この記事では、限られたリソースと厳しい外部条件下でさえ、LLMに直感的で効率的な音声インターフェースを追加することが可能であることが示されました。ユーザーフィードバックを重視し、工夫を凝らしたアプローチにより、成功裏にAI告解室を運営することができた点が興味深かったです。
元記事: https://hackernoon.com/how-build-your-own-ai-confessional-how-to-add-a-voice-to-the-llm