ورودی صوت (Audio)
با استفاده از ورودی صوتی میتوانید فایلهای گفتوگو، پادکست، پیام صوتی و سایر سیگنالهای صوتی را برای مدلهای سازگار ارسال کنید تا آنها را پیادهسازی کرده، تحلیل کنند یا خلاصهای از آن ارائه دهند.
در گیتوی خاتش، ورودی صوتی از طریق نوع input_audio در آرایهٔ content ارسال میشود و دادهٔ صوتی باید به صورت base64 کدگذاری شود.
نمونهٔ بدنهٔ درخواست
در مثال زیر، یک فایل صوتی با فرمت mp3 همراه با دستور پیادهسازی و خلاصهسازی به مدل ارسال میشود. کافی است دادهٔ BASE64_AUDIO_DATA را با صدای واقعی خود جایگزین کنید.
audio-input.json
{ "model": "openai/gpt-4o-mini", "messages": [ { "role": "user", "content": [ { "type": "text", "text": "این فایل صوتی جلسه را پیادهسازی کن و در انتها یک خلاصه کوتاه بده." }, { "type": "input_audio", "input_audio": { "format": "mp3", "data": "<BASE64_AUDIO_DATA>" } } ] } ]}نکات فرمت و کیفیت
- از فرمتهای رایج مثل MP3 یا WAV استفاده کنید و مقدار format را مطابق آن تنظیم کنید.
- کیفیت صوت بالاتر معمولاً به دقت بهتر پیادهسازی کمک میکند، اما حجم فایل و هزینهٔ پردازش را هم افزایش میدهد.
- در صورت امکان، نویز پسزمینه را قبل از ارسال پاکسازی کنید تا مدل بهتر بتواند گفتار را تشخیص دهد.