ورودی صوت (Audio)

با استفاده از ورودی صوتی می‌توانید فایل‌های گفت‌وگو، پادکست، پیام صوتی و سایر سیگنال‌های صوتی را برای مدل‌های سازگار ارسال کنید تا آن‌ها را پیاده‌سازی کرده، تحلیل کنند یا خلاصه‌ای از آن ارائه دهند.

در گیت‌وی خاتش، ورودی صوتی از طریق نوع input_audio در آرایهٔ content ارسال می‌شود و دادهٔ صوتی باید به صورت base64 کدگذاری شود.

نمونهٔ بدنهٔ درخواست

در مثال زیر، یک فایل صوتی با فرمت mp3 همراه با دستور پیاده‌سازی و خلاصه‌سازی به مدل ارسال می‌شود. کافی است دادهٔ BASE64_AUDIO_DATA را با صدای واقعی خود جایگزین کنید.

audio-input.json

{  "model": "openai/gpt-4o-mini",  "messages": [    {      "role": "user",      "content": [        {          "type": "text",          "text": "این فایل صوتی جلسه را پیاده‌سازی کن و در انتها یک خلاصه کوتاه بده."        },        {          "type": "input_audio",          "input_audio": {            "format": "mp3",            "data": "<BASE64_AUDIO_DATA>"          }        }      ]    }  ]}

نکات فرمت و کیفیت

از فرمت‌های رایج مثل MP3 یا WAV استفاده کنید و مقدار format را مطابق آن تنظیم کنید.
کیفیت صوت بالاتر معمولاً به دقت بهتر پیاده‌سازی کمک می‌کند، اما حجم فایل و هزینهٔ پردازش را هم افزایش می‌دهد.
در صورت امکان، نویز پس‌زمینه را قبل از ارسال پاک‌سازی کنید تا مدل بهتر بتواند گفتار را تشخیص دهد.