图像生成、语音合成、视频帧与多媒体控制等技能。
使用 Gemini 的图像生成。
OpenAI Whisper 语音转文字。
ElevenLabs 文本转语音。
DALL‑E 图像生成。
从视频中提取关键帧。
搜索 GIF 动图。
控制 Spotify 播放。
控制 Sonos 音响。