가이드

OpenAI 노드 가이드

작성일 2026.03.20 | 수정일 2026.05.14

OpenAI API를 사용하여 채팅 완성, 이미지 생성, 음성 생성, 비디오 생성을 수행하는 노드입니다.

주요 기능

리소스	작업	설명
Audio	Generate Speech	텍스트를 음성으로 변환 (TTS)
Chat	Complete	GPT 모델을 사용한 채팅 완성 (멀티턴 대화)
Image	Create	텍스트 프롬프트로 이미지 생성 (gpt-image, DALL-E)
Image	Edit	기존 이미지를 프롬프트로 편집
Video	Generate	텍스트 프롬프트로 비디오 생성 (Sora)

항목	타입	기본값	설명
Resource	선택	`chat`	사용할 리소스 (Audio, Chat, Image, Video)
Retry Count	숫자	`3`	API 호출 실패 시 재시도 횟수 (0~10)
Request Timeout	숫자	`300`	API 응답 최대 대기 시간 (초, 30~600)
Retry Delay	숫자	`2`	재시도 간 기본 대기 시간 (초, 지수 백오프 적용)

항목	타입	기본값	설명
Model	선택	`tts-1`	TTS 모델 (tts-1, tts-1-hd, gpt-4o-mini-tts)
Input Text	문자열	-	음성으로 변환할 텍스트 (최대 4096자)
Voice	선택	`alloy`	음성 스타일 (alloy, ash, ballad, coral, echo, fable, nova, onyx, sage, shimmer, verse)
Instructions	문자열	-	음성 톤/감정 지시사항 (gpt-4o-mini-tts 전용)
Response Format	선택	`mp3`	출력 오디오 포맷 (mp3, opus, aac, flac, wav, pcm)
Speed	숫자	`1.0`	음성 속도 (0.25~4.0)

항목	타입	기본값	설명
Model	선택	`gpt-5.4-mini`	사용할 모델 선택
Prompt (Messages)	컬렉션	-	Role(System/User/Assistant)과 Content로 구성된 메시지 목록
Simplify	불리언	`true`	응답을 간소화하여 메시지만 반환

옵션	gpt-image-1.5 / 1 / 1-mini	DALL-E 3	DALL-E 2
Quality	low / medium / high / auto	standard / hd	-
Resolution	1024x1024, 1536x1024, 1024x1536, auto	1024x1024, 1792x1024, 1024x1792	256x256, 512x512, 1024x1024
Output Format	png / jpeg / webp	-	-
Style	-	natural / vivid	-

gpt-image-1.5는 항상 바이너리(b64_json) 형태로 이미지를 반환합니다.

항목	타입	기본값	설명
Image	문자열	`data`	편집할 이미지의 바이너리 속성 이름 (PNG, 4MB 이하, 정사각형)
Prompt	문자열	-	편집할 내용을 설명하는 텍스트
Model	선택	`dall-e-2`	편집 모델 (현재 DALL-E 2만 지원)
Mask	문자열	-	마스크 이미지의 바이너리 속성 이름 (선택사항)

모델	지원 해상도
sora-2	1280x720, 720x1280, 480x480
sora-2-pro	1920x1080, 1080x1920, 1280x720, 720x1280, 1024x1024

비디오 생성은 비동기 방식입니다. 작업 요청 후 완료까지 자동으로 폴링합니다. 최대 대기 시간 초과 시 현재 상태를 warning과 함께 반환합니다.

이 노드는 OpenAI API 인증 정보가 필요합니다.

자세한 설정 방법은 OpenAI API 인증 설정 가이드를 참고하세요.

커스텀 API 엔드포인트를 인증 정보에서 설정할 수 있어, OpenAI 호환 API 서버에도 사용 가능합니다.
재시도 로직에 지수 백오프(exponential backoff)가 적용되어, 429(Rate Limit), 5xx(서버 에러) 등의 일시적 오류를 자동 복구합니다.
Simplify 옵션을 활성화하면 응답에서 핵심 데이터(메시지)만 추출하여 후속 노드에서 다루기 쉽습니다.
토큰 사용량 정보(_usage)가 간소화된 응답에도 포함됩니다 (과금 추적용).
gpt-image-1.5 모델은 DALL-E 대비 높은 품질의 이미지를 생성하며, 최대 10장까지 생성 가능합니다.
비디오 생성은 비동기 API로 작동하여 생성에 수 분이 소요될 수 있습니다.