가이드

ElevenLabs 노드 가이드

작성일 2026.03.20 | 수정일 2026.05.14

ElevenLabs 노드 가이드

ElevenLabs API를 사용하여 고품질 음성 합성, 음성 변환, 음성 인식 및 음성 관리를 수행하는 노드입니다.

주요 기능

리소스별 작업

리소스	작업	설명
음성	가져오기	특정 음성의 메타데이터 조회
음성	여러 개 가져오기	모든 음성의 메타데이터 조회
음성	클론 생성	오디오 파일로부터 음성 클론 생성
음성	삭제	특정 음성 삭제
음성 합성	텍스트를 음성으로	텍스트를 음성으로 변환 (TTS)
음성 합성	음성을 텍스트로	오디오/비디오를 텍스트로 변환 (STT)
음성 합성	음성을 음성으로	오디오를 다른 음성으로 변환 (STS)

설정 항목

음성 > 가져오기 / 삭제

항목	타입	기본값	설명
음성	리소스 로케이터	-	목록에서 선택하거나 ID 직접 입력
간소화	불리언	`false`	응답을 간소화할지 여부

음성 > 여러 개 가져오기

항목	타입	기본값	설명
모두 반환	불리언	`false`	모든 결과를 반환할지 여부
제한	숫자	`50`	반환할 최대 결과 수
간소화	불리언	`false`	응답을 간소화할지 여부

음성 > 클론 생성

항목	타입	기본값	설명
이름	문자열	-	클론된 음성의 이름
오디오 파일	문자열	`data`	음성 클론에 사용할 오디오 파일의 바이너리 속성 이름
설명	문자열	-	음성에 대한 설명 (선택)
레이블	JSON	-	음성에 태그를 달 키/값 쌍 (선택)

음성 합성 > 텍스트를 음성으로

항목	타입	기본값	설명
음성	리소스 로케이터	-	변환에 사용할 음성 (목록 또는 ID)
텍스트	문자열	-	음성으로 변환할 텍스트 (필수)

추가 옵션

항목	타입	기본값	설명
모델	리소스 로케이터	`eleven_multilingual_v2`	변환에 사용할 모델
출력 형식	선택	`mp3_44100_128`	오디오 출력 형식 (MP3/PCM/OPUS/ULAW/ALAW)
언어 코드	문자열	`en`	ISO 639-1 언어 코드
음성 설정	JSON	-	stability, similarity_boost, style, speed 등의 음성 파라미터

출력 형식 옵션

카테고리	옵션
MP3	22050Hz/32kbps, 44100Hz/32~192kbps
PCM	8000~48000Hz, 16-bit
OPUS	48000Hz/32~192kbps
ULAW/ALAW	8000Hz, 16-bit

음성 합성 > 음성을 텍스트로

항목	타입	기본값	설명
파일	문자열	`data`	변환할 오디오/비디오 파일의 바이너리 속성 이름
모델	리소스 로케이터	-	사용할 STT 모델 (선택)
언어 코드	문자열	`en`	ISO 639-1 언어 코드
화자 수	숫자	`1`	파일의 최대 화자 수
화자 분리	불리언	`false`	화자별 발화 구분 여부

음성 합성 > 음성을 음성으로

항목	타입	기본값	설명
파일	문자열	`data`	변환할 오디오 파일의 바이너리 속성 이름
음성	리소스 로케이터	-	변환에 사용할 대상 음성
모델	리소스 로케이터	-	사용할 STS 모델 (선택)
출력 형식	선택	`mp3_44100_128`	오디오 출력 형식
음성 설정	JSON	-	음성 파라미터

인증 정보

이 노드는 ElevenLabs API 인증 정보가 필요합니다.

자세한 설정 방법은 ElevenLabs API 인증 설정 가이드를 참고하세요.

사용 예시

텍스트를 음성으로 변환

ElevenLabs 노드에서 리소스를 "음성 합성", 작업을 "텍스트를 음성으로"로 선택합니다.
음성을 목록에서 선택합니다.
텍스트를 입력합니다.
출력된 바이너리 데이터(data 속성)를 AWS S3에 업로드하거나 후속 노드에서 활용합니다.

음성 클론을 활용한 TTS

먼저 "음성 > 클론 생성"으로 커스텀 음성을 생성합니다.
생성된 음성 ID를 사용하여 "텍스트를 음성으로" 작업을 수행합니다.
동일한 음성으로 일관된 오디오 콘텐츠를 생성할 수 있습니다.

오디오 전사 (음성 인식)

리소스를 "음성 합성", 작업을 "음성을 텍스트로"로 선택합니다.
오디오 파일의 바이너리 속성 이름을 지정합니다.
화자 분리를 활성화하면 화자별 발화 내용을 구분하여 받을 수 있습니다.

음성 변환

"음성을 음성으로" 작업을 선택합니다.
원본 오디오와 대상 음성을 지정합니다.
원본 오디오의 내용은 유지하면서 음성만 변경됩니다.

참고 사항

TTS 결과는 바이너리 데이터(data 속성)로 반환됩니다. 기본 형식은 MP3입니다.
음성 설정(Voice Settings)에서 stability는 음성의 안정성, similarity_boost는 원본 음성과의 유사도, speed는 발화 속도를 제어합니다.
eleven_multilingual_v2 모델은 다국어를 지원하며, 한국어도 사용 가능합니다.
음성 클론 시 고품질 오디오 샘플을 사용할수록 클론 품질이 향상됩니다.
이 노드는 usableAsTool: true로 설정되어 있어 AI 에이전트의 도구로도 사용할 수 있습니다.