게시됨 June 05, 2026•~13 읽기

더 강력한 동영상 스크립트를 위해 수동태를 능동태로 변환하는 방법

더 강력한 비디오 스크립트를 위해 수동태를 능동태로 변환하는 방법

"AI 엔진이 더빙을 완료했습니다."

"우리의 AI 엔진이 몇 분 안에 당신의 더빙을 완료합니다."

같은 정보. 반대의 효과. 첫 번째 문장은 배경음처럼 시청자를 스쳐 지나간다. 두 번째 문장은 행동자를 운전석에 앉히고 마감일을 제시한다. YouTube, 이러닝, 제품 설명, 또는 기업 교육을 위한 비디오 스크립트를 작성한다면 — 이 차이가 바로 참여도가 살아나는지 죽는지를 결정하는 곳이다. 그리고 자동 수동태를 능동태로 변환하는 도구는 이를 해결해주지 못한다. 변환에서 가장 어려운 부분은 알고리즘이 신뢰성 있게 판단할 수 없는 판단의 문제이기 때문이다.

비디오는 이미 Cisco 연간 인터넷 보고서에 따르면 소비자 인터넷 트래픽의 80% 이상을 차지하고 있으며, Digiday의 Facebook 내부 데이터 보도에 따르면 Facebook 비디오의 85%는 음소거 상태로 시청된다. 오디오가 음소거되거나 캡션 처리되거나 시청자의 모국어로 자동 더빙될 때 스크립트 명확성이 무게를 견딘다. 이 가이드를 마칠 때쯤 당신은 4단계 변환 워크플로우, 수동태를 언제 유지해야 하는지에 대한 의사결정 매트릭스, 그리고 다음 스크립트를 위한 10분짜리 감사 체크리스트를 갖게 될 것이다.

A creator at a desk, dual monitors visible — left screen shows a script document with highlighted text, right screen shows a video editor timeline. Warm overhead lighting, mug, notebook with handwritten edits visible. Slightly overhead angle.

수동태가 비디오 스크립트의 에너지를 빼앗는 이유
음성 배우에게 가기 전에 수동태를 찾아내기 위한 7가지 신호 체크리스트
모든 수동태 문장에 작동하는 4단계 변환 워크플로우
수동태가 올바른 전략적 선택인 경우 — 의사결정 매트릭스
능동태 재작성을 33개 언어 더빙에서 생존하도록 적응시키기
10분 스크립트 감사 — 다음 녹음 전에 이를 적용하기

수동태가 비디오 스크립트의 에너지를 빼앗는 이유

스크립트 작성자에게 수동태는 정확한 구조적 정의를 가진다: 문장에서 행동의 수신자가 주어 위치에 있으며, 일반적으로 "to be"의 형태(is, are, was, were, being, been) + 과거분사로 구성된다. Professor Scott의 영어는 이를 이렇게 설명하고 실용적인 함의를 추가한다: 수동태는 종종 행동자를 동사 뒤에 놓거나 행동자를 완전히 생략하여 문장이 모호하거나 불완전해 보인다.

실제 창작자 맥락에서 나온 세 가지 전/후 예시가 구조적 문제를 명확히 한다:

YouTube 튜토리얼: "내보내기 설정은 메뉴에서 찾을 수 있습니다" → "메뉴에서 내보내기 설정을 찾을 수 있습니다."
제품 설명: "당신의 비디오가 우리 엔진에 의해 33개 언어로 더빙됩니다" → "우리 엔진이 당신의 비디오를 33개 언어로 더빙합니다."
이러닝 소개: "이 모듈은 프로젝트 계획을 가르치도록 설계되었습니다" → "이 모듈은 당신에게 프로젝트 계획을 가르칩니다."

각 재작성은 동시에 세 가지를 한다: 행동자의 이름을 붙이고, 한두 단어를 줄이고, 시청자에게 추적할 행동자를 제공한다.

이것 뒤의 심리학은 잘 정리되어 있다. Steven Pinker는 The Sense of Style에서 좋은 산문은 명확한 행동자와 행동이 있는 시각화 가능한 장면을 제시한다고 주장한다 — 독자(그리고 시청자)는 주어가 행동자일 때 사건을 더 쉽게 정신적으로 시뮬레이션한다. Black's Law Dictionary의 편집자인 Bryan Garner는 법적 작문 관점에서 같은 주장을 한다: 능동태는 누가 무엇에 책임이 있는지에 대한 모호함을 줄인다. 능동태가 연방 준수 문서와 계약 초안의 표준이라면, YouTube 인트로의 표준이어야 한다.

현지화 위험은 AI 더빙을 워크플로우에 사용하는 누구에게나 구체적이 되는 곳이다. CSA Research의 "Can't Read, Won't Buy" 연구는 76%의 소비자가 자신의 언어로 된 정보가 있는 제품을 구매하기를 선호한다고 발견했으며, 40%는 다른 언어의 웹사이트에서 구매하지 않을 것이다. 후속 연구는 65%의 소비자가 품질이 낮더라도 모국어로 된 콘텐츠를 선호한다는 것을 발견했다. 그리고 YouTube Creator Academy 데이터에 따르면 일반적인 창작자의 시청 시간의 60% 이상이 자신의 모국 외에서 나온다.

소스 스크립트의 수동태는 모든 33개 대상 언어에서 더빙된 버전의 수동적 참여가 된다.

왜 이것이 운영상 중요한지는 다음과 같다: 대부분의 AI 더빙 엔진은 그대로 번역한다. 평탄하고 행동자 없는 영어 문장이 스페인어, 만다린어 또는 아랍어 문장이 되면서도 평탄하고 행동자 없는 상태로 남는다. 약점은 당신이 배송하는 모든 언어에 걸쳐 복합된다. 더 나쁜 것은, ~42자로 제한되고 초당 ~17자의 읽기 속도를 가진 자막 줄 — Netflix Timed Text 스타일 가이드 표준 — 말이 많은 수동태 구조를 위한 공간이 없다. 그들은 프레임을 넘치게 하거나 자동 잘리거나 시청자가 불편하게 빠르게 읽도록 강요한다.

미국 순수 언어 가이드라인은 이것을 연방 통신 법칙으로 만든다: 기관은 공중과의 명확한 통신을 위해 능동태를 사용하도록 명시적으로 요구된다. 정부 준수 문서가 능동태에 기울어진다면, 당신의 제품 설명자는 확실히 그래야 한다.

음성 배우에게 가기 전에 수동태를 찾아내기 위한 7가지 신호 체크리스트

변환하기 전에 인식해야 한다. 수동태는 평문에 숨어 있다 — 특히 이미 음성에 대한 문장을 다듬었지만 구조에 대해서는 하지 않은 두 번째 초안에서. 이 일곱 가지 진단 신호를 사용하여 초안을 스캔하자. 이들 중 여러 개의 경우, Ctrl+F (Mac의 경우 Cmd+F)가 일을 해낸다.

Screen capture of a Google Docs script with three sentences highlighted in yellow, comment bubbles in the margin tagging "passive" with arrows. Visible cursor mid-edit. The script topic is a YouTube tutorial titled "How to Export Your

"To be" + 과거분사 패턴. is, are, was, were, be, been, being 다음에 -ed 또는 -en으로 끝나는 동사를 검색하자. 예: "was completed," "is rendered," "are uploaded." 이는 가장 신뢰할 수 있는 진단이다 — Screenwriter's Cheat Code는 이를 스크립트 감사에서 스캔할 첫 번째 것으로 권장한다.
"by [행동자]" 신호. "by" 다음에 명확히 행동자인 명사가 오면 문장은 거의 확실히 수동태다. "The script was approved by the client." 뒤집자: "The client approved the script."
완전히 행동자가 없음. "Mistakes were made" — 누구에 의해? 행동자가 보이지 않으면, 당신은 의도적으로 책임을 숨기고 있거나(때때로 유효함; 아래의 의사결정 매트릭스 참조) 실수로 모호하다. 대부분의 경우, 두 번째다.
"got" 또는 "gets"와 숨겨진 수동태. "The video got edited overnight"는 변장한 수동태다. got + 과거분사를 찾자. 이들은 종종 맞춤법 검사기와 심지어 수동태 플러그인도 통과한다. 왜냐하면 그들이 "to be"의 형태를 사용하지 않기 때문이다.
행동을 마스킹하는 명사화. "There was an evaluation of the footage by our team"은 동사를 명사("evaluation")에 묻는다. 능동 재작성: "Our team evaluated the footage." 당신은 9단어에서 5단어로 줄었고 행동자와 행동 모두를 드러냈다.
처음 8단어에 명확한 주어가 없는 25단어 이상의 문장 길이. 초반에 주어 신호가 없는 긴 문장들은 수동태 표류를 신호한다. 시청자가 단어 8까지 누가 행동하는지 모르면 이미 너무 표류했다.
양태 + "be" + 과거분사. "This step can be skipped," "Your file should be saved," "The form must be completed." 양태 수동태는 지시를 약화시킨다 — 그리고 지시는 정확히 약점을 감당할 수 없는 곳이다.

음성 배우, Text to Speech 엔진, 또는 더빙 워크플로우에 보내기 전에 이 일곱 가지 신호를 통해 초안을 실행하자. 소스 스크립트의 수동태가 적을수록, 당신이 배송하는 모든 대상 언어에서 지역화된 버전이 필요로 하는 편집이 적다.

모든 수동태 문장에 작동하는 4단계 변환 워크플로우

대부분의 수동태-능동태 음성 변환 도구 — Junia, QuillBot, Grammarly — 2단계와 3단계를 합리적으로 자동화하지만 가장 중요한 1단계를 실패한다. 먼저 이 수동 워크플로우를 실행하자; 도구를 두 번째 패스로 사용하자.

Infographic: The 4-Step Passive-to-Active Conversion Workflow

단계 1: 행동자 확인 (누가 또는 무엇이 행동을 하고 있는가)

질문은 항상 다음과 같다: 누가 이것을 했는가? 누가 이것을 하고 있는가? 답변이 문장에 없다면, 재작성 전에 추가해야 한다 — 그렇지 않으면 능동 버전은 문법적으로 정확하지만 사실상 비어있을 것이다.

템플릿: [행동 수신자] was [과거분사] by [행동자] → 행동자 = 새 문장의 주어
스크립트 예시: "The thumbnail was redesigned overnight." 누가 그것을 다시 설계했는가? 행동자 추가: "Our editor redesigned the thumbnail overnight."
실패 사례: 단계 1을 건너뛰면 "Someone redesigned the thumbnail" — 기술적으로 능동이지만, 이야기상 쓸모없다. Junia의 도구 문서에 따르면 검토자는 항상 머신 패스 후 "행동자를 복원하거나 명확히"해야 한다 — 이러한 도구를 구축하는 공급업체들도 행동자 식별 단계가 인간의 일이라는 것을 아는 것의 확인.

단계 2: 행동자를 주어 위치로 이동

행동자를 알게 되면, 그것을 문장의 앞에 놓자.

템플릿: [행동자] + [동사] + [수신자]
스크립트 예시: "The car was hit by the truck" → "The truck hits the car." 단어 개수는 6에서 4로 떨어진다 — Screenwriter's Cheat Code의 작동 예시에 따르면 약 33% 감소.

단계 3: "to be" + 과거분사를 강력한 능동 동사로 교체

"Was hit"은 "hits" 또는 "slams"이 된다. "Was redesigned"은 "redesigned" 또는 "rebuilt"이 된다. 행동을 시각적으로 보여주는 동사를 선택하자 — Pinker의 "시각화 가능한 장면" 원칙이 여기에 직접 적용된다.

템플릿: "was [과거분사]" → [현재 또는 과거 시제 능동 동사]
스크립트 예시: "The car was driven by Sarah" → "Sarah drove the car." 6단어가 3개가 된다, 50% 감소.

단계 4: 남겨진 전치사구 다듬기

뒤집은 후, 당신은 종종 고아 전치사를 가질 것이다: by, for, to, in. 의미를 더하지 않는 것을 자르자. 이것이 당신의 WPM 예산을 되찾는 곳이다 — Voices.com의 음성 오버 지침에 따르면 일반적인 마케팅의 경우 140-160 WPM 그리고 이러닝의 경우 120-140 WPM.

템플릿: 구조 조정 후 남겨진 "by [행동자]" 구문 및 전치사 쓰레기를 제거하자.
스크립트 예시: "The new security protocols were implemented by our engineering team last quarter" (12단어, 단일 42자 자막 줄을 넘길 수 있음) → "Our engineering team implemented new security protocols last quarter" (9단어, Netflix 줄당 상한선 아래에 편하게 맞음).

이 네 단계를 순서대로 실행하자. 시장의 모든 수동태-능동태 음성 변환기는 2단계-4단계를 기계적으로 할 것이다. 아무도 1단계를 신뢰성 있게 할 수 없다. 그것이 인간 패스가 중요한 이유다 — 특히 AI 더빙 API를 통해 수십 개의 대상 언어로 푸시할 스크립트의 경우.

수동태가 올바른 전략적 선택인 경우 — 의사결정 매트릭스

The Cambridge Grammar of the English Language의 공저자인 Geoffrey Pullum은 "수동태 피하기" 조언이 종종 지나쳐졌고 먼저 수동태를 잘못 식별하는 것에 기반한다고 주장했다. Mignon Fogarty("Grammar Girl")는 마찬가지로 모든 수동태를 대체하지 말 것을 조심하라고 한다 — 때때로 수동태는 올바른 도구이다. 이 매트릭스를 사용하여 결정하자.

시나리오	수동태 유지?	이유	능동 대안
행동자가 미지수("Your account was compromised")	예	당신은 누가 했는지 모른다; 행동자를 발명하는 것은 오도한다	"Someone compromised your account" — 약함, 정보 이득 없음
수신자가 핵심("The CEO was promoted to chair")	예	이야기는 수신자에 관한 것이지, 승진자에 관한 것이 아니다	"The board promoted the CEO" — 초점을 멀리 옮긴다
정책 언어("Refunds are processed within 14 days")	예	제도적 표현; 표준 정책으로 읽힌다	"We process refunds within 14 days" — 좋음, 선택사항
비난 완화("Mistakes were made")	때때로	PR 또는 사과 맥락에서 전략적 모호성	"We made mistakes" — 더 강함, 책임에 약속
과학적 방법("Data were collected over 6 months")	예	APA 및 STEM 관례; 절차 초점	"We collected data over 6 months" — 수용되지만 선택사항
마케팅 CTA("Your video can be dubbed in minutes")	아니오	제품에서 주도권을 빼앗는다; 제안을 약하게 한다	"Dub your video in minutes" — 더 펀치 있음, 행동 중심
YouTube 인트로 훅	아니오	에너지가 처음 8초에서 가장 중요하다	"You're about to learn…" — 시청자를 주어로

패턴: 수동태는 수신자가 정말로 행동자보다 중요하거나, 행동자가 미지수, 무관, 또는 정치적으로 민감할 때 그 자리를 획득한다. 대부분의 창작자 맥락의 경우 — YouTube 인트로, 제품 설명자, 과정 CTA, 마케팅 음성 오버 — 능동이 이긴다.

콘텐츠 유형별로 조정하자:

YouTube 및 단편형 소셜: 적극적인 재작성. 가장 전략적으로 필요한 것을 제외한 모든 수동태를 자르자. 참여 창은 짧고 알고리즘은 처음 30초의 유지율을 보상한다.
기업 교육 및 이러닝: 선택적 재작성. 학습자의 행동이 행동자보다 더 중요한 절차 단계의 수동태를 유지하자("The form is submitted electronically"), 하지만 모든 CTA, 모든 동기 부여 줄, 모든 "당신이 배울 것" 틀을 뒤집자.
다큐멘터리 또는 서사 비디오: 혼합. 수동태는 거리감, 신비감, 또는 역사적 무게를 전달할 수 있다("The treaty was signed at dawn") — 음성이 요구하는 곳에 그것을 유지하자.

최고의 재작성은 항상 가장 능동적인 것이 아니다 — 당신의 의도를 유지하면서 당신의 시청자를 움직이는 것이다.

규칙은 "모든 수동태를 죽인다"가 아니다. 규칙은 다음과 같다: 스크립트의 모든 수동태는 신중한 선택이어야 하고, 기본값이 아니어야 한다. Pullum의 비판은 여기에 착지한다. 당신이 수동태가 머무르는 이유를 명확히 할 수 있다면, 그것을 유지하자. 할 수 없다면, 뒤집자.

능동태 재작성을 33개 언어 더빙에서 생존하도록 적응시키기

능동태는 출발점이지, 완성선이 아니다 — 특히 당신의 스크립트가 더빙될 예정이라면. 멋진 영어 줄은 다른 단어 순서, 정중함 규칙, 또는 관용적 속기를 가진 언어로 번역될 때 깨질 수 있다. 여기에는 능동태를 여행하도록 작성하는 방법이 있다.

Split-screen monitor showing a TTS interface on the left (waveform visible, language dropdown showing multiple languages) and a script on the right with active-voice rewrites highlighted. Close-up angle on the screens, slight bokeh on background work

가능한 곳에서 15단어 이하의 문장을 유지하자. 자막 읽기 속도는 약 17자/초, 약 42자/줄로 제한된다. 짧은 능동태 문장은 언어 전체에서 자막 프레임에 깔끔하게 맞으며 — 마케팅의 경우 140-160 WPM 그리고 이러닝의 경우 120-140 WPM의 음성 오버 페이싱 목표에 도달한다. Voices.com의 음성 오버 지침에 따르면, 영어의 22단어 문장은 번역 후 스페인어 또는 독일어로 28-30단어가 되어 당신의 시간 예산을 날려버린다.
번역되지 않는 관용적인 능동 구조를 피하자. "I'm going to knock your socks off"은 영어로는 능동이고 활기차지만, 말 그대로의 만다린어 또는 아랍어 더빙에서는 말도 안 되는 소리를 낸다. 보편적인 동사로 교체하자: "I'll show you something incredible." 능동 그리고 이식 가능. 같은 논리가 "nail it," "crush it," "kick things off," "circle back" — 기계 번역에서 소음처럼 읽히는 관용구에 적용된다.
1인칭 복수("we")보다 2인칭 주어("you")를 선호하자. "You'll save three hours"은 "Three hours will be saved by you" — 보다 더 자연스럽게 더빙되고, 많은 언어에서 직접 주소를 복잡하게 하는 정중하지 않은/정중한 대명사 분할(tu/usted, du/Sie, tu/vous)을 피한다. 2인칭은 또한 모든 문장에 대한 내장된 행동자를 제공한다.
능동태를 음성 오버의 음성 명확성과 매치하자. Voices.com은 음성 배우가 "내부 리듬과 호흡할 적절한 장소"가 있는 스크립트를 필요로 한다고 언급한다. 명확한 행동자-동사-목적어 구조를 가진 능동 문장은 음성 배우에게 자연스러운 호흡 지점을 제공한다. 수동 구조는 절 중간에 부자연스러운 일시 중지를 강요하고, 더빙 아티스트는 자신의 읽기에서 그것과 싸워야 한다. 이는 인간과 작업하든 Text to Speech API와 작업하든 적용된다.
최종 녹음 전에 TTS로 재작성을 테스트하자. 음성 배우의 시간 또는 음성 클로닝 세션에 약속하기 전에 수정된 스크립트를 텍스트-음성 엔진을 통해 실행하여 타이밍, 리듬, 및 스트레스 패턴을 듣자. TTS에서 걸리면, 다른 운율을 가진 더빙된 언어에서 더 나쁘게 걸린다 — 예를 들어, 일본어는 영어에 상대적으로 주-동사-목적어 순서를 자주 반전시킨다.
대상 언어에서 문법적 강조를 설명하자. 만다린어, 아랍어, 일본어, 터키어 각각은 다른 SOV/SVO/VSO 규칙을 가진다. 능동 영어 문장은 목표 언어에서 강조를 보존하기 위해 수동 구조를 필요로 할 수 있다. 소스 스크립트 작성에서가 아니라 현지화 검토에서 이를 계획하자. 영어에서 당신의 일은 행동자와 행동을 명확하게 하는 것이다; 당신의 현지화 편집자의 일은 목표 언어에서 그 의도를 보존하는 것이다.

목표 언어에 대해 너무 관용적인 능동태 문장은 현지화의 목적을 패배시킨다 — 활동을 위해서가 아니라 보편성을 위해 재작성하자.

10분 스크립트 감사 — 다음 녹음 전에 이를 적용하기

당신은 완료된 초안과 마감일을 가지고 있다. 전체를 재작성할 시간은 없지만 10분은 있다. 이 감사를 실행하자. 이것은 수정할 가치가 있는 모든 높은 영향도의 수동태 구성을 드러내고 어떤 것을 혼자 둘지 말해준다.

Overhead flat-lay on a wooden desk — laptop open showing a script with red strikethroughs and green active rewrites, a printed checklist beside it with several items ticked off in pen, coffee mug, and a small notebook. Warm, natural daylight.

감사 전(스캔 전에 답변)

이 비디오의 핵심 행동은 무엇인가? (보기, 사기, 등록, 배우기, 클릭.) 당신의 능동 재작성은 이 단일 동사와 정렬되어야 한다.
시청자가 누구를 행동자로 인지해야 하는가? (당신? 그들? 당신의 제품?) 이는 모든 CTA 및 지시 줄에 대한 기본값 주어다.
당신의 스크립트에서 가장 긴 문장은 무엇인가? 20단어 이상이면, 수동태 후보일 가능성이 높다. 거기서 시작하자.

8항목 Ctrl+F 감사

"was"와 "were"를 검색하자. 과거분사 다음에 오는 모든 인스턴스에 표시하자. 대부분은 수동태가 될 것이다; 일부는 "to be"의 정당한 과거 시제 사용이 될 것이다("she was tired"). 각각을 판단하자.
" by " 검색(공백에 주의). 대부분의 히트는 명시적 행동자가 있는 수동 구조를 드러낼 것이다 — 뒤집기 가장 쉬운 것.
"is being," "are being," "was being," "were being"을 검색하자. 연속 수동태 — 거의 항상 재작성 가능하고 거의 항상 필요한 것보다 길다.
"has been," "have been," "had been"을 검색하자. 완료 시제 수동태, 기업 스크립트 및 제품 문서에서 흔하다.
"can be," "should be," "must be," "will be"를 검색하자. 양태 수동태 — 일반적으로 지시 또는 CTA를 약화시킨다. "Your file can be exported"는 "Export your file in one click."과 비교하면 마케팅 놓침이다.
"got" 그리고 "gets"를 검색하자. "got delivered" 또는 "gets uploaded"와 같은 숨겨진 수동태를 잡자.
"there is," "there are," "there was"를 검색하자. 명사에 행동을 묻는 소거 구조. "There are three steps in the process" → "The process has three steps" 또는, 더 나음, "You'll complete three steps."
당신의 첫 문장과 마지막 문장을 큰 소리로 읽자. 이들은 유지 및 회상에 더 큰 영향을 미친다. 둘 중 하나라도 수동태면, 재작성하자 — 스크립트의 다른 곳에서 수동태를 유지하더라도.

미니 케이스 예시

창작자의 초안이 다음으로 시작한다: "In this video, the process of exporting your final cut will be explained, and the most common errors will be addressed." 그것은 24단어, 두 개의 수동태, 시야의 행동자가 없다.

감사를 실행하자:

"Will be explained" → 수동태(양태 + be + 과거분사)
"Will be addressed" → 수동태(같은 패턴)
명확한 행동자 없음 — "[누구에 의해]?"

4단계 워크플로우 적용:

행동자: 나(호스트)
주어 위치: "I'll"
능동 동사: walk you through, fix
다듬기: "In this video" 자르기

재작성: "I'll walk you through exporting your final cut — and fix the three errors most creators make."

16단어. 두 개의 능동 동사. 시청자 이점 명시. 행동자(당신, 호스트)가 명확. 약속(세 가지 특정 오류 수정)이 구체적. 그리고 줄은 절단 없이 단일 자막 프레임에 맞는다.

그것이 감사다. 스크립트당 한 번 실행하자 — 매번 10분. 당신의 음성 배우는 더 자연스럽게 읽을 것이다. 당신의 자막 프레임은 유지될 것이다. 그리고 당신이 음성 클로닝 API 또는 더빙 파이프라인을 통해 당신이 배송하는 모든 대상 언어로 푸시하는 모든 버전은 모든 대상 언어로 명확한 행동자-행동 구조를 전달할 것이다.