Ligjërata 11: Voiceover dhe Lipsync me IA
  • Voiceover me IA: Gjenerimi i zërave unikë dhe realistë për personazhet e filmave.
  • IA Lipsync: Sinkronizimi automatik i zërit me lëvizjet e buzëve të karakterit, duke krijuar një rezultat të natyrshëm dhe besueshëm.
  • Kombinimi i aktrimit të kapur me një voiceover të personalizuar për të përmirësuar karakterizimin.
Objektivat
Çfarë do të dini të bëni në fund
Krijim zëri unik

Të krijoni zë unik dhe realist për një personazh me ElevenLabs (TTS + Voice Design/Cloning).

Lipsync i besueshëm

Të bëni lipsync të besueshëm me dy rrugë pune:

1. Audio origjinal + mocap

Kling Motion Control / Runway Act-Two

2. Video me audio "native"

Veo / Sora / Kling dhe pastaj zëvendësim i audios me ElevenLabs (dubbing/VO)

1) Fjalor minimal (terma që do përdorim)
Voiceover (VO)

zë i regjistruar/sintetizuar që vendoset mbi video.

TTS (Text-to-Speech)

tekst → zë.

Voice Cloning

klonim i zërit nga mostra audio (vetëm me leje).

Lipsync

sinkronizim i lëvizjes së buzëve me audio.

Phoneme / Viseme

fonema = tingujt bazë të gjuhës; visema = forma vizuale e gojës për tinguj të ngjashëm (p.sh. "P/B/M" duken njësoj).

Mocap (Motion Capture)

kapje e lëvizjeve njerëzore për animim.

Reference image/video

imazh/video udhëzues që modeli e ndjek për konsistencë.

Përgatitja
2) Parakushtet (para se të nis demo)
1
Karakter i "kyçur"

1–3 imazhe referencë (front/3-quarters/profile) me stil konstant (nga ligjëratat e mëparshme për karaktere + konsistencë).

2
Skenë e thjeshtë

6–12 sekonda, plan i afërt (bust/close-up) për lipsync më të mirë.

3
Teksti i dialogut

1–2 fjali, pa fjali shumë të gjata.

3) Parime cilësie (pse lipsync dështon më shpesh)
Audio e ndotur

Audio e ndotur (zhurmë, reverb, kompresim i rëndë) ul saktësinë e sinkronit.

Ritëm i shpejtë

Ritëm shumë i shpejtë, britma, ose artikulim i paqartë → gojë "dridhet" ose humb fonema.

Plan i largët

Plan i largët ose goja e mbuluar (mjekër e fshehur, mustaqe, dritë e keqe) → lipsync bie.

Workflow A
Flukset e punës
Audio e pastër → Lipsync i kontrolluar
Workflow A (i rekomanduar): Audio i pastër → Lipsync i kontrolluar → Zë final (ElevenLabs)

Qëllimi: kontroll maksimal, riprodhueshmëri e mirë.

Hapat e Workflow A
Krijo zërin e personazhit në ElevenLabs

Zgjidh:

  • ose Voice Cloning (kur ke leje + mostër) ElevenLabs

Gjenero TTS (tekst → zë) dhe eksporto WAV.

Krijo video bazë të personazhit

Nga imazh → video e shkurtër (p.sh. 6–12s) me lëvizje minimale të kokës (pa u shqetësuar për gojën).

Lipsync
  • Runway Lip Sync (audio-driven) kur do "të flasë" pa aktor; ose
  • Runway Act-Two kur ke performance video të aktorit (më natyrale për trup/duar). help.runwayml.com
QA (kontroll i shpejtë)

Shiko 3 pika: "P/B/M", "F/V", "S/Sh". Nëse duken gabim: ngadalëso të folurën, rrit qartësinë e audios, ose bëj close-up.

Kur ta përdorni: dialog i qartë, monolog i shkurtër, reklamë/short, karakter i vetëm.

Workflow B
Hapat e Workflow B

Qëllimi: lëvizje + shprehje më të besueshme, pastaj zë i personalizuar.

Hapat

Regjistro video performance 6–12 sekonda (telefon mjafton).

  • Ndriçim i rrafshët, pa hije të forta; goja gjithmonë e dukshme.

Kling Motion Control (2.6):

  • Jep imazhin e karakterit + videon e performancës si kontroll lëvizjeje. app.klingai.com

OSE Runway Act-Two:

  • Përdor performance video për të drejtuar trup/duar/gestikulacion. help.runwayml.com

Gjenero audio final në ElevenLabs (zëri i karakterit).

Zëvendësim audio:

  • Në editor (Premiere/Resolve/CapCut/Final Cut): sinkronizo me clap/peak, ose me waveform.
Workflow C
Workflow C

Qëllimi: prodhim shumë i shpejtë "all-in-one", pastaj përmirësim i zërit.

Veo 3.1

ka gjenerim video me audio të integruar ("Video, meet audio").

Sora 2

mbështet dialog dhe efekte të sinkronizuara (brenda app-it).

Kling Video 2.6

ka gjenerim audio-vizual në një hap (zë + SFX + ambient).

Hapat

Gjenero klipin 8–12s me dialog "placeholder".

Eksporto video.

Rigjenero dialogun në ElevenLabs (më natyral, zë unik). ElevenLabs

Zëvendëso audion (dubbing/VO) dhe bëj miks minimal (volum, noise reduction).

Kur ta përdorni: prototipim i shpejtë, storyboard animatik me zë, iterime.

5) Prompt-e dhe shabllone
1
Shabllon për ElevenLabs – Voice Design (pa klonim)

Prompt (për "Design a Voice") ElevenLabs

  • Gjinia/age range:
  • Aksenti/dialekti (p.sh. standard shqip / kosovar / tosk):
  • Timbri (i ngrohtë/i errët/i ndritshëm):
  • Shpejtësia (ngadalë/mesatare):
  • Energjia (e qetë/e gjallë):
  • Emocioni bazë (kureshtar, serioz, i gëzuar):
  • Sjellje (pauza të shkurtra, artikulim i qartë, jo teatral):
Tekst VO (TTS) – rregulla
  • Fjalia 1: e thjeshtë (max 10–14 fjalë)
  • Fjalia 2: max 12–16 fjalë
  • Shmang fjalë shumë të gjata dhe shprehje shumë të shpejta (për lipsync).
2
Shabllon për Runway (Lip Sync / Act-Two)
  • Input: close-up i karakterit, kokë e kthyer maksimum 15–20°.
  • Audio: WAV i pastër, pa muzikë në sfond.
  • Udhëzim: "natural mouth movement, subtle head motion, no exaggerated jaw, stable eyes, no flicker".

Runway vetë e pozicionon Lip Sync si zgjidhje audio-driven kur s'ke performance video, ndërsa Act-Two si më i avancuar për tracking. help.runwayml.com

3
Shabllon për Kling Motion Control (performancë → karakter)

"Preserve identity of reference character; follow the driving video for facial expressions and gestures; keep camera fixed; close-up; realistic mouth articulation; no deformation; stable lighting." app.klingai.com

4
Shabllon për Veo/Sora/Kling (audio native → pastaj zëvendësim)

"8–12 second close-up dialogue shot; single character; neutral background; clear pronunciation; minimal camera motion; cinematic soft light; keep mouth visible; no fast talking."

Checklist
6) Checklistë e shpejtë (para eksportit)
1
Audio
  • WAV, i pastër, pa muzikë.
  • Pauza natyrale (0.2–0.5s) midis fjalive.
2
Video
  • Close-up, goja e dukshme, pa motion blur.
  • Pa objekte që mbulojnë buzët.
3
Sinkron
  • Kontrollo "P/B/M" (mbyllja e buzëve), "F/V" (dhëmbët me buzën), "S/Sh" (hapja).
  • Nëse gabon: rishkruaj tekstin me fjalë më të thjeshta + ngadalëso.
7) Gabime tipike dhe korrigjime (shkurt)
Goja dridhet / lëvizje nervoze

→ audio më e pastër, ritëm më i ngadalë, plan më afër.

Buzët s'përputhen në fund

→ shto 0.3–0.7s "room tone" në fund të audios; mos e preni fjalinë ngushtë.

Karakteri deformohet

→ ul motion, fikso kamerën, përdor referencë më të pastër dhe "no deformation".


8) Etikë dhe ligj (minimumi që duhet respektuar)
Detyra
9) Detyrë e vogël

Krijo një klip 8–12s:

1 personazh, 2 fjali dialog.
Zëri nga ElevenLabs

Voice Design ose Cloning me leje. ElevenLabs

Lipsync me Runway ose Kling

Lip Sync ose Act-Two ose Kling Motion Control. help.runwayml.com

Dorëzo

MP4 + WAV final + 5 rreshta "log" (çfarë ndryshuat për ta përmirësuar sinkronin).





Referenca kryesore (për lexim minimal)
  • ElevenLabs (platformë, Voice Cloning, Voice Design). ElevenLabs
  • Sora 2 (dialog + audio). OpenAI



Made with