11. Voiceover dhe lipsync me IA

Ligjërata 11: Voiceover dhe Lipsync me IA
Voiceover me IA: Gjenerimi i zërave unikë dhe realistë për personazhet e filmave.
IA Lipsync: Sinkronizimi automatik i zërit me lëvizjet e buzëve të karakterit, duke krijuar një rezultat të natyrshëm dhe besueshëm.
Kombinimi i aktrimit të kapur me një voiceover të personalizuar për të përmirësuar karakterizimin.
Objektivat
Çfarë do të dini të bëni në fund
Krijim zëri unik
Të krijoni zë unik dhe realist për një personazh me ElevenLabs (TTS + Voice Design/Cloning).
ElevenLabs
Lipsync i besueshëm
Të bëni lipsync të besueshëm me dy rrugë pune:
1. Audio origjinal + mocap
Kling Motion Control / Runway Act-Two
help.runwayml.com
2. Video me audio "native"
Veo / Sora / Kling dhe pastaj zëvendësim i audios me ElevenLabs (dubbing/VO)
Google DeepMind
1) Fjalor minimal (terma që do përdorim)
Voiceover (VO)
zë i regjistruar/sintetizuar që vendoset mbi video.
TTS (Text-to-Speech)
tekst → zë.
Voice Cloning
klonim i zërit nga mostra audio (vetëm me leje).
ElevenLabs
Lipsync
sinkronizim i lëvizjes së buzëve me audio.
Phoneme / Viseme
fonema = tingujt bazë të gjuhës; visema = forma vizuale e gojës për tinguj të ngjashëm (p.sh. "P/B/M" duken njësoj).
Mocap (Motion Capture)
kapje e lëvizjeve njerëzore për animim.
Reference image/video
imazh/video udhëzues që modeli e ndjek për konsistencë.
Përgatitja
2) Parakushtet (para se të nis demo)
1
Karakter i "kyçur"
1–3 imazhe referencë (front/3-quarters/profile) me stil konstant (nga ligjëratat e mëparshme për karaktere + konsistencë).
2
Skenë e thjeshtë
6–12 sekonda, plan i afërt (bust/close-up) për lipsync më të mirë.
3
Teksti i dialogut
1–2 fjali, pa fjali shumë të gjata.
3) Parime cilësie (pse lipsync dështon më shpesh)
Audio e ndotur
Audio e ndotur (zhurmë, reverb, kompresim i rëndë) ul saktësinë e sinkronit.
hedra.com
Ritëm i shpejtë
Ritëm shumë i shpejtë, britma, ose artikulim i paqartë → gojë "dridhet" ose humb fonema.
hedra.com
Plan i largët
Plan i largët ose goja e mbuluar (mjekër e fshehur, mustaqe, dritë e keqe) → lipsync bie.
Rregull praktik
Për demo, përdorni WAV 48 kHz, zë të pastër, dhe close-up.
Workflow A
Flukset e punës
Audio e pastër → Lipsync i kontrolluar
Workflow A (i rekomanduar): Audio i pastër → Lipsync i kontrolluar → Zë final (ElevenLabs)
Qëllimi: kontroll maksimal, riprodhueshmëri e mirë.
Hapat e Workflow A
Krijo zërin e personazhit në ElevenLabs
Zgjidh:
Voice Design (kur s'ke mostër reale) ElevenLabs
ose Voice Cloning (kur ke leje + mostër) ElevenLabs
Gjenero TTS (tekst → zë) dhe eksporto WAV.
Krijo video bazë të personazhit
Nga imazh → video e shkurtër (p.sh. 6–12s) me lëvizje minimale të kokës (pa u shqetësuar për gojën).
Lipsync
Runway Lip Sync (audio-driven) kur do "të flasë" pa aktor; ose
Runway Act-Two kur ke performance video të aktorit (më natyrale për trup/duar). help.runwayml.com
QA (kontroll i shpejtë)
Shiko 3 pika: "P/B/M", "F/V", "S/Sh". Nëse duken gabim: ngadalëso të folurën, rrit qartësinë e audios, ose bëj close-up.
Kur ta përdorni: dialog i qartë, monolog i shkurtër, reklamë/short, karakter i vetëm.
Workflow B
Hapat e Workflow B
Qëllimi: lëvizje + shprehje më të besueshme, pastaj zë i personalizuar.
Hapat
Regjistro video performance 6–12 sekonda (telefon mjafton).
Ndriçim i rrafshët, pa hije të forta; goja gjithmonë e dukshme.
Kling Motion Control (2.6):
Jep imazhin e karakterit + videon e performancës si kontroll lëvizjeje. app.klingai.com
OSE Runway Act-Two:
Përdor performance video për të drejtuar trup/duar/gestikulacion. help.runwayml.com
Gjenero audio final në ElevenLabs (zëri i karakterit).
Zëvendësim audio:
Në editor (Premiere/Resolve/CapCut/Final Cut): sinkronizo me clap/peak, ose me waveform.
Kur ta përdorni: kur "aktrimi" dhe ritmi i trupit janë kritikë (komedi, nervozizëm, emocion).
Workflow C
Workflow C
Qëllimi: prodhim shumë i shpejtë "all-in-one", pastaj përmirësim i zërit.
Veo 3.1
ka gjenerim video me audio të integruar ("Video, meet audio").
Google DeepMind
Sora 2
mbështet dialog dhe efekte të sinkronizuara (brenda app-it).
OpenAI
Kling Video 2.6
ka gjenerim audio-vizual në një hap (zë + SFX + ambient).
ir.kuaishou.com
Hapat
Gjenero klipin 8–12s me dialog "placeholder".
Eksporto video.
Rigjenero dialogun në ElevenLabs (më natyral, zë unik). ElevenLabs
Zëvendëso audion (dubbing/VO) dhe bëj miks minimal (volum, noise reduction).
Kur ta përdorni: prototipim i shpejtë, storyboard animatik me zë, iterime.
5) Prompt-e dhe shabllone
1
Shabllon për ElevenLabs – Voice Design (pa klonim)
Prompt (për "Design a Voice") ElevenLabs
Gjinia/age range:
Aksenti/dialekti (p.sh. standard shqip / kosovar / tosk):
Timbri (i ngrohtë/i errët/i ndritshëm):
Shpejtësia (ngadalë/mesatare):
Energjia (e qetë/e gjallë):
Emocioni bazë (kureshtar, serioz, i gëzuar):
Sjellje (pauza të shkurtra, artikulim i qartë, jo teatral):
Tekst VO (TTS) – rregulla
Fjalia 1: e thjeshtë (max 10–14 fjalë)
Fjalia 2: max 12–16 fjalë
Shmang fjalë shumë të gjata dhe shprehje shumë të shpejta (për lipsync).
2
Shabllon për Runway (Lip Sync / Act-Two)
Input: close-up i karakterit, kokë e kthyer maksimum 15–20°.
Audio: WAV i pastër, pa muzikë në sfond.
Udhëzim: "natural mouth movement, subtle head motion, no exaggerated jaw, stable eyes, no flicker".
Runway vetë e pozicionon Lip Sync si zgjidhje audio-driven kur s'ke performance video, ndërsa Act-Two si më i avancuar për tracking. help.runwayml.com
3
Shabllon për Kling Motion Control (performancë → karakter)
"Preserve identity of reference character; follow the driving video for facial expressions and gestures; keep camera fixed; close-up; realistic mouth articulation; no deformation; stable lighting." app.klingai.com
4
Shabllon për Veo/Sora/Kling (audio native → pastaj zëvendësim)
"8–12 second close-up dialogue shot; single character; neutral background; clear pronunciation; minimal camera motion; cinematic soft light; keep mouth visible; no fast talking."
Checklist
6) Checklistë e shpejtë (para eksportit)
1
Audio
WAV, i pastër, pa muzikë.
Pauza natyrale (0.2–0.5s) midis fjalive.
2
Video
Close-up, goja e dukshme, pa motion blur.
Pa objekte që mbulojnë buzët.
3
Sinkron
Kontrollo "P/B/M" (mbyllja e buzëve), "F/V" (dhëmbët me buzën), "S/Sh" (hapja).
Nëse gabon: rishkruaj tekstin me fjalë më të thjeshta + ngadalëso.
7) Gabime tipike dhe korrigjime (shkurt)
Goja dridhet / lëvizje nervoze
→ audio më e pastër, ritëm më i ngadalë, plan më afër.
hedra.com
Buzët s'përputhen në fund
→ shto 0.3–0.7s "room tone" në fund të audios; mos e preni fjalinë ngushtë.
Karakteri deformohet
→ ul motion, fikso kamerën, përdor referencë më të pastër dhe "no deformation".
8) Etikë dhe ligj (minimumi që duhet respektuar)
Mos klono zë pa pëlqim të qartë të personit; Voice Cloning kërkon përgjegjësi dhe kontroll të burimit. ElevenLabs
Shënoni në kreditime kur përdorni audio/video të gjeneruar (sidomos kur platforma vendos watermark/metadata). Veo përmend watermarking në përdorim publik. The Verge
Detyra
9) Detyrë e vogël
Krijo një klip 8–12s:
1 personazh, 2 fjali dialog.
Zëri nga ElevenLabs
Voice Design ose Cloning me leje. ElevenLabs
Lipsync me Runway ose Kling
Lip Sync ose Act-Two ose Kling Motion Control. help.runwayml.com
Dorëzo
MP4 + WAV final + 5 rreshta "log" (çfarë ndryshuat për ta përmirësuar sinkronin).



Referenca kryesore (për lexim minimal)
ElevenLabs (platformë, Voice Cloning, Voice Design). ElevenLabs
Runway Help: Act-Two dhe Lip Sync. help.runwayml.com
Kling Motion Control + Kling Video 2.6 audio. app.klingai.com
Veo 3.1 (audio + dokumentim përdorimi). Google DeepMind
Sora 2 (dialog + audio). OpenAI


Leksioni i mëparshëm
Lista e leksioneve
Leksioni vijues
Made with