13. Zëri dhe muzika: Dizajn audio i drejtuar nga IA
  • Gjenerimi i kolonave zanore dhe peizazheve zanore ambientale.
  • Ushtrime praktike për integrimin e audios së gjeneruar nga AI në filma.
Objektivat
1) Objektivat e sesionit
Pas kësaj praktike, ju duhet të arrini:
Krijim muzike dhe peizazhi
të krijoni muzikë origjinale (score/soundtrack) dhe peizazh zanor (ambience) me AI;
Efekte zëri të personalizuara
të krijoni SFX / Foley me AI (efekte zëri të personalizuara) me ElevenLabs;
Eksport dhe përzierje
të eksportoni stems (shtresa të ndara audio) nga një mjet gjenerues dhe t'i përzieni në një miks filmik;
Integrim në montazh
të integroni audion në montazh (NLE) dhe të dorëzoni një eksport "gati për film".
2) Termat bazë
Score
muzika "e kompozuar për skenën" që ndjek emocionin/narrativën.
Soundtrack
muzika e filmit (mund të jetë score + këngë).
Soundscape / Ambience
zhurma e mjedisit (erë, pyll, qytet, brendësi dhome).
1
SFX (Sound Effects)
efekte zëri (derë, shpërthim, shkelma, beep, etj.).
2
Foley
efekte të regjistruara/ndërtuara posaçërisht për lëvizje (hapa, rroba, objekte).
3
Stems
pista të ndara (p.sh. drums, bass, pads, lead, vocals) për kontroll të miksit. Suno ka "Stem Extraction" dhe edhe opsion multi-track. (help.suno.com)
LUFS
matje e "fortësisë" së perceptuar (loudness) për standarde dorëzimi; EBU R128 rekomandon target −23 LUFS për broadcast. (Tech EBU)
True Peak (dBTP)
kulmet reale të sinjalit; pjesë e standardeve të matjes. (ITU)

Sample rate: për video zakonisht 48 kHz (ruani konsistencën e projektit).
3) Mjetet
Gjenerim
Suno ose Udio
muzikë/score, variante të shpejta, eksport audio + stems.
(Për Suno: shih "Stem Extraction".) ( help.suno.com)
ElevenLabs
  • Voice (TTS / voiceover)
  • Sound Effects (Text-to-SFX) për efekte/ambience të personalizuara.
    (ElevenLabs)
Miks + montazh
Një DAW ose NLE me miks audio
(p.sh. DaVinci Resolve/Fairlight, Premiere+Audition, Reaper/Logic/Pro Tools).
Fluksi i punës
4) "Audio-first për film të shkurtër"
Ky është rendi praktik
A — Përgatit "Audio Brief" (1 faqe, shumë e shkurtër)
Për çdo skenë (10–30 sekonda) shkruani:
1
Kush flet?
(moshë, energji, dialekt/intonacion)
2
Ku ndodh?
(mjedisi, materiali: drurë/metal, hapësirë e madhe/vogël)
3
Çfarë ndjeje duhet të shkaktojë muzika?
(tension, ngrohtësi, mister)
4
Çfarë duhet të dëgjojmë patjetër?
(p.sh. hapa në dru, derë e rëndë, erë jashtë)
5
Çfarë duhet të mos ketë?
(p.sh. pa kor, pa vokale, pa bateri të fortë)
Output: 5 pika — mjaftojnë.
B — Muzika me Suno/Udio
Qëllimi: muzikë filmike që mund ta ulni/rritni lehtë nën dialog.
1
Rregulla praktike
  • Preferoni instrumentale (pa vokale) për skena me dialog.
  • Kërkoni dinamikë (nuk duhet të jetë e sheshtë).
  • Kërkoni stems për kontroll në miks (p.sh. ul pads nën dialog, mbani bass të lehtë).
2
Prompt-template (kopjo/ngjit, modifiko vetëm kllapat)
  • Stili/tonaliteti: "score filmik, orkestral minimalist / ambient cinematic"
  • Tempo: "[70–95 BPM]"
  • Harmoni: "minor për tension / major i butë për ngrohtësi"
  • Instrumente: "strings soft, piano felt, low drones, light percussion, no vocals"
  • Struktura: "build i ngadalshëm, kulm i shkurtër, pastaj zbehje"
  • Kohëzgjatja: "[20–40s]"
  • Kufizime: "pa vokale, pa melodi pop, pa trap hi-hats"
3
Eksport stems (Suno)
  • Përdorni "Stem Extraction / Get Stems" (përfshirë opsion multi-track). (help.suno.com)
  • Ruani: music_full.wav + stems/ (drums, bass, pads, lead, etc.).
Shembull i shkurtër:
"Instrumental cinematic score, 80 BPM, subtle tension. Soft strings + felt piano + low drones, sparse percussion, evolving texture, short peak then fade. No vocals, no pop hooks, film mix-friendly."
C — Ambience + SFX/Foley me ElevenLabs (Text-to-SFX)
ElevenLabs lejon gjenerim SFX nga tekst (për film/trailer/foley/ambience). (ElevenLabs)

Parim: shkruani si dizajner zëri: burim + hapësirë + material + distancë + kohë.
Prompt-template për SFX (ElevenLabs)
1
Objekti: [derë druri e rëndë / hapa mbi parket / zinxhir metalik]
2
Materiali: [dru i thatë / metal i hollë / beton]
3
Hapësira: [korridor i ngushtë / dhomë e madhe / jashtë në pyll]
4
Distanca: [afër mikrofonit / 3 metra larg]
5
Aksioni: [ngadalë / me nxitim / me frikë]
6
Kohëzgjatja: [1–3s / 5–10s]
7
Kualiteti: "clean, cinematic, no distortion, no music"
Shembuj:
Ambience pylli (10s)
"Night forest ambience, light wind through leaves, distant owl, very subtle insects, wide stereo, clean cinematic field recording, no music, 10 seconds."
Hapa në dru (3s)
"Footsteps on old wooden floorboards, close mic, slow cautious steps, slight creaks, small room, dry sound, 3 seconds."
Derë e rëndë (2s)
"Heavy wooden door creak and latch release, close mic, resonant creak, small hallway reflections, 2 seconds."
Output: amb_forest_10s.wav, foley_steps_03s.wav, sfx_door_02s.wav.
Integrimi në film
5) Integrimi në film
Ushtrimi 1 (bazë): "Dialog + ambience + score"
Qëllimi: 15–25 sekonda video me miks të pastër.
Dialog
Në NLE/DAW vendosni dialogun/voiceover (48 kHz).
Ambience
Shtoni ambience poshtë (−20 deri −35 dB sipas skenës).
Muzikë
Shtoni muzikën si background (filloni shumë poshtë, pastaj ngrini derisa ta ndieni pa e mbuluar fjalën).
Ducking
Kur dialogu hyn, bëni ducking (ulje automatike të muzikës) me: sidechain compression ose automation manual (fader).
Foley/SFX
Shtoni 1–3 foley/SFX të sinkronizuara (hapa, derë, rrobë).
Kontrolli minimal i miksit
  • Dialogu duhet të jetë gjithmonë elementi kryesor (inteligjueshmëri).
  • Muzika nuk duhet të "luftojë" me frekuencat e dialogut (nëse keni EQ, ulni pak 1–4 kHz në muzikë kur flet personazhi).
Ushtrimi 2 (i avancuar): "Stems-driven mix"
Qëllimi: kontroll i plotë i score.
1
Importoni stems
Importoni stems (drums, bass, pads, lead…).
2
"Rregulli i filmit": kur ka dialog
  • ulni lead/pads më shumë,
  • mbani pak low drone (nëse krijon tension),
  • hiqni ose ulni percussion nëse prish ritmin e fjalës.
3
Krijoni 2 versione
  • mix_A_dialog_priority.wav
  • mix_B_music_forward.wav
6) Dorëzimi (export) dhe standardet e loudness
Standardi EBU R128
Për broadcast, standardi europian EBU R128 synon −23 LUFS (me toleranca të vogla në varësi të kontekstit). (Tech EBU)
Algoritme të standardizuara
Matja e loudness/true-peak bazohet në algoritme të standardizuara (ITU-R BS.1770). (ITU)
Praktikë për klasë (pa u ngatërruar me shumë standarde)
  • Zgjidhni një target sipas platformës së dorëzimit (p.sh. "broadcast-like" me −23 LUFS për ushtrime).
  • Mbani headroom (mos e shtypni miksin me limiter derisa të humbasë dinamika).
7) Të drejta, shkarkime, dhe ndryshime platformash
Ndryshime në Suno
Suno ka pasur ndryshime/zhvillime në ekosistemin e vet (p.sh. funksione stems në help center). (help.suno.com)
Zhvillime ligjore
Ka zhvillime të rëndësishme ligjore/licencimi në industrinë e AI-muzikës (marrëveshje/licencime dhe kufizime shkarkimesh të raportuara në media). Për punë profesionale, ruani "paper trail" (promptet, versionet, eksportet) dhe lexoni kushtet e platformës para publikimit komercial. (Reuters)
8) Kontroll i shpejtë i cilësisë
1
Sample rate konsistent
Projekti audio në 48 kHz (konsistencë me video).
2
Dialog i qartë
Dialogu i kuptueshëm në çdo moment.
3
Ambience e pastër
Ambience nuk "humb" (loop pa klikime, fade in/out).
4
Muzikë fleksibël
Muzika ka stems ose të paktën 2 variante (më e qetë / më e fortë).
5
SFX realist
SFX nuk tingëllojnë "plastikë" (nëse po, rregulloni promptin: material, hapësirë, distancë).
6
Loudness i kontrolluar
Loudness i kontrolluar sipas targetit (p.sh. R128 për ushtrime). (Tech EBU)
Detyrë
9) Mini-detyrë
Dorëzoni një paketë të vogël:
1
Video me miks final
Video 15–30 sekonda me miks final.
2
Folder me audio files
  • dialog.wav (ose VO),
  • ambience.wav,
  • music_full.wav,
  • stems/ (nëse i keni),
  • sfx/ (2–5 efekte).
3
Audio brief
audio_brief.txt (5 pika).
Referenca
ElevenLabs — Sound Effects
kapacitete + udhëzues + API. (ElevenLabs)
Suno — Stem Extraction
udhëzim. (help.suno.com)
EBU R128 / R128s1
target loudness dhe parametra. (Tech EBU)
ITU-R BS.1770
algoritmet e loudness dhe true-peak. (ITU)