AI / Kiến thức · 12/04/2026 0

Lưu làm phim bằng AI

Dạo này tự nhiên nổi lên 1 bộ phim bằng AI lấy bối cảnh Ai Cập được cộng đồng mạng chia sẻ kèm theo rất nhiều lời “chê”. Nếu bạn có theo dõi những fanpage hoặc hội nhóm liên quan tới AI trên facebook, chắc chắc bạn đã từng thấy qua nó rồi

Như bạn thấy trên hình, chủ nhân của video này chia sẻ đã dành công sức 2 tháng để tạo ra được bộ phim như vậy

Một video review

https://www.facebook.com/share/v/1AgnGJh6MR

Vậy thì… Tại sao mình viết bài viết này

Trước đó 1 thời gian, mình có làm 1 video ngắn trong một cuộc thi làm video ở công ty, toàn bộ video này cũng được mình thực hiện bằng AI. Vì công việc của mình có liên quan trực tiếp tới AI, cũng có chút sở thích về điện ảnh, cho nên mình rất thích thú khi mấy một bộ phim được làm bằng AI lại được công bố ra bởi người Việt (không phải đầu tiên và duy nhất nhưng có lẽ mạng xã hội đã làm cho nó khá nổi bật).

Ở trên là video AI mà mình đã tạo ra cho cuộc thi

Mặc dù hầu hết tất cả những comment, những phản hồi về video đều là tiêu cực, mình lại thấy trong bộ phim dài hơn 1 tiếng này cũng đã có những nỗ lực và cố gắng để truyền tải mục đích của kịch bản, nhưng như sự thực bạn thấy, là bộ phim này còn nhiều thiếu sót, về cả kỹ năng dựng phim cũng như giới hạn của AI video generator (có thể là Kling) mà hiện tại chúng ra chưa thể vượt qua.

Với việc đã từng làm ra một sản phẩm bằng AI video generator (VEO 3), mình sẽ chia sẻ lại cho các bạn về một góc nhìn khác, cũng như quá trình mà mình (và chắc tác giả trên kia cũng tương tự) đã làm ra được một sản phẩm như vậy.

Lên ý tưởng

Mặc dù việc xây dựng video (80% công việc) chỉ kéo dài trong 2-3 ngày do bị giới hạn bởi deadline cuộc thi, việc lên ý tưởng về kịch bản đã được mình suy nghĩ trong đầu khá lâu (2-3 tuần). Với bối cảnh cuộc thi trong công ty, và sử dụng một chủ đề đơn giản, dễ hiểu, mình bắt đầu mường tượng về 1 kịch bản cho phép mình truyền tải một nội dung hài hước về văn hóa công ty. Từ đó, câu chuyện của mình xây dựng xung quanh một sinh viên mới ra trường, phỏng vấn xin việc và góc nhìn của anh ta về công ty anh ta phỏng vấn.

Có 2 lý do vì sao bạn nên chọn 1 ý tưởng đơn giản, dễ xây dựng thay vì xây dựng 1 bối cảnh quá cầu kỳ:

  • Với thời lượng video ngắn (2-3 phút), hầu như không thể xây dựng bối cảnh quá cầu kỳ mà vẫn tạo ra được các diễn biến cho câu chuyện như phim điện ảnh, vì vậy, phương án mì ăn liền (đơn giản, dễ hiểu, ngắn gọn) nên được ưu tiên nhất, thay vì cố ngồi nhét nhiều thứ nhưng lại gây khó hiểu.
  • Nếu bạn là dân nghiệp dư trong lĩnh vực điện ảnh (hầu hết chúng ta), việc thực hiện các góc quay, chuyển cảnh, biên tập âm thanh,… có thể là thảm họa, vì vậy,kịch bản ít chuyển biến, ít hành động, ít cảnh phức tạp sẽ là ưu tiên hàng đầu khi lên ý tưởng.

Từ ý tưởng cơ bản đó, mình bắt đầu đưa ra một ý tưởng chính, ngắn gọn, đơn giản, nhưng vẫn đảm bảo cốt truyện theo được đúng theo cấu trúc 3 hồi:

  • Hồi 1: Thiết lập (Setup/Exposition): Giới thiệu nhân vật, bối cảnh và sự kiện khởi đầu phá vỡ cuộc sống bình thường, dẫn đến mâu thuẫn chính: Một cậu sinh viên mới ra trường và bắt đầu đi phỏng vấn -> hành trình mới.
  • Hồi 2: Đối đầu (Confrontation/Rising Action): Nhân vật chính gặp khó khăn, rào cản và đối thủ, đẩy câu chuyện lên cao trào: nhân vật chính đối diện với sếp to con và trải qua buổi phỏng vấn, sau đó nhìn thấy những cảnh làm việc đáng sợ trong văn phòng.
  • Hồi 3: Giải quyết (Resolution/Climax): Đỉnh điểm mâu thuẫn và kết thúc, giải quyết các vấn đề của câu chuyện: Người phỏng vấn hỏi câu “Theo em, mình sẽ như thế nào vào 5 năm sau?” và nhưng kịch bản đẹp về công việc bắt đầu xuất hiện trong đầu và kết thúc bằng việc chàng sinh viên được tuyển vào công ty.

Xoay quanh câu chuyện đó, để hoàn hiện kịch bản, mình có thể thêm 1 vài miếng “hạt nhài” để hoàn thiện kịch bản, còn những chi tiết còn lại, hầu hết mình đều nảy ra ý tưởng và thêm vào trong quá trình làm và biên tập video. Mấy cái hạt nhài ví dụ như:

  • Anh chàng sinh viên kể về bản thân từ sáng tới tối
  • Lý do lựa chọn công ty chỉ là vì công ty có vòi xịt
  • Các cảnh hài trước trong văn phòng
  • Anh chàng tưởng tượng về việc mình sẽ gặp chân ái trong vòng 5 năm sau khi đi làm và họ sẽ có 1 lễ cưới.

Vì là dự án 1 người, cho nên mình có thể thay đổi và thêm thắt ý tưởng bất cứ khi nào mình muốn, thực ra kể từ lúc bắt đầu dùng Veo3 để generate video, thời điểm đó mình chỉ có khoảng 20-30% toàn bộ kịch bản trong đầu thôi.

Lựa chọn chất liệu phim, phong cách, cảnh quay, âm nhạc

Lúc này là giai đoạn mà bạn hình dung những hình ảnh về bộ phim trong đầu, và lựa chọn cho mình những chất liệu phim, phong cách hình ảnh để bám vào. Bởi vì mục tiêu của mình là đơn giản và gần gũi, dễ hiểu nhất có thể, một phong cách phim điện ảnh bình thường (như vẫn hay xem ngoài rạp, kiểu phim Trấn thành) là đúng nhất với mình. Còn về nhân vật thì vì mình hướng tới hài hước cho nên biểu cảm và ngoại hình nhân vật cũng rất quan trọng, trong kịch bản sẽ có 2 nhân vật chính, mình sẽ xây dựng 2 nhân vật này đối lập nhau về ngoại hình, đồng thời thêm các đặc điểm nhận diện nhân vật khác. Mình sẽ nói kỹ hơn trong phần Generate video với Veo3. Màu sắc thì cũng không quá cầu kỳ, mình ưu tiên độ bão hòa màu đậm hơn trong toàn bộ phim và nhạt hơn trong đoạn tưởng tượng 5 năm sau, thực ra ý tưởng này cũng chỉ phát sinh trong khi mình biên tập.

Ngoài ra, âm nhạc cũng là một phần cực kỳ quan trọng trong việc truyền tải nội dung và cảm xúc của bộ phim, để chọn được một bản nhạc phù hợp, mình đã tham khảo rất nhiều những trailer của các bộ phim Việt Nam, mình nghĩ bạn có thể cảm nhận được cái vibe trailer khi xem bộ phim của mình.

Tạo ra các chất liệu phim

Chính là những thành phần video được tạo từ AI video Generator, cụ thể, mình dùng toàn bộ là Veo3.

Phần này có thể nói là phần quan trọng thứ 2 (quan trọng nhất là gì thì bạn sẽ biết sau hihi), bởi vì nó thể hiện được tất cả những tính toán mà bạn thiết lập từ các phần trước đó (nội dung, phong cách,…). Do đó, prompt cơ bản sẽ rất quan trọng để từ đó, tất cả các prompt của bạn sẽ dựa trên 1 format để đảm bảo có những phân cảnh nhất quán cho toàn bộ bộ phim.

Ở thời điểm mình làm video, có 1 số giới hạn của Veo3 ví dụ như giới hạn 8s của video và giới hạn về prompt: prompt bắt buộc phải thực hiện bằng tiếng anh, nhưng thực ra bạn vẫn có quyền chèn thoại bằng tiếng Việt. Do đó, kế hoạch sẽ là, bạn tạo ra các phân cảnh (8s) tương ứng với từng đoạn trong kịch bản, sau đó sử dụng một phần mềm edit video để biên tập, ghép tất cả các phân cảnh nhỏ lại và chỉnh sửa, chèn thêm các hiệu ứng âm thanh khác để tạo ra một bộ phim hoàn chỉnh.

Nhưng phần này, mình sẽ tập trung vào phân tích cách xây dựng prompt cho các phân cảnh để đạt được ý đồ kịch bản.

Bạn có thể tham khảo 1 prompt để tạo ra phân cảnh trước khi chúng ta đi vào phân tích như sau:

SCENE 2 - MEETING ROOM - CONTINUOUS (8 SECONDS) 
CHARACTERS: 
LU (20s): A young, sharp Vietnamese man. Thin with a bowl cut, he has a comedic, expressive face and fair skin. 
THE BOSS (40s): A powerfully built, muscular Asian man with short hair and white skin, wearing a skinny shirt. He looks significantly larger than Lu. The color of the movie is cinematic and realistic 

SCENE START 
[0-8 SECONDS]- Lu, a thin Vietnamese man in white shirt, short sleave walk into the scene, showing his back. The shot is now a REAR SHOT of Lu's back, largest part of the scene, the background - the whole office is blured, they working normally, Lu said: "Em hông xem nữa đâu anh cho em zề đi anh" 
SCENE END

Director's & Production Notes: Accent & Casting: Both actors should have fair Asian skin tones. All dialogue is to be delivered in a clear Southern Vietnamese accent.

Thực ra không có một format cố định cho prompt, vì vậy, chỉ cần đảm bảo rằng prompt có 1 số thành phần thiết yếu để thể hiện được ý đồ và đảm bảo sự nhất quán giữa các phân cảnh, cụ thể, bạn có thể quan tâm tới 1 số thành phần như sau:

  • Cấu trúc chung: mình dựa trên format được sử dụng trong các kịch bản phim (một bộ phim bình thường sẽ dùng 1 tập tài liệu giống như vậy cho kịch bản), bạn có thể dùng ChatGPT hoặc Gemini để nó giúp bạn tạo ra 1 format chung cho prompt bằng cách yêu cầu tạo ra 1 kịch bản dựa trên các yếu tố bối cảnh bạn muốn, sau đó chỉnh sửa lại cho phù hợp.
  • Mô tả bối cảnh: Ở phần đầu, bạn cố ý đặt vào (8 SECONDS) để Veo3 hiểu rằng đoạn phim của bạn chỉ có tối đa 8s, đồng thời cũng phải hiểu rằng những gì bạn đặt vào prompt cũng sẽ chỉ giới hạn trong 8s này, tránh trường hợp bạn đặt quá nhiều nội dung vào prompt, mà không thể nào diễn tả hết trong 8s video. Thông thường, video tạo ra sẽ bị lỗi (lời loại, hành động kỳ lạ) hoặc mất nội dung. Dĩ nhiên, để làm được điều đó, bạn phải hình dung trong đầu những gì sẽ xảy ra trong đúng 8s đó, bạn có thể bấm giờ và tự diễn ở ngoài đời trước. 1 tip nhỏ ở phần này là thực ra nội dung không nhất thiết phải đùng đủ 8s mà có thể ngắn hơn, vì bạn luôn có thể cắt video để lấy đúng phần mình muốn.
  • Mô tả nhân vật: Có một giới hạn của AI video generator lại thời điểm đó là không thể làm nhất quán nhân vật giữa các lần prompt. Trước khi thực sựu tạo ra các phân cảnh được sử dụng, mình đã test nhiều lần cái prompt trước và gặp một trình trạng là nhân vật hoàn toàn khác nhau. Vì vậy có một vài mẹo để khắc phục cái này (1 phần) là sử dụng các đặc trưng đặc biệt cho nhân vật, và sử dụng hình ảnh có chứa (các nhân vật ở phân cảnh trước) làm scene bắt đầu của phân cảnh sau. Mình sẽ mô tả kỹ hơn ở mục các mẹo khác. Quay lại với prompt nhân vật, hãy đảm bảo rằng bạn có kèm các đặc điểm nhân vật mà bạn muốn có trong prompt: ví dụ như tên, tuổi, màu da, trang phục, kiểu tóc,…
  • Phần cảnh quay: là phần nằm giữa SCENE STARTSCENE END, mô tả toàn bộ những nội dung xảy ra trong phân cảnh, và có thể có nhiều phân cảnh nhỏ trong 1 phân cảnh lớn (8s)

Và phần quan trọng nhất… Video Editing

Tương tự như các thể loại content creating khác, việc edit video là cực kì quan trọng, nó quyết định người xem có hứng thú và có hấp thụ được những dụng ý trong kịch bản của bạn hay không, trong quá trình video eđiting có 2 thứ quan trọng nhất và bổ trợ nhau đó chính là story telling và âm thanh (âm nhạc+SFX)

Về Story telling, như đã nói, có một giới hạn với Veo 3 hay các video AI generator khác đó chính là việc biểu cảm quá giả và khó kiểm soát, vì vậy, chúng ta không thể trông đợi quá nhiều vào “diễn xuất” nhân vật, mặc dù bạn hoàn toàn có thể khiến nó tốt hơn bằng cách tối ưu prompt và thử nghiệm nhiều lần, đổi lại làm vậy sẽ tốn nhiều công sức hơn. Thay vào đó, việc chọn 1 kịch bản đơn giản sẽ giaiả quyết được rất nhiều vấn đề, khi đã giải quyết được liên quan đến các vấn đề về diễn xuất thì việc còn lại của bạn chỉ cần hiểu thêm về các góc quay trong điện cảnh, mà hơn hết là “Toàn – Trung – Cận”, 3 góc quay thể hiện được bối cảnh câu chuyện. Mình không chuyên môn về điện ảnh cũng không có quá nhiều kinh nghiệm để chia sẻ, nhưng mình thấy với 1 người nghiệp dư thì việc nắm được những kiến thức này đã cải thiện tư duy làm phim của mình rất nhiều.

Phần thứ 2 là âm thanh, việc suy nghĩ về âm thanh trước sẽ giúp bạn tưởng tượng về cảnh quay nhanh hơn rất nhiều, ví dụ cảnh quay bao lâu, cắt cảnh thế nào trong lúc edit, nó cũng quyết định cảm xúc của người xem đối với cảnh quay đó nữa, ví dụ như mình sử dụng 1 đoạn piano ngắn trong cảnh quay tâm sự của “Sếp” và bản nhạc từ phim Your Name trong cảnh quay tưởng tượng phía sau để gợi nên 1 cảm giác nmộng mơ (chắc vậy). Việc còn lại chỉ cần kiếm thêm các sound phù hợp để chèn vào các đoạn phim cho nó thêm đặc sắc thôi, ví dụ tiếng vòi xịt, âm thanh hài hước, tiến đệm đàn,…

Toàn bộ video mình đều thực hiện bằng Adobe Premiere Pro, nhưng thực chất với những kiểu edit cắt ghép video và âm thanh đơn giản như thế này thì bạn có thể thực hiện với hầu hết các phần mềm edit video (ngay cả Canva nếu bạn muốn :v :v)

Và Suy nghĩ của mình về bộ phim AI Cập phía trên

Với một người đã còng lưng để làm ra chiếc video dài 3 phút, thì mình cảm nhận được bộ phim 1 tiếng 30 phút phía trên thực sự đã được làm bằng rất nhiều công sức, bao gồm và video generate và công đoạn edit (Bạn cứ lấy thời gian bộ phim chia ra cho 8s để hình dung được sẽ cần generate tối thiểu bao nhiêu viđeo để làm ra bộ phim nhé). Vì vậy, việc tác giả video trên nói rằng mình đã dành trọn 2 tháng để làm ra bộ phim là hoàn toàn có thực.

Thực ra lý do mà anh này nhận nhiều ý kiến trái chiều là do đã PR cho video này hơi quá tay, và thực sự đã hơi tự tin vào sản phẩm mà anh tạo ra khi nói bằng nó là bộ phim “điện ảnh” AI đầu tiên, điều mà sẽ kích động hầu hết những người yêu điện ảnh nói chung ngay khi vừa bắt gặp. Và hơn nữa, việc tìm kiếm 1 lỗi do AI tạo ra ở thời điểm hiện tại là hoàn toàn không khó, nhất là khi bộ phim quá dài, thì càng dễ phát sinh ra lỗi. Và khi đã gọi là phim điện ảnh, người ta lại càng có xu hướng so sánh bộ phim này với các phim người đóng.

Vấn đề là về tổng quan mà nói, AI thực sự đang tiến bộ rất nhanh, và mình tin là nó sẽ sớm khắc phực được phần lớn các thiếu sót hiện tại, bao gồm cả diễn xuất và các lỗi hình ảnh. Bằng chứng là mô hình SeeDance 2.0 đã có một màn ra mắt cực kỳ ấn tượng, đặc beiẹt là đối với thể loại phim hành động, bên dưới là một ví dụ:

Có nghĩa là, trong một tương lai rất gần, chúng ta sẽ có thể thấy những sản phẩm phim AI chất lượng hơn, không chỉ là về video generator mà cũng sẽ có những người dành nhiều thời gian và công sức cho việc edit video để tạo ra những thước phim chất lượng.