AI · 09/08/2024 0

FLUX.1: Mô hình AI tạo ảnh mới với nhiều đột phá

FLUX.1 là mô hình mã nguồn mở mới nhất từ Black Forest Labs, những người tạo ra Stable Diffusion. Vẫn mang chức năng tạo hình ảnh như SD, FLUX.1 có ba phiên bản: [pro], [dev], và [schnell]. Mỗi phiên bản đều phục vụ các nhu cầu khác nhau của người dùng.

1. Điều gì làm cho FLUX.1 trở nên đặc biệt?

Các mô hình FLUX.1 có hiệu quả state-of-the-art trong việc tuân theo prompt, chất lượng hình ảnh, chi tiết hình ảnh, và sự đa dạng trong đầu ra. Dưới đây là một số lĩnh vực đặc biệt mà mình thấy ấn tượng với mô hình này:

  • Văn bản! Không giống như các mô hình cũ thường gặp vấn đề khi gặp các chữ cái trông giống nhau, FLUX có thể xử lý những từ khó với các chữ cái lặp lại, giúp các thiết kế yêu cầu văn bản phải chính xác hoàn thiện hơn.
Text that reads “BLOG CUA LUU” in rainbow, sword, sparkles
  • Thành phần phức tạp. FLUX thực sự xuất sắc trong việc tuân theo các chỉ dẫn phức tạp về vị trí của các vật thể trong một hình ảnh. Ví dụ, khi được cung cấp lệnh “Ba pháp sư kỳ diệu đứng trên một cái bàn màu vàng, mỗi người cầm một bảng hiệu. Bên trái, một pháp sư mặc áo choàng đen cầm bảng hiệu có chữ ‘Blog’; ở giữa, một phù thủy mặc áo choàng đỏ cầm bảng hiệu có chữ ‘Cua’; và bên phải, một pháp sư mặc áo choàng xanh cầm bảng hiệu có chữ ‘Luu’“, bên dưới là sản phẩm của FLUX
Realistic style, Three magical wizards standing on a yellow table, each holding a sign. On the left, a wizard in black robes holds a sign that says ‘BLOG’; in the middle, a witch in red robes holds a sign that says ‘CUA’; and on the right, a wizard in blue robes holds a sign that says ‘LUUU’“
  • Tay người (đa phần) chính xác hơn. Tay người là một thách thức đối với AI, nhưng FLUX làm khá tốt. Thông thường bạn sẽ có đúng số ngón tay ở đúng vị trí. Dù chưa hoàn hảo, nhưng đó là một bước tiến lớn vì có thể nói nó tốt hơn bất kỳ mô hình tạo hình ảnh từ văn bản mở nào khác mà mình đã thử
a human hand up to the sky, view from top, the word “BLOG CUA LUU” written in the hand
  • Hiệu suất hàng đầu: FLUX.1 vượt trội trong việc tuân thủ lệnh, chất lượng hình ảnh, chi tiết hình ảnh, và đa dạng đầu ra.
  • Xử lý văn bản: Không giống như các mô hình cũ, FLUX.1 có thể xử lý văn bản phức tạp, lý tưởng cho các thiết kế yêu cầu biểu diễn văn bản chính xác.
  • Thành phần phức tạp: Có khả năng thực hiện các chỉ dẫn phức tạp, FLUX.1 có thể đặt các yếu tố chính xác trong một hình ảnh.
  • Cải thiện tạo tay người: Khắc phục các hạn chế trước đây trong việc tạo tay người thực tế, cung cấp các biểu diễn chính xác hơn.

2. Các phiên bản của mô hình:

  • FLUX.1 [pro]: Mô hình thương mại cao cấp cho việc tạo hình ảnh chất lượng hàng đầu.
  • FLUX.1 [dev]: Sử dụng không thương mại với trọng số mở cho nghiên cứu và sáng tạo nghệ thuật.
  • FLUX.1 [schnell]: Mô hình nhanh và hiệu quả cho phát triển cục bộ.

3. Cách hoạt động

FLUX.1 hoạt động dựa trên kiến trúc lai kết hợp giữa transformerdiffusion, được mở rộng lên 12 tỷ tham số. Nó cải thiện so với các mô hình trước bằng cách tích hợp flow matching và tối ưu hóa, cho phép tạo ra hình ảnh chất lượng cao từ các lệnh văn bản với độ chính xác ấn tượng.

4. Sử dụng FLUX.1:

  • FLUX.1 [pro]: Có sẵn thông qua API của Black Forest Labs và các đối tác như Replicatefal.ai.
  • FLUX.1 [dev]: Mô hình mở trọng số có sẵn trên HuggingFace. Có thể dùng thử nghiệm trên các nền tảng như Replicate hoặc fal.ai.
  • FLUX.1 [schnell]: Mô hình nhanh nhất cho sử dụng cá nhân, được cấp phép dưới Apache 2.0. Có sẵn GitHubHuggingFace.

Bạn có thể thử ngay trên space hugging face của Black Forest thể thử nhanh nếu muốn

https://huggingface.co/spaces/black-forest-labs/FLUX.1-schnell

Q: FLUX.1 được hỗ trợ trên những nền tảng nào?
A: FLUX.1 được hỗ trợ trên các nền tảng như Replicate, fal.ai, và Comfy UI. Phiên bản [dev][schnell] cũng có sẵn trên HuggingFace.

Q: Thông tin chi tiết về giá cả?
A: Giá cả khác nhau tùy theo hình ảnh:

  • FLUX.1 [pro]: 0,055 USD mỗi hình ảnh.
  • FLUX.1 [dev]: 0,030 USD mỗi hình ảnh.
  • FLUX.1 [schnell]: 0,003 USD mỗi hình ảnh.

Q: FLUX.1 có thể được sử dụng cho mục đích thương mại không?
A: Phiên bản [dev] là dành cho sử dụng không thương mại, trong khi phiên bản [pro] phù hợp cho các ứng dụng thương mại.

Q: Có bất kỳ hạn chế sử dụng nào không?
A: Các mô hình FLUX.1 không được sử dụng cho các hoạt động phi pháp, khai thác hoặc tạo ra nội dung có hại. Hãy tuân thủ các điều khoản sử dụng và thỏa thuận cấp phép.

Mặc dù vẫn còn tồn tại sai sót, FLUX.1 có công nghệ đột phá, nó đã khắc phục được những sai sót quan trọng trong các phiên bản của stable diffusion hay các mô hình mã nguồn mở khác, mình kỳ vọng sẽ mang đến nhiều thay đổi với các mô hình mã nguồn mở trong tương lai