Sẽ ra sao nếu bạn có thể “hô biến” một bức ảnh từ trong trí tưởng tượng của chính mình?
Bạn hoàn toàn có thể, chỉ mất vài phút, nhờ các AI tạo sinh hình ảnh, như Midjourney.
Bất kể bạn có kỹ năng hội họa, hay thậm chí chưa từng một lần cầm cọ trong đời – AI có thể giúp bạn tạo ra các tác phẩm nghệ thuật số trong chớp mắt, chỉ cần một đoạn văn bản miêu tả hình ảnh mà bạn có trong suy nghĩ. Những Midjourney thực sự hoạt động ra sao? Hãy cùng Hostify.vn tìm hiểu.
MiraWEB – Tạo website tự động bằng AI trong 30 giây
Midjourney là một ví dụ về AI tạo sinh có khả năng chuyển các câu lệnh (prompt) ngôn ngữ tự nhiên thành hình ảnh. Dù chỉ là một trong rất nhiều ứng dụng tạo ảnh dựa trên thuật toán học máy, Midjourney đã nhanh chóng trở thành một trong những cái tên đáng chú ý trên thị trường AI bên cạnh DALL-E và Stable Diffusion.
Với Midjourney, bạn có thể tạo ảnh chất lượng cao từ các prompt văn bản đơn giản. Bạn cũng không cần bất kỳ phần mềm hay phần cứng chuyên dụng nào, bởi Midjourney hoạt động hoàn toàn thông qua ứng dụng chat Discord. Nhược điểm duy nhất của nó? Bạn cần bỏ ra một ít chi phí trước khi bắt đầu tạo ảnh, không như hầu hết các đối thủ cho phép tạo ảnh miễn phí trong giới hạn nhất định.
Dẫu vậy, việc tiếp cận Midjourney vẫn khá đơn giản và bất kỳ ai cũng có thể tạo ra những hình ảnh chân thực chỉ trong vài phút. Kết quả thu được có thể cực kỳ ấn tượng, hoặc kỳ quặc, tùy thuộc prompt của bạn.
Trong một số trường hợp, ảnh từ Midjourney thậm chí đánh lừa được cả các chuyên gia trong lĩnh vực nhiếp ảnh và hội họa. Bạn hẳn từng thấy những bức ảnh rất thuyết phục do AI tạo ra trên mạng xã hội. Ví dụ, ảnh Giáo hoàng Francis khoác áo ấm, hay ảnh Trump bị bắt. Ngoài ra, còn có nhiều ảnh miêu tả một khung cảnh trong phim Star Wars nhưng theo phong cách Wes Anderson.
Không như DALL-E, vốn dựa trên ChatGPT của OpenAI, Midjourney là một dự án độc lập và tự duy trì. Nó không nhận được bất kỳ nguồn tài trợ nào tư bên ngoài. Trong khi đó, OpenAI thì nhận được hơn 10 tỷ USD từ Microsoft và nhiều nhà tài trợ khác. Vậy như kết quả của Midjourney vẫn ấn tượng không kém!
Chúng ta không thể biết cơ chế hoạt động thực sự của Midjourney, bởi nó là một sản phẩm nguồn đóng và chạy trên mã độc quyền của tác giả. Nhưng nhìn chung, công nghệ bên dưới có thể được giải thích một cách đơn giản và ngắn gọn, mà bạn có thể đọc tiếp dưới đây.
Midjourney sử dụng hai công nghệ học máy tương đối mới mẻ là mô hình ngôn ngữ lớn và mô hình lan truyền (diffusion). Bạn có lẽ đã quen thuộc với mô hình ngôn ngữ lớn nếu thường xuyên sử dụng các chatbot AI tạo sinh như ChatGPT. Mô hình ngôn ngữ lớn sẽ giúp Midjourney hiểu ý nghĩa các từ bạn gõ vào prompt. Sau đó, thông tin này sẽ được chuyển thành một thứ gọi là vector, tức một phiên bản số học của nội dung prompt. Cuối cùng, vector sẽ giúp định hướng cho một quy trình phức tạp khác gọi là lan truyền.
Mô hình lan truyền chỉ trở nên phổ biến trong khoảng một thập kỷ gần đây, và đó cũng là lý do giải thích sự xuất hiện của hàng loạt AI tạo sinh hình ảnh. Trong mô hình lan tryền, một máy tính sẽ liên tục thêm nhiễu ngẫu nhiên vào bộ dữ liệu hình ảnh huấn luyện của nó. Qua thời gian, nó học được cách khôi phục ảnh gốc bằng cách đảo ngược nhiễu. Ý tưởng đằng sau mô hình lan truyền là khi được huấn luyện đầy đủ, mô hình có thể học được cách tạo ra những hình ảnh hoàn toàn mới.
Vậy từ khía cạnh một AI tạo sinh hình ảnh, mọi thứ sẽ trông ra sao?
Khi bạn nhập một prompt văn bản như “white cats set in a post-apocalyptic Times Square” (những chú mèo trắng đứng ở quảng trường Thời đại hậu tận thế), đầu tiên sẽ có một bức tranh trắng đầy nhiễu hạt, giống như nhiễu trên màn hình TV vậy. Ảnh lúc này chẳng giống gì so với thứ bạn yêu cầu cả. Tuy nhiên, một mô hình AI đã được huấn luyện sẽ sử dụng lan truyền tiềm ẩn (latent diffusion) để dần dần loại bỏ nhiễu hạt. Cuối cùng, ta sẽ có một hình ảnh với các vật thể và khung cảnh giống thế giới thật.
Quy trình phức tạp nói trên cũng là lý do bạn phải đợi vài phút để ảnh do AI tạo ra được hoàn tất. Nếu bạn ngừng quy trình sớm hơn, ảnh sẽ đầy nhiễu hạt bởi nó chưa đi qua đầy đủ các bước khử nhiễu.
Nếu như các chatbot như ChatGPT và Bing Chat cho phép sử dụng miễn phí vô thời hạn, các AI tạo sinh hình ảnh không như vậy. Đa phần chúng đều đưa ra những hạn chế nhất định, và Midjourney thậm chí còn không cho phép dùng thử miễn phí. Đó là bởi mỗi tác vụ tạo sinh hình ảnh đòi hỏi rất nhiều sức mạnh điện toán, đặc biệt là GPU. Hơn nữa, mỗi GPU chỉ có bộ nhớ video hữu hạn, và do đó phải sử dụng rất nhiều GPU cho quy trình khử nhiễu.
Vì lẽ đó, không ngạc nhiên khi các AI tạo sinh hình ảnh chuyên nghiệp đòi hỏi bạn phải bỏ ra đôi chút chi phí. Để dùng Midjourney, bạn phải chi trả tối thiểu 10 USD/tháng, cho phép bạn sử dụng tối đa 3,3 tiếng, tức tạo gần 200 hình ảnh. Gói đắt nhất cho phép sử dụng tối đa 60 tiếng, giá 120 USD/tháng.
Gói cao cấp hơn nữa của Midjourney cho phép tạo hình ảnh không hạn chế, nhưng bạn sẽ phải chờ đến 10 phút. Nếu không cần chất lượng tốt nhất, bạn nên thử các AI tương tự Midjourney – dù chúng có thể không xuất sắc như lựa chọn trả phí, nhưng biết đâu lại mang đến cho bạn thứ bạn cần!
MiraWEB – Tạo website tự động bằng AI trong 30 giây
Bài liên quan