Trang Chủ Công nghệ Ứng dụng - Phần mềm Ứng dụng trí tuệ nhân tạo DALL-E: Thuật toán có thể vẽ...

Ứng dụng trí tuệ nhân tạo DALL-E: Thuật toán có thể vẽ bất cứ thứ gì bạn yêu cầu

27/03/2022

Ứng dụng trí tuệ nhân tạo cho ra các hình vẽ trông khá đơn giản (mặc dù có những hình rất đẹp), nhưng tất cả đều cho thấy trí tuệ nhân tạo đang dần đạt được những khả năng giống như con người. Mới đây một thuật toán AI đã được phát triển đủ “thông minh” để vẽ ra bất cứ thứ gì theo ý của người dùng.

Nội dung chính

Những thành quả ban đầu
Những lo ngại xung quanh vấn đề đạo đức và xã hội
Cam kết của OpenAI

Hình vẽ của AI dựa trên gợi ý "chiếc ghế bành hình quả bơ", "chiếc ghế bành trông giống quả bơ" cho thấy khả năng liên kết các khái niệm không liên quan đồng thời vẫn giữ được hình thức của các vật. (Nguồn: OpenAI) — Hình vẽ của AI dựa trên gợi ý “chiếc ghế bành hình quả bơ”, “chiếc ghế bành trông giống quả bơ” cho thấy khả năng liên kết các khái niệm không liên quan đồng thời vẫn giữ được hình thức của các vật. (Nguồn: OpenAI)

Những thành quả ban đầu

OpenAI – một trong những công ty hàng đầu trong ngành phát triển trí tuệ nhân tạo đã đưa ra bằng chứng vào đầu tháng 1 vừa qua về một bước tiến nhảy vọt: Hình minh họa của một bé củ cải daikon trong bộ váy tutu đang dắt chó đi dạo.

OpenAI phát hiện ra rằng DALL-E đôi khi có thể chuyển một số hoạt động của con người và các món quần áo sang động vật và các đồ vật vô tri, chẳng hạn như đồ ăn. Gợi ý hình vẽ ở đây là "hình minh họa của một bé củ cải daikon trong bộ váy tutu đang dắt chó đi dạo." (Nguồn: OpenAI) — OpenAI phát hiện ra rằng DALL-E đôi khi có thể chuyển một số hoạt động của con người và các món quần áo sang động vật và các đồ vật vô tri, chẳng hạn như đồ ăn. Gợi ý hình vẽ ở đây là “hình minh họa của một bé củ cải daikon trong bộ váy tutu đang dắt chó đi dạo.” (Nguồn: OpenAI)

Ngoài ra, “một chú thỏ trong bộ đồ ngủ đang xem TV”, “một chú tôm mặc com-lê đang sử dụng máy tính” và nhiều cách kết hợp kỳ lạ khác – tất cả đều được vẽ bởi chuỗi thuật toán mới có tên DALL-E. Chương trình này có thể tạo ra nhiều bản vẽ và hình ảnh dựa trên các gợi ý bằng văn bản đơn giản. Trong các ví dụ khác, hệ thống này còn tạo ra một loạt các bức ảnh trông rất thật dựa trên gợi ý “mặt tiền của cửa hàng với từ “openai” viết trên đó”.

Các hình vẽ có thể trông khá đơn giản (một số hình đẹp hơn), nhưng tất cả đều là tiến bộ cho thấy trí tuệ nhân tạo đang dần đạt được những khả năng giống như con người.

Đó cũng là một nguyên nhân gây lo ngại về việc những chương trình như thế này sẽ có khả năng học được những thành kiến của con người.

Mark Riedl – phó giáo sư tại Trường Công nghệ Georgia về Điện toán Tương tác (Mỹ) cho biết: “Text-to-image (tính năng chuyển văn bản thành hình ảnh) rất mạnh mẽ ở chỗ nó mang lại cho người dùng khả năng diễn đạt những gì họ muốn thấy bằng ngôn ngữ. Ngôn ngữ rất phổ cập, trong khi khả năng nghệ thuật là một kỹ năng cần phải học qua thời gian. Nếu ai đó nảy ra ý tưởng tạo nhân vật hoạt hình Pikachu đang cầm gươm ánh sáng – lightsaber, có thể nó sẽ không phải là thứ mà người đó có thể ngồi xuống và vẽ ngay được kể cả khi đó là thứ mà họ có thể giải thích bằng lời.”

Theo công ty cho biết, cái tên DALL-E là tên ghép giữa nghệ sĩ Tây Ban Nha – Salvador Dalí với nhân vật WALL-E của Pixar, và cũng là sản phẩm công nghệ thứ hai của OpenAI trong vòng chưa đầy một năm nhưng đã thu hút được nhiều sự chú ý của các nhà công nghệ. Trước đó công ty đã phát hành Generative Pre-training Transformer 3 hay còn gọi là GPT-3 – một trong những trình tạo văn bản ấn tượng và bắt chước con người giống nhất, chỉ với một vài từ gợi ý đã có thể tạo ra những bài văn mạch lạc.

Trí tuệ nhân tạo ngày càng giống con người hơn (Ảnh: Internet).

OpenAI cho biết cả DALL-E và GPT-3 đều được huấn luyện bằng bộ dữ liệu khổng lồ bao gồm thông tin công khai trên Wikipedia và được xây dựng trên mô hình mạng neuron biến áp công bố lần đầu tiên vào tháng 12/2017 và được ca ngợi “đặc biệt mang tính cách mạng trong việc xử lý ngôn ngữ tự nhiên”. Công ty này đã công bố đầy đủ thông tin cơ bản về cách hoạt động của DALL-E, nhưng chi tiết chính xác về dữ liệu dùng để đào tạo nó vẫn còn là ẩn số.

Và trong đó là cả mối quan tâm về “bé củ cải” dễ thương cũng như các phương tiện truyền thông khác được tạo ra bởi những hệ thống này. Trong những năm gần đây, các học giả và cơ quan giám sát công nghệ đã đưa ra cảnh báo về dữ liệu được sử dụng để đào tạo các hệ thống này có thể chứa các thành kiến xã hội trong kết quả đầu ra.

Những lo ngại xung quanh vấn đề đạo đức và xã hội

Những vấn đề của xã hội có thể không hiện diện trong một bức vẽ củ cải, nhưng nội dung chứa thành kiến đã bắt đầu được phát hiện ở các thuật toán có chức năng đưa ra những quyết định quan trọng như dự đoán hành vi phạm tội và chấm điểm kỳ thi.

Một nghiên cứu được công bố mới đây bởi các nhà nghiên cứu từ Đại học Stanford và Đại học McMaster cho thấy GPT-3 liên tục có thành kiến đối với người Hồi giáo. Trong gần một phần tư số trường hợp thử nghiệm, “người Hồi giáo” được GPT-3 cho là có tương quan với “kẻ khủng bố”.

“Mặc dù những mối liên hệ giữa người Hồi giáo và bạo loạn này được học trong quá trình đào tạo từ trước, nhưng chúng dường như không được ghi nhớ”, các nhà nghiên cứu tiếp bút, “Đúng hơn thì GPT-3 thể hiện những thành kiến cơ bản theo cách khá sáng tạo, thể hiện khả năng mạnh mẽ của các mô hình ngôn ngữ để biến tấu những nội dung chứa thành kiến theo những cách khác nhau và có thể làm cho chúng khó bị phát hiện và giảm nhẹ hơn.”

Phần mềm có khả năng tạo hình ảnh từ văn bản không phải là mới, nhưng cho đến nay nó chỉ (1) giới hạn trong một thể loại nhất định (chẳng hạn như chim chóc và hoa hòe, hoặc chỉ có chim chóc), và (2) chạy khá ọp ẹp. Còn DALL-E lại gây ấn tượng với khả năng kết hợp các ý tưởng tương đối phức tạp.

Chẳng hạn như con ốc sên được tạo ra từ đàn hạc này:

DALL-E có thể tạo ra các con vật được tổng hợp từ nhiều ý tưởng khác nhau như nhạc cụ, thực phẩm và đồ gia dụng. Đôi khi DALL-E cũng xem xét cả hình thức của hai đối tượng để tìm ra cách kết hợp chúng. Ví dụ khi được yêu cầu vẽ "một con ốc làm bằng đàn hạc", nó sẽ liên hệ cột của cây đàn với hình xoắn ốc của vỏ ốc. (Nguồn: OpenAI) — DALL-E có thể tạo ra các con vật được tổng hợp từ nhiều ý tưởng khác nhau như nhạc cụ, thực phẩm và đồ gia dụng. Đôi khi DALL-E cũng xem xét cả hình thức của hai đối tượng để tìm ra cách kết hợp chúng. Ví dụ khi được yêu cầu vẽ “một con ốc làm bằng đàn hạc”, nó sẽ liên hệ cột của cây đàn với hình xoắn ốc của vỏ ốc. (Nguồn: OpenAI)

DALL-E của OpenAI hiện được cung cấp công khai dưới dạng bản thử nghiệm trực tuyến nhưng chỉ giới hạn trong các cụm từ do công ty chọn sẵn. Mặc dù những thành công kể trên là rất ấn tượng và xác thực, nhưng thật khó để xác định được những điểm yếu và những vấn đề liên quan đến đạo đức của mô hình khi không thể kiểm tra nhiều từ và ý tưởng hơn.

Riedl cho biết: “Chúng tôi không chắc rằng bản thử nghiệm bị hạn chế như thế này có cản trở việc nhìn ra những kết quả có vấn đề hơn hay không. Trong một số trường hợp, gợi ý hoàn chỉnh sử dụng để tạo ra ảnh cũng tối nghĩa không kém. Nhưng vẫn có mánh để diễn đạt các gợi ý một cách hợp lý và sẽ cho ra kết quả tốt hơn nếu cụm từ đó khiến hệ thống hoạt động hiệu quả hơn”.

Tất nhiên còn có những tác động xã hội từ cả những trường hợp sử dụng công nghệ độc hại hoặc những thành kiến vô ý. Trong một bài đăng trên blog của mình, OpenAI cho biết các mô hình như thế này có khả năng gây hại cho xã hội và phía họ có kế hoạch trong tương lai để kiểm tra DALL-E có tiếp tay cho những việc đó hay không.

Cam kết của OpenAI

Người phát ngôn của OpenAI cho biết: “Thành kiến và sự lạm dụng là những vấn đề quan trọng trong toàn ngành mà OpenAI rất xem trọng như một phần cam kết của phía chúng tôi về việc triển khai trí tuệ nhân tạo một cách an toàn và có trách nhiệm vì lợi ích của toàn nhân loại. Đội ngũ chính sách và an ninh của chúng tôi đang tham gia chặt chẽ vào quá trình nghiên cứu về DALL-E.”

Trí tuệ nhân tạo cũng tiềm ẩn mặt trái (Ảnh: Internet).

Sẽ có nhiều tiềm năng sáng tạo tích cực nếu DALL-E hoạt động trên một loạt các ý tưởng kết hợp và tạo ra những hình ảnh không chứa nội dung có thành kiến và phân biệt đối xử. Đó là nó cho phép mọi người tạo ra một hình ảnh cụ thể nào đó phù hợp với nhu cầu của họ mà không cần phải học các kỹ năng nhất định, tạo điều kiện cho nhiều người tham gia sáng tạo hơn mà không khiến các nghệ sĩ chuyên nghiệp tự nhiên bị mất việc.

Riedl nói: “Tôi không tin rằng sản phẩm đầu ra của DALL-E có chất lượng đủ cao để thay thế các họa sĩ vẽ tranh minh họa chẳng hạn, mặc dù nó có thể đẩy nhanh tiến độ của loại hình công việc này.”

Tuy nhiên, tăng tiến độ công việc cũng đi kèm với một số vấn đề riêng của nó. Mặc dù DALL-E có thể không khiến các họa sĩ hoạt hình mất việc, nhưng với phần mềm mới mạnh mẽ thì cũng có thể đủ khả năng để khai thác được rồi.

Riedl lưu ý một số ví dụ bao gồm cả việc tạo ra nội dung khiêu dâm. Công nghệ Deepfake có thể ghép khuôn mặt của người này lên người khác một cách mượt mà đã được sử dụng để tạo ra các hình ảnh giả mà không có sự đồng ý của những người có mặt trong đó. Riedl cũng cho biết mọi người có thể sử dụng các từ khóa và cụm từ để tạo ra các hình ảnh “nhằm mục đích đe dọa, sỉ nhục hoặc làm tổn thương”.

OpenAI cho biết họ đã giữ cho DALL-E không được sử dụng tràn lan với nỗ lực đảm bảo công nghệ mới của họ không bị lợi dụng cho những mục đích bất chính.

Công ty cho biết: “Chúng tôi cam kết thực hiện các nghiên cứu bổ sung và sẽ không cung cấp rộng rãi DALL-E trước khi xây dựng xong các biện pháp an ninh để giảm thiểu nội dung thành kiến và giải quyết các mối lo ngại khác về sự an toàn”.

Nguồn: Melanie Ehrenkranz

OpenAI DALL · E: Tạo hình ảnh từ văn bản (Giải thích bài đăng trên blog):

Mời bạn xem thêm các bài viết liên quan:

Hãy theo dõi BlogAnChoi để cập nhật nhiều thông tin bổ ích nhé!

Xem thêm