Deep learning là một trong những kỹ thuật tiên tiến nhất, giúp AI ngày càng trở nên giống con người hơn. Nguồn: Internet
Học sâu (deep learning): mô tả một mạng lưới thần kinh phức tạp, dữ liệu nhận được sẽ đi qua nhiều lớp xử lý – một vài trong số đó bị ẩn khỏi lập trình viên – trước khi đưa ra phản hồi. Các công cụ AI như ChatGPT và Stable Diffusion là ví dụ về các ứng dụng sử dụng kỹ thuật học sâu.
GPT và công nghệ trò chuyện với trí tuệ nhân tạo
GPT: viết tắt của “Generative Pre-Trained Transformer”, là một mô hình trí tuệ nhân tạo do OpenAI tạo ra, sử dụng kỹ thuật deep learning để mô phỏng những đoạn văn bản giống như con người. GPT cần phải đáp ứng được đủ 3 yếu tố, bao gồm:
Generative: có khả năng tạo văn bản.
Pre-Training: sử dụng mô hình từ một nhiệm vụ học máy này để đào tạo một nhiệm vụ khác, tương tự như cách con người rút ra kiến thức và kinh nghiệm khi học những điều mới. Trong trường hợp này, GPT liên quan đến việc đào tạo trước trên một khối văn bản lớn.
Transformer: dựa trên những thông tin thu được, AI sẽ cần phải tìm hiểu một cách tổng thể về mối quan hệ giữa tất cả các phần của chuỗi dữ liệu (trong trường hợp này là các từ trong câu). Đây được coi là một bước đột phá cho AI vì nó hiểu bối cảnh và sắc thái tốt hơn so với các phương pháp trước đây, cho phép tạo ra những đoạn văn phù hợp và mượt mà hơn.
ChatGPT là ứng dụng đánh dấu bước tiến vượt bậc của lĩnh vực trí tuệ nhân tạo trong năm nay. Nguồn: Internet
Mô hình hóa ngôn ngữ (language modeling): một kỹ thuật để xác định thứ tự của các từ trong một câu, dựa trên xác suất mà những từ đó sẽ có nghĩa.
ChatGPT: một chatbot đàm thoại được tạo bởi OpenAI, sử dụng mô hình ngôn ngữ nhấn mạnh hộp thoại qua lại. Hiện tại, người dùng ở một số quốc gia có thể dùng thử miễn phí.
GPT-3: mô hình ngôn ngữ thế hệ thứ ba do OpenAI tạo ra. Nó tạo cơ sở cho một loạt các công cụ viết AI đã ra mắt trong hai năm qua, sử dụng API của OpenAI. (ChatGPT sử dụng phiên bản cải tiến, được gọi là GPT-3.5, trong khi GPT-4 đang được phát triển.)
OpenAI: công ty nghiên cứu AI đứng sau GPT-3, ChatGPT và DALL-E. Bắt đầu như một nhóm phi lợi nhuận, nhưng hiện đang là một công ty “có lợi nhuận tối đa”. Đáng chú ý, Elon Musk là người đồng sáng lập, nhưng đã từ chức khỏi hội đồng quản trị của OpenAI vào năm 2018.
Mô hình khuếch tán và nghệ thuật trí tuệ nhân tạo
Mô hình khuếch tán (diffusion models): phương pháp tạo hình ảnh từ lời nhắc văn bản. Nó hoạt động bằng cách thêm nhiễu ngẫu nhiên vào một tập hợp các hình ảnh đào tạo, sau đó học cách loại bỏ nhiễu để tạo ra hình ảnh mong muốn.
Mô phỏng cách hoạt động của mô hình khuếch tán. Nguồn: Internet
Một số công ty hiện đang sử dụng mô hình khuếch tán để cung cấp các công cụ chuyển văn bản thành hình ảnh, đáng chú ý nhất là:
DALL-E: công cụ chuyển văn bản thành hình ảnh của OpenAI, sử dụng GPT-3 để diễn giải các yêu cầu của người dùng. Phiên bản gần đây nhất, DALL-E2, ra mắt vào tháng 7 và cung cấp hình ảnh sắc nét và chính xác hơn phiên bản gốc. Nó có sẵn ở dạng beta công khai, cho phép người dùng có thể tạo tối đa 50 hình ảnh miễn phí.
Stable Diffusion: ứng dụng chuyển văn bản thành hình ảnh nguồn mở được tạo bởi Stability AI. Phiên bản chính thức có quy trình cài đặt tốn nhiều công sức và chạy qua dòng lệnh, nhưng các nhà phát triển bên thứ ba đã sử dụng mã nguồn mở để tạo các phiên bản dễ tiếp cận hơn cho máy tính để bàn và web.
Imagen: một công cụ chuyển văn bản thành hình ảnh khác sử dụng mô hình khuếch tán, công cụ này do Google tạo ra. Tuy nhiên công cụ này không phát hành hoặc trình diễn công khai, với lý do mã này có khả năng tạo ra nội dung không phù hợp.
Midjourney: phòng thí nghiệm độc lập tạo hệ thống chuyển văn bản thành hình ảnh của riêng mình, hiện có sẵn trong bản beta chỉ dành cho những người được mời.
Dreambooth: một mô hình học sâu do Google phát triển, có thể tinh chỉnh các hình ảnh được tạo thông qua khuếch tán. Trường hợp sử dụng đáng chú ý nhất của nó là khả năng tạo ảnh mới của những người cụ thể dựa trên ảnh hiện có – dù đẹp hơn hay xấu hơn. Mặc dù bản thân Google đã không phát hành Dreambooth cho công chúng sử dụng, nhưng việc triển khai nó đã được phát hành dưới dạng một dự án mã nguồn mở.
Lensa: một ứng dụng chỉnh sửa hình ảnh dành cho iOS và Android của Prisma Labs ra mắt lần đầu tiên vào năm 2018. Ứng dụng này đã lan truyền mạnh mẽ trong những tuần gần đây nhờ tính năng “Magic Avatar” mới, có tác dụng tương tự như tác dụng của Stable Diffusion và Dreambooth. Nhưng nó cũng bị chỉ trích vì tạo ra những hình ảnh gợi dục quá mức – đặc biệt là đối với phụ nữ – cùng với những bức ảnh khoả thân tình cờ.