Trí tuệ nhân tạo là gì và cách thức chúng vận hành ra sao?

28/12/2022

Trí tuệ nhân tạo (AI) là lĩnh vực công nghệ đang có bước phát triển mạnh mẽ hiện nay. Nhưng lĩnh vực này vô cùng phức tạp với những thuật ngữ kỹ thuật và toán học, và việc cố gắng hiểu chúng là gì và cách thức hoạt động ra sao đủ khiến bất cứ ai cũng cảm thấy nản lòng. Dưới đây là bảng thuật ngữ AI và một số sản phẩm AI đáng chú ý, giúp bạn hiểu rõ hơn về ngành công nghệ này.

Nội dung chính

Bảng thuật ngữ AI
GPT và công nghệ trò chuyện với trí tuệ nhân tạo
Mô hình khuếch tán và nghệ thuật trí tuệ nhân tạo

Bảng thuật ngữ AI

AI: là viết tắt của artificial intelligence – trí tuệ nhân tạo. Thuật ngữ này đề cập đến ý tưởng rằng máy móc có thể học hỏi và đưa ra quyết định giống như con người.

Máy học (machine learning): là phương pháp để dạy máy tính nhận dạng và xử lý thông tin. AI tiên tiến hơn so với công nghệ lập trình thông thường bởi nó có thể tự xử lý được yêu cầu phát sinh mà không cần dựa vào một đoạn code có sẵn.

Mạng lưới thần kinh (neural network): một loại mô hình máy học mô phỏng theo tế bào thần kinh trong não người. Neural network sử dụng mạng lưới các điểm nút để xử lý dữ liệu thông qua các thuật toán. Điều này cho phép máy tính tạo kết nối giữa nhiều điểm dữ liệu khác nhau và đánh giá điểm nào là quan trọng nhất khi đưa ra kết quả truy vấn.

Deep learning là một trong những kỹ thuật tiên tiến nhất, giúp AI ngày càng trở nên giống con người hơn. Nguồn: Internet

Học sâu (deep learning): mô tả một mạng lưới thần kinh phức tạp, dữ liệu nhận được sẽ đi qua nhiều lớp xử lý – một vài trong số đó bị ẩn khỏi lập trình viên – trước khi đưa ra phản hồi. Các công cụ AI như ChatGPT và Stable Diffusion là ví dụ về các ứng dụng sử dụng kỹ thuật học sâu.

GPT và công nghệ trò chuyện với trí tuệ nhân tạo

GPT: viết tắt của “Generative Pre-Trained Transformer”, là một mô hình trí tuệ nhân tạo do OpenAI tạo ra, sử dụng kỹ thuật deep learning để mô phỏng những đoạn văn bản giống như con người. GPT cần phải đáp ứng được đủ 3 yếu tố, bao gồm:

Generative: có khả năng tạo văn bản.
Pre-Training: sử dụng mô hình từ một nhiệm vụ học máy này để đào tạo một nhiệm vụ khác, tương tự như cách con người rút ra kiến thức và kinh nghiệm khi học những điều mới. Trong trường hợp này, GPT liên quan đến việc đào tạo trước trên một khối văn bản lớn.
Transformer: dựa trên những thông tin thu được, AI sẽ cần phải tìm hiểu một cách tổng thể về mối quan hệ giữa tất cả các phần của chuỗi dữ liệu (trong trường hợp này là các từ trong câu). Đây được coi là một bước đột phá cho AI vì nó hiểu bối cảnh và sắc thái tốt hơn so với các phương pháp trước đây, cho phép tạo ra những đoạn văn phù hợp và mượt mà hơn.

ChatGPT là ứng dụng đánh dấu bước tiến vượt bậc của lĩnh vực trí tuệ nhân tạo trong năm nay. Nguồn: Internet

Mô hình hóa ngôn ngữ (language modeling): một kỹ thuật để xác định thứ tự của các từ trong một câu, dựa trên xác suất mà những từ đó sẽ có nghĩa.

ChatGPT: một chatbot đàm thoại được tạo bởi OpenAI, sử dụng mô hình ngôn ngữ nhấn mạnh hộp thoại qua lại. Hiện tại, người dùng ở một số quốc gia có thể dùng thử miễn phí.

GPT-3: mô hình ngôn ngữ thế hệ thứ ba do OpenAI tạo ra. Nó tạo cơ sở cho một loạt các công cụ viết AI đã ra mắt trong hai năm qua, sử dụng API của OpenAI. (ChatGPT sử dụng phiên bản cải tiến, được gọi là GPT-3.5, trong khi GPT-4 đang được phát triển.)

OpenAI: công ty nghiên cứu AI đứng sau GPT-3, ChatGPT và DALL-E. Bắt đầu như một nhóm phi lợi nhuận, nhưng hiện đang là một công ty “có lợi nhuận tối đa”. Đáng chú ý, Elon Musk là người đồng sáng lập, nhưng đã từ chức khỏi hội đồng quản trị của OpenAI vào năm 2018.

Mô hình khuếch tán và nghệ thuật trí tuệ nhân tạo

Mô hình khuếch tán (diffusion models): phương pháp tạo hình ảnh từ lời nhắc văn bản. Nó hoạt động bằng cách thêm nhiễu ngẫu nhiên vào một tập hợp các hình ảnh đào tạo, sau đó học cách loại bỏ nhiễu để tạo ra hình ảnh mong muốn.

Mô phỏng cách hoạt động của mô hình khuếch tán. Nguồn: Internet

Một số công ty hiện đang sử dụng mô hình khuếch tán để cung cấp các công cụ chuyển văn bản thành hình ảnh, đáng chú ý nhất là:

DALL-E: công cụ chuyển văn bản thành hình ảnh của OpenAI, sử dụng GPT-3 để diễn giải các yêu cầu của người dùng. Phiên bản gần đây nhất, DALL-E2, ra mắt vào tháng 7 và cung cấp hình ảnh sắc nét và chính xác hơn phiên bản gốc. Nó có sẵn ở dạng beta công khai, cho phép người dùng có thể tạo tối đa 50 hình ảnh miễn phí.
Stable Diffusion: ứng dụng chuyển văn bản thành hình ảnh nguồn mở được tạo bởi Stability AI. Phiên bản chính thức có quy trình cài đặt tốn nhiều công sức và chạy qua dòng lệnh, nhưng các nhà phát triển bên thứ ba đã sử dụng mã nguồn mở để tạo các phiên bản dễ tiếp cận hơn cho máy tính để bàn và web.
Imagen: một công cụ chuyển văn bản thành hình ảnh khác sử dụng mô hình khuếch tán, công cụ này do Google tạo ra. Tuy nhiên công cụ này không phát hành hoặc trình diễn công khai, với lý do mã này có khả năng tạo ra nội dung không phù hợp.
Midjourney: phòng thí nghiệm độc lập tạo hệ thống chuyển văn bản thành hình ảnh của riêng mình, hiện có sẵn trong bản beta chỉ dành cho những người được mời.

Dreambooth: một mô hình học sâu do Google phát triển, có thể tinh chỉnh các hình ảnh được tạo thông qua khuếch tán. Trường hợp sử dụng đáng chú ý nhất của nó là khả năng tạo ảnh mới của những người cụ thể dựa trên ảnh hiện có – dù đẹp hơn hay xấu hơn. Mặc dù bản thân Google đã không phát hành Dreambooth cho công chúng sử dụng, nhưng việc triển khai nó đã được phát hành dưới dạng một dự án mã nguồn mở.

Lensa: một ứng dụng chỉnh sửa hình ảnh dành cho iOS và Android của Prisma Labs ra mắt lần đầu tiên vào năm 2018. Ứng dụng này đã lan truyền mạnh mẽ trong những tuần gần đây nhờ tính năng “Magic Avatar” mới, có tác dụng tương tự như tác dụng của Stable Diffusion và Dreambooth. Nhưng nó cũng bị chỉ trích vì tạo ra những hình ảnh gợi dục quá mức – đặc biệt là đối với phụ nữ – cùng với những bức ảnh khoả thân tình cờ.

Xem thêm những bài viết cùng chủ đề:

Theo dõi Blog Ăn Chơi để cập nhật những xu hướng mới nhất về công nghệ nhé!

Xem thêm