Grok 3 không chỉ là một mô hình AI đơn lẻ mà là một họ mô hình với nhiều biến thể khác nhau. Trong đó, phiên bản Grok 3 mini có khả năng phản hồi nhanh hơn, nhưng độ chính xác có thể giảm sút đôi chút. Ngoài ra, dòng Grok 3 Reasoning và Grok 3 mini Reasoning được thiết kế để giải quyết những bài toán logic phức tạp, tương tự như các mô hình “reasoning” của OpenAI và DeepSeek.
Theo xAI, Grok 3 đã vượt qua GPT-4o trên một số bài kiểm tra chuyên sâu, đặc biệt là AIME (đánh giá khả năng giải toán) và GPQA (kiểm tra kiến thức trình độ Tiến sĩ trong các lĩnh vực vật lý, sinh học, hóa học). Ngoài ra, Grok 3 cũng đạt kết quả cạnh tranh trong Chatbot Arena, một nền tảng thử nghiệm nơi người dùng bình chọn cho chatbot có phản hồi tốt nhất.
Bắt đầu với quá trình đào tạo, Grok 3 đã được đào tạo trên một cụm lớn gồm 200K GPU, sử dụng nhiều hơn gần 10 lần khả năng tính toán so với Grok 2. Về điểm chuẩn, mô hình ngôn ngữ truyền thống của Grok 3 đánh bại GPT-4o, Claude 3.5 Sonnet, Gemini 2.0 Pro và DeepSeek V3. Trong AIME 2024, Grok 3 đạt 52%; trong GPQA Science, Grok 3 đạt 75%; và trong LiveCodeBench, Grok 3 đạt 57%.
Trên thực tế, mô hình Grok 3 mini nhỏ hơn có thể sánh ngang hoặc vượt trội hơn các mô hình tiên tiến khác. xAI cũng đã thử nghiệm mô hình Grok 3 trên LMSYS Chatbot Arena dưới tên gọi “chocolate” và nó đã trở thành mô hình AI đầu tiên vượt qua mốc điểm Elo 1.400. Grok 3 hiện là chatbot số một trên Chatbot Arena ở mọi hạng mục, có thể là viết sáng tạo, lập trình, toán học, lời nhắc khó hoặc làm theo hướng dẫn.
Bây giờ, quay lại với mô hình lý luận Grok 3, một lần nữa nó lại đánh bại đối thủ. Mô hình lý luận Grok 3 luôn vượt trội hơn o3-mini-high của OpenAI và o1, DeepSeek R1 và Gemini 2.0 Flash Thinking . Ngay cả trên bộ câu hỏi AIME 2025 mới nhất, mô hình lý luận Grok 3 vẫn làm tốt hơn nhiều so với các mô hình lý luận cạnh tranh. Điều tôi thấy thú vị là mô hình lý luận Grok 3 mini cũng rất có năng lực so với kích thước của nó.
Tiếp theo, Elon Musk đã công bố một tác nhân DeepSearch mới có thể truy cập web và tìm kiếm các nguồn để biên soạn thông tin một cách chính xác. Tác nhân này sử dụng mô hình Grok 3 Reasoning. Nó tương tự như tác nhân Deep Research của OpenAI nhưng mất ít thời gian hơn nhiều để duyệt web, suy nghĩ và đưa ra câu trả lời.
Sau đó, nút “Think” sử dụng mô hình Grok 3 mini Reasoning. Và nút “Big Brain” sử dụng nhiều thời gian tính toán và suy nghĩ hơn để giải quyết các vấn đề phức tạp. Nó sử dụng mô hình Grok 3 Reasoning lớn hơn.
Ngay từ khi ra mắt, Grok đã được Elon Musk mô tả là một AI không bị kiểm duyệt, sẵn sàng trả lời những câu hỏi mà các mô hình AI khác từ chối. Tuy nhiên, thực tế không hoàn toàn đúng như vậy. Trước Grok 3, các phiên bản trước đó vẫn có xu hướng né tránh hoặc đưa ra những phản hồi thiên về cánh tả khi nói về các chủ đề nhạy cảm.
Musk đã nhiều lần tuyên bố rằng điều này là do dữ liệu huấn luyện Grok dựa trên các trang web công khai, và ông cam kết sẽ điều chỉnh để AI trở nên trung lập về mặt chính trị hơn. Nhưng liệu Grok 3 có thực sự đạt được điều này hay không, vẫn còn là dấu hỏi lớn.
Bên cạnh đó, Musk cũng cảnh báo về nguy cơ “distillation” – một kỹ thuật mà các công ty AI đối thủ có thể sử dụng để trích xuất tri thức từ mô hình Grok. Để chống lại điều này, xAI đã cố tình che giấu một số quá trình suy luận của Grok 3 trong ứng dụng, một động thái có thể gây tranh cãi khi nói về tính minh bạch của AI.
Không giống như các chatbot miễn phí, Grok 3 chỉ khả dụng cho người đăng ký X Premium+ với giá 50 USD/tháng. Ngoài ra, xAI đang triển khai gói cao cấp hơn mang tên SuperGrok, có giá 30 USD/tháng hoặc 300 USD/năm (theo thông tin rò rỉ), cung cấp thêm các truy vấn DeepSearch không giới hạn và tính năng tạo hình ảnh bằng AI.
Trong tương lai gần, Musk tiết lộ rằng Grok 3 sẽ sớm có chế độ giọng nói, giúp AI tương tác với người dùng theo cách tự nhiên hơn. Đồng thời, mô hình cũng sẽ được tích hợp vào API doanh nghiệp của xAI, mở ra cơ hội sử dụng rộng rãi hơn trong nhiều lĩnh vực.
Bài viết này có đáp ứng được nhu cầu và mong muốn của các bạn không? Nếu có, hãy cho mình biết điểm mạnh và điểm yếu của bài viết nhé! Nếu không, hãy cho mình biết cách để mình cải thiện bài viết nhé!