Google mới ra mắt Gemini 2.0 vài tháng trước, nhưng với tốc độ phát triển AI chóng mặt thì mới đây hãng này đã tiếp tục phát hành phiên bản nâng cấp mang tên Gemini 2.5 – được cho là có khả năng lý luận logic thông minh nhất từ trước đến nay. Gemini 2.5 hiện đã được cung cấp cho người dùng và các nhà phát triển.

Ra mắt Gemini 2.5 – mô hình AI thông minh nhất của Google

Mới đây Google đã công bố Gemini 2.5 – mô hình AI mới nhất và thông minh nhất của hãng từ trước đến nay. Phiên bản đầu tiên của thế hệ 2.5 được phát hành sẽ là Gemini 2.5 Pro, đây là mô hình tư duy có khả năng lý luận thông qua suy nghĩ trước khi đưa ra câu trả lời giống như Gemini 2.0 Flash Thinking. Google cho biết rằng Gemini 2.5 Pro có cửa sổ ngữ cảnh 1 triệu token và sẽ sớm nâng cấp lên 2 triệu.

So sánh hiệu suất của Gemini 2.5 với các mô hình AI khác (Ảnh: Internet)
So sánh hiệu suất của Gemini 2.5 với các mô hình AI khác (Ảnh: Internet)

Theo Google giới thiệu, Gemini 2.5 vượt trội hơn một số mô hình AI phổ biến nhất hiện nay về nhiều khía cạnh bao gồm khả năng lý luận logic, khoa học và toán học. Điều này là do Google đã “kết hợp một mô hình cơ sở được cải thiện đáng kể với quá trình đào tạo sau được cải thiện”, theo một bài đăng trên trang blog của Google được viết bởi Koray Kavukcuoglu – Giám đốc công nghệ của Google DeepMind. “Trong tương lai, chúng tôi sẽ xây dựng các khả năng tư duy này trực tiếp vào tất cả các mô hình của mình để chúng có thể xử lý các vấn đề phức tạp hơn và hỗ trợ các tác nhân có khả năng nhận thức ngữ cảnh tốt hơn”.

Có vẻ như cải thiện khả năng lập trình là trọng tâm chính của Gemini 2.5 khi Google tuyên bố rằng họ đã thực hiện một cải tiến lớn so với phiên bản 2.0, cho phép tạo ra “các ứng dụng web hấp dẫn về mặt hình ảnh và các ứng dụng mã tác nhân”. Để thể hiện khả năng lập trình của mô hình AI mới, Google đã chia sẻ video dưới đây cho thấy AI tạo ra một trò chơi đơn giản dựa trên lời nhắc văn bản.

Gemini 2.5 (Ảnh: Internet)
Gemini 2.5 (Ảnh: Internet)

Gemini 2.5 được ra mắt dưới dạng mô hình thử nghiệm dành cho các nhà phát triển trong AI Studio và người dùng có tài khoản Gemini Advanced trong ứng dụng Gemini. Nếu bạn đã đăng ký gói Gemini Advanced thì có thể chọn Gemini 2.5 trong menu danh sách các mô hình khi mở ứng dụng trên máy tính cũng như di động. Google cho biết Gemini 2.5 cũng sẽ xuất hiện trong Vertex AI trong vài tuần tới nhưng không tiết lộ ngày cụ thể

Trước đó Google vừa mới bắt đầu triển khai mô hình Gemini 2.0 cho các dịch vụ của hãng, sử dụng nó để hỗ trợ xử lý Chế độ AI mới được bổ sung trong công cụ tìm kiếm và Nghiên cứu sâu để xử lý các yêu cầu phức tạp hơn của người dùng.

ChatGPT và Sora được nâng cấp khả năng tạo hình ảnh trực tiếp

OpenAI vừa thông báo rằng tất cả người dùng sẽ sớm có thể tạo hình ảnh trực tiếp với ChatGPT. Tính năng này sẽ được triển khai cho tài khoản ChatGPT Plus, Pro, Team và quan trọng nhất là tài khoản miễn phí. Đây sẽ là công cụ tạo hình ảnh mặc định trong phiên bản GPT-4o, vì vậy người dùng sẽ không cần mở Dall-E để tạo hình ảnh AI như trước đây. Tính năng này cũng sẽ có mặt trong Sora.

OpenAI cho biết tính năng mới sẽ “tạo hình ảnh chất lượng cao dựa trên lời nhắc, cuộc trò chuyện và các file đã tải lên của bạn”, đặc biệt là có thể chuyển đổi hình ảnh có sẵn dựa trên lời nhắc của người dùng. OpenAI cũng cho biết sẽ có cải tiến đáng kể về khả năng hiển thị văn bản và hiểu ngữ cảnh.

Những công cụ mới này dành cho cả mục đích sử dụng cá nhân và chuyên nghiệp. OpenAI đưa ra một số ví dụ về ứng dụng của tính năng tạo hình ảnh này như tạo hình ảnh đồ họa thông tin, thiết kế quảng cáo trên mạng xã hội và hình ảnh có nhiều văn bản, như hình dưới đây.

Hình ảnh có nhiều văn bản do AI tạo ra (Ảnh: Internet)
Hình ảnh có nhiều văn bản do AI tạo ra (Ảnh: Internet)

Công cụ này cũng có thể xử lý hình ảnh chuyên nghiệp với “khả năng mạnh mẽ về tính chân thực, bao gồm độ chính xác của ánh sáng, bóng tối và kết cấu”. Khả năng hiểu bối cảnh cũng có thể hữu ích vì OpenAI cho biết công cụ này có thể được sử dụng để tạo ra “áp phích về những chú chim được tìm thấy ở Công viên Trung tâm” hoặc “hình ảnh trực quan về kỷ nguyên lịch sử nghệ thuật đã được thảo luận trước đó trong cuộc trò chuyện”.

Công cụ tạo hình ảnh mới được xây dựng trên GPT-4o, mô hình AI được phát hành năm ngoái. Chữ “o” là viết tắt của “omni”, ám chỉ đến khả năng xử lý dữ liệu đa phương thức của nó tạo cơ sở cho nhiều tính năng đã đề cập ở trên. Sự nâng cấp mới này có vẻ như là một bước tiến nhằm hướng tới mục tiêu “một AI thống trị tất cả” mà Sam Altman đã hé lộ cách đây vài tuần.

Mời bạn xem thêm các bài liên quan:

Hãy theo dõi BlogAnChoi để cập nhật nhiều thông tin bổ ích nhé!

Xem thêm

Từ 1/7 người dùng sẽ được trải nghiệm 4G của MobiFone

Sau Vietel và Vina thì đến lượt MobiFone đặt chân vào đường chạy 4G. Người dùng tại các thành phố lớn như Hà Nội, TP. HCM và Đà Nẵng có thể đổi SIM 4G miễn phí để trải nghiệm dịch vụ 4G từ MobiFone.
Theo dõi bình luận
Thông báo về
guest
1 Bình luận
Bình chọn nhiều nhất
Mới nhất Cũ nhất
Phản hồi nội tuyến
Xem tất cả bình luận