Theo Google giới thiệu, Gemini 2.5 vượt trội hơn một số mô hình AI phổ biến nhất hiện nay về nhiều khía cạnh bao gồm khả năng lý luận logic, khoa học và toán học. Điều này là do Google đã “kết hợp một mô hình cơ sở được cải thiện đáng kể với quá trình đào tạo sau được cải thiện”, theo một bài đăng trên trang blog của Google được viết bởi Koray Kavukcuoglu – Giám đốc công nghệ của Google DeepMind. “Trong tương lai, chúng tôi sẽ xây dựng các khả năng tư duy này trực tiếp vào tất cả các mô hình của mình để chúng có thể xử lý các vấn đề phức tạp hơn và hỗ trợ các tác nhân có khả năng nhận thức ngữ cảnh tốt hơn”.
Có vẻ như cải thiện khả năng lập trình là trọng tâm chính của Gemini 2.5 khi Google tuyên bố rằng họ đã thực hiện một cải tiến lớn so với phiên bản 2.0, cho phép tạo ra “các ứng dụng web hấp dẫn về mặt hình ảnh và các ứng dụng mã tác nhân”. Để thể hiện khả năng lập trình của mô hình AI mới, Google đã chia sẻ video dưới đây cho thấy AI tạo ra một trò chơi đơn giản dựa trên lời nhắc văn bản.
Gemini 2.5 được ra mắt dưới dạng mô hình thử nghiệm dành cho các nhà phát triển trong AI Studio và người dùng có tài khoản Gemini Advanced trong ứng dụng Gemini. Nếu bạn đã đăng ký gói Gemini Advanced thì có thể chọn Gemini 2.5 trong menu danh sách các mô hình khi mở ứng dụng trên máy tính cũng như di động. Google cho biết Gemini 2.5 cũng sẽ xuất hiện trong Vertex AI trong vài tuần tới nhưng không tiết lộ ngày cụ thể
Trước đó Google vừa mới bắt đầu triển khai mô hình Gemini 2.0 cho các dịch vụ của hãng, sử dụng nó để hỗ trợ xử lý Chế độ AI mới được bổ sung trong công cụ tìm kiếm và Nghiên cứu sâu để xử lý các yêu cầu phức tạp hơn của người dùng.
OpenAI vừa thông báo rằng tất cả người dùng sẽ sớm có thể tạo hình ảnh trực tiếp với ChatGPT. Tính năng này sẽ được triển khai cho tài khoản ChatGPT Plus, Pro, Team và quan trọng nhất là tài khoản miễn phí. Đây sẽ là công cụ tạo hình ảnh mặc định trong phiên bản GPT-4o, vì vậy người dùng sẽ không cần mở Dall-E để tạo hình ảnh AI như trước đây. Tính năng này cũng sẽ có mặt trong Sora.
OpenAI cho biết tính năng mới sẽ “tạo hình ảnh chất lượng cao dựa trên lời nhắc, cuộc trò chuyện và các file đã tải lên của bạn”, đặc biệt là có thể chuyển đổi hình ảnh có sẵn dựa trên lời nhắc của người dùng. OpenAI cũng cho biết sẽ có cải tiến đáng kể về khả năng hiển thị văn bản và hiểu ngữ cảnh.
Những công cụ mới này dành cho cả mục đích sử dụng cá nhân và chuyên nghiệp. OpenAI đưa ra một số ví dụ về ứng dụng của tính năng tạo hình ảnh này như tạo hình ảnh đồ họa thông tin, thiết kế quảng cáo trên mạng xã hội và hình ảnh có nhiều văn bản, như hình dưới đây.
Công cụ này cũng có thể xử lý hình ảnh chuyên nghiệp với “khả năng mạnh mẽ về tính chân thực, bao gồm độ chính xác của ánh sáng, bóng tối và kết cấu”. Khả năng hiểu bối cảnh cũng có thể hữu ích vì OpenAI cho biết công cụ này có thể được sử dụng để tạo ra “áp phích về những chú chim được tìm thấy ở Công viên Trung tâm” hoặc “hình ảnh trực quan về kỷ nguyên lịch sử nghệ thuật đã được thảo luận trước đó trong cuộc trò chuyện”.
Công cụ tạo hình ảnh mới được xây dựng trên GPT-4o, mô hình AI được phát hành năm ngoái. Chữ “o” là viết tắt của “omni”, ám chỉ đến khả năng xử lý dữ liệu đa phương thức của nó tạo cơ sở cho nhiều tính năng đã đề cập ở trên. Sự nâng cấp mới này có vẻ như là một bước tiến nhằm hướng tới mục tiêu “một AI thống trị tất cả” mà Sam Altman đã hé lộ cách đây vài tuần.
Mời bạn xem thêm các bài liên quan:
Hãy theo dõi BlogAnChoi để cập nhật nhiều thông tin bổ ích nhé!
Mình rất mong muốn biết ý kiến của các bạn về bài viết này, hãy để lại bình luận giúp mình nhé.