Ünlü iş insanı Elon Musk tarafından Mart 2023’te kurulan xAI şirketi, Grok adlı sohbet botu için Grok Grok-1.5 modelini duyurdu. Birinci sürüme kıyasla epey gelişmiş olduğu paylaşılan bu modelin OpenAI tarafından geliştirilen GPT-4‘ten de daha performanslı olduğu söyleniyor. İşte Grok-1.5 modeli ile ilgili ayrıntılar…
Grok-1.5 modeli, GPT-4’ü geride bırakıyor!
xAI, resmi web sitesi üzerinden Grok-1.5 modelini duyurdu. Şirket tarafından paylaşılan bilgilere nazaran yeni model, artık evraklar, diyagramlar, çizelgeler, ekran imgeleri ve fotoğraflar da dahil olmak üzere görsel işleyebiliyor.
Çok taraflı modlu modeller ile rekabet edebildiği belirtilen Grok-1.5 ile ilgili paylaşılan örneklere baktığımızda modelin tabloyu CSV’ye dönüştürme, koddaki yanılgıyı çözme, diyagramı kodu dönüştürme ve göğüs açıklama üzere yetenekleriyle öne çıktığını görüyoruz.
Grok-1.5, xAI tarafından gerçekleştirilen MMMU testlerinde yüzde 53.6 oranında muvaffakiyet elde etti. Karşılaştırma yapacak olursak, GPT-4 birebir testlerde yüzde 56.8 muvaffakiyet sağladı. Fakat matematikle ilgili testlerde Grok-1.5, yüzde 52.8‘lik bir muvaffakiyet elde ederek GPT-4‘ü geride bıraktı. Ayrıyeten xAI‘ın yeni modeli AI2D, metin okuma ve manaya ile gerçek dünya anlayışı testlerinde de rakiplerini zorladı.
Grok-1.5 ve rakip modellerin Benchmark sonuçları şu formda;
Benchmark | Grok-1.5V | GPT-4V | Claude 3 Sonnet | Claude 3 Opus | Gemini Pro 1.5 |
---|---|---|---|---|---|
MMMU (Çok Disiplinli) | 53.6% | 56.8% | 53.1% | 59.4% | 58.5% |
Matematik | 52.8% | 49.9% | 47.9% | 50.5% | 52.1% |
AI2D | 88.3% | 78.2% | 88.7% | 88.1% | 80.3% |
Metin okuma | 78.1% | 78.0% | – | – | 73.5% |
ChartQA | 76.1% | 78.5% | 81.1% | 80.8% | 81.3% |
Belgeler | 85.6% | 88.4% | 89.5% | 89.3% | 86.5% |
Gerçek Dünya Anlayışı | 68.7% | 61.4% | 51.9% | 49.8% | 67.5% |
xAI, Grok-1.5 modelini yakın vakitte kullanıcılar ile test etmeye başlayacağını ve X‘teki Grok sohbet botuna entegre edeceğini açıkladı. Bilmeyenler için bu bota erişebilmek için X Premium abonesi olmak gerekiyor.
Peki siz bu husus hakkında neler düşünüyorsunuz? Grok-1.5 modelinin yeteneklerini ve Benchmark sonuçlarını nasıl buldunuz? Görüşlerinizi aşağıdaki Yorumlar kısmından bizimle paylaşabilirsiniz.