Bu çalışmada, Gemma 3 1B ve Gemma 4B büyük dil modellerinin tıbbi alandaki karmaşık akıl yürütme yeteneklerinin geliştirilmesi ve değerlendirilmesi amaçlanmıştır. Bu kapsamda, SFT (Gözetimli İnce Ayar) ve GRPO (Grup Göreli Politika Optimizasyonu) gibi eğitim stratejilerinin Gemma 3 1B ve Gemma 4B modelleri üzerindeki performansı incelenmiştir. Temel modellerin değerlendirilmesi sürecinde, SFT ile Düşünce Zinciri (CoT) formatının öğretilmesi ve GRPO ile akıl yürütmenin rafine edilmesi adımlarını içeren çok aşamalı bir yaklaşım izlenmiştir. GPT-4.1 hakem modeliyle yapılan değerlendirmeler sonucunda, model performansının belirgin şekilde artırıldığı gösterilmiştir. SFT ve GRPO eğitimleriyle modelin mantıksal olarak tutarlı bir akıl yürütme süreci oluşturma becerisinin (Mantık Yürütme Doğruluğu’nun %26’dan %31’e yükseltilmesiyle) başarıyla geliştirildiği ortaya konmuştur. Bu durum, modelin cevapları ezberlemek yerine nasıl düşüneceğinin öğrenildiğini kanıtlamaktadır.
This study aimed to develop and evaluate the complex reasoning capabilities of the Gemma 3 1B and Gemma 4B large language models within the medical domain. In this context, the performance of training strategies such as SFT (Supervised Fine-Tuning) and GRPO (Group Relative Policy Optimization) on the Gemma 3 1B and Gemma 4B models was investigated. A multi-stage approach was followed, starting with the evaluation of the base models, then teaching the Chain-of-Thought (CoT) format via SFT, and finally refining the reasoning process with GRPO. Evaluations conducted using the GPT-4.1 as a judge model demonstrated a significant improvement in model performance. It was shown that SFT and GRPO training successfully enhanced the model's ability to generate a logically consistent reasoning process, evidenced by an increase in Reasoning Accuracy from 26% to 31%. This outcome proves that the model learned how to think rather than merely memorizing answers.