Yapay Zekâ Modellerinin İş Analizi Süreçlerindeki Etkinliğinin Değerlendirilmesi
İçindekiler
- Giriş
- Kullanılan Yapay Zekâ Araçları
- Sınama Senaryoları
- Yapay Zekâ Modellerinin Değerlendirmesi
- Sonuç ve Öneriler
- Kaynakça
Giriş
Bu çalışma, Doğal Dil İşleme (NLP-Natural Language Processing) modellerinin iş analizi süreçlerindeki etkinliğini değerlendirmeyi amaçlamaktadır. İş analizi; paydaşlardan elde edilen bilgilerin yapılandırılması, gereksinimlerin doğru bir şekilde tanımlanması ve tutarsızlıkların giderilmesi gibi kritik aşamaları içermektedir. Bu bağlamda, NLP tabanlı modellerin iş analizi ve gereksinim mühendisliği süreçlerine ne derece entegre edilebileceği, doğruluk ve güvenilirlik açısından nasıl bir performans sergilediği araştırılmıştır.
Çalışma kapsamında beş farklı değerlendirme senaryosu oluşturulmuştur.
İlkinde, NLP modellerinin paydaş toplantılarından elde edilen notları analiz ederek gereksinim çıkarımı yapma ve süreç iyileştirme potansiyeli incelenmiştir.
İkincide, NLP modellerinin iş gereksinimlerini anlama ve doğrulama süreçlerindeki yeterliliği, özellikle çelişkiler ve tekrar eden ifadelere uygun kullanım durumları üretebilme yeteneği test edilmiştir.
Üçüncüde, NLP modellerinin sınırlı bilgiyle ve standart bir taslak ile oluşturduğu kullanım durumları ile özel hazırlanan senaryolara uygunluğu incelenmiş, son olarak NLP modellerinin, kullanım durumlarının belirlenen iş gereksinimlerini karşılama düzeyini değerlendirme yetkinliği analiz edilmiştir.
Dördüncüde, modellere kullanılacak başlıkları belirlenmiş kullanım durumu şablonları verilip ve Oluştur-Oku-Güncelle-Sil işlemleri (CRUD-Create, Read, Update, Delete) için çıktıların uygunluğu analiz edilmiştir.
Sonuncuda, farklı ifadelerle tanımlanan aynı gereksinimlerin yapay zekâ modelleri tarafından yorumlanma ve Use Case (Kullanım Durumu) üretimleri analiz edilmiştir.
Bu kapsamda çalışmanın temel hedefi; yapay zekâ tabanlı NLP modellerinin iş analizi süreçlerine dahil edilerek yapılan analizlerin doğruluk ve tutarlılık açısından ne derece etkili olduğunu ortaya koymaktır. Elde edilen bulgular, NLP modellerinin iş analizi ve gereksinim mühendisliği alanında nasıl konumlandırılabileceği ve gelecekte bu alanda nasıl geliştirilebileceği konusunda önemli çıkarımlar sunmaktadır.
Kullanılan Yapay Zekâ Araçları
Araçların Tanıtımı
Beş farklı yapay zekâ modeli ile çalışma yapılmış, her bir araç, doğal dil İşleme (NLP) yetenekleri açısından incelenmiş ve iş gereksinimlerinin çıkarılması, doğrulanması ve kullanım durumlarının üretilmesi gibi kritik görevlerdeki performansı değerlendirilmiştir.
-
ChatGPT: OpenAl tarafından geliştirilen aracın GPT-4.0 modeli ile çalışılmıştır. Modelin öne çıkan özelliklerine göre doğal dil anlama ve üretme konusunda gelişmiş performans sunma; karmaşık metinleri anlamlandırma, özetleme ve analiz etme; kullanıcı girdilerine bağlamsal olarak tutarlı yanıtlar verebilme yeteneği olduğu savunulmaktadır. Ancak model anlık güncellenmediği için bilginin güncelliği modelin eğitim tarihine bağlıdır. Ayrıca karmaşık konularda genelleme yapıyor olması detayların gözden kaçırılmasına neden olabilir [1].
-
Google Gemini: Google DeepMind tarafından geliştirilen aracın Gemini 2.0 Flash modeli ile çalışılmıştır. Modelin öne çıkan özelliklerine göre geniş veri setlerinden faydalanarak güçlü bağlamsal analiz yapma; karmaşık metinleri anlama ve çok yönlü analiz yapma; görsel ve metinsel veriyi birlikte işleyebilme yeteneği olduğu savunulmaktadır. Ancak büyük ölçekli veriyle çalışırken bazı durumlarda fazla geniş kapsamlı tahminler yapabilmesi doğru sonuca ulaşmaya engel olabilir [2].
-
DeepSeek: DeepSeek Al tarafından geliştirilen aracın DeepThink (R1) modeli ile çalışılmıştır. Modelin öne çıkan özelliklerine göre kod yazma, teknik dokümantasyon oluşturma ve metin analizi gibi görevlerde güçlü olduğu savunulmakta ancak daha çok teknik metin ve kodlama üzerine odaklandığı için iş analizi süreçlerinde bağlamsal yorumlama yeteneği bazı durumlarda sınırlı olabilir [3].
-
Mistral Al: Mistral tarafından geliştirilen aracın le Chat modeli ile çalışılmıştır. Modelin öne çıkan özelliklerine göre gereksinim mühendisliği süreçlerinde, metin özetleme ve çelişki analizi gibi görevlerde verimli olduğu savunulmakta ancak daha küçük model boyutları nedeniyle büyük ölçekli NLP görevlerinde daha güçlü rakiplere kıyasla sınırlı kalabilir [4].
-
Anthropic Claude: Anthropic tarafından geliştirilen aracın 3.7 Sonnet modeli ile çalışılmıştır. Modelin öne çıkan özelliklerine göre “Constitutional Al” yaklaşımı ile etik ve güvenli bir yapay zekâ modeli sunarken karmaşık metinleri analiz etme, özetleme ve bağlamsal çıkarımlar yapma konusunda yeteneği yüksek olduğu savunulmakta ancak bazı bağlamsal durumlarda fazla temkinli davrandığı için detaylı yanıtlar üretmekte zorlanabilir [5].
İş analizi süreçlerinde kullanılan bu araçların her biri farklı yeteneklere sahiptir ve belirli senaryolarda avantaj sağlayabilir. Örneğin, gereksinim çıkarımı ve analizinde OpenAl ChatGPT ve Google Gemini, geniş bağlamı anlama yetenekleriyle güçlüdür. Çelişki ve tutarlılık analizinde Anthropic Claude etik ve doğruluk odaklı yaklaşımı ile dikkat çekmektedir. Teknik ve standart formatlardaki kullanım durumu üretiminde DeepSeek ve Mistral Al daha optimize çözümler sunabildiği gözlemlenmiştir.
Bu çalışmaya göre, her modelin iş analizi süreçlerinde nasıl bir performans sergilediği detaylı olarak değerlendirilecek ve en uygun kullanım alanları belirlenecektir.
Sınama Senaryoları
- Toplantı Notu Analizi ve Raporlama: Bu senaryoda e-ticaret sipariş yönetimi üzerine yapılan bir toplantıda alınan notlar yapay zekâ aracına verilerek bu notların dokuz farklı hususa dikkat ederek görevi yerine getirmesi beklendi.
- İş Gereksinimlerini Anlama ve Doğrulama: Bu senaryoda e-ticaret sistemi ile ilgili olarak 40 farklı iş gereksiniminin yapay zekâ aracına verilip gereksinimler arasında çelişki ya da tekrar eden ifade olup olmadığının kontrol etmesi beklendi.
- Minimum Bilgi ile Kullanım Durumu Üretme: Bu senaryoda yapay zekâ aracına kullanım durumu Şablonu verilip belirlenen 5 farklı fonksiyon için kullanım durumu üretmesi talep edildi.
- Kaydet, Listele, Güncelle ve Sil Kullanım Durumlarının Yapay Zekâ Tarafından Üretilmesi: Bu senaryoda yapay zekâ aracına kullanım durumu Şablonu verilip belirlenen temel CRUD fonksiyonu için kullanım durumu üretmesi talep edildi.
- Dil Kullanım Testi: Bu senaryoda yapay zekâ aracına benzer iş gereksinimleri ve iş kuralları verilip kullanım durumu üretmesi talep edildi.
Yapay Zekâ Modellerinin Değerlendirmesi
Toplantı Notu Analizi ve Raporlama
E-ticaret sipariş yönetimi üzerine yapılan bir toplantıda alınan notlar verilip bu notları Tablo 1‘de yer alan belli kriterlere göre değerlendirmesi ve çıktılar üretmesi beklenmiştir.
Bu analiz sürecinde belirlenen 11 farklı toplantı notu verilmiş ve dokuz farklı kriteri göz önünde bulundurarak rapor hazırlaması beklenmiştir.
Yapay Zekâ Modellerine aşağıdaki şu talimatlar verilmiştir:
- Müşteri, web sitesi üzerinden alışverişe başlamak için öncelikle giriş yapar ya da misafir olarak devam eder. Ardından ürün kategorilerinden ilgisini çekenleri inceleyerek alışveriş sepetine ekler. Sepete eklenen ürünler, stok durumu ve fiyat bilgileriyle birlikte güncellenir. Ancak burada dikkat edilmesi gereken önemli bir nokta, sepete eklenen bazı ürünlerin stok durumunun yanlışlıkla güncellenmemiş olabilmesidir. Bu durumda, müşteri ödeme sayfasına yönlendirildiğinde stokta bulunmayan ürünler için hata mesajı alır. Bu da ödeme sürecinin aksamasına neden olur ve müşteri deneyimini olumsuz etkiler. Sistem, zaman zaman stok durumunu güncel tutmada gecikmeler yaşayabiliyor. Bu, özellikle indirim dönemlerinde daha belirgin hale gelir, çünkü yüksek talep nedeniyle sistemde stok miktarları doğru yansıtılmayabiliyor.
- Ödeme sayfasında, müşteri ödeme bilgilerini girerken farklı ödeme yöntemleri arasından seçim yapabilir. Kartla ödeme, havale veya kapıda ödeme gibi seçenekler mevcuttur. Ancak burada da birkaç problem yaşanabiliyor. Özellikle kartla ödeme esnasında, kartın doğrulanması sırasında hata meydana gelebiliyor. Bu da müşterinin işlem yaparken ödeme işleminin başarısız olmasına yol açabiliyor. Müşteri ödeme adımına gelmeden önce ödeme bilgilerini doğru bir şekilde girmediği takdirde, sistem herhangi bir uyarı vermez. Bu durum, ödeme işlemini tamamlamadan çıkılması gibi sorunlara yol açabiliyor. Ayrıca, kapıda ödeme seçeneğiyle ödeme yapılacağı zaman, sistemin kargo firmasına bildirimde bulunmasında da zaman zaman gecikmeler yaşanabiliyor.
- Ödeme tamamlandığında, sipariş onay bilgisi hem müşteriye e-posta yoluyla iletilir hem de sistemde siparişin durumu “Onaylandı” olarak güncellenir. Ancak, bu güncelleme bazen birkaç dakika gecikmeli olabiliyor. Bu durum, siparişin hızlı bir şekilde işleme alınmasına engel oluşturuyor. Depo, siparişi almak için sistemi kontrol eder ve siparişe uygun ürünleri hazırlamaya başlar. Depo çalışanları, genellikle elle düzenlenen bir sistem kullanıyor, bu da bazı hataların yapılmasına yol açabiliyor. Örneğin, siparişin doğru ürünü içerip içermediği kontrol edilmeden paketlenebiliyor. Bu da teslimat sırasında yanlış ürünlerin gönderilmesine neden olabiliyor. Depo çalışanları, yalnızca fiziksel envanter bilgilerini takip ettikleri için, sistemdeki stok bilgisiyle uyumsuzluklar yaşanabiliyor.
- Bu sorunun çözülmesi için depo yazılımının güncellenmesi ve stok durumu ile uyumlu hale getirilmesi gerekmektedir. Ayrıca, ürünlerin paketlenmesi sırasında bir doğrulama süreci eklenmesi, siparişlerin doğru ürünle gönderilmesini sağlayacaktır. Depo çalışanlarının kullanacağı bir mobil uygulama, onların hem ürünleri tarayıp stoklarını kontrol etmelerine hem de siparişin doğru şekilde işleme alınmasını sağlamalarına yardımcı olacaktır.
- Sipariş hazırlandıktan sonra kargo firması ile iletişim kuruluyor. Kargo firması, müşteriyle teslimat için uygun bir zaman dilimi belirler. Bu süreçte, kargo firmasının teslimat için uygunluk sağlaması biraz daha zaman alabiliyor. Müşteri, teslimatın ne zaman gerçekleşeceğini bilmediği için bu belirsizlik, müşteri memnuniyeti açısından olumsuz bir durum oluşturuyor. Teslimat tarihinde herhangi bir değişiklik olduğunda, sistemin müşteriye bildirim göndermesi bekleniyor. Ancak, teslimat tarih değişikliği sonradan yapılınca müşteri, bunu öğrenmekte gecikebiliyor. Bu süreçte, müşteri sadece kargo takibi yaparak teslimat hakkında bilgi alabiliyor, ancak sistem üzerinden ne zaman teslimat yapılacağı hakkında net bir tarih verilmemektedir. Teslimat gerçekleştiğinde, müşteri SMS (Short Message Service - Kısa Mesaj Servisi) veya e-posta yoluyla bilgilendirilir.
- Kargo teslimatları sırasında karşılaşılan diğer bir sorun da, teslimat adresinde bir yanlışlık olması durumunda sistemin bunu fark edememesi ve bu yüzden yanlış adrese teslimat yapılmasıdır. Müşteri, ürünün teslimat adresinde sorun olduğunu fark ettiğinde, teslimatın yapıldığı tarihten sonra iletişime geçmek durumunda kalıyor. Bu da ek bir müşteri desteği yükü oluşturuyor. Sistem, teslimat adresinin doğru olup olmadığını siparişin başlangıcında doğrulamıyor. Bu eksiklik, yanlış teslimatları önleyebilecek bir kontrol mekanizmasından yoksun kalınmasına neden oluyor. Ayrıca, teslimatın alıcıya yapılırken mutlaka kargo şirketinin ödeme alıp almadığı kontrol edilmelidir.
- Bir diğer önemli süreç, ürün iade işlemi. Müşteri, ürünün kendisine ulaştıktan sonra, beğenmediği veya hatalı olduğunu düşündüğü ürünü iade edebilmek için müşteri hizmetlerine başvurur. İade talebi, öncelikle müşteri hizmetleri tarafından alınır ve sisteme kaydedilir. Ancak, iade talebinin alınması esnasında sistemin bazen geç yanıt vermesi nedeniyle, müşteri beklemek zorunda kalabiliyor. Ayrıca, ürünün iade edilmesi için gerekli onay işlemlerinin bazen uzaması, müşteriyi uzun süre bekletiyor. İade işlemi başladığında, müşteri sistem üzerinden iade talebinin onaylanıp onaylanmadığını kontrol edebilecek bir paneli görmekte zorlanıyor. Sistemde iade durumunun net bir şekilde gösterilmemesi, süreçlerin takibini zorlaştırıyor.
- Depo, iade edilen ürünü aldığında, ürünü inceleyip değerlendirir. İade edilen ürünün sorunsuz olduğu durumlarda, sistem ürünün tekrar envantere alınmasını sağlar. Fakat bazen depo, ürünün iade edildikten sonra sistemde kaydını yapmada gecikme yaşayabiliyor ve bu da ürünü tekrar envantere eklerken sorun oluşturabiliyor. Ayrıca, iade edilen ürünün fiyatı geri ödenirken, finans biriminin yaptığı ödeme işlemleri de zaman alabiliyor. Müşteri, ödeme geri alımını beklerken, bu süreçte zaman zaman gecikmeler yaşanabiliyor. Bu da müşteri memnuniyetsizliğine yol açabiliyor.
- İade sürecinde de iyileştirilmesi gereken birkaç konu var. İlk olarak, iade sürecindeki her aşama müşteriye anlık bildirimlerle bildirilmelidir. Müşteri, iade işlemi sırasında neler olduğunu net bir şekilde takip edebilmelidir. Ayrıca, depo ve finans birimi arasındaki iletişimdeki gecikmeleri ortadan kaldıracak bir süreç oluşturulmalıdır. Depo, iade edilen ürünü hızlıca kaydedip finans birimine bildirimde bulunmalıdır. Finans birimi de bu bilgiyi hızlıca işleme alıp ödeme geri ödemesini yapmalıdır. Bu noktada, sistemde otomatik onay ve bildirim süreçlerinin oluşturulması, sürecin hızlanmasını sağlayacaktır.
- Müşteri, iade edilen ürünün durumu hakkında da sistem üzerinden anlık bilgilendirme almalıdır. İade ürünlerinin durumu hakkında müşteri, SMS (Short Message Service - Kısa Mesaj Servisi) ya da e-posta yoluyla bilgilendirilmelidir. Bu sayede müşteri süreci daha şeffaf bir şekilde takip edebilir ve bu süreçte yaşadığı herhangi bir aksaklık durumunda hemen çözüm talep edebilir.
- Bunlar dışında, süreçlerin hızlandırılması için bazı adımlar atılabilir. Siparişlerin işleme alınması ve iade işlemleri gibi süreçlerde sistemdeki veri girişlerinin doğruluğu daha sık kontrol edilmelidir. Müşteriye, her adımda güncel durum bilgisinin verilmesi, müşteri memnuniyetini artırır ve sürecin daha verimli bir şekilde işlemesine olanak tanır. Ayrıca, depo çalışanları ve müşteri hizmetleri arasında düzenli iletişim sağlanmalıdır.
Verdiğim toplantı notlarını düzenle ve aşağıdaki talepleri yerine getir:
- Toplantı notlarını daha anlaşılır ve profesyonel bir formatta düzenle.
- Süreç açıklamalarını daha net ve ayrıntılı hale getir.
- Sorunları ve süreç adımlarını mantıklı bir sıraya yerleştir.
- Gereksiz tekrarları ve karışıklıkları ortadan kaldır.
- Süreçler arasındaki ilişkiyi vurgula, bir sürecin diğerini nasıl etkilediğini açıklamaya çalış.
- Belirtilen sorunlar ve zorlukları daha açık bir şekilde tanımla ve varsa eksiklikleri belirt.
- Başlıkları, alt başlıkları düzenle ve uygun bir düzen içinde sun.
- Dilin profesyonel ve anlaşılır olmasına özen göster. Ayrıca, dil bilgisi hatalarını düzelt.
- Eğer eksik veya belirsiz bir konu varsa, bunu belirginleştir ve nasıl ele alınması gerektiğine dair öneri ekle.
Bu testin gerçekleştirilme amacı, yapay zekâ modelleri tarafından üretilen raporların anlaşılabilirliği ve okunabilirliğini test etmektir. Yapay zekâ modellerinin, verilen toplantı notlarındaki maddeleri Tablo 1‘de yer alan 9 farklı kritere uygun olacak şekilde işlemesi ve memnuniyetin %90 oranında olması beklenmektedir.
Tablo 1. Test Sonuçları ve Analizler
| Gereksinimler | ChatGPT | Gemini | DeepSeek | Mistral Al | Anthropic Claude |
|---|---|---|---|---|---|
| Toplantı notlarını daha anlaşılır ve profesyonel bir formatta düzenle. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Süreç açıklamalarını daha net ve ayrıntılı hale getir. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Sorunları ve süreç adımlarını mantıklı bir sıraya yerleştir. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Gereksiz tekrarları ve karışıklıkları ortadan kaldır. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Süreçler arasındaki ilişkiyi vurgula, bir sürecin diğerini nasıl etkilediğini açıklamaya çalış. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Belirtilen sorunlar ve zorlukları daha açık bir şekilde tanımla ve varsa eksiklikleri belirt. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Başlıkları, alt başlıkları düzenle ve uygun bir düzen içinde sun. | ✔ | ✔ | ✔ | ✔ | ✔ |
| Dilin profesyonel ve anlaşılır olmasına özen göster. Ayrıca, dil bilgisi hatalarını düzelt. | ✔ | ✔ | ✔ | ✔ | ✔ |
Dikkat Edilmesi Gereken Hususlar
Tablo 1‘de yer alan çıktılar incelendiğinde, modellerin vermiş olduğu cevapların detay seviyesinin farklılık gösterdiği tespit edilmiştir. Genel olarak, test edilen araçların hepsi beklenen cevapları vermiş olsa da ChatGPT modelinin verdiği yanıtların sade ve anlaşılır olduğu, kullanıcıya karmaşıklık yaratmadan net bir bilgi sunduğu tespit edilmiştir. Bunun yanında, Google Gemini modeli detaylı açıklamalar yaparak süreçleri daha derinlemesine ele alırken, DeepSeek ve Mistral Al modellerinin daha yüzeysel ancak doğrudan çözümler sunduğu belirlenmiştir.
İş Gereksinimlerini Anlama ve Doğrulama
İş gereksinimlerini anlama ve doğrulama aşamasında yapay zekâ modellerine Tablo 2‘de sunulan ve içerisinde birbiri ile çelişen, tekrar eden bir gereksinim seti verilmiş olup bu setteki hataları tespit etmesi başarısını kontrol etmek amacıyla bir dizi test gerçekleştirilmiştir.
Yapay Zekâ Modellerine şu talimatlar verilmiştir:
“Bu iş gereksinimleri arasında çelişki veya tekrar eden ifadeler var mı?”
Tablo 2. Örnek Olarak Sunulan İş Gereksinimleri
| ID | İş Gereksinimi |
|---|---|
| R1 | Kullanıcı, e-posta adresi ile sisteme giriş yapabilmelidir. |
| R2 | Kullanıcı, yalnızca telefon numarası ile giriş yapabilmelidir. |
| R3 | Şifre en az 8 karakter olmalıdır. |
| R4 | Şifre en az 12 karakter olmalıdır. |
| R5 | Kullanıcı, sistemde profil fotoğrafı ekleyebilmelidir. |
| R6 | Kullanıcı, sistemde profil resmi ekleyebilmelidir. |
| R7 | Kullanıcılar, hesaplarını istedikleri zaman silebilmelidir. |
| R8 | Kullanıcı hesapları, en az 1 yıl boyunca silinemez. |
| R9 | Kullanıcı siparişlerini 24 saat içinde iptal edebilmelidir. |
| R10 | Kullanıcı siparişleri iptal edilemez. |
| R11 | Ürün stokta yoksa, kullanıcıya stok bildirimi gönderilmelidir. |
| R12 | Ürün stokta yoksa, sistem kullanıcıya bildirim göndermemelidir. |
| R13 | Kullanıcılar, başka bir kullanıcıya mesaj gönderebilmelidir. |
| R14 | Kullanıcılar yalnızca yöneticilere mesaj gönderebilmelidir. |
| R15 | Kullanıcı, iki faktörlü kimlik doğrulamayı (2FA) etkinleştirebilmelidir. |
| R16 | Kullanıcı, iki faktörlü kimlik doğrulamayı devre dışı bırakabilmelidir. |
| R17 | Sistem, her gün otomatik yedekleme yapmalıdır. |
| R18 | Sistem, yalnızca haftalık yedekleme yapmalıdır. |
| R19 | Kullanıcı, ödeme bilgilerini güncelleyebilmelidir. |
| R20 | Kullanıcı, ödeme bilgilerini değiştiremez. |
| R21 | Kullanıcı, kredi kartı ile ödeme yapabilmelidir. |
| R22 | Kullanıcı, yalnızca banka havalesi ile ödeme yapabilmelidir. |
| R23 | Ürün fiyatları KDV dahil olarak gösterilmelidir. |
| R24 | Ürün fiyatları KDV hariç olarak gösterilmelidir. |
| R25 | Kullanıcılar, sipariş geçmişlerini 6 ay boyunca görebilmelidir. |
| R26 | Kullanıcılar, sipariş geçmişlerini süresiz olarak görebilmelidir. |
| R27 | Kullanıcı, aynı anda birden fazla cihazdan giriş yapabilmelidir. |
| R28 | Kullanıcı, aynı anda yalnızca tek bir cihazdan giriş yapabilmelidir. |
| R29 | Kullanıcılar, aboneliklerini iptal edebilmelidir. |
| R30 | Kullanıcılar, aboneliklerini iptal edemez. |
| R31 | Sistem, kullanıcıya promosyon e-postaları gönderebilir. |
| R32 | Kullanıcı, promosyon e-postaları almamalıdır. |
| R33 | Kullanıcı, adını ve soyadını güncelleyebilmelidir. |
| R34 | Kullanıcı, adını ve soyadını güncelleyemez. |
| R35 | Kullanıcı, favori ürünlerini listeleyebilmelidir. |
| R36 | Kullanıcı, favori ürünlerini ekleyemez. |
| R37 | Kullanıcı, ürünleri başkalarıyla paylaşabilmelidir. |
| R38 | Kullanıcı, ürünleri paylaşamaz. |
| R39 | Kullanıcılar, tüm sipariş detaylarını PDF olarak indirebilmelidir. |
| R40 | Kullanıcılar, sipariş detaylarını yalnızca e-posta yoluyla alabilir. |
Bu testin gerçekleştirilme amacı, yapay zekâ modellerinin iş gereksinimlerini anlama ve doğrulama sürecine ne kadar uygun olduğunu test etmektir.
Yapay zekâ modellerinin, verilen gereksinim setindeki çelişkili veya tekrarlayan gereksinimleri en az %75 oranında doğru tespit etmesi beklenmektedir.
Tablo 3. Test Sonuçları ve Analizler
| ID - İş Gereksinimi | Notlar (Çelişki/Tekrar Bilgisi) | ChatGPT | Gemini | DeepSeek | Mistral Al | Anthropic Claude |
|---|---|---|---|---|---|---|
| R1: Kullanıcı, e-posta adresi ile sisteme giriş yapabilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R2: Kullanıcı, yalnızca telefon numarası ile giriş yapabilmelidir. | ❌ R1 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R3: Şifre en az 8 karakter olmalıdır. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R4: Şifre en az 12 karakter olmalıdır. | ❌ R3 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R5: Kullanıcı, sistemde profil fotoğrafı ekleyebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R6: Kullanıcı, sistemde profil resmi ekleyebilmelidir. | 🔄 R5 ile tekrar ediyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R7: Kullanıcılar, hesaplarını istedikleri zaman silebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R8: Kullanıcı hesapları, en az 1 yıl boyunca silinemez. | ❌ R7 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R9: Kullanıcı siparişlerini 24 saat içinde iptal edebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R10: Kullanıcı siparişleri iptal edilemez. | ❌ R9 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R11: Ürün stokta yoksa, kullanıcıya stok bildirimi gönderilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R12: Ürün stokta yoksa, sistem kullanıcıya bildirim göndermemelidir. | ❌ R11 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R13: Kullanıcılar, başka bir kullanıcıya mesaj gönderebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R14: Kullanıcılar yalnızca yöneticilere mesaj gönderebilmelidir. | ❌ R13 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R15: Kullanıcı, iki faktörlü kimlik doğrulama (2FA) etkinleştirebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R16: Kullanıcı, iki faktörlü kimlik doğrulamayı devre dışı bırakabilmelidir. | ❌ R15 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R17: Sistem, her gün otomatik yedekleme yapmalıdır. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R18: Sistem, yalnızca haftalık yedekleme yapmalıdır. | ❌ R17 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R19: Kullanıcı, ödeme bilgilerini güncelleyebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R20: Kullanıcı, ödeme bilgilerini değiştiremez. | ❌ R19 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R21: Kullanıcı, kredi kartı ile ödeme yapabilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R22: Kullanıcı, yalnızca banka havalesi ile ödeme yapabilmelidir. | ❌ R21 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R23: Ürün fiyatları KDV dahil olarak gösterilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R24: Ürün fiyatları KDV hariç olarak gösterilmelidir. | ❌ R23 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R25: Kullanıcılar, sipariş geçmişlerini 6 ay boyunca görebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R26: Kullanıcılar, sipariş geçmişlerini süresiz olarak görebilmelidir. | ❌ R25 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R27: Kullanıcı, aynı anda birden fazla cihazdan giriş yapabilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R28: Kullanıcı, aynı anda yalnızca tek bir cihazdan giriş yapabilmelidir. | ❌ R27 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R29: Kullanıcılar, aboneliklerini iptal edebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R30: Kullanıcılar, aboneliklerini iptal edemez. | ❌ R29 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R31: Sistem, kullanıcıya promosyon e-postaları gönderebilir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R32: Kullanıcı, promosyon e-postaları almamalıdır. | ❌ R31 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R33: Kullanıcı, adını ve soyadını güncelleyebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R34: Kullanıcı, adını ve soyadını güncelleyemez. | ❌ R33 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R35: Kullanıcı, favori ürünlerini listeleyebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R36: Kullanıcı, favori ürünlerini ekleyemez. | ❌ R35 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R37: Kullanıcı, ürünleri başkalarıyla paylaşabilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R38: Kullanıcı, ürünleri paylaşamaz. | ❌ R37 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
| R39: Kullanıcılar, tüm sipariş detaylarını PDF olarak indirebilmelidir. | - | ✔ | ✔ | ✔ | ✔ | ✔ |
| R40: Kullanıcılar, sipariş detaylarını yalnızca e-posta yoluyla alabilir. | ❌ R39 ile çelişiyor | ✔ | ✔ | ✔ | ✔ | ✔ |
Dikkat Edilmesi Gereken Hususlar
Yukarıda da belirttiğimiz gibi, bu gibi testlerde dikkat edilmesi gereken noktalardan biri Al modelinin cevabının kullanıcı için ne kadar detaylı ve anlaşılır olduğudur. Bu durumda Anthropic Claude Al modelinin önerilerde bulunup çelişkili ifadelerin neden çelişkili olduğunun ve aynı ifadelerin neden aynı ifadeli olduklarının anlaşılması kolaylaşmakta olup değerlendirmeye pozitif etki vermiştir. Yani karar verme mekanizması yanında öneride bulunması kullanıcının karmaşık ifadelerde konunun tümünü anlaması açısından pozitif etken sağlayacaktır. Al motorların hepsi doğru tespitlerde bulunmuş olup en sade cevapları ChatGPT vermektedir. Google Gemini yine detaylı açıklama verirken, DeepSeek motoru yine sade ifadelerde kalmaktadır. Mistral Al yine sade cevaplar vermekte olup en detaylı anlatımda bulunan modeldir. Burada aslında kullanıcının beklentisi ne kadar detaylı ne kadar sade ona da bağlı olarak modeller ona göre seçilebilir. Sonuç olarak her biri doğru cevabı vermiş olup çelişkili ifadeleri ve aynı anlamı taşıyan ifadeleri tespit etme yeteneğinin iyi olduğu belirlenmiştir.
Minimum Bilgi ile Kullanım Durumu Üretimi
Bu aşamada ise yapay zekâ modellerine en az seviyede bilgi verilip belirli bir şablona bağlı kalarak farklı eylemler için kaliteli ve eksiksiz bir şekilde kullanım durumlarına ulaşmak amacıyla bir dizi test gerçekleştirilmiştir. Test kapsamında kullanılan Yanlış Pozitif Oranı ve Yanlış Negatif Oranı, tespitlerin tutarlılığını ölçümleyebilmek için kullanılmıştır. Yanlış Pozitif Oranı, gerçekte hatalı olan durumları modelin yanlışlıkla doğru olarak tespit ettiğini, Yanlış Negatif Oranı ise gerçekten doğru olan durumları modelin yanlışlıkla yanlış olarak tespit ettiğini gösteren oranlardır. Yanlış Pozitif Oranı olmayan çelişkileri tespit ederken bu durumu fark etmek daha kolayken, Yanlış Negatif çelişkilerin gözden kaçması demektir. Bundan dolayı, Yanlış Pozitif Oranı için tolerasyon daha yüksek olarak belirlenmiştir.
Minimum Bilgi ile kullanım durumu sonucunda üretilen çıktılar 5 farklı senaryo başlığı verilmiş ve bu başlıklar doğrultusunda kullanım durumu şablonuna uygun çıktılar üretilmesi beklenmiştir. Bunun için Yanlış Pozitif Oranı* %20’den az; Yanlış Negatif Oranı %10’dan az olmalıdır.
*Yanlış pozitif (olmayan çelişkileri yanlış tespit etme **Yanlış negatif (gerçek çelişkileri atlama) oranları belirlenir.
Yapay Zekâ Modellerine şu talimatlar verilmiştir:
“Şu bilgileri kullanarak bir Use Case üret: [Kullanıcı türü, amaç, başlangıç durumu].”
Use Case 1: Kullanıcı Giriş Yapma Kullanıcı Türü: Kullanıcı Amaç: Kullanıcı, sistemdeki kişisel hesabına giriş yapacak. Başlangıç Durumu: Kullanıcı, sistemde henüz giriş yapmamış.
Use Case 2: Hesap Oluşturma Kullanıcı Türü: Misafir Amaç: Misafir, yeni bir hesap oluşturacak. Başlangıç Durumu: Misafir, sisteme hiç giriş yapmamış ve herhangi bir hesapları yok.
Use Case 3: İçerik Görüntüleme Kullanıcı Türü: Kullanıcı Amaç: Kullanıcı, belirli bir içerik kategorisini görüntüleyecek. Başlangıç Durumu: Kullanıcı giriş yapmış ve içerik kategorileri sayfasına yönlendirilmiş.
Use Case 4: Şifre Değiştirme Kullanıcı Türü: Kullanıcı Amaç: Kullanıcı, şifresini değiştirecek. Başlangıç Durumu: Kullanıcı, sisteme giriş yapmış ve “Şifreyi Unuttum” seçeneğini kullanarak şifre değiştirme işlemine başlamak istiyor.
Use Case 5: Yorum Yapma Kullanıcı Türü: Kullanıcı Amaç: Kullanıcı, sistemdeki bir içerik altına yorum yapacak. Başlangıç Durumu: Kullanıcı, içerik sayfasına erişim sağlamış ve yorum yapma alanına yönlendirilmiş.
Bu testin gerçekleştirilme amacı; yapay zekâ modellerinin gereksinim mühendisliği süreçlerinde Kullanım Durumu dokümantasyonlarını ne kadar verimli ve tutarlı şekilde oluşturabileceğini değerlendirmektir. Geleneksel olarak manuel hazırlanan bu dokümanlar, proje ekipleri için standartlaştırma ve anlaşılırlık açısından büyük önem taşır. Bu nedenle, farklı yapay zekâ modellerinin ürettiği çıktılar, manuel yazılmış başarılı örneklerle karşılaştırılarak hangi modelin en doğru, en anlaşılır ve en verimli sonuçları sunduğu araştırılmıştır.
Çalışma boyunca, Tablo 4‘de yer alan gereksinimler üzerinden modellerin standart bir şablona uygunluk düzeyi, ürettikleri metinlerin anlaşılırlığı ve doğruluğu gibi çeşitli ölçütler üzerinden değerlendirme yapıldı. Nihai hedef, kullanıcılar tarafından yüksek oranda onaylanan, eksiksiz ve tutarlı dokümanlar oluşturabilen en başarılı modeli tespit etmekti.
Tablo 4. Test Sonuçları ve Analizler
| Gereksinim | ChatGPT | Google Gemini | DeepSeekAl | Mistral Al | Anthropic Claude |
|---|---|---|---|---|---|
| 1. Kullanıcı Giriş Yapma | ✔ | ✔ | ✘ | ✘ | ✘ |
| 2. Hesap Oluşturma | ✘ | ✔ | ✘ | ✘ | ✘ |
| 3. İçerik Görüntüleme | ✔ | ✔ | ✘ | ✔ | ✘ |
| 4. Şifre Değiştirme | ✘ | ✔ | ✘ | ✘ | ✘ |
| 5. Yorum Yapma | ✔ | ✔ | ✘ | ✘ | ✘ |
Dikkat Edilmesi Gereken Hususlar
Tablo 4‘te görüldüğü gibi modeller, net olmayan istemlerde (prompt’larda) alternatif veya hatalı sonuçlar üretebildiğinden, test senaryolarının açık ve spesifik olması gerekir. Üretilen çıktılar bazen şablona tam uymadığından, manuel düzenleme ve insan kontrolü kritik bir önem arz eder.
Kaydet, Listele, Güncelle ve Sil Kullanım Durumlarının Yapay Zekâ Tarafından Üretilmesi
Bu test aşamasında, sabit bir şablon ve değişken eylemler seti sunulmuştur. Belirli bir şablona bağlı kalarak farklı eylemler için kaliteli ve eksiksiz bir şekilde kullanım durumlarına ulaşmak amacıyla bir dizi test gerçekleştirilmiştir.
Bunun için Tablo 5‘te yer alan sekiz farklı gereksinim belirlendi. Bunun ile birlikte üçer adet ifade oluşturulmuş ve bu ifadeler doğrultusunda kullanım durumu Şablonlarına uygun çıktılar üretilmesi beklenmiştir.
Yapay Zekâ Modellerine şu talimatlar verilmiştir:
“Aşağıdaki template’i kullanarak şu işler için kullanım durumları oluştur. Her eylem için bir kullanım durumu oluşmalıdır: Kullanıcı bir siparişi ekleyebilir, güncelleyebilir, silebilir, görüntüleyebilir, listeleyebilir, sorgulayabilir, aktifleştirebilir, pasifleştirebilir.”
Kullanılan Şablon: ID: [Benzersiz Kimlik Numarası] Adı: [İşlem Adı] Kapsam: [İşlem açıklaması] Aktörler: [Kim bu işlemi gerçekleştiriyor?] Ön Koşullar: [İşlem için gerekli önceden yerine getirilmesi gereken koşullar] Sonraki Durum: [İşlem sonrası sistemdeki durum] Ana Akış: 1. [Adım 1] 2. [Adım 2] … Alternatif Akış: [Alternatif Senaryo: Hata durumu vs.] Başarı Kriterleri: [Başarı için gereken şartlar]
Bu testin gerçekleştirilme amacı; yapay zekâ modelleri, gereksinim mühendisliğinde kullanım durumlarının verimli bir şekilde hazırlanması süreçlerinde “Ne kadar etkili kullanılabilir?” sorusunun cevabını aramaktır. Her bir eylem için manuel olarak hazırlanan başarılı sonuçlar yapay zekâ modellerinin çıktıları ile karşılaştırılarak en başarılı yapay zekâ modeli tespit edilmeye çalışılmıştır.
Bu çalışmada belirlenen temel hedefler şunlardır:
- Şablona Uyumluluk: Yapay zekâya sunulan şablon doğrultusunda her bir gereksinim için eksiksiz kullanım durumu üretilip üretilmediğini incelemek.
- Doğru içerik: Şablonda sunulan isterlerin anlamlı ve doğru bir içerik ile sunulup sunulmadığını incelemek.
- Karşılaştırma: 5 farklı yapay zekâ modelinden en başarılı senaryoya hangisinin ulaştığını tespit etmek.
- Eksiklikleri Tespit Etme: Yapay Zekâ Modellerinin hangi hususlarda yetersiz kaldığını incelemek.
- Kullanılabilirlik: Gereksinim mühendisliği süreçlerinde eksiksiz ve doğru kullanım durumu hazırlanmasında yapay zekâ modüllerinden hangi ölçüde faydalanılacağı hususunun uygulamalı analizini yapmak.
Tablo 5. Test Sonuçları ve Analizler
| Gereksinim | Chat GPT | Google Gemini | DeepSeekAl | Mistral Al | Anthropic Claude |
|---|---|---|---|---|---|
| 1. Kullanıcı Sipariş Kaydı Ekleme | ✘ | ✘ | ✘ | ✘ | (Oluşturmamıştır) |
| 2. Kullanıcı Sipariş Kaydını Güncelleme | ✔ | ✘ | ✘ | ✘ | ✘ |
| 3. Kullanıcı Sipariş Kaydını Silme | ✔ | ✘ | ✘ | ✘ | ✘ |
| 4. Kullanıcı Sipariş Kaydını Görüntüleme | ✔ | ✘ | ✘ | ✘ | ✘ |
| 5. Kullanıcı Sipariş Kaydını Listeleme | ✔ | ✘ | ✘ | ✘ | ✘ |
| 6. Kullanıcı Sipariş Kaydını Sorgulama | ✔ | ✘ | ✘ | ✘ | ✘ |
| 7. Kullanıcı Sipariş Kaydını Aktifleştirme | ✘ | ✔ | ✘ | ✘ | ✘ |
| 8. Kullanıcı Sipariş Kaydını Pasifleştirme | ✘ | ✔ | ✘ | ✔ | ✘ |
Dikkat Edilmesi Gereken Hususlar
Tablo 5‘te görüldüğü üzere genel olarak ChatGPT en başarılı sonuçları sunmuştur. Buna rağmen bu modelde bile küçük eksiklikler tespit edilebilmektedir. Dolayısıyla gereksinim mühendisliğine ilişkin kullanım durumu hazırlama süreçlerinde insan kontrolünün mutlaka son bir dokunuş olarak yapılması gerektiği unutulmamalıdır.
Dil Kullanım Testi
Bu test aşamasında ise, yapay zekâların gereksinim mühendisliği süreçlerinde dil kullanımına etkisini değerlendirmek amacıyla bir dizi test gerçekleştirilmiştir. Spesifik olarak, farklı ifadelerle tanımlanan aynı gereksinimlerin, yapay zekâ modelleri tarafından nasıl yorumlandığı ve işlenerek Use Case (Kullanım Durumu) çıktısı üretildiği analiz edilmiştir. Test sürecinde Tablo 6 ‘da yer alan 10 farklı gereksinim için 3 farklı ifade oluşturulmuş ve bu ifadeler doğrultusunda Use Case şablonlarına uygun çıktılar üretilmesi beklenmiştir.
Yapay zekâ modellerine şu talimat verilmiştir:
“Sunulan gereksinim maddelerine dayalı olarak, her bir madde için ayrı bir Kullanım Durumu (Use Case) dokümanı oluşturulması talep edilmektedir. Her gereksinim maddesi için, sunulan şablona uygun olarak ayrı bir Kullanım Durumu dokümanı oluşturulması ve bu dokümanların, ‘Gereksinim 1’ gibi başlıklar altında toplanması beklenmektedir. Örneğin, ‘Gereksinim 1’ başlığı altında en az üç Kullanım Durumu dokümanı oluşturulmalıdır.”
Kullanım Durumu Şablonu: ID: Kullanıcı İşlem Numarası Adı: Use Case’in kısa tanımı Kapsam: Uygulama alanı Ön Koşullar: Kullanıcının yapmadan önce yapması gerekenler Sonraki Durum: Kullanıcı işlemi başarıyla tamamladıktan sonra sistemdeki son durum Ana Akış: Kullanıcı tarafından gerçekleştirilecek ana adımlar Alternatif Akış: Ana akışta herhangi bir sorun olduğunda yapılacaklar Başarı Kriterleri: Use Case’in başarılı olması için gereken koşullar
Bu testin gerçekleştirilme amacı, yapay zekâların gereksinim mühendisliği süreçlerinde ne kadar etkili kullanılabileceğini anlamaktır. Özellikle aşağıdaki sorulara yanıt bulmak hedeflenmiştir:
- Farklı ifadelerle tanımlanan aynı gereksinimi yapay zekâlar doğru şekilde anlayabiliyor mu?
- Yapay zekâlar, verilen format doğrultusunda tutarlı ve hatasız Use Case’ler üretebiliyor mu?
- Hangi yapay zekâ modeli dil işleme konusunda en yüksek başarıyı gösteriyor?
- Hangi modeller eksik veya hatalı sonuçlar üretiyor?
- Yapay zekâların ürettiği çıktılar güvenilir mi ve insan kontrolü gerektiriyor mu?
Tablo 6‘da yer alan test sonuçları, yapay zekâların gereksinim mühendisliği süreçlerine nasıl entegre edilebileceği konusunda önemli veriler sunacaktır. Bu çalışmada belirlenen temel hedefler şunlardır:
- Yapay Zekâ Modellerinin Karşılaştırılması:
- Farklı modellerin aynı gereksinim karşısında nasıl çıktılar ürettiğini incelemek.
- Dil Kullanımı ve Anlam Bütünlüğünü Değerlendirme:
- Aynı gereksinimin 3 farklı ifadeyle sunulması durumunda yapay zekâların nasıl tepki verdiğini görmek.
- Hangi modelin en iyi dil anlama ve kullanma yeteneğine sahip olduğunu belirlemek.
- Format Uyumluluğunu Ölçme:
- Üretilen Use Case çıktılarının belirlenen şablona ne derece uyduğunu görmek.
- Hangi modellerin şablona en uygun çıktıları verdiğini değerlendirmek.
- Eksiklikleri ve Hataları Belirleme:
- Yapay zekâların verdiği cevaplarda en sık görülen hataları tespit etmek.
- Bu hataların sistematik olup olmadığını analiz etmek.
- Pratik Kullanım Açısından Değerlendirme:
- Gereksinim mühendisleri için yapay zekâların ne kadar güvenilir olduğu konusunda bir öngörü oluşturmak.
Tablo 6. Test Sonuçları ve Analizler
| Gereksinim No | ChatGPT | Gemini | DeepSeek | Mistral Al | Anthropic Claude |
|---|---|---|---|---|---|
| 1. Kullanıcı Bilgilerinin Kaydedilmesi | ✔ Başarılı | ✔ Başarılı | ✘ Hata | ✘ Zayıf | ✘ Hata |
| 2. Veri tabanı Yedekleme | ▲ Eksik | ✔ Başarılı | ✔ Zayıf | ✘ Zayıf | ✘ Yanıt Yok |
| 3. Yetki Yönetimi | ✘ Hata | ✔ Başarılı | ✘ Hata | ✘ Fazla İş Tanımı | ✘ Yanıt Yok |
| 4. Veri Girişi Kontrolü | ✔ Başarılı | ▲ Eksik | ✘ Hata | ▲ Eksik | ✘ Yanıt Yok |
| 5. Raporlama Özelliği | ✔ Başarılı | ✔ Başarılı | ▲ Eksik | ▲ Eksik | ✘ Yanıt Yok |
| 6. Zaman Damgası | ✔ Başarılı | ✔ Çok İyi | ✘ Yanıt Yok | ▲ Eksik | ✘ Yanıt Yok |
| 7. Kullanıcı Arayüzü (UI) | ✘ Hata | ✔ Başarılı | ✘ Yanıt Yok | ▲ Eksik | ✘ Yanıt Yok |
| 8. Performans İzleme | ✔ Çok İyi | ✔ Zayıf | ✘ Yanıt Yok | ▲ Eksik | ✘ Yanıt Yok |
| 9. Bildirim Sistemi | ✔ En İyi | ✔ Zayıf | ✘ Yanıt Yok | ▲ Eksik | ✘ Yanıt Yok |
| 10. Şifre Politikası | ✔ En İyi | ▲ Eksik | ✘ Yanıt Yok | ▲ Eksik | ✘ Yanıt Yok |
Dikkat Edilmesi Gereken Hususlar
Tablo 6‘da gösterilen sonuca göre yapay zekâ modelinin eksiklikleri ve insan kontrolü gerektiren noktaları aşağıda detaylandırılmıştır:
- ChatGPT: En başarılı model olarak belirlenmiştir, ancak bazı gereksinimlerde küçük eksiklikler içermektedir. İnsan Kontrolü Gereken Noktalar:
- Bazen fazladan detay ekleyebilir, bu detayların doğruluğu kontrol edilmelidir.
- Özellikle aktör belirleme konusunda hatalar yapabilir, aktörlerin gereksinimle uygun olup olmadığı gözden geçirilmelidir.
- Bazı gereksinimlerde alternatif akışları eksik bırakabilir, bu akışların tamamlanması için insan mühendisin gözden geçirmesi gerekir.
- Google Gemini: Genel olarak başarılıdır, ancak bazı gereksinimlerde eksik detaylar bulunmaktadır. İnsan Kontrolü Gereken Noktalar:
- Kullanıcı aksiyonlarını tariflerken eksiklikler olabilir.
- Başarı kriterlerini bazen genel ifadelerle geçiştirebilir, daha spesifik hale getirilmelidir.
- Performans izleme ve bildirim sistemi gibi konularda ayrıntıları yetersiz bırakabilir, tamamlayıcı eklemeler yapılmalıdır.
- DeepSeek: Bazı gereksinimler için yanıt verememiştir. İnsan Kontrolü Gereken Noktalar:
- Aktör belirleme konusunda hata yapmaktadır.
- Başarı kriterlerini zayıf belirlediği için insan mühendisin bunları tamamlaması gereklidir.
- Yanıt vermediği gereksinimlerde alternatif çözümler üretilmelidir.
- Mistral Al: Genellikle eksik veya hatalı çıktı üretmiştir. İnsan Kontrolü Gereken Noktalar:
- Anlam bütünlüğü eksik olabilir, üretilen metinlerin anlam açısından doğrulanması gerekir.
- Veri kuralları ve akışları eksik olabilir, tamamlayıcı bilgiler eklenmelidir.
- Fazla iş tanımladığı bazı gereksinimlerde gereksiz ayrıntılar çıkarılmalıdır.
- Anthropic Claude: Sadece bir gereksinime yanıt vermiş, diğerlerine hiç cevap üretmemiştir. İnsan Kontrolü Gereken Noktalar:
- Bu model pratik kullanım için güvenilir değildir.
- Alternatif yapay zekâ çözümlerine yönelmek daha mantıklıdır.
Sonuç ve Öneriler
Yapılan testler sonucunda, yapay zekâ modellerinin iş analizi ve gereksinim mühendisliği süreçlerinde destekleyici araçlar olarak kullanılabileceği, ancak insan denetiminin vazgeçilmez bir gereklilik olduğu belirlenmiştir. ChatGPT, netlik ve açıklık açısından en başarılı model olarak öne çıkarken; Google Gemini analitik gücüyle dikkat çekmiş, ancak zaman zaman yüzeysel kalmıştır. DeepSeek, Mistral Al ve Claude ise bazı teknik güçlü yönlerine rağmen bağlamı anlama ve doğrulama süreçlerinde yetersiz kalmıştır.
Al modellerinin verdiği cevaplar genellikle doğru olmakla birlikte, detay seviyesi ve ifade biçimi kullanıcı ihtiyacına göre farklılık göstermektedir. Bazı durumlarda sade cevaplar yeterli olurken, karmaşık senaryolarda detaylı açıklamalar ve çözüm önerileri daha faydalı olmaktadır. Özellikle çelişkili veya yetersiz bilgi içeren gereksinimlerde, Al modellerinin sorunu tespit edip çözüm üretme kabiliyeti değerli bir katkı sağlayabilir.
Ancak, hiçbir yapay zekâ modelinin çıktıları doğrudan uygulanmamalı; her zaman yetkili bir uzman tarafından gözden geçirilmeli ve doğrulanmalıdır. Bu nedenle, özellikle ChatGPT ve Gemini gibi modellerin gereksinim mühendisliği süreçlerinde destek aracı olarak kullanılması önerilmekte, ancak insan kontrolünün süreç boyunca sürdürülmesi gerektiği vurgulanmaktadır.
Yazımızın teknik gözden geçirmesi için Çağatay YAMAK’a, editör desteği için ise Kübra ERTÜRK’e teşekkür ederiz.
Kaynakça
[1] OpenAl, “ChatGPT: Optimizing Language Models for Dialogue,” [Çevrimiçi]. Kullanılabilir: https://openai.com/chatgpt. (Erişim Zamanı: Mayıs, 30, 2025).
[2] Google DeepMind, “Gemini: Multimodal Al Models,” [Çevrimiçi]. Kullanılabilir: https://deepmind.google/technologies/gemini. (Erişim Zamanı: Mayıs, 30, 2025).
[3] DeepSeek Al, “DeepSeek Al: Language and Code Intelligence,” [Çevrimiçi]. Kullanılabilir: https://deepseek.com. (Erişim Zamanı: Mayıs, 30, 2025).
[4] Mistral AI, “Mistral: Open-Weight Language Models,” [Çevrimiçi]. Kullanılabilir: https://mistral.ai. (Erişim Zamanı: Mayıs, 30, 2025).
[5] Anthropic, “Claude Al by Anthropic,” [Çevrimiçi]. Kullanılabilir: https://www.anthropic.com/index/introducing-claude. (Erişim Zamanı: Mayıs, 30, 2025).