Yapay Zeka

Yapay Zeka Projeleri Neden Çuvallıyor? Milyon Dolarlık Modeller ve “Veri Çöplüğü” Gerçeği

Yazar :  Çağlar Özenç

Son iki yıldır teknoloji dünyasında nereye baksanız aynı heyecan dalgasını görüyorsunuz. Yönetim kurulu toplantılarında, IT strateji planlarında ve kahve molalarında tek bir gündem var: “Yapay Zeka ile her şeyi çözeceğiz.”

Şirketler devasa bütçeler ayırıyor. En pahalı lisanslar alınıyor, en son model LLM’ler (Büyük Dil Modelleri) sistemlere entegre ediliyor, “Data Scientist” unvanlı parlak zihinler işe alınıyor. Beklenti büyük: Bir sihirli değnek gelecek, verimliliği %500 artıracak ve rakipleri piyasadan silecek.

Ancak projelerin “Canlıya Geçiş” (Go-Live) günü geldiğinde veya ilk pilot çalışmaların sonuçları masaya konduğunda, o coşkulu hava yerini derin bir sessizliğe bırakıyor.

  • “Chatbot müşteriye yanlış bilgi verdi.”
  • “Satış tahmin modeli geçen seneki ciroyu bile tutturamadı.”
  • “AI asistanı, şirket içi gizli belgeleri herkese açık hale getirdi.”

Ve kaçınılmaz cümle kuruluyor: “Yapay zeka bizim sektörde çalışmıyor.”

Hayır. Yapay zeka çalışıyor. Çalışmayan şey, sizin yapay zekaya yaklaşımınız. Çünkü herkes “modelin zekasına” odaklanırken, odadaki fili, yani “verinin kalitesini” görmezden geliyor.

Bugün başarısız olan Yapay Zeka projelerinin %80’i teknoloji eksikliği yüzünden değil, veri yönetimi eksikliği yüzünden duvara tosluyor.

Gelin, bu karmaşık durumu herkesin anlayabileceği o meşhur Formula 1 benzetmesiyle masaya yatıralım.

1. Bölüm: Garajdaki Şampiyon ve Kirli Yakıt

Gözlerinizi kapatın ve şirketinizin bir Formula 1 takımı olduğunu hayal edin.

Garajınızda dünyanın en iyi, en hızlı aracı duruyor. Bu araç, sizin Yapay Zeka Modelinizdir.

  • Motoru kusursuz bir mühendislik harikası (GPT-4, Llama 3, Claude vb.).
  • Aerodinamiği rüzgarı delecek kadar keskin (Son teknoloji algoritmalar).
  • Pilot koltuğunda ise bir dünya şampiyonu oturuyor (Yetenekli veri ekibiniz).

Yarışı kazanmamanız için hiçbir sebep yok. Ancak yarış günü geldiğinde, pit ekibi aracın deposuna; içinde tortu birikmiş, su karışmış, kaç oktan olduğu belli olmayan kirli bir benzin koyuyor.

Ne olur?

Dünyanın en iyi motoru bile o kirli yakıtla çalışamaz. Araba önce tekler. Performansı düşer. Pistonlar vuruntu yapmaya başlar. Ve en sonunda, belki de yarışın en kritik virajında motor alev alır ve yolda kalırsınız.

İş dünyasında yaşanan tam olarak budur.

Şirketler, “Ferrari” motoruna sahip Yapay Zeka modellerini satın alıyorlar. Ancak bu modelleri, yıllardır ihmal ettikleri, tozlu sunucularda birikmiş, standarttan yoksun ve hatalı verilerle beslemeye çalışıyorlar.

Yapay Zeka (AI), sihirli bir kutu değildir. AI, bir “öğrenme makinesidir.” Ona ne verirseniz, onu öğrenir. Eğer ona çöp verirseniz, size çöp üretir. Teknoloji dünyasında altın bir kural vardır

Sisteme çöp girerseniz, çıkan sonuç da çöp olur.

Buna bilgisayar bilimlerinde GIGO denir

2. Bölüm: “Veri Çöplüğü” (Data Swamp) Gerçeği

Birçok yönetici şu yanılgıya düşer: “Bizim çok verimiz var. Yıllardır ERP kullanıyoruz, CRM’de terabaytlarca log var.”

Evet, veriniz var. Ama verinizin olması, onun kullanılabilir olduğu anlamına gelmez. Birçok şirketin veri ambarı (Data Warehouse) veya veri gölü (Data Lake) olarak adlandırdığı yapılar, aslında birer “Veri Çöplüğü”ne (Data Swamp) dönüşmüş durumdadır.

Sahada en sık karşılaştığımız “kirli veri” senaryolarına bakalım:

A. Veri Siloları ve İletişimsizlik

Pazarlama departmanının Excel’inde müşteri “Ahmet Yılmaz” olarak kayıtlıdır. Satış departmanının CRM’inde aynı kişi “A. Yilmaz”dır. Muhasebe yazılımında ise sadece vergi numarası vardır. Yapay Zeka bu üç kaydı gördüğünde, bunları üç farklı kişi sanar. Sonuç? Aynı müşteriye üç farklı kampanya ile gidip markanızı rezil eden “akıllı” bir sistem.

B. Tarihsel Önyargılar ve Güncellik

Bir IK (İnsan Kaynakları) yapay zekası eğittiğinizi düşünün. Veri setinizde son 10 yılın işe alım verileri var. Ancak 5 yıl önce şirket politikanız farklıydı, belki de belirli üniversitelerden mezun olanlara (bilinçsizce de olsa) öncelik veriliyordu. Model bunu bir “başarı kriteri” olarak öğrenir. Bugünün dünyasında, o eski ve önyargılı verilerle karar veren bir AI, sadece hatalı değil, aynı zamanda etik ve yasal olarak başınızı ağrıtacak sonuçlar üretir.

C. Eksik ve Tanımsız Veriler

Veritabanlarınızda “NULL” (boş) alanlar ne anlama geliyor? O veri gerçekten yok mu, yoksa operatör girmeyi mi unuttu? Yoksa o alan artık kullanılmıyor mu? İnsan zekası bu boşlukları bağlamla doldurabilir (“Ahmet Bey girmeyi unutmuştur” der). Ancak Yapay Zeka boşlukları sevmez. O boşlukları yanlış varsayımlarla doldurur ve domino etkisiyle tüm sonucu bozar.

3. Bölüm: Yapay Zeka Yanlış Değil, “Hızlı ve İkna Edici” Yanlıştır

Yapay Zeka projelerinde kirli verinin yarattığı tehlike, eski usul yazılımlardan çok daha büyüktür.

Eski bir raporlama yazılımında veri hatası varsa, rapor boş gelir veya hata kodu verir. Anlarsınız. Ancak Generative AI (Üretken Yapay Zeka) ve LLM’lerde durum farklıdır.

Eğer veriniz eksik veya yanlışsa, Yapay Zeka size “Ben bunu bilmiyorum” demez. Bunun yerine halüsinasyon görür. Eksik parçaları, istatistiksel olarak en olası (ama gerçekte tamamen yanlış) bilgilerle tamamlar.

Daha da kötüsü, bunu inanılmaz bir özgüvenle yapar.

Kirli veriden beslenen bir finansal AI, size batmak üzere olan bir yatırımı “Geleceğin Yıldızı” olarak sunabilir. Gerekçeleri o kadar mantıklı, dili o kadar akıcıdır ki, verinin temelindeki hatayı fark etmeniz imkansız hale gelir.

İşte bu yüzden diyoruz ki: Yapay Zeka bir çarpandır (Multiplier).

  • Veri kaliteniz 10 ise, AI bunu 100 yapar.
  • Veri kaliteniz 0 ise, AI bunu 0 yapar.
  • Veri kaliteniz -5 (hatalı/yanlış) ise, AI bunu -500 yapar. Felaketi ölçeklendirirsiniz.

4. Bölüm: Modeli Bırakın, Temele Bakın

Şirketlerin toplantı odalarında yanlış sorular yankılanıyor:

  • “GPT-4o mu kullanalım, Gemini 1.5 Pro mu?”
  • “Kendi modelimizi mi eğitelim (Fine-tuning), hazır mı alalım?”
  • “Kaç GPU’ya ihtiyacımız var?”

Bunlar, evin temeli atılmadan “Perdeler ne renk olsun?” diye tartışmaya benzer. Sorulması gereken doğru sorular şunlardır:

  1. Veri Envanteri: Elimizdeki verinin kaynağı ne? Hangi veri nerede duruyor? (Data Lineage)
  2. Veri Sahipliği: Bu verinin sahibi kim? Müşteri tablosundaki bir hatadan IT mi sorumlu, yoksa Satış Direktörü mü? (Cevap: İş birimi sorumludur.)
  3. Veri Hijyeni: Verimiz ne kadar temiz? Tekillik (De-duplication) yapıldı mı? Standartları var mı?
  4. Veri Bağlamı: Bu veri, çözmeye çalıştığımız iş problemini gerçekten temsil ediyor mu?

Eğer bu sorulara net cevaplarınız yoksa, dünyanın en pahalı AI modelini de kiralasanız, projeniz başarısızlığa mahkumdur.

5. Bölüm: Başarı İçin Yol Haritası (4 Adım)

Yapay Zeka trenini kaçırmak istemiyorsunuz, biliyorum. Ama trene binmeden önce rayları döşemeniz gerekiyor. İşte AI projelerinden önce, veya paralelinde yürütmeniz gereken Veri Yönetişimi (Data Governance) adımları:

1. Veri Envanteri ve Haritalama

Önce neye sahip olduğunuzu bilin. Karanlık veriyi (Dark Data) aydınlatın. Hangi veri, hangi sistemden çıkıp nereye gidiyor? Bu akışı haritalamadan (Lineage), hatanın kaynağını bulamazsınız.

2. “Tek Gerçek Kaynak” (Single Source of Truth) Oluşturma

Her veri parçası için tek bir doğru kaynak belirleyin. Müşteri cirosu ERP’den mi alınacak, CRM’den mi? Buna karar verin ve diğer tüm sistemleri buna göre hizalayın. AI tek bir gerçeği bilmelidir.

3. Veri Kalitesi Kuralları ve Otomasyon

Veri temizliği bir kerelik bir “bahar temizliği” değildir. Sürekli bir disiplindir. Veri kalitesini bozan girişleri kaynağında engelleyen kurallar (validation rules) koyun. “Tortulu benzini” depoya girmeden filtreleyin.

4. Kültürel Dönüşüm: Veri Sahipliği

Bu en zorudur. IT departmanı verinin “borularından” sorumludur, verinin “içeriğinden” değil. Satış verisinin sahibi Satış Müdürüdür. Üretim verisinin sahibi Fabrika Müdürüdür. AI başarısız olduğunda suçu IT’ye atma kültüründen, verisine sahip çıkma kültürüne geçilmelidir.

Sonuç: Yarışa Hazır mısınız? Yoksa Pitte mi Bekleyeceksiniz?

Teknoloji dünyasında kartlar yeniden dağıtılıyor. Bu oyunda kazananlar; sadece en güçlü yapay zeka modellerine sahip olanlar değil, o modelleri en kaliteli veriyle besleyenler olacak.

Yapay Zeka projeleri bir teknoloji projesi değil, bir iş dönüşüm projesidir. Ve bu dönüşümün yakıtı veridir.

Yönetim kurulunuz size “Ne zaman AI kullanmaya başlayacağız?” diye sorduğunda, onlara teknolojik terimlerle değil, stratejik bir vizyonla cevap verin:

“F1 aracımız garajda hazır. Ama önce depoyu temizlememiz, yakıtı rafine etmemiz gerekiyor. Çünkü biz bu araçla sadece pistte tur atmak değil, şampiyon olmak istiyoruz.”

Neden DMC Bilgi Teknolojileri?

Çünkü Veri Çöplüğü Üzerine Gökdelen İnşa Edilmez.

Biz DMC Bilgi Teknolojileri olarak, sıradan bir IT hizmeti sunmuyoruz. Biz, şirketinizin verisini bir yük olmaktan çıkarıp, Yapay Zeka çağının en değerli yakıtına dönüştüren “Veri Rafinerisini” kuruyoruz.

Microsoft Veri Platformu konusundaki derin uzmanlığımız ve Yönetilen Veritabanı Hizmetlerimizle, verinizi sadece saklamıyor; onu temizliyor, güvenli hale getiriyor ve AI projeleriniz için “yüksek oktanlı” bir güce dönüştürüyoruz.

Milyon dolarlık F1 aracınızı riske atmayın. Gelin, veri altyapınızı bugünden inceleyelim, “kirli yakıt” risklerini tespit edelim ve sizi yarışa gerçekten hazır hale getirelim.

Çağlar ÖZENÇ

Microsoft Data Platform MVP, MCT, Sr. Database Consultant

İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu