Cumartesi, Şubat 24, 2024
Ana SayfaMakine ÖğrenmesiVeri Bilimcilerinin İstatistiği İyi Öğrenmesi İçin 3 Neden

Veri Bilimcilerinin İstatistiği İyi Öğrenmesi İçin 3 Neden

Veri bilimi disiplinler arası bir alandır. Gelişen bir kariyere sahip olmak için bir veri bilimcisi, alanın her yapı taşını kapsayan kapsamlı bir dizi beceri edinmelidir.

Yapı taşlarından biri istatistiktir. Hatta bazıları makine öğrenimini yüceltilmiş istatistik olarak adlandırıyor. Bu argüman doğru değildir ancak makine öğrenimi ve istatistik yakından ilişkilidir.

Veri biliminin amacı, verilerden değer yaratmaktır. Bu amaca ulaşmanın ilk şartı, verileri çok iyi anlamaktır. İstatistik, verileri anlamak, yorumlamak, değerlendirmek için en etkili araç olarak kabul edilebilir.

Bu yazıda, bir veri bilimcisinin istatistiksel kavramları kapsamlı bir şekilde anlaması için 3 ana nedeni ele alacağız.

 

Neye Sahip Olduğunu Bilmek

Başarılı bir ürün, verileri anlamakla başlar. Ham verileri bir modele döküp anlamlı sonuçlar yaratmasını bekleyemeyiz. Tipik bir iş akışında önemli miktarda zaman, verileri anlamak için harcanır.

İstatistikler, nicel ölçümlerde elimizdekileri tanımlamamıza yardımcı olur. Büyük miktarda veriye göz atmak yerine, onu mantıklı bir şekilde açıklamak için birkaç önlem kullanabiliriz.

Bir basketbol oyuncusunun üç sayılık atış verilerine sahip olduğumuzu düşünün. Veriler, sepete olan mesafeyi ve şut sonucunu içerir. Sadece ham değerlere bakarak bu tür verileri yönetmek zordur.

Aşağıdaki bilgi parçalarını kullanarak bu verileri basitleştirebiliriz:

  • Şutlarla atılan ortalama puan sayısı
  • Potaya olan mesafenin standart sapması

Sadece iki basit ölçümle, şutların ve oyuncunun performansının bilgilendirici bir özetine sahibiz. Bu ölçümleri farklı oyuncuların performansını karşılaştırmak için de kullanabiliriz.

Bu nicel ölçüler, verileri tanımlamak için kullanıldığından betimleyici istatistiklerin bir parçasıdır. Tanımlayıcı istatistikler ortalama ve standart sapma ile sınırlı değildir.

Ortalama, medyan ve mod verilerin dağılımına genel bir bakış sağlar. Bunlara merkezi eğilim ölçüleri de denir. Standart sapma, bireysel değerlerin ne kadar yayıldığını açıklamaya çalışır.

Bir değişkenin dağılımı (örn. normal dağılım, binom dağılımı) betimsel istatistiklerde de çok önemli bir kavramdır. Örneğin normal dağılım durumunda sadece ortalama ve standart sapma ile veriler hakkında çok şey öğrenebiliriz.

Sahip Olduklarının Ötesine Geçmek

İstatistikler, sadece sahip olduklarımızı anlamamıza yardımcı olmakla kalmaz, aynı zamanda onun ötesine geçmemizi de sağlar. Sınırlı bir veri kapsamı (yani örnek) kullanarak tüm kapsam (yani popülasyon) hakkında anlamlı sonuçlar çıkarmak için istatistikleri kullanabiliriz.

İstatistiklerin bu kısmı çıkarımsal istatistikler olarak da bilinir. Eldeki verilerle ilgili bulgularımızın kapsamını genişletmeye izin verir. Genellikle tüm kapsam için verilere sahip olmadığımız için çok önemlidir.

Bir zincir mağazada çalıştığınızı düşünün ve size iki farklı ülkedeki mağazaların satış modellerini analiz etme ve karşılaştırma görevi verildi. Kapsamın tamamı, mağazaların bulunduğu dönemdeki satış verileri olacaktır. Ancak, bu kadar büyük miktarda veri toplamak ve bunlarla çalışmak yönetilebilir veya uygun maliyetli değildir.

Bunun yerine, her iki gruptan da örnekler alırsınız. Örnek verileri analiz edebilir ve mağazaları karşılaştırabilirsiniz. Çıkarımsal istatistikler, numune sonuçlarının tüm kapsam için geçerli olup olmadığını bize söyler.

Hipotez testi, p değeri, istatistiksel anlamlılık ve z puanı, çıkarımsal istatistikte kullanılan terim ve kavramlardan bazılarıdır. Bir veri bilimcisi, bu kavramları kapsamlı bir şekilde anlamalı ve bunları uygulayabilmelidir.

Çıkarımsal istatistiklerle, küçük bir veri kapsamındaki bulgularımıza dayanarak bir popülasyon hakkında sonuçlara ulaşabiliriz. Tüm popülasyon yerine örnek verilerle çalışacağımız için son derece önemlidir.

Makine Öğrenimi Yalnızca Bir Algoritmayı İçe Aktarmakla İlgili Değildir

Makine öğrenimi, veri biliminin bir parçasıdır. Verilerden öğrenmek için kullandığımız birkaç makine öğrenme algoritması vardır.

Denetimli öğrenme durumunda, bilinen verilerle bir algoritma eğitir ve yeni gözlemler üzerinde tahminler yapmasını bekleriz. Denetimsiz öğrenme algoritmaları, verilerdeki temel yapı veya gözlemler arasındaki ilişkiler hakkında fikir verir.

Her iki durumda da güvenilir ve doğru sonuçlar elde etmek için ham verilerin işlenmesi son derece önemlidir. Ham verileri kullanıma hazır bir algoritmaya atıp olağanüstü sonuçlar bekleyemeyiz.

Ham veriler, bir modelin performansını olumsuz yönde etkileyen aykırı değerler içerebilir. Verilerde bazı eksik değerler de olabilir. Özelliklerin bütünlüğünü korumak için dikkatli bir şekilde ele alınmaları gerekir.

Bu işlemleri nasıl yaptığımızın model performansı üzerinde büyük etkisi vardır. Bunları uygun şekilde ele almak için güçlü bir istatistiksel bilgiye sahip olmamız gerekir. Örneğin, aykırı değerleri işaretlemek için istatistiksel teknikler kullanıyoruz. Benzer şekilde eksik bir değer için uygun ikame, istatistik yardımı ile belirlenir.

Bir modelin sonuçlarını değerlendirmek, onu oluşturmak kadar önemlidir. Sadece bir metriğe bakıp değerlendirme sürecini tamamlayamayız.

Modeli geliştirmek için geri bildirim sağlamak için sonuçları değerlendiririz. Örneğin sonuçlardaki yüksek yanlılığı veya yüksek varyansı tespit etmek çok önemlidir. Model, hata kalıplarına göre farklı şekilde ayarlanır veya güncellenir. İstatistikler, değerli ve bilgilendirici bir değerlendirme süreci oluşturmamıza yardımcı olur.

Makine öğrenimi, yalnızca bir algoritmayı içe aktarmak ve kullanmakla ilgili değildir. Verileri uygun şekilde hazırlamamız ve işlememiz gerekiyor. Benzer şekilde, bir modelin çıktısının da dikkatli bir şekilde değerlendirilmesi gerekir. Her iki görev de istatistiksel bilgi gerektirir, bu nedenle veri bilimcileri için sahip olunması gereken bir beceridir.

Veri bilimi disiplinler arası bir alandır. İstatistik, veri bilimcileri için ayrılmaz bir parça ve mutlak bir gerekliliktir. Yeterli düzeyde istatistiksel bilgi olmadan, yalnızca bir araç uzmanı olabiliriz.

RELATED ARTICLES

CEVAP VER

Lütfen yorumunuzu giriniz!
Lütfen isminizi buraya giriniz

Bizi Takip Edin

4,200BeğenenlerBeğen
10,000TakipçilerTakip Et
296TakipçilerTakip Et
1,400AboneAbone Ol

BÜLTENİMİZE ABONE OLUN

Popüler