- Denetimli öğrenme ile denetimsiz öğrenme arasındaki fark nedir?
Denetimli öğrenme ve denetimsiz öğrenme, makine öğreniminin iki ana kategorisidir. İkisi arasındaki temel fark, denetimli öğrenmede bir hedef değişken veya tahmin edilecek bilinen bir çıktı vardır, oysa denetimsiz öğrenmede yoktur. Bu nedenle, denetimli öğrenim için verilere etiketli ve denetimsiz öğrenmeye ilişkin verilere etiketlenmemiş denir. Varsayalım ki bir posta kodu, gelir, hane halkı büyüklüğü, parti kaydı ve siz de kişinin son seçimde oy verip vermediğini içeren bir seçmen veri kümesiyle çalışıyorsunuz. Kişinin diğer tüm özelliklerden (veya bazılarından) son seçimde oy kullanıp kullanmadığını tahmin etmek için denetimli bir öğrenme modeli oluşturabilirsiniz. Alternatif olarak, seçmenler hakkında seçmen türüne göre küme oluşturma gibi yeni bilgiler oluşturmak için tüm (veya bazı) özelliklerle denetimsiz bir öğrenme modeli oluşturabilirsiniz.
2. Hipotez testi nedir?
Hipotez testi bir tür istatistiksel çıkarımdır; başka bir deyişle, ilgili popülasyon hakkında bir yargıya varmak için bir örneklem hakkında bilgi almak için bir araçtır. Hipotez testinde, test ettiğiniz hipoteze sıfır hipotezi denir ve çoğu zaman hiçbir şeyin olmadığı fikridir. Harika bir örnek olarak, ABD ceza adalet sistemini verebiliriz: “Suçu kanıtlanana kadar masumdur.” Diğer seçenek alternatif hipotezdir, yani sıfır hipotezinin tersine kişinin suçlu olduğu fikri. Sıfır ve alternatif hipotezler hipotez testinin türüne bağlı olarak çok farklı görünecektir, ancak bir örnek vermek gerekirse, biz sıfır hipotezinin New York’ta yaşayan insanların ortalama yüksekliği ile karşılaştırıldığında Kaliforniya’da yaşayan insanların ortalama yüksekliği hiçbir fark olmadığını söyleyebiliriz. Bu durumda alternatif hipotez, bir fark olduğudur. Her hipotez testi türü biraz farklı görünecektir, ancak sonuç her zaman bir p-değeri veya boş hipotez doğru olsaydı verilerinizi (veya daha aşırı veri) almış olurdu olasılığıdır. Genel olarak, p-değeri için 0.05 eşik kullanılır. Eğer Kaliforniya ve New York’taki ortalama yüksekliklerin karşılaştırılması hipotez testinin sonucu 0,1 p-değeriyse, nüfus yüksekliklerinde bir fark olmadığını varsayarsak, veri alma şansın%10’luk bir olasılık olduğu anlamına gelir. Bu sonuca göre, Kaliforniya ve New York nüfusunun ortalama yüksekliklerinde bir fark olduğu sonucuna varmak için yeterince nadir değildir. Öte yandan, hipotez testinin sonucu 0,02’lik bir p değeri ise, veriyi aşırı veya daha uç olarak elde etmenin yalnızca% 2’si vardır (popülasyon yüksekliğinde hiçbir fark olmadığı varsayılarak), bu nedenle şu sonuca varabiliriz: California ve New York popülasyonlarının ortalama yüksekliklerinde istatistiksel olarak önemli bir fark vardır.
3. Eğitim ve test verilerine sahip olmak neden önemlidir?
Denetimli öğrenme modeli oluşturma ve değerlendirme sürecinde hem veri eğitimi hem de test verilerinin olması önemlidir. Denetimli öğrenmede, ilk büyük fikir bir model kalıplarını öğretmek için bazı verileri kullanmaktır. Model, bu veri kümesine, eğitim verilerine dayanarak bu kalıpları öğrenir. Ancak genel amaç, bilinen bilgiler üzerine en iyi modeli oluşturmak değil; yeni veya görünmeyen verileri alabilecek bir model oluşturmak ve daha önce öğrenilen kalıplara dayalı bir tahmin yapmaktır. Bu yeni veri test verileridir. Kısacası, modelin kalıpları öğrenmek ve oluşturmak için tren verilerine ihtiyacı vardır ve modelin yeni verilerden ne kadar iyi tahminler yaptığını görmek için test verileri gereklidir.
4. Bias ve Varience kavramlarını açıklayınız.
Bias-variance ilişkisi, denetimli öğrenme modellerini oluştururken ve değerlendirirken dikkate alınması gereken bir olgudur. Bias, modelin hedefi tahmin etmede ne kadar kötü olduğunun bir ölçüsüdür. Varience, modelin yeni verilere genellemede ne kadar kötü olduğunun bir ölçüsüdür. Bias-varience ilişkisi, bias düşük olduğunda varience yüksek ve bias yüksek olduğunda varience düşüktür. Bias düşük ve varience yüksek olduğunda, model o kadar iyi bir iş çıkarır ki, setteki veriler bu verilere aşırı uygundur ve yeni veriler geldiğinde probleme iyi yanıt veremez. Spektrumun diğer tarafında, bias yüksek ve varience düşük olduğunda, model hedefi iyi tahmin etmez ve çok genellenebilirdir (yani yetersiz uyum gösterir).
5. Duyarlılık nedir ve bunu nasıl hesaplıyorsunuz?
Duyarlılık, ikili sınıflandırma modelini değerlendirmek için kullanılabilen bir metriktir. Örneğin, birisinin bir dizi özelliğe dayalı kanser olup olmadığını tahmin eden bir modele sahip olduğunuzu varsayalım. Eğer pozitif sınıfı kanser olan biri olarak düşünürsek ve negatif sınıfı kanser olmayan biri olarak değerlendirirsek, o zaman modelimiz birinin kanser olduğunu doğru tahmin etmek gerçek bir pozitiftir ve modelimiz, birinin kanser olmadığını doğru bir şekilde tahmin etmek gerçek bir negatiftir. Model birisinin kanser olduğunu tahmin ederse, ancak kişi kanser değilse, bu false-positive veya Tip I hatasıdır. Model, birinin kanser olmadığını tahmin ederse, ancak kişi kanser ise, bu false-negative veya Tip II hatasıdır. Bu durumda, false-negative çok daha kötüdür, çünkü bu kişi tedavi alamayacaktır. Modeldeki false-negative sayısını en aza indirmek için duyarlılık veya modelin true-positive oranını (bazen “geri çağırma” olarak da adlandırılır) optimize etmek isteriz. Duyarlılık, true-positive değerlerinin tüm pozitiflere oranıdır; alternatif olarak ifade edilen, duyarlılık true-positive ve false-negative toplamına bölünmesiyle elde edilen true-positive değerleridir.. Örneğin, 90 gerçek pozitif vaka ve 10 false-negative vaka olsaydı, 0.9 duyarlılığa sahip olurduk.
Özet olarak veri bilimi mülakatlarına hazırlanırken sadece makine öğrenmesi terminolojisine değil bazı istatistiksel kavramlara da hakim olmamız gerektiği şartını unutmamak gerekir.