421 lines
31 KiB
Plaintext
421 lines
31 KiB
Plaintext
{
|
||
"cells": [
|
||
{
|
||
"cell_type": "markdown",
|
||
"source": [
|
||
"# Konum Ölçüleri\n",
|
||
"Konum ölçüleri, analiste verinin merkezinin veya başka nir konumun bulunduğu yerin nicel değerini elde etmeye yarar."
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 10,
|
||
"metadata": {
|
||
"collapsed": true
|
||
},
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"[10, 13, 14, 15, 17, 19, 20, 22, 24, 35, 39, 40, 43, 53, 53, 54, 55, 78, 81, 82, 82, 83, 86, 87, 90, 92, 94, 96, 99, 99]\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"import random\n",
|
||
"import datetime\n",
|
||
"\n",
|
||
"sd = datetime.datetime.timestamp(datetime.datetime.now()) * 1000\n",
|
||
"random.seed(sd)\n",
|
||
"\n",
|
||
"veri = [random.randint(10, 100) for _ in range(30)]\n",
|
||
"veri.sort()\n",
|
||
"\n",
|
||
"print(veri)"
|
||
]
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 11,
|
||
"outputs": [],
|
||
"source": [
|
||
"veri = [10, 14, 14, 17, 21, 21, 24, 27, 28, 30, 33, 35, 38, 41, 41, 42, 49, 51, 53, 54, 54, 60, 62, 71, 74, 76, 77, 77,\n",
|
||
" 79, 87]"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 12,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "45.333333333333336"
|
||
},
|
||
"execution_count": 12,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Ortalama\n",
|
||
"import statistics\n",
|
||
"\n",
|
||
"statistics.mean(veri)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 13,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "41.5"
|
||
},
|
||
"execution_count": 13,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Medyan\n",
|
||
"# Örneklemin merkezi eğilimini aşırı (aykurı) değerlerden etkilenmeyecek şekilde yansıtmaktır.\n",
|
||
"# Öncelikle küçükten, büyüğe sıralama\n",
|
||
"# n tek ise -> ortadaki gözlem\n",
|
||
"# n çit ise -> ortadaki iki gözlemin aritmatik ırtalması\n",
|
||
"\n",
|
||
"statistics.median(veri)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 14,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "[14, 21, 41, 54, 77]"
|
||
},
|
||
"execution_count": 14,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Mod: tepe noktası. En çok tekrarlayan değer\n",
|
||
"statistics.multimode(veri)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 15,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "[26.25, 41.5, 64.25]"
|
||
},
|
||
"execution_count": 15,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Çeyrekler / Kartiller / Quartiles\n",
|
||
"# Q1: en küçük %25 i ayıran değer = .25 * (n+1) inci değer\n",
|
||
"# Q2: en küçük %50 yi ayıran değer = medyan = .50 * (n+1)\n",
|
||
"# Q3: en küçük %75 i ayıran değer = .75 * (n + 1)\n",
|
||
"\n",
|
||
"# Nasıl hesaplıyoruz\n",
|
||
"# örneğin veride 12 rakam var\n",
|
||
"# bu durumda .25 * (12 + 1) = 3.25 inci değeri bulmalız\n",
|
||
"# varsayalım 3. değer : 65, 4. değer ise 67 olsun\n",
|
||
"# Q1 = 65 + .25 * (67-65) = 65.5 olacaktır\n",
|
||
"\n",
|
||
"statistics.quantiles(veri)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"source": [
|
||
"Bir örneklemin beş sayılı özeti\n",
|
||
"* min\n",
|
||
"* Q1\n",
|
||
"* Q2\n",
|
||
"* Q3\n",
|
||
"* max"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 52,
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Ortalama: 73.17 :: Medyan 73.5 :: 5 Sayılı Özet: 60 65.5 73.5 81.5 85\n",
|
||
"Ortalama: 144.46 :: Medyan 75 :: 5 Sayılı Özet: 60 66.0 75.0 83.0 1000\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"veriSeti = [60, 63, 65, 67, 70, 72, 75, 75, 80, 82, 84, 85]\n",
|
||
"\n",
|
||
"qs = statistics.quantiles(veriSeti)\n",
|
||
"med = statistics.median(veriSeti)\n",
|
||
"print(\"Ortalama: \", round(statistics.mean(veriSeti), 2),\n",
|
||
" \" :: Medyan\", med,\n",
|
||
" \" :: 5 Sayılı Özet:\", veriSeti[0], qs[0], qs[1], qs[2], veriSeti[-1])\n",
|
||
"\n",
|
||
"# Veriye extrem bir değer / aykırı bir gözlem ekleyelim\n",
|
||
"veriSetiExtrem = [60, 63, 65, 67, 70, 72, 75, 75, 80, 82, 84, 85, 1000]\n",
|
||
"qs = statistics.quantiles(veriSetiExtrem)\n",
|
||
"med = statistics.median(veriSetiExtrem)\n",
|
||
"print(\"Ortalama: \", round(statistics.mean(veriSetiExtrem), 2),\n",
|
||
" \" :: Medyan\", med,\n",
|
||
" \" :: 5 Sayılı Özet:\", veriSetiExtrem[0], qs[0], qs[1], qs[2], veriSetiExtrem[-1])"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 45,
|
||
"outputs": [],
|
||
"source": [
|
||
"# standard numpy and matplotlib library imports\n",
|
||
"import numpy as np\n",
|
||
"import matplotlib.pyplot as plt\n",
|
||
"\n",
|
||
"def dotplot(input_x, **args):\n",
|
||
" # Count how many times does each value occur\n",
|
||
" unique_values, counts = np.unique(input_x, return_counts=True)\n",
|
||
"\n",
|
||
" # Convert 1D input into 2D array\n",
|
||
" scatter_x = [] # x values\n",
|
||
" scatter_y = [] # corresponding y values\n",
|
||
" for idx, value in enumerate(unique_values):\n",
|
||
" for counter in range(1, counts[idx]+1):\n",
|
||
" scatter_x.append(value)\n",
|
||
" scatter_y.append(counter)\n",
|
||
"\n",
|
||
" # draw dot plot using scatter()\n",
|
||
" plt.scatter(scatter_x, scatter_y, **args)\n",
|
||
"\n",
|
||
" # Optional - show all unique values on x-axis.\n",
|
||
" # Matplotlib might hide some of them\n",
|
||
" plt.gca().set_xticks(unique_values)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 30,
|
||
"outputs": [
|
||
{
|
||
"name": "stdout",
|
||
"output_type": "stream",
|
||
"text": [
|
||
"Nitrojen Yok Ortalama, Mod, Medyan 0.399 0.4 0.43\n",
|
||
"Nitrojen Var Ortalama, Mod, Medyan 0.565 0.505 0.26\n"
|
||
]
|
||
}
|
||
],
|
||
"source": [
|
||
"nitrojen_yok = [.32, .53, .28, .37, .47, .43, .36, .42, .38, .43]\n",
|
||
"nitrojen_var = [.26, .43, .47, .49, .52, .75, .79, .86, .62, .46]\n",
|
||
"\n",
|
||
"print(\"Nitrojen Yok Ortalama, Mod, Medyan\", statistics.mean(nitrojen_yok), statistics.median(nitrojen_yok), statistics.mode(nitrojen_yok))\n",
|
||
"print(\"Nitrojen Var Ortalama, Mod, Medyan\", statistics.mean(nitrojen_var), statistics.median(nitrojen_var), statistics.mode(nitrojen_var))"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"source": [
|
||
"Her iki veri setinin de mod, medyan ve ortalama değerleri çok benzer. Bir de görsel olarak bakalım"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 50,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "<Figure size 640x480 with 1 Axes>",
|
||
"image/png": ""
|
||
},
|
||
"metadata": {},
|
||
"output_type": "display_data"
|
||
}
|
||
],
|
||
"source": [
|
||
"dotplot(input_x=nitrojen_yok)\n",
|
||
"dotplot(input_x=nitrojen_var)\n",
|
||
"\n",
|
||
"# Grafikten görüldüğü üzere, nitrojen_var veri setinin değişkenliği nitrojen_yok'tan çok daha fazla."
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "markdown",
|
||
"source": [
|
||
"# Değişkenlik Ölçüleri (Measures Of Variation)\n",
|
||
"\n",
|
||
"Örneklem değişkenliği veri analizinde önemli bir rol oynar.\n",
|
||
"\n",
|
||
"Küçük veri analizi problemlerinde bile, belirli bir istatistiksel yöntemin başarısı, örneklemdeki gözlemler arasındaki değişkenliğin büyüklüğüne bağlı olabilir. Bir örneklemdeki konum ölçüleri, bir veri kümesinin uygun bir özetini sağlamayabilir. Örneğin, bir önceki örnekte, örneklem değişkenliğini hesaba katmadan azot kullanımının büyümeyi arttırdığı sonucuna varamayız.\n",
|
||
"\n",
|
||
"Pek çok konum ölçüsü olduğu gibi birçok değişkenlik (veya yayılım, saçılım, dağılım) ölçüsü de vardır.\n"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 53,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "25"
|
||
},
|
||
"execution_count": 53,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Açıklık (Range)\n",
|
||
"tmpData = np.array(veriSeti)\n",
|
||
"tmpData.max() - tmpData.min()"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 54,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "8.0"
|
||
},
|
||
"execution_count": 54,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# IQR : Interquartile Range\n",
|
||
"# IQR, verilerin orta %50’sindeki yayılımı ölçer\n",
|
||
"qs = statistics.quantiles(veriSeti)\n",
|
||
"qs[2] - qs[0]"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 56,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "20.3"
|
||
},
|
||
"execution_count": 56,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Varyans\n",
|
||
"# s2 ile gösterilen örneklem varyansı, her gözlem ile örneklem ortalaması (x̄) arasındaki\n",
|
||
"# farkların karelerinin toplamının örneklem büyüklüğünün bir eksiğine bölünmesiyle elde\n",
|
||
"# n-1 --> degree of freedom\n",
|
||
"\n",
|
||
"statistics.variance([3,0,-2,-1,5,10])"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
},
|
||
{
|
||
"cell_type": "code",
|
||
"execution_count": 58,
|
||
"outputs": [
|
||
{
|
||
"data": {
|
||
"text/plain": "4.51"
|
||
},
|
||
"execution_count": 58,
|
||
"metadata": {},
|
||
"output_type": "execute_result"
|
||
}
|
||
],
|
||
"source": [
|
||
"# Standart sapma\n",
|
||
"# s = sqrt(s2)\n",
|
||
"\n",
|
||
"round(statistics.stdev([3,0,-2,-1,5,10]), 2)"
|
||
],
|
||
"metadata": {
|
||
"collapsed": false
|
||
}
|
||
}
|
||
],
|
||
"metadata": {
|
||
"kernelspec": {
|
||
"display_name": "Python 3",
|
||
"language": "python",
|
||
"name": "python3"
|
||
},
|
||
"language_info": {
|
||
"codemirror_mode": {
|
||
"name": "ipython",
|
||
"version": 2
|
||
},
|
||
"file_extension": ".py",
|
||
"mimetype": "text/x-python",
|
||
"name": "python",
|
||
"nbconvert_exporter": "python",
|
||
"pygments_lexer": "ipython2",
|
||
"version": "2.7.6"
|
||
}
|
||
},
|
||
"nbformat": 4,
|
||
"nbformat_minor": 0
|
||
}
|