31 Temmuz 2012 Salı

Web Mining Coca Cola


Çalışma sonuçları şöyle yorumlanabilir; 

- Son 1 ayda insanların gündemlerinde Coca Cola reklamları yer almaktadır.
- En çok Pepsi ile ilişkilendirilmiştir.
- Kişiler o anda Coca Cola içtiklerinden bahsetmişler ve Ramazan, sofra, iftar, mutluluk gibi kelimeler ile markayı ilişkilendirmişlerdir.
- Alkol, böcek, boya gibi kelimeler son 1 ayda Coca Cola markasını tercih etmeme nedenleri olarak belirtilebilir. Bu olumsuz görüşler muhtemel satış düşüşlerine bağlanabilir. Ayrıca Customer Satisfaction Index değerine doğrudan negatif yönde bir etkide bulunmuştur.

Not : Kendi çalışmamdır.

25 Temmuz 2012 Çarşamba

5 Interesting Free Books for R from beginner to experts

Always new software language in one technical activity is difficult, normally a good documentation can help, these are three book to use R software for beginner and for experts:
·         “Introduction to the R Project for Statistical Computing for Use at the ITC by David Rossiter (PDF, 2010-11-21).
·         “R for Beginners” by Emmanuel Paradis (PDF,10 pages).
·         A Little Book of R for Multivariate Analysis (pdf, 49 pages) is a simple introduction to multivariate analysis using the R statistics software. It covers topics such as reading and plotting multivariate data, principal components analysis, and linear discriminant analysis.
·         A Little Book of R for Biomedical Statistics (pdf, 33 pages) is a simple introduction to biomedical statistics using the R statistics software, with sections on relative risks and odds ratios, dose-response analysis, clinical trial design and meta-analysis.
·         A Little Book of R for Time Series (pdf, 71 pages) is a simple introduction to time series analysis using the R statistics software (have you spotted the pattern yet?). It includes instruction on how to read and plot time series, time series decomposition, forecasting, and ARIMA models.
All books are free to use, share and remix under a Creative Commons license, and are available:
UPDATE: I updated the title, that's only five free books that I think interesting for R, Also there is another one that I forgot  Matlab for R programmer  I used Matlab from university till now (for me is always easier Matlab, but it is not free), both languages are similar but you always need a help (small tips).


Link : http://www.aphysicistinwallstreet.com/2011/11/free-books-for-r.html

23 Temmuz 2012 Pazartesi

Londra Olimpiyatları 100mt Erkekler Finali, R Model

2012 Londra Olimpiyatlarının başlamasına 1 haftadan daha kısa bir süre kaldı. Herhalde herkes benim gibi 100 mt. erkekler finalinin sonucunu merakla bekliyordur.

Olimpiyat tarihinde 100mt’yi ilk defa 10sn’ nin altında koşan atlet Jim Hines’di. 2008 yılında ise Usain Bolt 9.69sn ile kırılması güç bir derece elde etti ve hatta bununla yetinmeyip yeni hedefinin 9.58 olduğunu açıklamıştı. Bakalım istatistiksel olarak bu süre mümkün mü?
Bu uygulamamda R ile olimpiyat derecelerini modellemeye çalışacağım ve bu yılki 100mt erkekler finali için bir tahmin oluşturacağım.


Resimde modeli inceleyebilirsiniz. Bakalım 5 Ağustos'ta neler olacak. 9.68 sn altında koşulabilecek mi?

Modelimiz için öncelikle veriye ihtiyacımız var. http://www.databaseolympics.com/

Ayrıca XML ve drc paketlerini indirmemiz gerekli. Aşağıdaki komut ile bunu yapabiliyorduk.
install.packages()


Console;

library(XML)

library(drc) 

url <- "http://www.databaseolympics.com/sport/sportevent.htm?enum=110&sp=ATH"

data <- readHTMLTable(readLines(url), which=2, header=TRUE)

golddata <- subset(data, Medal %in% "GOLD")

golddata$Year <- as.numeric(as.character(golddata$Year))

golddata$Result <- as.numeric(as.character(golddata$Result))

tail(golddata,10)

logistic <- drm(Result~Year, data=subset(golddata, Year>=1900), fct = L.4())

log.linear <- lm(log(Result)~Year, data=subset(golddata, Year>=1900))  

years <- seq(1896,2012, 4)

predictions <- exp(predict(log.linear, newdata=data.frame(Year=years)))

plot(logistic,  xlim=c(1896,2012),

     ylim=c(9.5,12),

     xlab="Year", main="Olympic 100 metre",

     ylab="Winning time for the 100m men final (s)") 

points(golddata$Year, golddata$Result)

lines(years, predictions, col="red")

points(2012, predictions[length(years)], pch=19, col="red")

text(2012, 9.55, round(predictions[length(years)],2))

Alıntıdırhttp://lamages.blogspot.com/2012/07/london-olympics-and-prediction-for-100m.html

22 Temmuz 2012 Pazar

R Uygulama 2 – Paket kurulumu



Spss kendisini bir program değil de modüller birleşimi olarak tanıtıyor. Aynı şekilde SAS’da bir modüller birleşimi. R de ise bu modül kavramı paketler ile karşımıza geliyor. R geliştiricileri tarafından yazılan bu paketleri indirip ilgili analizleri rahatlıkla yapabiliyoruz. Help(packages name) fonksiyonu ile paketin nasıl kullanacağına dair upuzun açıklama da cabası..! Paket kurulumu ile ilgili detaylı bilgiyi Link1’ den inceleyebilirsiniz. R’ de kullanabileceğimiz paketlerin isme göre sıralanmış biçimi Link2’ de, yayın tarihine göre sıralanmış biçimi Link3’te mevcuttur. Link2 ve Link3’te dosya indirme linki ve paketin hangi işlev için yazıldığı bulunmaktadır.

Uygulama:
RStudio Console bölümüne aşağıdaki kodu olduğu gibi yazıyoruz.
install.packages()
Ülke : UK (London) – 68 (Hangi serverdan indireceğimizi seçiyoruz)

Daha önce Link2’ den işimize yarayacak paketleri bulmuştuk. Karşımıza gelen listeden paket ismini buluyoruz. Şimdilik RODBC paketini yükleyeceğiz.  Link4’ te ne işe yaradığına dair güzel bir açıklama mevcut.


R Uygulama 1 – RStudio

Link1 : http://www.r-project.org/

Bilgisayarımıza önce Link1’ i daha sonra ise Link2’ yi kuruyoruz. Böylece R’ye ilk adımımızı attık. Kurulumlar tamamlandıktan sonra RStudio ile devam edeceğiz. RStudio çalıştırdığımızda ekran 3' e bölünmüş bir şekilde karşımıza geliyor. Console bölümünde kodlarımızı yazacağız. Workspace bölümünde oluşturduğumuz değişkenleri, tabloları görebileceğiz. Diğer bölümde ise yaptığımız analizlerin çıktılarını görüntüleyebileceğiz.
Bir şey dikkatimi çekti R directory mantığı ile çalışıyor. İlgili dizine girmeyince kodlar çalışmıyor. Zaten yeni bir proje oluşturduğumuzda bize Directory ismi girmemizi istiyor. Hangi dizinde olduğumuzu getwd() ile, yeni bir dizine girmek için setwd() komutundan yararlanacağız.

Console bölümüne aşağıdaki komutları yazarak ne işe yaradıkları hakkında detaylı bilgi öğrenebiliyoruz.

> help(getwd)
> help(setwd)

R Giriş

R programlama Türkiye’de popüler olmayan bir yazılım; dolayısı ile Türkçe kaynağa henüz rastlayamadım. Buna rağmen çok fazla sayıda yabancı blog, site, video, makale vb.. mevcut. Şöyle ki R programlamada bir eğitmen olabilecek düzeyde değilim fakat Türkçe kaynak sıkıntısından dolayı yaptığım uygulamaları blogumda paylaşacağım. Uygulamalarım çoğunlukla yabancı kaynak çevirisi olacaktır ve elimden geldiğince kaynak göstermeye özen göstereceğim. 

21 Temmuz 2012 Cumartesi

How Google uses R to make online advertising more effective

Next up was Tim Hesterberg from Google, who talked about how Google determines the effectiveness of display ads for its customers. When a brand-name company places a display (or banner) ad on a popular website like ESPN.com or CNN.com, it can be hard to judge its effectiveness, because a small percentage of visitors will click on a display ad. But that's not to say that a display ad won't affect future purchasing behavior, for example by searching for "HTC" or visiting the HTC website a couple of days after seeing a display ad for an HTC phone. Using observational data from more than 10 million web users, Google compares the search behavior of people who were exposed to the display ad (i.e. those that never visited a web page displaying the ad) to similar users who did see the ad, to figure out how many additional people visit the advertiser's web site as a result of seeing the display ad.
Yazının tamamı 

R (programlama dili)

R nedir? : R, istatistiksel hesaplama ve grafikleri için bir bilgisayar programı. Aynı zamanda bir programlama dili.
Avantajı? : Lisans parası vermekten kurtarır.

R ile temel istatistik işlemlerini çok rahat bir şekilde yapabiliyoruz. Örneğin;
Sayı dizisini frekans serisine çok rahatlıkla bölebilir;
x<-c(2,2,3,2,1,2,1,2,3,4,5,5,6,7,6,3,2,1,2,3,4,5,5,6,6)
table(x)
Ortalamasını alabilir;
mean(x)
Veri setimize İf döngüleri ile şartlar koyup;
if (mean(x)==25) {print("doğru")} else {print("yanlış")}
İleri istatistiksel teknikleri veri setimize rahatlıkla uygulayabiliriz. (PCA, Cluster, Regression, Plot vb..)

Geçtiğimiz hafta http://www.r-project.org/ sitesinden Windows sürümünü bilgisayarıma kurdum. Ayrıca kodlamada kolaylık olsun diye RStudio arayüzünü kullanıyorum. Oldukça kullanışlı tavsiye ederim.