16 Aralık 2012 Pazar

Blind Taste Test

#tweetineulker (ÜLKER) WEB MINING

(850 Tweet ,09/12/2012- 16/12/2012)
Bar Plot (word frequency) :

1 hafta boyunca Ülker standına uğrayıp tweet atan tüketiciler en çok Granini ürününü denemişlerdir.
En sık tercih edilen Ülker Granini ürünü aynı zamanda 0,13 Portakal, 0,11 Vişne, Biskrem ve Doğallık ile ilişkilendirilmiştir. (korelasyon)

ulkergranini      denemek    meyvesuyu     portakal      biskremle 
        1.00         0.20           0.20              0.13           0.11 
                       dogal         visne    
                       0.11           0.11


WordCloud :

Dendrogram :


Social Network Analysis :






15 Aralık 2012 Cumartesi

Tuborg Web Mining

Twit tarih aralıkları : 1 Aralık - 10 Aralık 2012

Bar Plot :


Not : Tuborg 0.17 (korelasyon) ile Gold kelimesi ile ilişkilendirilmiş ve 0.11 ile Unfiltered takip etmiştir.
Popüler Twit "MADEM SONUMUZ 'MORG' YAŞASIN KIRMIZI TUBORG"
Text Dendogram :


cluster 1 :  
cluster 2 : gold tuborg 
cluster 3 : efes tuborg 
cluster 4 : tuborg 
cluster 5 : morg tuborg 
cluster 6 : kirmizi tuborg 
cluster 7 : bir tuborg 
cluster 8 : adam bira tuborg 
cluster 9 : malt tuborg 
cluster 10 : bomonti tuborg 




14 Ekim 2012 Pazar

Archetypal Analysis (Marketing Research)

From Spider -Man to Hero

Son zamanlarda ismine sıkça rastlıyorum. Bu yazımda okuduğum makalelerde dikkatimi çeken ayrıntılara değineceğim. Analizin ilk ortaya çıkışı 1994 yılıdır. Cutler ve Breiman Non-lineer EKK tekniğinde karşılaştıkları somut bir probleme çözüm bulmak amacı ile durumu minimize edecek bir algoritma geliştirerek AA'nın temelini oluşturdular. Ayrıca bu algoritma bir kaç regresyon eşitliğini çözümleyerek varyans açıklama oranını maksimize ediyor.
Teknik kendini K-means'e alternatif olarak konumlandırıyor. Aynı işi yapıyorlar fakat AA daha çok "pure types" lar ile ilgileniyor. Makalelerde ön plana çıkan özellik, K-meanste ki durumun ilerleyen dönemlerde geçerliliğini kaybettiği fakat AA ile yapılan segmentasyonun geçerliliğini uzunca bir süre kaybetmediğidir. Zaten analizin teoriği incelendiğinde sadece uçtaki durumlar(extreme value) ile ilgilendiğimizden K-meansteki en büyük sorun olan zaman zaman segmentlerin ayrışmamasının önüne geçiliyor. Gruplar arasındaki fark bir bakışta anlaşılırdır.
Farkı daha iyi anlayabilmeniz açısından yaptığım 3 kümeli bir uygulamanın çıktısını ekliyorum. K1..K3 : K-means cluster A1..A3 : Arc. Analysis

Kaynak : https://docs.google.com/viewer?a=v&q=cache:oJZ-H-YJ2icJ:www.action-research.com/archtype.html+&hl=tr&gl=tr&pid=bl&srcid=ADGEESgpPG3WVCe5dYDpNsYXx_UfMt4d_WI8CYdLtU7k1Oply8eATQ3WtWdcIZVwr4iFHbhJ-1gkAyP1awVuJj3194C5gNTTuG1i0MeMAfG8WWLQroodiQut0nK784wFF0oGFCXnWoNt&sig=AHIEtbRO0n-x4nLzznNlRb4DAKnQiCrs8g

Product test : https://docs.google.com/viewer?a=v&q=cache:VqNhdC0J1zMJ:interval.louisiana.edu/reliable-computing-journal/volume-14/reliable-computing-14-pp-105-116.pdf+&hl=tr&gl=tr&pid=bl&srcid=ADGEESiLHxpmDRlu0hWf4X9aMPruMNciHl5B9UWFdNwjiyjddJ1N0h8j2gKw092sloru6kScpRRB1ZlcI2jWyixzvhSAOPjd2B2oux4_1kH4TwmTOiCPkkUFn0KQPOrqyzRD_jf1bEju&sig=AHIEtbSQBlZXzus1-qtb7L77YcD58cuy9g

Not: Kendi çalışmamdır. İzinsiz paylaşılamaz.

10 Eylül 2012 Pazartesi

“If our product is harmful . . . we’ll stop making it.”



“How to Lie with Statistics”
As late as 1974, a cigarette-company-funded pharmacologist “published an article in Executive Health titled “The Case against Tobacco Is Not Closed: Why Smoking May Not Be ‘Dangerous to Your Health’!”

http://andrewgelman.com/2012/09/cigarettes/#more-15581

2 Eylül 2012 Pazar

Web Mining İş Bankası

Analize giren Twitlerin tarih aralıkları : 26.08.2012  (21:00) ~ 01.09.2012 (17:00)

Twitter'dan elde edilen 800 twit ile text mining yapılmıştır.

- Bankanın yayımlanan son reklam filminde genel bir beğeni kazanarak olumlu algı bıraktığını "Güzel", "Başarılı", "Harika", "Yaratıcı", "Süper".. gibi ifadelerden dolayı rahatlıkla söyleyebiliyoruz.

- Cem Yılmaz'ın, Servet Bey karakterinin önüne geçtiği açıkca görülmektedir. (büyük puntolu kelimeler önem arz etmektedir). Bununla birlikte; Cem Yılmaz yerine, Mehmet Ali Alabora' nın veya başka bir oyuncunun oynaması gerektiğini savunan kişilerin varlığı da kabul edilebilir orandadır.

- Reklamdaki "88 olduk mu?" lafı akıllarda kalıcı olarak, 88 yıllık banka imajı korunmuştur.

-  Cem Yılmaz'ın havada olduğu sahne ve final sahnesi hafızalara yerleşmiştir. (reklaminsonu & cemhavadeyken)

- Reklamın yönetmeni, senaristi, ajansı vb.. merakla irdelenmiştir.

Not: Kendi çalışmamdır. İzinsiz paylaşılamaz.

31 Temmuz 2012 Salı

Web Mining Coca Cola


Çalışma sonuçları şöyle yorumlanabilir; 

- Son 1 ayda insanların gündemlerinde Coca Cola reklamları yer almaktadır.
- En çok Pepsi ile ilişkilendirilmiştir.
- Kişiler o anda Coca Cola içtiklerinden bahsetmişler ve Ramazan, sofra, iftar, mutluluk gibi kelimeler ile markayı ilişkilendirmişlerdir.
- Alkol, böcek, boya gibi kelimeler son 1 ayda Coca Cola markasını tercih etmeme nedenleri olarak belirtilebilir. Bu olumsuz görüşler muhtemel satış düşüşlerine bağlanabilir. Ayrıca Customer Satisfaction Index değerine doğrudan negatif yönde bir etkide bulunmuştur.

Not : Kendi çalışmamdır.

25 Temmuz 2012 Çarşamba

5 Interesting Free Books for R from beginner to experts

Always new software language in one technical activity is difficult, normally a good documentation can help, these are three book to use R software for beginner and for experts:
·         “Introduction to the R Project for Statistical Computing for Use at the ITC by David Rossiter (PDF, 2010-11-21).
·         “R for Beginners” by Emmanuel Paradis (PDF,10 pages).
·         A Little Book of R for Multivariate Analysis (pdf, 49 pages) is a simple introduction to multivariate analysis using the R statistics software. It covers topics such as reading and plotting multivariate data, principal components analysis, and linear discriminant analysis.
·         A Little Book of R for Biomedical Statistics (pdf, 33 pages) is a simple introduction to biomedical statistics using the R statistics software, with sections on relative risks and odds ratios, dose-response analysis, clinical trial design and meta-analysis.
·         A Little Book of R for Time Series (pdf, 71 pages) is a simple introduction to time series analysis using the R statistics software (have you spotted the pattern yet?). It includes instruction on how to read and plot time series, time series decomposition, forecasting, and ARIMA models.
All books are free to use, share and remix under a Creative Commons license, and are available:
UPDATE: I updated the title, that's only five free books that I think interesting for R, Also there is another one that I forgot  Matlab for R programmer  I used Matlab from university till now (for me is always easier Matlab, but it is not free), both languages are similar but you always need a help (small tips).


Link : http://www.aphysicistinwallstreet.com/2011/11/free-books-for-r.html

23 Temmuz 2012 Pazartesi

Londra Olimpiyatları 100mt Erkekler Finali, R Model

2012 Londra Olimpiyatlarının başlamasına 1 haftadan daha kısa bir süre kaldı. Herhalde herkes benim gibi 100 mt. erkekler finalinin sonucunu merakla bekliyordur.

Olimpiyat tarihinde 100mt’yi ilk defa 10sn’ nin altında koşan atlet Jim Hines’di. 2008 yılında ise Usain Bolt 9.69sn ile kırılması güç bir derece elde etti ve hatta bununla yetinmeyip yeni hedefinin 9.58 olduğunu açıklamıştı. Bakalım istatistiksel olarak bu süre mümkün mü?
Bu uygulamamda R ile olimpiyat derecelerini modellemeye çalışacağım ve bu yılki 100mt erkekler finali için bir tahmin oluşturacağım.


Resimde modeli inceleyebilirsiniz. Bakalım 5 Ağustos'ta neler olacak. 9.68 sn altında koşulabilecek mi?

Modelimiz için öncelikle veriye ihtiyacımız var. http://www.databaseolympics.com/

Ayrıca XML ve drc paketlerini indirmemiz gerekli. Aşağıdaki komut ile bunu yapabiliyorduk.
install.packages()


Console;

library(XML)

library(drc) 

url <- "http://www.databaseolympics.com/sport/sportevent.htm?enum=110&sp=ATH"

data <- readHTMLTable(readLines(url), which=2, header=TRUE)

golddata <- subset(data, Medal %in% "GOLD")

golddata$Year <- as.numeric(as.character(golddata$Year))

golddata$Result <- as.numeric(as.character(golddata$Result))

tail(golddata,10)

logistic <- drm(Result~Year, data=subset(golddata, Year>=1900), fct = L.4())

log.linear <- lm(log(Result)~Year, data=subset(golddata, Year>=1900))  

years <- seq(1896,2012, 4)

predictions <- exp(predict(log.linear, newdata=data.frame(Year=years)))

plot(logistic,  xlim=c(1896,2012),

     ylim=c(9.5,12),

     xlab="Year", main="Olympic 100 metre",

     ylab="Winning time for the 100m men final (s)") 

points(golddata$Year, golddata$Result)

lines(years, predictions, col="red")

points(2012, predictions[length(years)], pch=19, col="red")

text(2012, 9.55, round(predictions[length(years)],2))

Alıntıdırhttp://lamages.blogspot.com/2012/07/london-olympics-and-prediction-for-100m.html

22 Temmuz 2012 Pazar

R Uygulama 2 – Paket kurulumu



Spss kendisini bir program değil de modüller birleşimi olarak tanıtıyor. Aynı şekilde SAS’da bir modüller birleşimi. R de ise bu modül kavramı paketler ile karşımıza geliyor. R geliştiricileri tarafından yazılan bu paketleri indirip ilgili analizleri rahatlıkla yapabiliyoruz. Help(packages name) fonksiyonu ile paketin nasıl kullanacağına dair upuzun açıklama da cabası..! Paket kurulumu ile ilgili detaylı bilgiyi Link1’ den inceleyebilirsiniz. R’ de kullanabileceğimiz paketlerin isme göre sıralanmış biçimi Link2’ de, yayın tarihine göre sıralanmış biçimi Link3’te mevcuttur. Link2 ve Link3’te dosya indirme linki ve paketin hangi işlev için yazıldığı bulunmaktadır.

Uygulama:
RStudio Console bölümüne aşağıdaki kodu olduğu gibi yazıyoruz.
install.packages()
Ülke : UK (London) – 68 (Hangi serverdan indireceğimizi seçiyoruz)

Daha önce Link2’ den işimize yarayacak paketleri bulmuştuk. Karşımıza gelen listeden paket ismini buluyoruz. Şimdilik RODBC paketini yükleyeceğiz.  Link4’ te ne işe yaradığına dair güzel bir açıklama mevcut.


R Uygulama 1 – RStudio

Link1 : http://www.r-project.org/

Bilgisayarımıza önce Link1’ i daha sonra ise Link2’ yi kuruyoruz. Böylece R’ye ilk adımımızı attık. Kurulumlar tamamlandıktan sonra RStudio ile devam edeceğiz. RStudio çalıştırdığımızda ekran 3' e bölünmüş bir şekilde karşımıza geliyor. Console bölümünde kodlarımızı yazacağız. Workspace bölümünde oluşturduğumuz değişkenleri, tabloları görebileceğiz. Diğer bölümde ise yaptığımız analizlerin çıktılarını görüntüleyebileceğiz.
Bir şey dikkatimi çekti R directory mantığı ile çalışıyor. İlgili dizine girmeyince kodlar çalışmıyor. Zaten yeni bir proje oluşturduğumuzda bize Directory ismi girmemizi istiyor. Hangi dizinde olduğumuzu getwd() ile, yeni bir dizine girmek için setwd() komutundan yararlanacağız.

Console bölümüne aşağıdaki komutları yazarak ne işe yaradıkları hakkında detaylı bilgi öğrenebiliyoruz.

> help(getwd)
> help(setwd)

R Giriş

R programlama Türkiye’de popüler olmayan bir yazılım; dolayısı ile Türkçe kaynağa henüz rastlayamadım. Buna rağmen çok fazla sayıda yabancı blog, site, video, makale vb.. mevcut. Şöyle ki R programlamada bir eğitmen olabilecek düzeyde değilim fakat Türkçe kaynak sıkıntısından dolayı yaptığım uygulamaları blogumda paylaşacağım. Uygulamalarım çoğunlukla yabancı kaynak çevirisi olacaktır ve elimden geldiğince kaynak göstermeye özen göstereceğim. 

21 Temmuz 2012 Cumartesi

How Google uses R to make online advertising more effective

Next up was Tim Hesterberg from Google, who talked about how Google determines the effectiveness of display ads for its customers. When a brand-name company places a display (or banner) ad on a popular website like ESPN.com or CNN.com, it can be hard to judge its effectiveness, because a small percentage of visitors will click on a display ad. But that's not to say that a display ad won't affect future purchasing behavior, for example by searching for "HTC" or visiting the HTC website a couple of days after seeing a display ad for an HTC phone. Using observational data from more than 10 million web users, Google compares the search behavior of people who were exposed to the display ad (i.e. those that never visited a web page displaying the ad) to similar users who did see the ad, to figure out how many additional people visit the advertiser's web site as a result of seeing the display ad.
Yazının tamamı 

R (programlama dili)

R nedir? : R, istatistiksel hesaplama ve grafikleri için bir bilgisayar programı. Aynı zamanda bir programlama dili.
Avantajı? : Lisans parası vermekten kurtarır.

R ile temel istatistik işlemlerini çok rahat bir şekilde yapabiliyoruz. Örneğin;
Sayı dizisini frekans serisine çok rahatlıkla bölebilir;
x<-c(2,2,3,2,1,2,1,2,3,4,5,5,6,7,6,3,2,1,2,3,4,5,5,6,6)
table(x)
Ortalamasını alabilir;
mean(x)
Veri setimize İf döngüleri ile şartlar koyup;
if (mean(x)==25) {print("doğru")} else {print("yanlış")}
İleri istatistiksel teknikleri veri setimize rahatlıkla uygulayabiliriz. (PCA, Cluster, Regression, Plot vb..)

Geçtiğimiz hafta http://www.r-project.org/ sitesinden Windows sürümünü bilgisayarıma kurdum. Ayrıca kodlamada kolaylık olsun diye RStudio arayüzünü kullanıyorum. Oldukça kullanışlı tavsiye ederim.