16 Aralık 2012 Pazar
#tweetineulker (ÜLKER) WEB MINING
(850 Tweet ,09/12/2012- 16/12/2012)
Bar Plot (word frequency) :
1 hafta boyunca Ülker standına uğrayıp tweet atan tüketiciler en çok Granini ürününü denemişlerdir.
En sık tercih edilen Ülker Granini ürünü aynı zamanda 0,13 Portakal, 0,11 Vişne, Biskrem ve Doğallık ile ilişkilendirilmiştir. (korelasyon)
Bar Plot (word frequency) :
1 hafta boyunca Ülker standına uğrayıp tweet atan tüketiciler en çok Granini ürününü denemişlerdir.
En sık tercih edilen Ülker Granini ürünü aynı zamanda 0,13 Portakal, 0,11 Vişne, Biskrem ve Doğallık ile ilişkilendirilmiştir. (korelasyon)
ulkergranini denemek meyvesuyu portakal biskremle | |||||||||
1.00 0.20 0.20 0.13 0.11 | |||||||||
dogal visne | |||||||||
0.11 0.11
WordCloud :
Dendrogram :
Social Network Analysis :
|
Etiketler:
R Project,
Web Mining
15 Aralık 2012 Cumartesi
Tuborg Web Mining
Twit tarih aralıkları : 1 Aralık - 10 Aralık 2012
Bar Plot :
Not : Tuborg 0.17 (korelasyon) ile Gold kelimesi ile ilişkilendirilmiş ve 0.11 ile Unfiltered takip etmiştir.
Popüler Twit "MADEM SONUMUZ 'MORG' YAŞASIN KIRMIZI TUBORG"
Text Dendogram :
Bar Plot :
Popüler Twit "MADEM SONUMUZ 'MORG' YAŞASIN KIRMIZI TUBORG"
Text Dendogram :
cluster 1 :
cluster 2 : gold tuborg
cluster 3 : efes tuborg
cluster 4 : tuborg
cluster 5 : morg tuborg
cluster 6 : kirmizi tuborg
cluster 7 : bir tuborg
cluster 8 : adam bira tuborg
cluster 9 : malt tuborg
cluster 10 : bomonti tuborg
Etiketler:
R Project,
Web Mining
14 Ekim 2012 Pazar
Archetypal Analysis (Marketing Research)
From Spider -Man to Hero
Son zamanlarda ismine sıkça rastlıyorum. Bu yazımda okuduğum makalelerde dikkatimi çeken ayrıntılara değineceğim. Analizin ilk ortaya çıkışı 1994 yılıdır. Cutler ve Breiman Non-lineer EKK tekniğinde karşılaştıkları somut bir probleme çözüm bulmak amacı ile durumu minimize edecek bir algoritma geliştirerek AA'nın temelini oluşturdular. Ayrıca bu algoritma bir kaç regresyon eşitliğini çözümleyerek varyans açıklama oranını maksimize ediyor.
Teknik kendini K-means'e alternatif olarak konumlandırıyor. Aynı işi yapıyorlar fakat AA daha çok "pure types" lar ile ilgileniyor. Makalelerde ön plana çıkan özellik, K-meanste ki durumun ilerleyen dönemlerde geçerliliğini kaybettiği fakat AA ile yapılan segmentasyonun geçerliliğini uzunca bir süre kaybetmediğidir. Zaten analizin teoriği incelendiğinde sadece uçtaki durumlar(extreme value) ile ilgilendiğimizden K-meansteki en büyük sorun olan zaman zaman segmentlerin ayrışmamasının önüne geçiliyor. Gruplar arasındaki fark bir bakışta anlaşılırdır.
Farkı daha iyi anlayabilmeniz açısından yaptığım 3 kümeli bir uygulamanın çıktısını ekliyorum. K1..K3 : K-means cluster A1..A3 : Arc. Analysis
Kaynak : https://docs.google.com/viewer?a=v&q=cache:oJZ-H-YJ2icJ:www.action-research.com/archtype.html+&hl=tr&gl=tr&pid=bl&srcid=ADGEESgpPG3WVCe5dYDpNsYXx_UfMt4d_WI8CYdLtU7k1Oply8eATQ3WtWdcIZVwr4iFHbhJ-1gkAyP1awVuJj3194C5gNTTuG1i0MeMAfG8WWLQroodiQut0nK784wFF0oGFCXnWoNt&sig=AHIEtbRO0n-x4nLzznNlRb4DAKnQiCrs8g
Product test : https://docs.google.com/viewer?a=v&q=cache:VqNhdC0J1zMJ:interval.louisiana.edu/reliable-computing-journal/volume-14/reliable-computing-14-pp-105-116.pdf+&hl=tr&gl=tr&pid=bl&srcid=ADGEESiLHxpmDRlu0hWf4X9aMPruMNciHl5B9UWFdNwjiyjddJ1N0h8j2gKw092sloru6kScpRRB1ZlcI2jWyixzvhSAOPjd2B2oux4_1kH4TwmTOiCPkkUFn0KQPOrqyzRD_jf1bEju&sig=AHIEtbSQBlZXzus1-qtb7L77YcD58cuy9g
Son zamanlarda ismine sıkça rastlıyorum. Bu yazımda okuduğum makalelerde dikkatimi çeken ayrıntılara değineceğim. Analizin ilk ortaya çıkışı 1994 yılıdır. Cutler ve Breiman Non-lineer EKK tekniğinde karşılaştıkları somut bir probleme çözüm bulmak amacı ile durumu minimize edecek bir algoritma geliştirerek AA'nın temelini oluşturdular. Ayrıca bu algoritma bir kaç regresyon eşitliğini çözümleyerek varyans açıklama oranını maksimize ediyor.
Teknik kendini K-means'e alternatif olarak konumlandırıyor. Aynı işi yapıyorlar fakat AA daha çok "pure types" lar ile ilgileniyor. Makalelerde ön plana çıkan özellik, K-meanste ki durumun ilerleyen dönemlerde geçerliliğini kaybettiği fakat AA ile yapılan segmentasyonun geçerliliğini uzunca bir süre kaybetmediğidir. Zaten analizin teoriği incelendiğinde sadece uçtaki durumlar(extreme value) ile ilgilendiğimizden K-meansteki en büyük sorun olan zaman zaman segmentlerin ayrışmamasının önüne geçiliyor. Gruplar arasındaki fark bir bakışta anlaşılırdır.
Farkı daha iyi anlayabilmeniz açısından yaptığım 3 kümeli bir uygulamanın çıktısını ekliyorum. K1..K3 : K-means cluster A1..A3 : Arc. Analysis
Kaynak : https://docs.google.com/viewer?a=v&q=cache:oJZ-H-YJ2icJ:www.action-research.com/archtype.html+&hl=tr&gl=tr&pid=bl&srcid=ADGEESgpPG3WVCe5dYDpNsYXx_UfMt4d_WI8CYdLtU7k1Oply8eATQ3WtWdcIZVwr4iFHbhJ-1gkAyP1awVuJj3194C5gNTTuG1i0MeMAfG8WWLQroodiQut0nK784wFF0oGFCXnWoNt&sig=AHIEtbRO0n-x4nLzznNlRb4DAKnQiCrs8g
Product test : https://docs.google.com/viewer?a=v&q=cache:VqNhdC0J1zMJ:interval.louisiana.edu/reliable-computing-journal/volume-14/reliable-computing-14-pp-105-116.pdf+&hl=tr&gl=tr&pid=bl&srcid=ADGEESiLHxpmDRlu0hWf4X9aMPruMNciHl5B9UWFdNwjiyjddJ1N0h8j2gKw092sloru6kScpRRB1ZlcI2jWyixzvhSAOPjd2B2oux4_1kH4TwmTOiCPkkUFn0KQPOrqyzRD_jf1bEju&sig=AHIEtbSQBlZXzus1-qtb7L77YcD58cuy9g
Not: Kendi çalışmamdır. İzinsiz paylaşılamaz.
Etiketler:
R Project
10 Eylül 2012 Pazartesi
“If our product is harmful . . . we’ll stop making it.”
“How to Lie with Statistics”
As late as 1974, a cigarette-company-funded pharmacologist “published an article in Executive Health titled “The Case against Tobacco Is Not Closed: Why Smoking May Not Be ‘Dangerous to Your Health’!”
http://andrewgelman.com/2012/09/cigarettes/#more-15581
Etiketler:
Reklam Etkinliği
2 Eylül 2012 Pazar
Web Mining İş Bankası
Analize giren Twitlerin tarih aralıkları : 26.08.2012 (21:00) ~ 01.09.2012 (17:00)
Twitter'dan elde edilen 800 twit ile text mining yapılmıştır.
- Bankanın yayımlanan son reklam filminde genel bir beğeni kazanarak olumlu algı bıraktığını "Güzel", "Başarılı", "Harika", "Yaratıcı", "Süper".. gibi ifadelerden dolayı rahatlıkla söyleyebiliyoruz.
- Cem Yılmaz'ın, Servet Bey karakterinin önüne geçtiği açıkca görülmektedir. (büyük puntolu kelimeler önem arz etmektedir). Bununla birlikte; Cem Yılmaz yerine, Mehmet Ali Alabora' nın veya başka bir oyuncunun oynaması gerektiğini savunan kişilerin varlığı da kabul edilebilir orandadır.
- Reklamdaki "88 olduk mu?" lafı akıllarda kalıcı olarak, 88 yıllık banka imajı korunmuştur.
- Cem Yılmaz'ın havada olduğu sahne ve final sahnesi hafızalara yerleşmiştir. (reklaminsonu & cemhavadeyken)
- Reklamın yönetmeni, senaristi, ajansı vb.. merakla irdelenmiştir.
Not: Kendi çalışmamdır. İzinsiz paylaşılamaz.
Twitter'dan elde edilen 800 twit ile text mining yapılmıştır.
- Bankanın yayımlanan son reklam filminde genel bir beğeni kazanarak olumlu algı bıraktığını "Güzel", "Başarılı", "Harika", "Yaratıcı", "Süper".. gibi ifadelerden dolayı rahatlıkla söyleyebiliyoruz.
- Cem Yılmaz'ın, Servet Bey karakterinin önüne geçtiği açıkca görülmektedir. (büyük puntolu kelimeler önem arz etmektedir). Bununla birlikte; Cem Yılmaz yerine, Mehmet Ali Alabora' nın veya başka bir oyuncunun oynaması gerektiğini savunan kişilerin varlığı da kabul edilebilir orandadır.
- Reklamdaki "88 olduk mu?" lafı akıllarda kalıcı olarak, 88 yıllık banka imajı korunmuştur.
- Cem Yılmaz'ın havada olduğu sahne ve final sahnesi hafızalara yerleşmiştir. (reklaminsonu & cemhavadeyken)
- Reklamın yönetmeni, senaristi, ajansı vb.. merakla irdelenmiştir.
Not: Kendi çalışmamdır. İzinsiz paylaşılamaz.
Etiketler:
R Project,
Web Mining
23 Ağustos 2012 Perşembe
31 Temmuz 2012 Salı
Web Mining Coca Cola
Çalışma sonuçları şöyle yorumlanabilir;
- Son 1 ayda insanların gündemlerinde Coca Cola reklamları yer almaktadır.
- En çok Pepsi ile ilişkilendirilmiştir.
- Kişiler o anda Coca Cola içtiklerinden bahsetmişler ve Ramazan, sofra, iftar, mutluluk gibi kelimeler ile markayı ilişkilendirmişlerdir.
- Alkol, böcek, boya gibi kelimeler son 1 ayda Coca Cola markasını tercih etmeme nedenleri olarak belirtilebilir. Bu olumsuz görüşler muhtemel satış düşüşlerine bağlanabilir. Ayrıca Customer Satisfaction Index değerine doğrudan negatif yönde bir etkide bulunmuştur.
Not : Kendi çalışmamdır.
Etiketler:
R Project,
Web Mining
25 Temmuz 2012 Çarşamba
5 Interesting Free Books for R from beginner to experts
Always new software language in one technical activity is difficult, normally a good documentation can help, these are three book to use R software for beginner and for experts:
Link : http://www.aphysicistinwallstreet.com/2011/11/free-books-for-r.html
· “Introduction to the R Project for Statistical Computing for Use at the ITC” by David Rossiter (PDF, 2010-11-21).
· “R for Beginners” by Emmanuel Paradis (PDF,10 pages).
· A Little Book of R for Multivariate Analysis (pdf, 49 pages) is a simple introduction to multivariate analysis using the R statistics software. It covers topics such as reading and plotting multivariate data, principal components analysis, and linear discriminant analysis.
· A Little Book of R for Biomedical Statistics (pdf, 33 pages) is a simple introduction to biomedical statistics using the R statistics software, with sections on relative risks and odds ratios, dose-response analysis, clinical trial design and meta-analysis.
· A Little Book of R for Time Series (pdf, 71 pages) is a simple introduction to time series analysis using the R statistics software (have you spotted the pattern yet?). It includes instruction on how to read and plot time series, time series decomposition, forecasting, and ARIMA models.
All books are free to use, share and remix under a Creative Commons license, and are available:
UPDATE: I updated the title, that's only five free books that I think interesting for R, Also there is another one that I forgot Matlab for R programmer I used Matlab from university till now (for me is always easier Matlab, but it is not free), both languages are similar but you always need a help (small tips).Link : http://www.aphysicistinwallstreet.com/2011/11/free-books-for-r.html
Etiketler:
R Project
23 Temmuz 2012 Pazartesi
Londra Olimpiyatları 100mt Erkekler Finali, R Model
2012 Londra Olimpiyatlarının başlamasına 1 haftadan daha
kısa bir süre kaldı. Herhalde herkes benim gibi 100 mt. erkekler finalinin
sonucunu merakla bekliyordur.
Olimpiyat tarihinde 100mt’yi ilk defa 10sn’ nin altında
koşan atlet Jim Hines’di. 2008 yılında ise Usain Bolt 9.69sn ile kırılması güç bir
derece elde etti ve hatta bununla yetinmeyip yeni hedefinin 9.58 olduğunu
açıklamıştı. Bakalım istatistiksel olarak bu süre mümkün mü?
Bu uygulamamda R ile olimpiyat derecelerini modellemeye
çalışacağım ve bu yılki 100mt erkekler finali için bir tahmin oluşturacağım.
Resimde modeli inceleyebilirsiniz. Bakalım 5 Ağustos'ta neler olacak. 9.68 sn altında koşulabilecek mi?
Modelimiz için öncelikle veriye ihtiyacımız var. http://www.databaseolympics.com/
Ayrıca XML ve drc paketlerini indirmemiz gerekli. Aşağıdaki komut ile bunu yapabiliyorduk.
install.packages()
Console;
library(XML)
library(drc)
url <- "http://www.databaseolympics.com/sport/sportevent.htm?enum=110&sp=ATH"
data <- readHTMLTable(readLines(url), which=2, header=TRUE)
golddata <- subset(data, Medal %in% "GOLD")
golddata$Year <- as.numeric(as.character(golddata$Year))
golddata$Result <- as.numeric(as.character(golddata$Result))
tail(golddata,10)
logistic <- drm(Result~Year, data=subset(golddata, Year>=1900), fct = L.4())
log.linear <- lm(log(Result)~Year, data=subset(golddata, Year>=1900))
years <- seq(1896,2012, 4)
predictions <- exp(predict(log.linear, newdata=data.frame(Year=years)))
plot(logistic, xlim=c(1896,2012),
ylim=c(9.5,12),
xlab="Year", main="Olympic 100 metre",
ylab="Winning time for the 100m men final (s)")
points(golddata$Year, golddata$Result)
lines(years, predictions, col="red")
points(2012, predictions[length(years)], pch=19, col="red")
text(2012, 9.55, round(predictions[length(years)],2))
Alıntıdır: http://lamages.blogspot.com/2012/07/london-olympics-and-prediction-for-100m.html
Etiketler:
R Project
22 Temmuz 2012 Pazar
R Uygulama 2 – Paket kurulumu
Spss
kendisini bir program değil de modüller birleşimi olarak tanıtıyor. Aynı
şekilde SAS’da bir modüller birleşimi. R de ise bu modül kavramı paketler ile
karşımıza geliyor. R geliştiricileri tarafından yazılan bu paketleri indirip ilgili
analizleri rahatlıkla yapabiliyoruz. Help(packages name) fonksiyonu ile paketin nasıl kullanacağına
dair upuzun açıklama da cabası..! Paket kurulumu ile ilgili detaylı bilgiyi Link1’
den inceleyebilirsiniz. R’ de kullanabileceğimiz paketlerin isme göre sıralanmış
biçimi Link2’ de, yayın tarihine göre sıralanmış biçimi Link3’te
mevcuttur. Link2 ve Link3’te dosya indirme linki ve paketin hangi işlev için
yazıldığı bulunmaktadır.
Uygulama:
RStudio
Console bölümüne aşağıdaki kodu olduğu gibi yazıyoruz.
install.packages()
Ülke : UK
(London) – 68 (Hangi serverdan indireceğimizi seçiyoruz)
Daha önce
Link2’ den işimize yarayacak paketleri bulmuştuk. Karşımıza gelen listeden
paket ismini buluyoruz. Şimdilik RODBC paketini yükleyeceğiz. Link4’ te ne işe yaradığına dair güzel bir
açıklama mevcut.
Etiketler:
R Project
R Uygulama 1 – RStudio
Link1 : http://www.r-project.org/
Link2 : http://rstudio.org/
Bilgisayarımıza
önce Link1’ i daha sonra ise Link2’ yi kuruyoruz. Böylece R’ye ilk adımımızı
attık. Kurulumlar tamamlandıktan sonra RStudio ile devam edeceğiz. RStudio
çalıştırdığımızda ekran 3' e bölünmüş bir şekilde karşımıza geliyor. Console bölümünde kodlarımızı
yazacağız. Workspace bölümünde oluşturduğumuz değişkenleri, tabloları
görebileceğiz. Diğer bölümde ise yaptığımız analizlerin çıktılarını
görüntüleyebileceğiz.
Bir şey
dikkatimi çekti R directory mantığı ile çalışıyor. İlgili dizine girmeyince
kodlar çalışmıyor. Zaten yeni bir proje oluşturduğumuzda bize Directory ismi
girmemizi istiyor. Hangi dizinde olduğumuzu getwd() ile, yeni bir dizine girmek için setwd() komutundan
yararlanacağız.
Console
bölümüne aşağıdaki komutları yazarak ne işe yaradıkları hakkında detaylı bilgi öğrenebiliyoruz.
> help(getwd)
> help(setwd)
Etiketler:
R Project
R Giriş
R programlama Türkiye’de popüler olmayan bir yazılım; dolayısı
ile Türkçe kaynağa henüz rastlayamadım. Buna rağmen çok fazla sayıda yabancı
blog, site, video, makale vb.. mevcut. Şöyle ki R programlamada bir eğitmen
olabilecek düzeyde değilim fakat Türkçe kaynak sıkıntısından dolayı yaptığım
uygulamaları blogumda paylaşacağım. Uygulamalarım çoğunlukla yabancı
kaynak çevirisi olacaktır ve elimden geldiğince kaynak göstermeye
özen göstereceğim.
Etiketler:
R Project
21 Temmuz 2012 Cumartesi
How Google uses R to make online advertising more effective
Next up was Tim Hesterberg from Google, who talked about how Google determines the effectiveness of display ads for its customers. When a brand-name company places a display (or banner) ad on a popular website like ESPN.com or CNN.com, it can be hard to judge its effectiveness, because a small percentage of visitors will click on a display ad. But that's not to say that a display ad won't affect future purchasing behavior, for example by searching for "HTC" or visiting the HTC website a couple of days after seeing a display ad for an HTC phone. Using observational data from more than 10 million web users, Google compares the search behavior of people who were exposed to the display ad (i.e. those that never visited a web page displaying the ad) to similar users who did see the ad, to figure out how many additional people visit the advertiser's web site as a result of seeing the display ad.
Yazının tamamı
Yazının tamamı
Etiketler:
R Project,
Reklam Etkinliği
R (programlama dili)
R nedir? : R, istatistiksel hesaplama ve grafikleri için bir bilgisayar programı. Aynı zamanda bir programlama dili.
Avantajı? : Lisans parası vermekten kurtarır.
R ile temel istatistik işlemlerini çok rahat bir şekilde yapabiliyoruz. Örneğin;
Sayı dizisini frekans serisine çok rahatlıkla bölebilir;
x<-c(2,2,3,2,1,2,1,2,3,4,5,5,6,7,6,3,2,1,2,3,4,5,5,6,6)
table(x)
Ortalamasını alabilir;
mean(x)
Veri setimize İf döngüleri ile şartlar koyup;
if (mean(x)==25) {print("doğru")} else {print("yanlış")}
İleri istatistiksel teknikleri veri setimize rahatlıkla uygulayabiliriz. (PCA, Cluster, Regression, Plot vb..)
Geçtiğimiz hafta http://www.r-project.org/ sitesinden Windows sürümünü bilgisayarıma kurdum. Ayrıca kodlamada kolaylık olsun diye RStudio arayüzünü kullanıyorum. Oldukça kullanışlı tavsiye ederim.
Etiketler:
R Project
Kaydol:
Kayıtlar (Atom)