http://www.mitbbs.com//article_t/DataSciences/11463.html
发信人: cxwcxw2001 (羲和望舒), 信区: DataSciences
标 题: 刚入行新人的两个问题
发信站: BBS 未名空间站 (Thu Nov 27 00:19:38 2014, 美东)
刚刚转入data science不到两个月,所知甚少,如果有大牛觉得我的问题太过白痴,请
见谅!
这几天在做一个project,有了两个发现,也算是问题,在此分享,希望版上各位同仁
大牛能够解答。
(1)用Radial SVM做classification,一开始忘了normalization(数据的scale差异极
大,有的在0-1波动,有的超过1000,的确有这个必要),赶紧perform normalization
后发现accuracy,sensitivity, kappa这些metric基本没有significant improvement (
平均就增加了0.05左右)。不知道这是为何?
(2)Andrew Ng在他的cousera lecture vedio里说如果number of training samples
is intermediate compared to the number of features (他说的范围是指前者10-10
,000,后者1-1000),radial SVM要比linear SVM好。我的data set有99个obs, 20个
features,应该属于radial SVM表现较优的那个范围。但是,10-fold cross
validation的结果却显示linear SVM的各个accuracy metrics都要优于radial SVM.
我的想法是,在model和algorithm的选择上似乎并不存在一个rule of thumb,更多时候
是需要靠不断的实验来寻找最优的algorithm。不知道这个想法对不对?
--
评论
发表评论