查看详情
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

生活也是大事业

阿波的学习、工作和生活

 
 
 
 
 
 
 
 

转眼又是一年

2013-12-31 14:02:56 阅读794 评论1 312013/12 Dec31

一年写一篇博客真是惭愧。

本年度最重要的进步是体重控制。从年初的97.5控制到前天的85.8。这是很不容易的。不过距离目标还是有一点差距,还有一个月要继续加油。

另外就是结束了奔波的日子,不再定期消费火车票了。昨天翻开钱包看到很久没用到的身份证才意识到这个。这也是很不容易的。

又回来了淘宝,跟随大队支持西部开发,每天西行取经,还好晚上有老司马带我回城。

前松后紧,把握住了上半年较多的业余时间没有浪费,爬山、打篮球和kaggle比赛。

下半年忙了起来,于是这个翻译项目估计有烂尾的风险。加油加油。

年底了,尽管经常要加班,还是坚持每个礼拜跑步锻炼身体。

综上所述,总地来说还算是很丰富的一年。

最后仍然是祝愿所有好朋友新年快乐万事如意。就是这样。

顺手做个广告,部门招人。

作者  | 2013-12-31 14:02:56 | 阅读(794) |评论(1) | 阅读全文>>

年终贴个日志

2012-12-31 17:47:00 阅读902 评论0 312012/12 Dec31

一大早就打开了这个页面,但却一直没空来填,赶在下班前贴一篇吧。

一年下来,发生的事情当然很多,之前还想着年终的时候照例要总结一下的,没想到时间过得这么快,一下子就到了最后一天,完全没有准备好。

今年的大事好像集中在夏天。(每个人都有难以忘怀的回忆,如果当时是夏天的话,那就更难忘怀了。)五月的时候第一次出远门,跟球一球第一次坐飞机,去北京玩了两天,吃了烤鸭。在北京的R会议上做了关于社会网络分析的一个小报告。然后六月份的时候去了球一球家,见了球一球的爸爸妈妈,看到球一球家屋檐下的燕子们。七月份的时候离开了原来单位,重新来到魔都奋斗,开始学习一些新的技术,尝试一些新的挑战。

经过年中的转折,下半年的日子波澜不惊。十月份的时候,跟球一球一起买了我们的小房子,虽然是要2015年才能到手,却总是让生活更有了奔头。然后生日那天,在上海的R会议上做了关于RHadoop的一个小报告,基本算是今年最后一件比较用心的事情。接下来就是默默地等待世界末日,当然最后没等来。

总地来说,今年的年终小结,气氛比去年好很多。生活和工作都有进步,球一球的身体也比去年更争气了。这让我更加积极地筹备计划着新的一年,希望明年能够更上一层楼。

祝愿所有好朋友新年快乐万事如意。就是这样。

作者  | 2012-12-31 17:47:00 | 阅读(902) |评论(0) | 阅读全文>>

上海第壹周    

2012-7-22 22:41:37 阅读1146 评论1 222012/07 July22

本周入职,被迫闪电般找好了住处。房间还蛮干净温馨的,唯一的缺点就是洗晒不很方便。生活不容易,将就着住吧。

其实之前有在上海工作过半年的,这次过来仍然是跟着老领导,所以工作上没啥特别不适应的地方。有两点变化:第一,中午又可以吃盒饭了,虽然还没找到我比较喜欢的套餐,不过希望很大。第二,职位从分析师变成了工程师,貌似很多人认为这是某种退步,但我只是过来尝试一种可能。唯一导致比较困扰的就是,公司只配台式机,而我自己的电脑都给我娘用了,于是最近需要采购笔记本一台,求各种推荐,主流办公配置就行,质量散热好一点。

周六参加了ShanghaiR的沙龙。非常和谐,非常热闹。也终于头一次跟大家吃了饭,毛豆阿姨酒家,里面装修很有特色,菜也蛮不错的。因为才刚入职一个礼拜,没啥可以跟大家分享的,下次再努力吧。另外,再感叹一次,广告公司真有钱真奢侈,超级无敌视野。

礼拜天天气很好,于是进城去参观了上海博物馆。藏品好多,可惜我都看不懂,像青铜器呀瓷器呀书法呀什么的都太专业了。只有绘画还算比较好欣赏,我蛮喜欢山水画,尤其是画家们都喜欢点缀些小屋子什么的,看着就很舒服。元四家缺了黄公望,考虑下次跟球一球去浙江博物馆看。

就是这样。明天又是新的一周,又要早起挤地铁啦!

作者  | 2012-7-22 22:41:37 | 阅读(1146) |评论(1) | 阅读全文>>

又到了年终总结的时候。这一年可以用两个字概括——忐忑。

过完年后,老爹的病情又开始加重,在医院之间辗转颠沛,最后还是没能熬过这个冬天。而在外打工的日子里,我的每一天都过得很忐忑,拿起手机看到是老妈打来的电话就提心吊胆,偏偏最后一个电话打来的时候我又在跟数仓的同学讨论问题没有能够接到。其实我是很胆小的人,我很害怕,但是又习惯了装成很酷很无所谓的样子,结果每一天都是胆战心惊。最后半个月,老爹很坚强,他从来都是积极乐观的人,我想他一定会保佑我,一定会叫我乖一点稳重一点不要再急忙急促。

可是老爹走后不久,球一球却又生病了,三天两头地来杭州看医生,感冒的时候也严重得好几天没能下床。我心里面当然是紧张的,但还是要以身作则地跟球一球说要安心养病要好好休息。中午带饭回家,路上走得很快,心里也是忐忑的。上班写代码,心里还是忐忑的,总是忍不住打个电话问问好不好,却又担心吵到她休息。身体健康真的很重要,工作虽然意义重大,但是总不能以牺牲健康为代价。希望球一球能够像我一样乖一点,合理安排作息,快快好起来。

最后说说我自己,今年的长进是历年来最小的。首先是体重完全没能hold住,反而差点有所上涨。期间尝试过跑步锻炼,却又不出意外地半途而废。年底的时候答应球一球控制饮食,希望能够见到效果。然后是工作方面,年初的时候离开第一家单位(只做了半年),回到杭州,在阿里金融做一些数据分析和建模的工作。看起来似乎有很多机会,但是我找来找去没发现自己到底能够做点啥。似乎可以做金融风险管理?但是我的知识储备貌似完全无法满足需求并且目前做的事情也相差很远。那么往互联网方向发展?然而

作者  | 2011-12-27 23:04:32 | 阅读(890) |评论(1) | 阅读全文>>

校内网的好友群果然有天然的区隔

2011-4-23 10:26:55 阅读983 评论2 232011/04 Apr23

注:本文稍微具体一点的分析过程,已经发在统计之都了,在这里在这里在这里

跟我预期的结果差不多,例如初中同学、高中同学、大学同学、98网友,等等等等。

这个区隔比新浪微博的要清晰多了。

而且,目前来看,校内网获取数据会比较容易,这次仍然是用RCurl跑的数,参考上一篇对微博的操作。

以下是画图结果,后面顺手摘了我觉得比较清楚的几个子群。当然啦子群越小会显得越清楚。

顺便看看哪些人是沟通桥梁,就是那几个比较大的点。

其中有三个同学可以直观地解释:既是高中同学,又来到同一所大学。

有了这些数据我还可以来给自己做一下推荐。模仿校内网自己的推荐逻辑,来给自己做一下推荐吧。

TOP100。不过怀疑有些是重名,例如王超刘佳王佳这些。

打完收工。最近都会比较忙,工作压力很大,估计就更没时间玩这些业余的玩意啦~~~

注:以上仍然只是个体网的分析。不知道啥时候能够看到整体网。

作者  | 2011-4-23 10:26:55 | 阅读(983) |评论(2) | 阅读全文>>

微博分析的初步尝试(仍然是用R)

2010-12-21 0:42:13 阅读4076 评论7 212010/12 Dec21

长三角三日游归来,累死我也么哥。作为休息与调整,我来整理一下最近在微博分析方面做的一些尝试。

新浪微博如火如荼,基于微博的各种应用也层出不穷。有一种共识似乎是:微博数据蕴含着丰富的信息,加以适当的挖掘,能够实现众多商业应用。恰好社会网络分析也是我之前有所了解并持续学习的一个领域,因此我做了微博数据分析方面的一些尝试。这些尝试是比较初步的,属于探索性的阶段,当然不能跟微博分析家这样比较成熟的应用相提并论。并且我的分析基本上都出于想当然的直觉感受,没有具体的理论支撑,这方面需要试着找点书籍来阅读一下,貌似有蛮多可以参考的。

一、用R登录并发布微博

之所以仍然选择用R来做这个登录和发布的工作,是考虑到分析过程的连续性,毕竟能够在同一个平台下面完成所有的工作,还是很令人身心愉悦的。这里借助了一款命令行浏览器cURL,这个浏览器在R中可以用RCurl实现,简单的介绍建议参考medo的《R不务正业之RCurl》。由于我对HTTP这些东西都属于初级未入门水平,没能实现直接的登录,只好利用了cookie实现间接登录。但是最终结果还是蛮稳定的。编写这个登录和发布微博的函数,目的之一是为后续的数据采集做准备,但同时也能够实现同步更新不同平台信息的功能,例如写一条语句就能够把人人状态、新浪微博、飞信签名等等同步更新,还是很有趣的。只是人人状态和

作者  | 2010-12-21 0:42:13 | 阅读(4076) |评论(7) | 阅读全文>>

信用评分的简单小结(ROC,IV,WOE)

2010-12-11 19:43:33 阅读12127 评论5 112010/12 Dec11

由于专业的关系,我学习信用评分的时候往往最关注模型那一块,前段时间一直有很多困惑,这周认真地看了一篇文章,终于有一点点明白了,所以来简单地小结一下(这事儿不能说得太细),小结完了我得学习cURL去了。

最常见的用于信用评分的模型就是logistic回归,这是一种处理二分类因变量的广义线性模型。这种模型的理论基础比较扎实,但是对于不同的问题当然也存在一些特殊的处理方式,我最大的困惑就在于建模时对分类自变量的处理方法。

由于制作评分卡的某些需要,通常会在建立评分模型时将自变量做离散化处理(等宽切割,等高切割,或者利用决策树来切割),但是模型本身没办法很好地直接接受分类自变量的输入,因此需要对自变量进行再次的处理。比较常规的做法有两种:做dummy变量,做基于目标的变量编码。

dummy变量是比较顺其自然的操作,例如某个自变量m有3种取值分别为m1,m2,m3,那么可以构造两个dummy变量M1,M2:当m取m1时,M1取1而M2取0;当m取m2时,M1取0而M2取1;当m取m3时,M1取0且M2取0。这样,M1和M2的取值就确定了m的取值。之所以不构造M3变量,是基于信息冗余和多重共线性之类的考虑。但是,构造dummy变量也存在一些缺点,例如无法对自变量的每一个取值计算其信用得分,并且回归模型筛选变量时可能出现某个自变量被部分地舍弃的情况。

另一种处理分类变量的方法是基于目标对其进行编码,在信用评分中比较常见的就是用WOE编码。WOE叫做证据权重(Weight of Evidence),表示的其实是自变量取某个值的时候对违约比例的一种影响。

作者  | 2010-12-11 19:43:33 | 阅读(12127) |评论(5) | 阅读全文>>

在机场遇見前男友——By 范玮琪 2010.3.30

2010-12-10 9:03:40 阅读1023 评论2 102010/12 Dec10

這不是歌名、是前幾天發生在身上的事。上午11點、桃園中正機場、正在等待同事劃位要去杭州、突然有人拍我的肩膀、定神一看、居然是曾經相戀六年的、唯一的、前男友。

這種感覺很奇妙。眼前的他已經是那麼多年沒見的朋友、雖然偶爾傳簡訊、通電話、他甚至來看我的演唱會、但是這麼近距離的面對面是分手後的第一次。我們聊了兩句、他剛從美國回來要去香港出差、臉上掛著兩個大大的黑眼圈、皮膚還是跟小時後一樣的好、還是擁有整齊潔白的牙齒、寬闊的肩膀和美麗的單眼皮。說話聲音還是那麼迷人。

他說:Congratulations! I’m so happy for you! You’re finally getting married.

“你眼睛會笑、彎成一條橋、終點卻是我、永遠到不了。”這是我在2000年為他寫的歌。十年後的今天、再看見他、眼睛仍然是笑成一條過不去的橋、又熟悉又陌生、但此刻我的心情卻是溫暖平靜的。沒變。一切都沒變。他就像是當初我喜歡他的樣子、今天就像是我們一起相處的六年當中平常的某一天、一切的感覺都好自然、好平靜。他淡淡的像以前一樣用手撥弄他的頭髮、淡淡的說他可能因為工作的關係要搬去LA、左手無名指上的婚戒也閃著淡淡的光芒。

輕輕的我們互相說再見請多保重

深深的我給他一個擁抱

遠遠的我看著他離去的背影越來越小

重重的我把他放下來、放進我心裡的保險箱、關起來、鎖好。

奇妙的是、到不了這首歌、後來竟然帶我去了好多美好的地方、認識了好多美好的人、讓我愛上創作、讓我找到愛唱歌的自己、讓我為了走進並擁抱自己夢想的世界而努力著。

作者  | 2010-12-10 9:03:40 | 阅读(1023) |评论(2) | 阅读全文>>

推荐系统的初体验(关联规则,协同过滤)

2010-12-9 1:16:09 阅读4776 评论0 92010/12 Dec9

最近接触了一个推荐系统的建设项目,于是我顺便回顾了一下之前零星学到的推荐知识,把一些困惑很久的问题弄明白了,所以来总结一下。

一般意义下的推荐系统是指个性化推荐,类似简单的排行榜推荐或者关联规则推荐被认为是不够个性化的。不过我困惑的问题也正在于这里,所以我来描述一下关联规则和协同过滤这两个典型的推荐方法。

关联规则是数据挖掘中的典型问题之一,又被称为购物篮分析,这是因为传统的关联规则案例大多发生在超市中,例如所谓的啤酒与尿布传说。事实上,“购物篮”这个词也揭示了关联规则挖掘的一个重要特点:以交易记录为研究对象,每一个购物篮(transaction)就是一条记录。关联规则希望挖掘的规则就是:哪些商品会经常在同一个购物篮中出现,其中有没有因果关系。为了描述这种“经常性”及“因果关系”,分析者定义了几个指标,基于这些指标来筛选关联规则,从而得到那些不平凡的规律。主要的指标包括:支持度support,置信度confidence,提升度lift。对于一个二项规则例如“A→B”,支持度是指A与B同时出现的概率,即P(A B);置信度是B关于A的条件概率,即P(B | A);提升度是B的概率的提升,即P(B | A) / P(B)。比较常见的例子是:

这些指标都很容易理解,他们在一定程度上保证了挖掘出来的规则的实用性。

尽管用来做关联规则的Apriori算法被誉为数据挖掘十大算法之一,我仍然曾经因为觉得关联规则如此简单明白而忽视其实践意义。尤其是在我知道协同过滤之后。

协同过滤也是很典型的推荐技术,他构造一个用户与项目之间的关联打分矩阵,像是这样

作者  | 2010-12-9 1:16:09 | 阅读(4776) |评论(0) | 阅读全文>>

logistic回归的一些直观理解(1.连接函数 logit probit)

2010-11-30 2:08:39 阅读15064 评论4 302010/11 Nov30

前面写了一些读书笔记是关于用logit回归做二分类问题后的效果评价,基本上已经可以告一段落。然后打算回过头来整理一下logit回归本身的一些思路。很惭愧,我不是统计学出身,当年概率论差点考挂,数理统计也是一门选修课(唯一印象深刻的是老师的口音),所以大概很难从理论上进行严格的阐述,主要还是写一点直观的理解。

限制一下问题的范围吧,基本上用到logistic回归的,很多是二分类问题,也就是因变量是0-1类型的情况。我们想要研究的是因变量与自变量之间的关系,跟线性回归是完全类似的问题。但是由于因变量形式比较特殊,所以造成了处理方式的不同,也就引出了我的第一个困惑:为什么要引进广义回归方法呢?

首先,假设我们从线性回归的思路出发,遇到的第一个问题就是,我们问题的因变量是什么?这个因变量是一个分类的变量,看一下散点图就能知道因变量与自变量之间不是那种直线的关系,这就导致我们没办法写出传统的那种比较容易理解的线性回归公式 y = a + b*x 。我们想到的一个解决办法是,将这个因变量抽象成它的期望值(这应该是广义线性回归的核心内容之一)。在0-1变量的情形下,这个期望值就等于因变量取1的概率,一般就写成P了。这个P貌似是可以涵盖了0-1因变量的信息,同时也能够用来比较直观地理解我们的问题:当自变量发生变化时,我们的目标变量取1的概率是怎样变化的。

然后,我们继续试图用线性回归的思路,把问题写成 P = a + b*x ,也就是说,我们假设因变量取1的概率跟自变量是线性关系。这个假设挺自然也挺合理的,但是却导致了另外三个问题:参数估计,因变量P的

作者  | 2010-11-30 2:08:39 | 阅读(15064) |评论(4) | 阅读全文>>

查看所有日志>>

 
 
 
 
 
 
 
 

浙江 杭州 天蝎座

 发消息  写留言

 
江浙沪,数学系,天蝎座O型,懒洋洋,傻乎乎
 
博客等级加载中...
今日访问加载中...
总访问量加载中...
最后登录加载中...
 
 
 
 
 
 
 
模块内容加载中...
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2018

登录  
 加关注