怎么莫浩波也是发了两篇论文到arXiv的专家了,即便没有纸质的。再加上也在github这个代码托管平台上开源聊代码和python安装包,人工智能砖家这个称号,莫浩波当之无愧。
再了,他又不是什么混进计算机科学的统计学教授,前世的他,可是正儿八经的科班出身,自信和自豪那是有的。他相信,很快,他就要成名了。
那谁的,走别饶路,让别人无路可走;亦或者是领先半步是才,领先一步是疯子。
所以,莫浩波还是得紧抓时代热点吧。2013年的热点是啥?毫无疑问,那是做图像处理的CNN啊!
不过,想要紧追这个热点,也不是那么容易的。首先,是人工智能的框架不太成熟,用得比较多的,还是theano,也不知道有没有python版本的。
不过不管有没有,莫浩波都没有兴趣去学习这样古老工具,想了又想,他咬咬牙,怒发tensorflo,最初的版本也没有了,不过,比较成熟的0.12版,却还是有代码的。
tensorflo框架依赖的工具包主要有Bazel和Protocol Buffer,前者管理各种基础工具包,就像Java中的maven一样,而后者则是为了处理数据的,都是15年开源的项目了,现在应该是没有开发的。
所以,主导并开源这个工具,莫浩波毫无心理障碍。有阻碍那也是谷歌剽窃,莫浩波厚颜无耻地想着。
如此,tensorflo上面集成的CNN算法倒是无碍,就是2013年,CNN也算是比较成熟聊,即便是有创新,那也是超级大的网络结构了,暂时不具备莫浩波等团队使用,不能迅速推广开。
倒是RNN,后来,尤其是2014年,2015年,出现了很多牛叉的架构,极大地推动了自然语言处理技术的发展,虽然这技术对NLP的效果也不咋样。
粗略一看,鼎鼎大名的就有Gru单元,双向LSTM模型,Seq2Seq模型,生成对抗网络(GAN模型),Attention机制等等等,一大批,影响深远的方法技术。
而这些,也都集成在了tensorflo里边。而这些,莫浩波似乎没有察觉。他只是觉得theano框架太复杂,不好用,想上他使用习惯的tensorflo罢了。
到CNN与自然语言处理的关系,那自然不能不提及Text-CNN了,这是2014年的分类模型了,使用了类似N-Gram的特性,分词效果对比以前的深度学习算法有了质的提高,即便不及传统机器学习SVM,但后来引用都有2000+了,这可是不折不扣的厉害paper,怎么能放过呢?
干就干,重新选择几个数据集测试,对比SVM、LR、NB、KNN、BP等算法,效果马上看得见的,更重要的是,现在的热点可是CNN!