计算机设计大赛北京大学场–大数据组

头天九点多下了班往北大那边的酒店赶,到了都快11点了真是挺累了。我们是早上第三组答辩,6点30起来,差不多7点40去候场。
我们这组学长没来,另个同学演示,我来负责答辩。老师提问特别犀利,到后面问得我哑口无言,问满了20分钟才放过我们/(ㄒoㄒ)/但是确实有些东西不是我做的我不了解,老师一看你不了解就疯狂抓着那个点问QAQ相比省赛的顺利,这次国赛真是惨兮兮。除去是真的知识盲区我真的答不上来,之前那段我感觉还发挥得挺好,主要是感觉自己说话还挺顺的吧,气场台风什么的也还可以。果然经过了各种比赛、面试、课堂分享什么的,自己的临场能力确实有了提升,已经不是以前那个讲屁屁踢都会吓得腿抖的小朋友啦。
依着记忆写几个老师提的问题:
Q1:你觉得自己的作品还有什么缺陷
我当时答的是数据源单一让我们系统的使用场景受限,结果老师指出我们一个很明显的缺陷是可视化那个热力图做得太糙了,像一块马赛克直接糊上去。当时我解释是因为原始数据只是一个点的轨迹数据,进行分区分时段太细的话工作量太大,呃老师听了并不咋关心。
Q2:你做这个系统给谁用的,功能似乎很杂
确实这个系统模块有一丝丝堆功能的意图,如果是真的做产品的话肯定是要把模块拆分然后做得更细致些。只是我想,我们还是在校生做的东西,要多精多巧真没有,能把功能做多一点就不错了(当然我没说出来)
Q3:spark-Hadoop分别是怎么用的
这真是被学长坑死了,根本就没用什么集群什么分布式的,只是单纯用Hadoop的工具进行了数据划分,这个问题是糊弄过去的,从这里就开始全线崩塌,一直追着数据问。
Q4:预测功能为什么要输入那么多值,为什么只能预测下一时段的值
这个当时是设计了很多接口,只是截止到我们交作品的时候制作出来输入序列预测下一序列值的功能。预期输入值就是一个序列,只是要通过键盘输入显得有点麻烦,不过我们没有这样的数据源提供输入。后来老师提建议说可以模拟数据源输入。
Q5:LSTM为什么适合长序列问题,你的预测接口是怎么体现出它的优势
首先是LSTM的模块结构能对信息分态,让信息的特征能在时间维度上传递,保留信息趋势的残差,使得LSTM适合解决长序列问题。我们的接口就是通过输入的序列值经过训练好的LSTM模型进行下一时刻的预测。老师说那为什么只能预测下一时刻,这样就没有体现长序列预测的优势,就不能预测未来时刻的吗?我当时没领悟到这个题意,就一直说我们的数据集限制,只能验证数据集里有的测试数据。但是本来就是历史数据集,用来预测未来不是很扯吗(我可能还是不懂老师在问什么,还是老师不懂我做的是什么)
Q6:原始数据集具体是什么样子的,怎么处理的
不就是xx平台xx市x年x月xx订单轨迹数据,然后对时间、区域进行划分。这里又问得更细一些,但是不难答。
Q7:训练集的observed字段是什么意思
我真是第一次知道我们交上去的东西有这个字段,而且当时答辩的时候我们的电脑没有这个训练集,评委看材料真的特别细。然后我们说我们电脑上没这个东西,本来快结束了,已经让我们出去了,然后有个女老师偏要让我下去看看,给她解释,我™。我真不知道啊,我就说是另个没来的同学做的,然后老师就说那数据给你们了,你们用了还不知道什么意思,到底是不是你们自己做的???我???到这里心态都崩了,我就开始说我们模型的输入是什么样的,没用到这个字段,结果自己提到特征值,然后又被追问特征值是什么???我当时脑子已经一片混乱了,然后时间彻彻底底到了,然后出来之后我都是懵的?。
我们指导老师高老师特别好,我们出来之后一直鼓励我们说讲的特别好啦,台风特别好什么的。我就感觉答得挺差的,啊,触及知识盲区也是没办法,这已经是我能做到的最好的程度了。

Logo

开放原子开发者工作坊旨在鼓励更多人参与开源活动,与志同道合的开发者们相互交流开发经验、分享开发心得、获取前沿技术趋势。工作坊有多种形式的开发者活动,如meetup、训练营等,主打技术交流,干货满满,真诚地邀请各位开发者共同参与!

更多推荐