扁豆焖面【面经】概率论感觉类题目(含答案)-大数据留学申请

    【面经】概率论感觉类题目(含答案)-大数据留学申请
    戳上方“大数据留学申请”订阅!
    看看你能作对多少
    1. 假设考试周为1个礼拜(周一到周日),且考试时间为均匀分布,假使你有3门考试,则最后一门考试大约在
    A. 周五
    B. 周六
    C. 周日
    Answer: B. 一般的讲在[0,1]之间n个均匀分布的随机变量最大值期望为n/(n+1), 也就是可以认为这n个随机变量分别大约在 1/(n+1), 2/(n+1),..., n(n+1)。这道题那么算一下大概就是在周六的上午。
    2. 如果你去参与一项赌博,每次的回报为正态分布,假设你赌了100把发现赢了10000块(明显是很小概率事件,但假设确实发生了),那么你觉得你最有可能是因为
    A. 有一把赢了很多
    B. 一直在慢慢的赢
    C. 两种情况都有可能
    Answer: B. 也许答案对很多人有些出乎意料。在这种情况下,可能一般觉得能够连续赢很多把很难,但是实际上赢一把大的更难。这个问题是随机变量的长尾还是短尾的问题。长尾的意思就是取离均值很远的概率不是很小,而短尾正好相反。题目中的正态分布属于短尾,因为密度函数是按照平方的指数下降的,如果稍微改一下题目中的分布新地平线号,则有可能是因为一次赢了很大而最后赢的。另外说一句,有一本书叫《长尾理论》,里面说明了现在的经济中有很多东西是长尾的,比如说一年销量排在100000名之后的歌曲仍然能占据市场的一部分。这是电子商务流行的很重要原因,因为不必支付储存这个长尾的cost。
    3. 有一根密度不均匀的绳子,你想通过测量多点的密度来估计他的重量(你知道截面积)。则如果给你n次测量密度的机会的话,如果n很大,(估算质量就通过这些点取平均然后乘以截面积)
    A. 按规律等间隔选取测量点会测得准些
    B. 随机选取测量点会测得准些
    C. 两种方法差不多
    Answer: A. 也许这个也略有些意外。对于一维的情况,方法A略好于方法B。但是在高维的情况下方法A就一般情况下不如方法B了,原因是要想获得相同的效果,这个“有规律的点”需要选取太多。这是所谓的Quasi-Monte Carlo Sampling 和 Monte Carlo Sampling之间的关系。
    4. 台湾大选,假定马英九最终得到600000票,谢长廷得到400000票,如果一张一张的唱票,则过程中马英九一直领先谢长廷的概率为
    A. 0.1
    B. 0.2
    C. 0.3
    D. 0.4
    Answer: B. 直觉上讲这个概率并不会太大,而且尤其是在前面几张的时候多少会出现一些反复。实际上这个结果跟一共多少人投票没什么关系,如果得票比例为a:b (a>b),则这个概率为(a-b)/(a+b)。
    5. 你拿10块钱去赌场赌大小,你有两种玩法,一种是每次赌10块,一种每次赌1块,赢了翻倍,输了就没有了。你决定全部输光或者赢到100块就走,则
    A. 两种方法输光的概率一样
    B. 第一种输光的概率较大
    C. 第二种输光的概率较大
    Answer: A. 不管什么赌法都不会改变这个概率(如果每一次期望都是0, 且最终不能超过100)。这是随机过程中一个比较简单但是很有意义的结论,意思就是说you can't beat the system。因此对于像股市,赌博这种系统,如果你假设了随机性(期望为0),则其实怎么操作结果都是一样的,重要的在于发掘其中的非随机性。另外,到100的概率很容易计算,因为初始值是10,假设到100的概率为p,则有100p+0(1-p)=10,也即p=0.1
    6. 100个球随机的放在100个箱子里,最后空箱子的数量大约是
    A. 0-10
    B. 10-20
    C. 20-30
    D. 30-40
    Answer: D. 这个题可以用简单的概率论计算。结论是不管多少个球,c*n个球放到n个箱子里,最后空箱子的个数约为ne^-c,现在的情况是箱子数和球数一样多,那么就约为100*e^-1.
    7、打10000副拱猪,总共持有9500-10500个A的概率大约在
    A. 80%-90%
    B. 90%-95%
    C. 95%-99%
    D. 99%以上
    Answer: D. 这个可以用中心极限定理计算路易斯杰西。事实上这个题也不需要计算,只是要考察大家的一个感觉警长汉化,实际上这个概率大于0.99...9,可以有9个9,尽管有时候我们打牌仍然觉得牌总是很差。扁豆焖面。只是我们不注意我们抓好牌的时候罢了。
    8. 有以下几个国家,每个国家有自己的习俗。问哪个国家长期以后男人的比例最大
    A. 每个家庭不断的生孩子直到得到第一个男孩为止
    B. 每个家庭不断的生孩子直到得到第一个女孩为止
    C. 每个家庭不断的生孩子直到得到一男一女为止
    D. 以上几个国家最后男女比例基本一样
    Answer: D. 我们只需要考察一个家庭最后产生多少男女即可以。用概率的方法可以得到不管哪个方法都是1:1。事实上,我们只是把一个很长的男女的序列按照不同的方式来截断。当然这个序列本上包含多少男女是不变的。我每次都愿意以另外一个例子来说明,那就是如果我们在网上下棋,可以每天下到第一盘输为止或是第一盘赢为止或是有输有赢为止,显然不管怎样,因为你的实力是恒定的,你永远都是你本来应有的胜率。
    9. 实验室测试灯泡的寿命。在灯泡坏的时候立刻换新灯泡。灯泡寿命约为1小时说不出再见 。考察10000小时时亮着的那个灯泡
    A. 那个灯泡的寿命期望也约为1小时
    B. 那个灯泡的寿命期望约为2个小时
    C. 那个灯泡的期望寿命约为0.5个小时
    D. 以上说法都不对
    Answer: B. 这个题可能稍难。如果具体的算需要一点本科高年级的知识。不过我们仍然可以从直觉得到结果。事实上,当每个灯泡或是我们观测的事物的生命(Life time) 是随机的时候。在时间足够久以后的一点,那个事物的寿命要长于这个事物本身平均的寿命。因为正是因为它寿命长导致我们容易观测到。简单的说,如果灯泡有两种,一种只能坚持1小时,一种能坚持100小时,那我们观测到的99%都可能是100小时那个。所以观测到的平均寿命较长冰超兽冰龙。通常我们认为灯泡的寿命是指数分布的,在这个情况下,答案是2倍。对于一般的分布,甚至有可能平均寿命有限,而观测的那个寿命期望是无限的。这个问题在美国一次监狱调查中被发现,即被调查的囚犯的平均被判刑年数要远大于全美平均判刑的年数。
    10. 如果一个群体里,每个个体以0.2的概率没有后代,0.6的概率有1个后代,0.2的概率有两个后代,则
    A. 这个群体最后会灭绝
    B. 这个群体最后将稳定在一个分布,即种群大小在一定范围内震荡
    C. 这个群体最后将爆炸,人口将到无穷
    D. 不一定会发生什么
    Answer: A. 这是个简单的人口模型。这个可能直觉比较困难,但是这个实际上和后面的一道题道理是一样的。注意到每一代的期望总是1。因此根据上次的答案,这个群体最后会灭绝。对于这种模型,当每一代的期望小于等于1时,最后的结果都是会灭绝。对于期望大于1的情况,我们也可以很简单的通过解方程得到灭绝的概率。
    11. 给一个1-n的排列,与原来位置相同的数字的个数的期望大约是 (如 n=5 则51324 与原来位置只有3是相同的)
    A. 1
    B. log n
    C. ln n
    Answer: A. 这个题要去算有几个相同的概率是比较难的,不过实际上有一个很简单的方法。在第1个位置,这个排列的第1个数字为1的概率为1/n,而期望是可加的,所以总共与原来位置相同的数字的个数的期望应该是1。也就是说不管是多少的数字,平均总是有一个数与顺序是相同的。这个题会非常经常出现在考试和习题中。
    12. 如果有3个门,有一个背后有大奖。你选中一个,主持人知道哪个门后面有奖,并且总会打开另外两个中的某个没奖的。现在你有一次换得机会,你应该
    A. 换
    B. 不换
    C. 换不换都一样
    Answer: A. 这个是网上非常经典的一个问题了。不换正确的概率是1/3,换正确得概率是2/3。我比较喜欢这样去想,试想一下如果有100个门,你先选定1个,然后主持人打开98个空的,然后给你机会换不换。我想如果这样,你不难做出正确的选择。
    13. 以下那件事情发生的期望时间最短
    A. 在第0秒,一个物体从原点出发,每一秒以概率1/2向左走,1/2向右走,第一次回到原点的时间
    B. 一只猴子,每秒种随便按键盘上的一个键,第一次打出"Beijing Welcomes You"的时间
    C. 在第0秒,一个物体从原点出发,每一秒以概率1/2向左走,1/2向右走,第一次到达1的时间
    Answer: B. A和C两个事件发生的时间的期望都是+inf. 只有B是有限的。A和C说明了等概率的赌博不可能赢钱(如果C是有限的则参加赌大小的游戏总能赢钱了)。而B说明的是另外一条概率上的定理,“What always stands a reasonable chance of happening will almost surely happen, sooner rather than later",也就是说从任何时刻开始,总有一个固定的概率发生的事情(比如一个猴子打出beijing welcomes you, 这个概率可能是 1/26^20左右),不过这个概率是多少,这件事情早晚能发生。
    14, 美国的25分硬币共有50种,上面有50个州的图案,如果我们每次得到的硬币是随机的,则大约收集多少可以收集全
    A. 200
    B. 300
    C. 400
    D. 500
    Answer: A. 这是所谓的收集硬币问题。具体解法不是很容易。不过结论是要收集齐n种硬币,需要大约nlogn个。大约思路是收集第k个时候需要大约n/(n-k)次。平时我们收集一些食品里的卡片,也都遵循这个规律,不过多数时候每种卡片的数量都是很不同的。还记得小时候可乐里收集到苹果加蜡烛可以得到到头等奖,不过最后也没收集到任何一个苹果。
    15. 假设有1000次100m短跑大赛,每次比赛的冠军成绩都在9.7-10之间均匀分布,问期望有多少次比赛比赛能够破纪录
    A. 7
    B. 10
    C. 15
    D. 32
    Answer: A. 这是所谓的破纪录问题。假设均匀分布,则最后n次比赛之后这n个成绩形成一个排列。第k次创纪录的概率是这个排列中第k个在前k-1个之前的概率,也即1/k,所以n次比赛大约有1+1/2+1/3+...1/n次破纪录,也即约为logn次。
    16. 在打桥牌的时候,如果你和对家共持有某门花色的9张牌,则剩余的4张牌怎样分布的概率最大
    A. 2-2
    B. 3-1
    C. 4-0
    Answer: B. 可以简单计算得到这个结果疯狂填字。3-1的概率应该是50%。2-2的概率是37.5%。4-0的概率是12.5%。但是如果有奇数张,则最平均的就是最可能的。
    17. 如果一个物体在3维随机游动,也即每一刻他可以向左,右,上,下,前,后等概率的走,长久来看,则会发生什么情况
    A. 此物体无穷多次回到原点
    B. 此物体无穷多次回到任何一条坐标轴上,但不会无穷多次回到原点
    C. 此物体不会无穷多次回到任何一条坐标轴上
    Answer: B. 1维和2维的随机游动是常返的,也就是说会无穷多次回到起点(尽管回来的平均时间不是有限的),而3维以上的随机游动是非常返的。因此对于2维的某个坐标,此物体会无穷多次经过裘丹莉,但是不会无穷多次经过原点。
    18. 扔10000次硬币,其中最长一次连着正面的次数大约会是多少
    A. 100
    B. 13
    C. 9
    D. 4
    Answer: B.这也是一个特殊的概率问题,叫做Head Runs.答案应该是log_2^n.大约为13.
    19. 有一支股票,初始价为1,每天的价值变化率独立同分布,且期望为0,不恒为0。则
    A. 股票在任何时刻期望价值为1
    B. 股票以概率1变成0
    C. A和B都对
    D. A和B都不对
    Answer: C.这个可以参见我转载的文章The Flaw of Average和我写的文章Life is a Martingale。 也就是说对于很多投机的东西,邓佩仪平均值总是不变的,但是多数人都会倾家荡产秦倚天。其实仔细想想很有道理,比如说你的股票第一天涨10%。第二天跌10%或是第一天跌10%,第二天涨10%,最后的结果都是跌了1%。所以要保持增长所需要的是远大于0的平均变化率,这个才是一般人难以做到的。
    20. 当我们考虑一种可能重复发生的事件时,哪种方式更科学
    A. 按照第一次发生这个事件的时间作为一个起点,考虑从其本身出发之后的性质
    B. 按照最后一次发生这个事件的时间作为一个起点,考虑从其本身出发之后的性质
    C. 以上都可以
    D. 以上都不可以
    Answer: A. 这个问题深一些的背景在于Kolmogorov向前向后微分方程。很多人知道向后微分方程更通用,但是并不知道原因。事实上,向后微分方程是基于A的方法对事件进行分解得到的,而向前微分方程是基于B的方法对事件进行分解的。但是有很多重复发生的事情会越发生越频繁,以致没有最后一次发生的事件。但是我们总能找到第一次发生的时间。所以A更科学。
    21、1000枚硬币里有一个硬币两面都是国徽,其他的硬币都是一面是国徽,一面是数字。如果你从中选出了一个硬币,随机掷了10次,结果全部都是国徽,问这个硬币是那个两面都是国徽的概率大约有多大?
    A:99%
    B: 90%
    C: 75%
    D: 50%
    Answer: D.这个问题是一个比较简单的问题,只需要用Bayes公式计算一下即可。 但是人们有时候感觉这个概率比实际中的大。类似的问题还出现在比如当你检测出来患有某种疾病的时候,假设检测错误的概率只有千分之一,但是如果那个患有那个疾病的人本身只有万分之一或者更少,则你实际得这种病的几率也要比10% 要略少。总的来说,人们通常更多的关注到了事情的变化,而忽略了一些事物的本质。
    22(1)、三国杀游戏里周泰的技能是当没有血的时候,可以从牌堆里抽取一张牌,如果和其前面的牌的数字都不同,则可以继续活着;否则就死了。假设牌堆里的牌是完全随机的一副扑克牌(52张一副牌),问期望他大约一共要抽多少张牌才能死?
    A: 3-4张
    B: 4-5张
    C: 5-6张
    D: 6-7张
    Answer. C.这个也没有什么算的技巧,只需要把各种情况列举一下即可得到大约需要5.7张牌。
    (2)接上题,如果玩家可以给周泰增加一个技能,叫做重生。即在抽取第k张牌时如果这张牌和以前的牌数字相同,则周泰获得满血。但是玩家必须在使用角色前声明k。如果你是玩家,你会声明k为多少(仍然假设是52张的一副牌)?
    A.4
    B.5
    C.6
    D. others
    Answer: B.与上题的计算方法一样,k为5的时候最优,大约有17%的可能性可以获得重生。
    23、一位篮球运动员罚球100次。已知他前两个球罚中了一个。从第3个球开始,他罚每一个球的命中率为其前面所罚所有球的命中率,比如他前50个球罚中了40个,则下一个球的命中率为80%。问以下哪种情况发生的可能性较大
    A: 他最终罚中了50-60个球
    B: 他最终罚中了60-70个球
    C: 他最终罚中了70-80个球
    D: 以上3个可能性一样
    Answer: D. 这个题也许有人会认为他要么罚中很多球,要么罚中很少球,因为一旦开始罚中的多,则后面命中率会倾向于越来越高,反之亦然。但是实际上这名运动员最后罚中1-99个球的可能性都是相等的。简单的证明方法可以用数学归纳法。
    24、接以前的收集硬币问题。 美国共有50种25分的硬币,在上次的题中,我们已经求过收集全他们所需要的大约次数(假设每种硬币出现的概率相同)。现在假设你已经收集了80枚硬币,你期望大约已经收集了多少种?
    A.30
    B.35
    C.40
    D.45
    Answer: C.上次我们问过期望需要集多少个才可以集齐,答案大约是200个。实际上这个集的过程开始都是很快的,大约在40个的时候就用将近30种,在80个的时候有40种,而只有最后面几个需要很漫长的时间。这个公式是N-N(N-1/N)^n, 其中N是一共要收集的数目,n为已收集的数目。
    25、假设在一根长为1米的绳子上随机的分布5只蚂蚁,他们的位置和初始的方向都是均匀随机的。从时刻0开始,他们朝着他们初始的方向以每分钟1米的速度开始爬,直到离开绳子或者碰到另外一只蚂蚁。当他们碰到另外一只蚂蚁时,两只蚂蚁会分别转向然后继续前进。问期望大约多少时间之后所有蚂蚁都将离开绳子?
    A.50秒
    B.1分钟
    C.2分钟
    D.5分钟
    Answer: A. 从某种意义上来讲,这个题不能被认为是一道概率问题,因为其真正的难度不在于概率。似乎看起来这道题完全无法计算,因为你完全不知道每只蚂蚁的方向以及所处的位置,但是关键在于注意到当两只蚂蚁碰面时,虽然实际中他们互换了 方向,但是从运动的角度来讲,可以认为两只蚂蚁继续保持了前进但互换了代号。所以这个题相当于在0-1之间有5个随机数,问其中最大的期望是多少。这个数为5/6, 所以答案为A。
    26、两个人玩一个硬币游戏。在游戏之前,第一个人选择一个长度为3的序列张彩苑 ,比如说“国徽,国徽,数字”,在第一个人选择之后,另外一个人选择另外一个序列(必须是不同的)。 在两个人都选定序列之后游戏开始。两个人反复掷硬币,直到一个人所选择的序列出现为止。出现所选择此序列的人获胜。问先选择的人如果做出最正确的选择大约可以有多大的可能性获胜?
    A.30%
    B 50%
    C 70%
    D 90%
    Answer: A. 也许有些人会对这个答案感到有些吃惊。先选的人居然如此吃亏。因为人们可能会认为,在这些序列中,有一个最优的序列,它出现的平均时间最早。这确实不错,但是序列之间不是独立的,也就是说如果A比B好,B比C好,并不一定能保证A比C好。比如第一个人选了“国徽,国徽,数字”这个序列,那我选择“数字,国徽,国徽”就可以保证在他这个序列出现之前的那3个情况中,我大约有1/2的概率可以获胜(也即在这个序列之前的那次硬币为数字即可)。这个题只能用Markov链去计算任何两个序列对抗时分别的获胜率,然后用博弈论的方法去求解。对于第一个人来说,最佳的选择可使他有1/3的概率获胜。
    27、 假设有100个人排队买一个5块钱的电影票,其中50个人只有5块钱,50个人只有10块钱。问电影院在整个过程中一直可以找开钱的可能性大约有多大?(注:这和在之前的测试中的台湾大选问题有一定的类似之处,但并不相同)
    A. 1%
    B. 2%
    C. 5%
    D. 10%
    Answer: B. 在上一系列的概率论感觉测试的题目中,我们问在整个过程中,某一方一直领先另一方的概率。这个题只要求一方(有5块钱的人)不落后另外一方(有10块钱的人)。这个的算法是需要用brownian motion的reflection principle。实际上的比例为从0开始每一步为-1,1运动最后停到-2的路径数除以停到0的路径数,为1/51.
    28. 假设你掷一枚硬币,问你期望需要掷大约多少次才能获得连续10个正面?
    A. 100 次
    B. 500 次
    C. 1000 次
    D. 2000 次
    Answer: D. 在上一系列的概率论感觉测试中,我们说掷n次大概连续证明的数量为log_2^n.现在问的是要获得一定量的正面,需要掷多少次。结果比较接近但是仍然不是很相同,准确的数字为2^(k+1)-2条子骇客,也就是2046次。简单的证明方法可以用数学归纳法。而比较推荐学过martingale的同学用martingale的方法证明:假设每一时刻有1个人来赌,如果正面,他的资金翻倍,否则就为0;当连续出现10个正面的时候,所有来赌的人的钱为2046。根据Optional Stopping Theorem, 所需要时间的期望也是2046。Martingale方法的好处是可以计算达到任何序列所需要的时间。
    29.赌场里有这样一个游戏:你掷一枚色子。在任意时刻,如果6从来没有出现,你可以选择获得你所掷出的总点数或者继续;若6出现,则游戏结束,你获得0块钱。(比如,你掷出了2,3,5;则你可以选择立刻获得10块钱或继续,但是如果你下次掷出6你就什么都没有了,如果是其他你还可以继续)问这个游戏你的平均收益大概是多少(换句话说你愿意付多少钱去玩一次这样的游戏)?
    A. $4
    B. $6
    C. $8
    D. $10
    Answer: B. 这个题需要用动态规划进行计算。这种动态规划在任何管理和金融的应用中都非常常见。准确地值大约为$6.15.
    30. 假设一个飞机上有100个座位。100名乘客中第一名乘客喝醉了酒,就随机在飞机上找了一个座位坐下。其他的乘客如果自己的座位没有被占,则会坐在自己的座位上,否则也将在剩余的座位上随机的找一个座位。问最后一名乘客坐在自己座位上的概率有多大多鳞白甲鱼?
    A.50%
    B.10%
    C.5%
    D.1%
    Answer: A. 这个题应该算比较经典的一道题目,但是并不能算是一道纯粹的概率题。这种类似于脑筋急转弯的题目需要人们能注意到一些简化的方法。思考的方法大约如下:对于第一名乘客,如果他恰好坐在自己的座位上,则最后一名乘客肯定也能坐在自己的座位上,如果他恰好坐在了最后一名乘客的作为上,那最后一名乘客无论如何也无法坐在自己的位子上,而这两个概率是相等的;对于其他情况,如果他坐了第k个乘客的座位,则从第2到第k-1个乘客,他们都会坐在自己的位子上,问题变相当于飞机一共有101-k个座位,第一个乘客(原来的第k个)随机选一个座位。这样递归下去可以得到不管有多少座位,以上的问题的概率都是1/2。
    31、在打桥牌的时候,如果你和对家共持有某门花色的9张牌,则剩余的4张牌怎样分布的概率最大
    A. 2-2
    B. 3-1
    C. 4-0
    B. 可以简单计算得到这个结果。3-1的概率应该是50%。2-2的概率是37.5%。4-0的概率是12.5%。
    32、如果有3个门,有一个背后有大奖。你选中一个,主持人知道哪个门后面有奖,并且总会打开另外两个中的某个没奖的。现在你有一次换得机会,你应该
    A. 换
    B. 不换
    C. 换不换都一样
    A,三门问题,详细情况见三门问题及相关
    33、100个球随机的放在100个箱子里,最后空箱子的数量大约是
    A. 0-10
    B. 10-20
    C. 20-30
    D. 30-40
    D. 这个题可以用简单的概率论计算。结论是不管多少个球,c*n个球放到n个箱子里,最后空箱子的个数约为 n(1?1/n)cn=ne?cn(1?1/n)cn=ne?c ,现在的情况是箱子数和球数一样多,那么就约为 100e?1100e?1 .
    34、打10000副拱猪,总共持有9500-10500个A的概率大约在
    A. 80%-90%
    B. 90%-95%
    C. 95%-99%
    D. 99%以上
    D. 这个可以用中心极限定理计算。事实上这个题也不需要计算,只是要考察大家的一个感觉,实际上这个概率大于0.99...9,一共有9个9。不过有时候我们打牌仍然觉得牌总是很差。
    35、台湾大选,假定马英九最终得到600000票,谢长廷得到400000票,如果一张一张的唱票,则过程中马英九一直领先谢长廷的概率为
    A. 0.1
    B. 0.2
    C. 0.3
    D. 0.4
    36、有以下几个国家,每个国家有自己的习俗。问哪个国家长期以后男人的比例最大
    A. 每个家庭不断的生孩子直到得到第一个男孩为止
    B. 每个家庭不断的生孩子直到得到第一个女孩为止
    C. 每个家庭不断的生孩子直到得到一男一女为止
    D. 以上几个国家最后男女比例基本一样
    D. 我们只需要考察一个家庭最后产生多少男女即可以李春江简历。用概率的方法可以得到不管哪个方法都是1:1。事实上,我们只是把一个很长的男女的序列按照不同的方式来截断。当然这个序列本上包含多少男女是不变的。我每次都愿意以另外一个例子来说明,那就是如果我们在网上下棋,可以每天下到第一盘输为止或是第一盘赢为止或是有输有赢为止,显然不管怎样,因为你的实力是恒定的,你永远都是你本来应有的胜率。
    37、给一个1到100的排列,与原来位置相同的数字的个数的期望大约是 (如1到5的排列51324 与原来位置只有3是相同的)
    A. 1
    B. 5
    C. 10
    A. 在第1个位置,这个排列的第1个数字为1的概率为1/100,而期望是可加的,所以总共与原来位置相同的数字的个数的期望应该是1。也就是说不管是多少的数字,平均恰好有一个数与顺序是相同的。
    38、美国的25分硬币共有50种,上面有50个州的图案,如果我们每次得到的硬币是随机的,则期望大约收集多少可以收集全
    A. 200
    B. 300
    C. 400
    D. 500
    A. 这是所谓的收集硬币问题。具体解法不是很容易。不过结论是要收集齐n种硬币,需要大约 ∑ni=1ni=nlogn∑i=1nni=nlog?n 个。
    39、假设有1000次100m短跑大赛,每次比赛的冠军成绩都在9.7-10之间均匀分布,问期望有多少次比赛打破了之前的纪录
    A. 7
    B. 10
    C. 15
    D. 32
    A. 假设均匀分布,则最后n次比赛之后这n个成绩形成一个排列。第k次创纪录的概率是这个排列中第k个在前k-1个之前的概率,也即1/k,所以n次比赛大约有 1+1/2+1/3+...1/n=logn1+1/2+1/3+...1/n=log?n 次破纪录。
    40、扔10000次硬币,其中最长一次连着正面的次数大约会是多少
    A. 100
    B. 13
    C. 9
    D. 4
    B.这也是一个特殊的概率问题,叫做Head Runs。答案应该是 logn2log2n 。大约为13。或者大于13是显然的,但不太可能有100。所以必定是选B。
    41、以下那件事情发生的期望时间最短
    A. 在第0秒,一个物体从原点出发惧魔症候群 ,每一秒以概率1/2向左走,1/2向右走,第一次回到原点的时间
    B. 一只猴子,每秒种随便按键盘上的一个键,第一次打出"Beijing Welcomes You"的时间
    C. 在第0秒,一个物体从原点出发,每一秒以概率1/2向左走,1/2向右走,第一次到达1的时间
    B. A和C两个事件发生的时间的期望都是+inf. 只有B是有限的。A和C说明了等概率的赌博不可能赢钱(如果C是有限的则参加赌大小的游戏总能赢钱了)。而B说明的是另外一条概率上的定理,"What always stands a reasonable chance of happening will almost surely happen, sooner rather than later",也就是说从任何时刻开始,总有一个固定的概率发生的事情(比如一个猴子打出beijing welcomes you, 这个概率可能是 1/26^20左右),不过这个概率是多少,这件事情早晚能发生。
    42、如果一个物体在3维随机游动,也即每一刻他可以向左,右,上,下,前,后等概率的走,长久来看,则会发生什么情况
    A. 此物体无穷多次回到原点
    B. 此物体无穷多次回到任何一条坐标轴上,但不会无穷多次回到原点
    C. 此物体不会无穷多次回到任何一条坐标轴上
    B. 1维和2维的随机游动是常返的,也就是说会无穷多次回到起点(但回来的平均时间期望是无穷的),而3维以上的随机游动是非常返的。因此对于2维德某改革坐标,此物体会无穷多次经过,但是不会无穷多次经过原点。对一个完全没有方向感的人,在平面上不会迷路,但在宇宙中是会迷路的。
    43、一支股票,初始价为1,每天的价值变化率独立同分布,且期望为0,不恒为0。则
    A. 股票在任何时刻期望价值为1
    B. 股票以概率1变成0
    C. A和B都对
    D. A和B都不对
    C. 也就是说对于很多投机的东西,平均值总是不变的,但是多数人都会倾家荡产。其实仔细想想很有道理,比如说你的股票第一天涨10%。第二天跌10%或是第一天跌10%,第二天涨10%,最后的结果都是跌了1%。所以要保持增长所需要的是远大于0的平均变化率,这个才是一般人难以做到的。
    44、如果一个群体里,每个个体以0.2的概率没有后代,0.6的概率有1个后代,0.2的概率有两个后代,则
    A. 这个群体最后会灭绝
    B. 这个群体最后将稳定在一个分布,即种群大小在一定范围内震荡
    C. 这个群体最后将爆炸,人口将到无穷
    D. 不一定会发生什么
    A. 这是个简单的人口模型。这个可能直觉比较困难,但是这个实际上和上次的一道题是一样的。注意到每一代的期望总是1。因此根据上次的答案,这个群体最后会灭绝。对于这种模型,当每一代的期望小于等于1时,最后的结果都是会灭绝。对于期望大于1的情况519171,我们也可以很简单的通过解方程得到灭绝的概率。
    45、当我们考虑一种可能重复发生的事件时,哪种方式更科学
    A. 按照第一次发生这个事件的时间作为一个起点,考虑从其本身出发之后的性质
    B. 按照最后一次发生这个事件的时间作为一个起点,考虑从其本身出发之后的性质
    C. 以上都可以
    D. 以上都不可以
    A. 这个问题深一些的背景在于Kolmogorov向前向后微分方程。很多人知道向后微分方程更通用,但是并不知道原因。事实上,向后微分方程是基于A的方法对事件进行分解得到的,而向前微分方程是基于B的方法对事件进行分解的。但是有很多重复发生的事情会越发生越频繁,以致没有最后一次发生的事件。但是我们总能找到第一次发生的时间。所以A更科学。
    大数据留学
    大数据留学由一群在美国知名院校数据专业深造毕业后真正从事数据工作的小伙伴们参与创立,我们团队成员的职位跨越Data Scientist、Data Analyst、Business Intelligence Analyst、Analytics Consultant等数据领域多个岗位,深刻了解大数据发展最新情况。2017 Fall申请季,我们取得了骄人的录取成绩。2018 Fall申请季,BA/DS类申请竞争加剧,然而,挑战与机遇并存,你准备好了吗?预约30分钟咨询请发邮件至ask@dashujuliuxue.com并注明“咨询”。或加入小密圈“大数据留学”获得独家一手资料。“大数据留学”小密圈会员,享受咨询费8折优惠 + 免费提问机会 + 独家项目资料 + 学长经验分享!
    Data Science/Analytics专业
    精品留学申请/求职辅导
    大数据留学工作室
    微信号 : dsjlxsq
    小密圈:70070202
    长按识别二维码关注我们
    点击阅读原文,加入小密圈一起玩耍