Gao Lab测试-2024 Posted on Monday, May 13, 2024Wednesday, June 26, 2024 by yangdc 本测试的目的是帮助你检查在实验室进行生物信息学研究与学习所需的基础知识与基本技能,你应该在自己开始答题后24小时之内独立完成测试,超过24小时的提交将无效,最晚提交时间不晚于6月25日晚18点。 其间,你可以: 自行通过网络查找资料,独立完成; 由于本测试为题库随机抽题,答题期间请勿关闭网页,再次进入题目由于设备原因有概率会重新抽取。 多次尝试,最终分数以最后一次提交为准。 你不能: 抄袭; 剽窃。 本试题共计20道题,包含选择、填空、问答题,选择题均为不定项选择题。为了保证题目的有效性和公平性,请勿转发和分享。 姓名 Email 手机 Access Code 1. 以下关于两个随机变量观测值的哪些说法是错误的: A. 如果Pearson相关性为零,代表它们相互独立 B. 如果Spearman相关性为零,代表它们相互独立 C. 如果互信息为零,代表它们相互独立 D. 如果KL散度为零,代表它们相互独立 2. 基因突变有多种类型,请问下图展示的是什么类型的突变: A. 错义突变 B. 无义突变 C. 同义突变 D. 终止密码子突变 3. 机器学习模型普遍⾯临偏差-⽅差权衡(bias-variance tradeoff)问题,以下表述中正确的有: A. ⼀个理想的机器学习模型在⽅差和偏差上都应当尽可能⼩ B. 如果模型过拟合训练数据,说明模型的⽅差太⼩,偏差太⼤ C. 模型的拟合能⼒越强,通常⽅差越⼤ D. ⽅差越⼩的模型偏差⼀定越⼤ 4. 以下关于单细胞组学实验技术的说法错误的有: A. 10x Visium技术可以检测单细胞在组织中的完整空间邻域 B. 10x Xenium技术可以检测单细胞在组织中的完整空间邻域 C. Perturb-Seq技术可以⼤规模鉴定基因间的直接调控作⽤ D. scNOMe-seq可以在单细胞中同时检测三种组学模态 5. 以下关于长非编码RNA的叙述,正确的是: A. 大部分长非编码RNA定位在细胞核 B. 定位在细胞质的长非编码RNA可能会被核糖体结合 C. 同一条长非编码RNA在不同的细胞系中具有相同的定位 D. 长非编码可以通过转录过程而非转录产物发挥功能 6. 哪些命令本身(不使用管道)可以用于清空一个文件夹下所有内容? A. rsync B. rm C. ls D. pwd 7. 请利用以下选项(A,B,C,D,...)填空:选项:A 0.45 B 0.5 C 0.66 D 0.75 E 0.8 F 0.88 G 0.9 H 0.97问1:不知道任何信息的情况下,P(Xi=不带) = ______ 问2:长期处于旱季的情况下,P(Xi=不带 | S=旱季) = ______ 以下两问(问3、问4)均假定季节在一段较长的时期内尚未切换 问3:看到连续3天天晴,估计现在处于旱季的概率 P(S=旱季 | Wi-1=晴, Wi=晴, Wi+1=晴) = ______ 问4:看到连续3天不带伞,估计现在处于旱季的概率 P(S=旱季 | Xi-1=不带, Xi=不带, Xi+1=不带) = ______请将你的答案用“、”分隔,填入下面方框: 8. 以下哪几种酶被用来检测染色质开放性: A. DnaB B. M.CviPI C. DNase I D. MNase E. Taq F. Tn5 9. 相较于一代(Sanger)和三代(SMRT)而言,二代测序(Illumina)的局限性有哪些? A. 价格最贵 B. 通量最低 C. 读长最短 D. 错误率最高 E. 样本制备及建库步骤最复杂 10. 考虑如下的花童卖花问题: 一位花童每天早上去花店买花,买入价1元/支;白天在街上卖花,卖出价3元/支;晚上将没卖出的花扔进垃圾桶;即对于早上买的花,若卖出了则净赚2元/支,若没卖出则赔1元/支。经过长期观察,花童发现每天买花的需求支数近似服从均值为128、标准差为28的正态分布,则花童每天分别应当买入多少支花使收益期望最大? A. 100 B. 110 C. 120 D. 128 E. 130 F. 140 G. 150 H. 156 I. 184 11. (可以在word中编辑完成后复制过来,亦可拍照发送到我们的邮箱) 12. 以下哪些关于Python编程的说法是错误的: A. __xxx__代表私有属性/方法,无法从类的外部访问和改变 B. 函数也是一种对象,可以有自己的属性 C. 函数递归调用的深度是有限制的 D. python的threading库适合用于高cpu低IO的并发计算任务 13. 以下哪些基因组DNA序列的突变可能会影响生物个体的表型? A. 开放读码框 (Open Reading Frame) B. 5端UTR C. 3'端UTR D. 启动子 E. 增强子 F. 基因间区 14. 特征选择是对于冗余特征较多的数据集的一种重要方法。下面有关描述正确的有: A. 基于Lasso的特征选择方法的原理是使用了L2范数对数据进行稀疏化 B. 封装式(Wrapper)特征选择方法会基于分类器的分类性能进行特征选择 C. 基于信息增益准则进行特征选择主要原理是判断加入该特征后信息熵变化大小 D. SVM可以用作特征选择,比如可以使用支持向量数目与训练样本数目的比值作为评价函数进行特征选择 15. 存在样本:samplenames = [“1”,”2”,”3”…”100”], 各样本的权重为weights = [1,2,3,..100], 请自己设计算法,并给出代码或伪代码,对这100个样本按权重无放回抽样,随机抽取50个样本(请勿直接调用带权抽样函数)。 16. 以下关于卷积神经层的说法,错误的有: A. 卷积核在计算时是相互独立的。 B. 卷积核在计算卷积核与输入张量相似度时,学习了输入张量的位置信息 C. 卷积核的尺寸越大,输出结果每个位置的感受野越大 D. 卷积过程无法并行计算。 17. scRNA-seq测序中的doublet通常有什么特点: A. 表达基因偏少 B. 表达基因偏多 C. 同时拥有多个不同的cell barcode D. 同时表达多个细胞类型的marker 18. 请自行在NCBI上搜索相关信息,然后判断以下哪些说法是错误的: A. Linc2GO算法的主要目的是根据竞争性内源RNA的机制推测microRNA和lincRNA的功能 B. lncRNA-MFDL是基于深度学习预测lncRNA具体行使的生物学功能的 C. 目前基于 CRISPRi 方法测定lncRNA功能的研究里,暂时还没有涉及到lncRNA在干细胞中的功能 D. 目前用在lncRNA领域的深度学习模型里,没有模型同时整合了CNN(卷积神经网络)和RNN(循环神经网络) 19. 以下哪些方法可以用于矫正单细胞数据批次效应(batch effect): A. CCA anchor B. MNN C. Scanorama D. RPCI E. Monocle 20. 给定程序初始状态: x = 0; y = 0;假设有下面两个共享内存的并行线程: 线程一:x = y + 1; print(y); 线程二:y = x + 1; print(x); 已知程序执行满足顺序一致性且所有分号分隔的语句均为原子操作,可能会打印出以下哪些结果: A. 线程一:1;线程二:1 B. 线程一:2;线程二:1 C. 线程一:0;线程二:1 D. 线程一:2;线程二:0 可将你的想法/意见与建议写在下面 谢谢填写! 请确认后,按下方按钮提交答案。 Time's up