Gao Lab测试 Posted on Saturday, June 12, 2021Thursday, June 15, 2023 by yangdc 本测试的目的是帮助你检查在实验室进行生物信息学研究与学习所需的基础知识与基本技能,你应在收到Access Code之后48小时之内独立完成测试。 其间,你可以: 自行通过网络查找资料,独立完成; 多次尝试,最终分数以最后一次提交为准。 你不能: 抄袭; 剽窃。 姓名 Email 手机 Access Code 阐明人类遗传疾病的发病机制对实施“精准医疗”至关重要。假设你是一名从事研究某人类遗传病治病机制的研究人员,通过全基因组关联分析你找到了一个显著与该疾病相关的SNP,并且进一步研究表明这个SNP位于人类基因组非蛋白编码基因区域,那么该SNP的致病机制可能是 A. 通过影响miRNA B. 通过影响转录因子结合位点 C. 通过影响lncRNA D. 通过影响enhancer RNA可以通过竞争性内源 RNA (ceRNA)机制发挥抑制其他RNA表达的作用,如图所示,关于lncRNA-miRNA-mRNA三者形成的crosstalk,说法不正确的是 A. miRNA可以同时抑制lncRNA和mRNA的表达量 B. 增加lncRNA的表达量可以降低mRNA的表达量 C. 突变mRNA上miRNA的靶位点可以降低lncRNA的表达量 D. 降低mRNA的表达量可以增加lncRNA的表达量 以下关于长非编码RNA的叙述,正确的是: A. 大部分长非编码RNA定位在细胞核 B. 定位在细胞质的长非编码RNA可能会被核糖体结合 C. 同一条长非编码RNA在不同的细胞系中具有相同的定位 D. 长非编码可以通过转录过程而非转录产物发挥功能 在人类基因组chr5:40490609-40490609(hg19)的位置上发生的C>T突变,下列说法正确的是: A. 该突变位于基因组编码区域 B. 该突变所处位置没有H3K27ac修饰 C. 该突变可能通过影响增强子的功能发挥作用 None 请自行在NCBI上搜索相关信息,然后判断以下哪些说法是错误的: A. Linc2GO算法的主要目的是根据竞争性内源RNA的机制推测microRNA和lincRNA的功能 B. lncRNA-MFDL是基于深度学习预测lncRNA具体行使的生物学功能的 C. 有人发现,在MCF-7这个肺癌细胞系中,雌二醇可以诱导H19的表达 请自行在arXiv搜索1710.10547这篇文章的摘要,然后判断以下哪些说法是错误的: A. 这篇文章提到的Saliency maps, relevance propagation以及DeepLIFT都是用来做预测的深度学习模型 B. 这篇文章认为,“interpretation”是不靠谱的,因为同一个模型在面对两个长得很像、但是分类标签不一样的图片时,可能会把它们判定为是同一类图片 C. 这篇文章的分析过程中没有涉及到二阶导数 D. 这篇文章认为,"interpretation"变化的时候,预测结果会跟着一起变 请自行在arXiv搜索1710.10547这篇文章的全文,然后判断以下哪些说法是正确的: A. 这篇文章用到的CIFAR-10分类模型只有一种大小的卷积核:3乘3 B. top-k attack会对原始输入图像上RGB绝对值求和最大的像素点进行修改 C. Figure 3的结果是在ImageNet数据集上做出来的 D. 附录E解释了为什么influence function要比importance-feature methods效果更差 以下哪些数据有助于关联基因及其远距离顺式调控元件: A. miRNA表达量 B. CLIP-Seq C. eQTL D. Hi-C 下列关于计算机硬件的描述,错误的有: A. N卡和A卡都可以用于cuda编程 B. 一块CPU有四个核心,主频率为3.5GHz,睿频为4GHz,所以最高频率能够达到16GHz。 C. 闪存型固态硬盘的读写速度要远高于机械硬盘,并且由于使用了闪存,没有磁道,所以数据可以无限次地擦除和写入。 D. 当你同时按下键盘上的十个按键时,不可能十个按键同时生效。 下列关于计算机语言的描述,错误的是: A. JavaScript只能运行在浏览器端(前端) B. PHP和JSP都可以运行在服务器端(后端) C. Perl是一种解释性语言 D. C语言是一种编译型语言 None 以下那些关于Python编程的说法是错误的: A. __xxx__代表私有属性/方法,无法从类的外部访问和改变 B. 函数也是一种对象,可以有自己的属性 C. 函数递归调用的深度是有限制的 D. python的threading库适合用于高cpu低IO的并发计算任务 给定程序初始状态: x = 0; y = 0;假设有下面两个共享内存的并行线程: 线程一:x = y + 1; print(y); 线程二:y = x + 1; print(x); 已知程序执行满足顺序一致性且所有分号分隔的语句均为原子操作,可能会打印出以下哪些结果: A. 线程一:1;线程二:1 B. 线程一:2;线程二:1 C. 线程一:0;线程二:1 D. 线程一:2;线程二:0 利用化学方法合成核酸,假定每个碱基合成出错的概率为0.001,如要序列中出现2个出错碱基的概率小于0.00001,那么满足要求的序列的最长长度为多少bp。 A. 3 B. 4 C. 5 D. 6 None A. O(n) B. O(n*log(n)) C. O(n^2) D. O(n^3) None 以下哪一个选项是错误的: A. 主成分分析 (PCA) 可以直接用设计矩阵 (design matrix) 的特征值分解来计算 B. 高斯核函数能把原空间映射到无限多维 C. 决策树可以用来做回归 D. ROC曲线下面积常被用来衡量分类模型的好坏 None 以下哪一种分布可以写成泊松分布的伽玛混合: A. 高斯分布 B. 狄利克雷分布 C. 负二项分布 D. 超几何分布 None 以下关于两个随机变量观测值的哪些说法是错误的: A. 如果Pearson相关性为零,代表它们相互独立 B. 如果Spearman相关性为零,代表它们相互独立 C. 如果互信息为零,代表它们相互独立 D. 如果KL散度为零,代表它们相互独立 考虑如下的花童卖花问题 一位花童每天早上去花店买花,买入价1元/支;白天在街上卖花,卖出价3元/支;晚上将没卖出的花扔进垃圾桶;即对于早上买的花,若卖出了则净赚2元/支,若没卖出则赔1元/支。经过长期观察,花童发现每天买花的需求支数近似服从最小值100、最大值130的均匀分布,则花童每天分别应当买入多少支花使收益期望最大? A. 100 B. 110 C. 120 D. 128 E. 130 F. 140 G. 150 H. 156 I. 184 None 考虑如下的花童卖花问题 一位花童每天早上去花店买花,买入价1元/支;白天在街上卖花,卖出价3元/支;晚上将没卖出的花扔进垃圾桶;即对于早上买的花,若卖出了则净赚2元/支,若没卖出则赔1元/支。经过长期观察,花童发现每天买花的需求支数近似服从均值为128、标准差为28的正态分布,则花童每天分别应当买入多少支花使收益期望最大? A. 100 B. 110 C. 120 D. 128 E. 130 F. 140 G. 150 H. 156 I. 184 None 以下哪些基因组DNA序列的突变可能会影响生物个体的表型? A. 开放读码框 (Open Reading Frame) B. 5端UTR C. 3'端UTR D. 启动子 E. 增强子 F. 基因间区 以下哪些关于CRISPR技术的陈述是错误的? A. CRISPR即是Cas9 B. CRISPR的唯一用途是通过切割DNA来编辑基因组 C. CRISPR是第一个基因编辑系统 D. Cas9对于DNA的切割是精准无误的 相较于一代(Sanger)和三代(SMRT)而言,二代测序(Illumina)的局限性有哪些? A. 价格最贵 B. 通量最低 C. 读长最短 D. 错误率最高 E. 样本制备及建库步骤最复杂 同一个细胞系,例如 HeLa,在以下哪种情况下可以95%肯定其不会导致实验结果发生偏差? A. 仅代次相差10代 B. 在不同的培养基下分别培养了10代 C. 在不同的实验室中分别连续培养了10代 D. 同一实验室内不同的人分别连续培养了10代 E. 无 以下关于肿瘤微环境的说法哪些是正确的: A. 除肿瘤细胞外仅包含肿瘤浸润免疫细胞 B. 肿瘤细胞既受微环境中其他细胞的影响,也会主动影响其他细胞 C. 肿瘤微环境中胞外基质与正常组织中胞外基质不同 D. 肿瘤微环境中的免疫细胞都是促进肿瘤生长的 在质粒构建的过程中中,保证目标基因ORF区完整是质粒正常工作的必要条件,请问哪些发生在目标基因ORF区的突变可能会影响质粒的功能? A. 移码突变 B. 导致翻译提前终止的突变 C. 非同义突变 下列关于scRNA-Seq的说法错误的有 A. mtx或mtx.gz格式的表达矩阵只能用Seurat包里的函数读进来变成稀疏矩阵,不能用其他包的函数读成稀疏矩阵 B. 在read比对到基因的过程中,如发现单个碱基错配,且不是测序错误导致的,则该错配一定来自于基因组变异 C. scRNA-Seq 的batch effect有可能一部分源自真实的生物学差异,而不全是源自非生物的技术偏差 以下哪几种酶被用来检测染色质开放性: A. DnaB B. M.CviPI C. DNase I D. MNase E. Taq F. Tn5 以下哪几种方法可以消除scRNA-seq表达量定量的扩增偏差(amplification bias): A. Unique molecular identifier B. Cell barcode C. In vitro transcription D. 高效PCR扩增酶 以下哪个组学特征和基因表达量通常是负相关的: A. Promoter开放性 B. Promoter mCG甲基化 C. Gene body开放性 D. Gene body mCG甲基化 None scRNA-seq测序中的doublet通常有什么特点: A. 表达基因偏少 B. 表达基因偏多 C. 同时拥有多个不同的cell barcode D. 同时表达多个细胞类型的marker 下列哪种单细胞分离方法能在单细胞中进行多步反应操作(即能分多次加入不同反应体系,从而进行多步反应) A. Micropipette isolation B. Fluidigm C1 C. FACS None 以下哪几种scRNA-seq测序方法可以检测全长转录本: A. Smart-seq2 B. inDrop C. Drop-seq D. STRT-seq None RNA velocity采用哪种信息来判断细胞状态变化方向: A. Poly-A长度 B. Intron read数 C. Housekeeping基因表达量 D. Non-housekeeping基因表达量 None 以下哪些空间转录组方法可以检测单细胞边界(Cell Segmentation): A. Slide-seq B. MERFISH C. FISSEQ D. seqFISH 以下哪种单细胞测序方法可以同时检测RNA和蛋白的表达量: A. scM&T-seq B. CITE-seq C. scATAC-seq D. sci-CAR None 以下哪些降维/可视化方法是线性的: A. PCA B. UMAP C. tSNE D. NMF 以下哪些方法可以用于矫正单细胞数据批次效应(batch effect): A. CCA anchor B. MNN C. Scanorama D. RPCI E. Monocle 以下哪些模型可以产生对抗样本: A. 卷积神经网络 B. 递归神经网络 C. SVM—支持向量机 D. 线性回归 A B C D None 下列有关卷积神经网络kernel(filter)特征识别的说法,正确的是哪些? A. 卷积神经网络里的kernel是各位独立的,卷积层内的kernel只能捕获输入序列的0阶马尔可夫过程。 B. 如果输入序列由某个贝叶斯网络生成,那么卷积神经网络的kernel可以从输入序列中捕获到该贝叶斯网络的结构和/或参数信息。 C. 理论上多层卷积神经网络内深层的卷积层有概率捕获输入上层卷积输出的特征的局部相关性。 D. 以上说法全部错误。 在优化一个神经网络的时候,如果训练集的预测准确率先上升后下降,以下描述正确的有哪些? A. 优化器问题,在优化过程中,更新梯度过大,应随着优化过程逐步减少优化器里学习率大小。 B. 目标函数问题,目标函数里存在与预测值无关的loss,如正则项等,无关loss权重过大,应重新设计无关预测值的loss或者减小权重。 C. 训练集可能存在无关训练目标的噪音数据。噪音数据过多,造成loss失真。应根据模型预测结果进行数据重标签化处理。 D. 优化器非经典优化方案,不保证loss往小了收敛。此时应重新设置目标函数收敛位置。 E. 以上说法全部错误。 在人类基因组,chr5:40490609-40490609(hg19)的位置上有C>T的突变, 在dbSNP build 150的版本中,该突变的ID为:%BLANK% 现有如下p值:0.001, 0.003, 0.006, 0.01, 0.02, 0.15, 0.25, 0.46, 0.68, 0.79。请回答: 1) 第1个p值使用Bonferroni correction 后的数值是______ 2) 最后1个p值使用FDR correction后的数值是______请将你的答案用“、”分隔,填入下面方框: 请利用以下选项(A,B,C,D,...)填空:选项:A 0.45 B 0.5 C 0.66 D 0.75 E 0.8 F 0.88 G 0.9 H 0.97问1:不知道任何信息的情况下,P(Xi=不带) = ______ 问2:长期处于旱季的情况下,P(Xi=不带 | S=旱季) = ______ 以下两问(问3、问4)均假定季节在一段较长的时期内尚未切换 问3:看到连续3天天晴,估计现在处于旱季的概率 P(S=旱季 | Wi-1=晴, Wi=晴, Wi+1=晴) = ______ 问4:看到连续3天不带伞,估计现在处于旱季的概率 P(S=旱季 | Xi-1=不带, Xi=不带, Xi+1=不带) = ______请将你的答案用“、”分隔,填入下面方框: 给定如下马尔科夫模型,状态A、B、C初始频率为: [0.21, 0.39, 0.40] 其各状态之间的转移概率(顺序依次为A、B、C)为 (有效数字均为小数点后8位,且简略忽略计算过程中末位有效数字相差1个单位导致无法归一化的问题)1、当步数n>=______时,能够得到关于A、B、C的平稳分布2、若把初始频率分布修改成[0.20, 0.35, 0.45],则需当步数n>=______时才能获得关于A、B、C的平稳分布;3、若初始频率分布不变,转移矩阵改为: 经过第一次转移的步数记为1,则需当步数n>=______时可获得关于A、B、C的平稳分布。请将你的答案用“、”分隔,填入下面方框: 以下脚本是使用python2编写,那么请问脚本最终的输出为?请将结果填入下面方框: 存在样本:samplenames = [“1”,”2”,”3”…”100”], 各样本的权重为weights = [1,2,3,..100], 请自己设计算法,并给出代码或伪代码,对这100个样本按权重无放回抽样,随机抽取50个样本(请勿直接调用带权抽样函数)。 可将你的想法/意见与建议写在下面 谢谢填写! 请确认后,按下方按钮提交答案。 Time's up