不知道距离上次记录已经过去多久了(反正已经很久了),所以我们继续记录我的点点滴滴的经验和遇到的坑。
上学期我除了继续跑高通量测序数据的过程之外,还用R语言做了一些数据分析(其实我学习R语言的时间比在Linux系统上花的时间多得多) 。 完成一个完整的高通量测序项目,考验的无非就是你的Linux能力和R语言能力,再加上一些生物学理论。 掌握它可能也很有用,但我太擅长了,所以暂时就用它吧。 少于。
1. 平台建设
有了conda,大部分问题都解决了。 关于conda我想讲的无非就是环境和镜像。 有的软件需要环境,有的软件需要环境。 只要你自己尝试一下就知道了。
但使用conda并没有为我解决所有问题。 我遇到的最大的困难是软件包的安装。 有的包安装很顺利,但有的包安装不了。 我也尝试在R中安装这些包,但是发现conda和R语言在调用C语言时存在一些冲突。 零基础的电脑基础,尝试了论坛上的各种方法都无法解决这个问题。
我最后的方法是卸载使用conda安装的R语言,在conda外部手动安装R语言,然后在R内部安装我想使用的各种R语言编程软件。
R语言的各种包安装过程中会出现各种错误。 原因是系统缺少一些库。 您可以根据错误信息自行百度。
然后就出现了无法使用-来画图的问题。 按照外部论坛的步骤多次重新安装软件都没有解决问题。 这里我用了一个比较麻烦的方法来解决这个问题(具体可以阅读之前的文章)。 好处是不用操心平台,只需要在R上激活包即可。至此,整个平台就完成了。 我花了半个多月的时间才彻底解决这些问题。 如果你不用像我一样从头开始搭建服务器平台,而是有一个提前搭建好所有东西的师兄师姐,那就太好了。
2、软件
上学期的主要工作是使用R语言进行的。 所谓的下游分析在我看来比上游分析要困难得多。 虽然我在Linux上踩过很多坑,虽然我的shell脚本很乱,但我并不觉得上游分析是我的短板。 因为我认为脚本如果你愿意学的话,不会花太多时间。 如果你不愿意学习,能够一行一行地写出一些效率低下的脚本就足够了。 上游分析的软件其实并不难,参数也不多(有些参数根本用不到)。 自己看说明书就行了(理解测序原理很重要)。
至于R语言,虽然我在里面花了很多时间,但还是很困惑。 首先,R语言可以用于上游分析等,这对于m6A-seq来说似乎是一个更标准的流程。 虽然很慢,但是后续的画图还是得用它。 貌似RNA-seq也是用R语言编程的? 这是一个非常快的软件。
学习R包的最好方法是阅读手册,然后阅读其他人的代码。 但基础非常重要。 重点是矩阵处理。 如果你不知道基本的矩阵处理语法,那么做任何事情都会很困难。 然后尝试做一些TCGA或者GEO挖矿来练习。 你会遇到很多问题。 去百度、论坛发帖、看书。 将您最终解决所有问题的代码放入(或其他地方)。 在以后的工作中你会经常引用到这些代码。
R语言能做的事情实在是太多了,外行人不会关心你对测序数据的处理是否合理,或者你有多么讲究。 改变 R 中平庸的测序数据也许正是您老板想要的? 这也是我今后应该努力学习的。
3. 理论
理论方面,这学期我没有太大的进步,m6A方向的论文看的越来越少。 一方面是因为我要花费大量的精力去适应人事的变化,另一方面我也变得越来越浮躁。 这段时间读到的文章中,我对《N6-on the RNAs》这篇文章很感兴趣。 关于它的研究不少,但将其与m6A机制联系起来的研究确实很少。 在与论文通讯作者的交流中了解到,作者认为m6A机制对miRNA机制的影响是通过降级调控来实现的(有点类似)。 这个机制并不是很新颖,但是对于m6A确实没有研究。 虽然笔者并不确定这个监管机制能起到多大的作用,但实际上是可以做一些工作的。
至于其他方向的话题,我没有太多想法。 你可以和你的老板聊天,看看他的想法。