关于AI来算组装

李小微回国安顿好之后,在128C家群内高声呼喊着python和编程的重要性。做机器人的展瑞用的c++,蕾蕾和阿乾做算法和EE的好像用其它什么。
事实上,计算资源现在极大丰富,如果不用起来实在是有些浪费。而诸如挖矿这种事情也已经早就被玩透了。Hadoop之类的也在前些年听很多做计算机的人讲过。
倒是在看Katie Bowman计算出黑洞的图片时,被inspire到。介于极大和极小之间的我们,创造出了计算机这样积攒了人类智慧的工具。其实是新时代的放大镜和望远镜,可以帮助我们去合理地观测这个世界。
然后就想到,其实用AI对图片分析的原理,其实或许可以用在基因组的组装上。算法上甚至可以类似。而且其实从二维信息降维至一维,理论上来说计算方式可以更简单一些。
于是去找到了一些文献,集中发表于2018年年中至今。数量不多。深度其实也有限,which is really nice to me,对于我这种计算练习量完全不够的数学盲来说,可以消化一下。
基本思路应该是:就目前自己已经收集好了的线虫的基因组,可以从线粒体基因组先着手,构筑数据库,找到合适的深度学习模式,来对数据库内的基因组的模式进行学习。然后喂食自己测序的reads。再在不使用任何seed的情况下,让其进行自行组装。得到产出。期望产出结果可以和现有的组装工具相matching,novoplasty。
然后基于此,对其算法进行改良,来考虑全基因组的组装。

问自己:现在似乎已经有了一些training软件,来进行基因annotation。如何看待你自己的idea和现有的training模式之间的关系和区别?
我在想:annotation的模式,是根据AA序列的相似性,寻找核心功能区,然后做进一步分析。而assembly的模式,是集中在DNA信息上的。(考虑错排,一些插入位点的忽略或采纳)

做控制的他们,提到的反馈机制。在实际编程里用到。那么在生命遗传过程中,也或许有类似的机制吧。

如果要做这样的构架,该怎么去做。行动力才是王道。
可以把自己封存多年的github用起来了嗯。