在2020年5月17日,HengLi在它的一篇博客「Fast high-level programming languages」提到,他一直在寻找一门编程语言,生物学家容易使用而且速度还快。( I have always been searching for a high-level language that is fast and easy to use by biologists. )
于是在这篇博客中,他评估了一些高级编程语言的处理速度,包括,C, Python, Javascript, LuaJIT, Nim, Crystal,Rust。其中Rust在FASTQ的解析速度上略胜于C语言。
同时在2020年12月的nature的technology feature中也有一篇是关于Rust,「Why scientists are turning to Rust」地址为https://www.nature.com/articles/d41586-020-03382-2
里面有一张图,是评估Rust近年来的社区状态的(即相关包的增长数量),从中可以发现Rust的增长超过了R。
我并不是某个编程语言的信徒,平常用的最多的是R和Python,同时经常性的找机会学习C和C++,以及每隔几个月会去尝试学一门新的编程语言。
curl --proto '=https' --tlsv1.2 -sSf https://sh.rustup.rs | sh
我使用VScode进行开发,并安装了如下插件
- rust-analyzer (语法分析)
- rust syntax (语法高亮)
- crates
- better toml (TOML格式更好的展示)
- rust test lens
- Tabnine (基于机器学习的自动补全,不只是Rust)
接着,尝试使用Rust构建第一个程序。我的目标是读取Fasta,统计其中的A, T, C, G各有多少个。
完成这个需求,有两个思路,第一个是调用成熟的库,第二个是自己造轮子写一个函数。
对于思路1,我使用关键词,Rust和Bio搜索到一个库叫做,rust-bio。https://rust-bio.github.io/
接下来,使用cargo new创建项目
cargo new fasta_count
第二步: 添加依赖。编辑 Cargo.toml , 添加依赖信息
[dependencies] bio = "0.37.1"
第三步: 学习rust-bio文档,查找相关函数,然后在 src/main.rs中编写代码。
use bio::io::fasta; use std::io; fn main() { let reader = fasta::Reader::new(io::stdin()); let mut nb_a = 0; let mut nb_t = 0; let mut nb_c = 0; let mut nb_g = 0; for result in reader.records(){ let record = result.expect("Error during fasta record parsing"); for &base in record.seq() { //return sequence if base == b'a' || base == b'A' { nb_a += 1; } else if base == b'c' || base == b'C'{ nb_c += 1; } else if base == b'g' || base == b'G'{ nb_g += 1; } else if base == b't' || base == b'T'{ nb_t += 1; } } } println!("A:{}, C:{}, G:{}, T:{}", nb_a, nb_c, nb_g, nb_t); }
我使用标准库io::stdin从标准输入中读取数据,然后利用fasta::Reader的new出一个新的reader实例。对该实例的records对象进行遍历,得到fasta的中记录,record。最后对记录中序列进行遍历,得到不同碱基的数目。
编译结果存放在 target的debug目录下,名为fasta_count。我们运行程序,得到结果。
cat TAIR10.fa | target/debug/fasta_count # A:, C:, G:, T:
最后说说自己的编程体验:
每一门编程语言都有其特殊的语法,在Rust中,Rust用let对类型进行推导,而C++中是用auto进行类型推导。Rust和Python类似,可以直接用for x in xxx
对xxx进行遍历,而C++则是 for (auto x : xxx )
。Rust使用{}声明代码块,而不是Python那样子使用缩进。在函数返回上,Rust可以用return 显示说明要返回的内容,还是隐式将最后一个值(不能加上;)作为返回值,这个跟R语言又很像。当然还有函数定义,python用def 函数名, C和C++是返回值 函数名,R用 函数名 <-function, GO是 func 函数名, Rust用的是新的缩写 fn 函数名。
版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/1702.html