Posts
白勇's Blog
Cancel

Optimal transport part 1 - Theory

什么是最优传输理论? 最优传输理论(Optimal transport, OT)最早是Monge于1781年提出。假设有多个“土堆”及多个“坑”,OT要解决的问题是找到最优(代价最小)的运输方案将土堆用来填满每个这些坑。另一个应用场景是“土堆”对应货物仓库,“坑”对应不同的购物消费者。 Figure from Optimal Transport for Domain Adaptatio...

Deepwalk

Word2vec

什么是word2vec嵌入? word2vec 模型是一个仅仅包括一层隐含层的MLP网络。 word2vec的任务是预测在一个句子中的context中与当前word近邻的words. 但是,word2vec模型的目标函数与该任务没有任何关系。所有我们想要得到的是隐含层学习到的权重矩阵,这个权重矩阵就是我们用来作为词嵌入(word embeddings)。 这其实是一种在非监督学习中...

组学之工具-bwa

比对 bwa 常见的是使用 bam 软件进行比对。根据数据情况的不同, bam 的参数设置也不同。 如果测序长度 >70bp, 则使用 bwa mem;如果测序长度较短(如35bp,NIPT常用的读长), 则使用 bwa aln; 如果是单端比对,则使用 bwa samse; 如果是双端比对,则使用 bwa sampe。 例如对于NIPT...

大数据生态之正则表达式

反义 有时需要查找不属于某个能简单定义的字符类的字符。比如想查找除了数字以外,其它任意字符都行的情况,这时需要用到反义。常用的反义代码: 代码/语法 说明 \W 匹配任意不是字母,数字,下划线,汉字的字符 \S 匹配任意不是空白符的字符 ...

大数据生态之MySQL-2:Python 和 MySQL

Python连接MySQL数据库 Python连接MySQL数据库推荐使用pymysql包。安装后,直接配置MySQL的连接字符串后连接MySQL。 有两种方式 直接通过pymysql连接数据库。 这种方式主要用在事务提交(UPDATE,DROP,CREATE等)时建立数据库连接。 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 2...

大数据生态之MySQL-1:基本操作

我的MySQL版本是8.0.17 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 MySQL [mydb]> SHOW VARIABLES LIKE '%version%'; +--------------------------+-------------------------------+ | Variable_name ...

组学之工具-SAMTools

SAMtools SAM,即Sequence Alignment/Map, 测序比对结果文件格式。无论是基因组、转录组、还是表观组几乎所有流程都会产生SAM/BAM/CRAM文件作为中间步骤,然后是后续分析过程。 下载 在 官网 上下载最新版本。这里在 souceforge 上下载: 下载完后一共是三个文件 1 2 3 bcftools-1.10.2.tar.bz2 htslib...

组学之deeptools之一: computeGCBias

deeptools 这里使用的版本为deeptools = 3.3.2, pysam = 0.15.2(使用pip list查看,) computeGCBias 参考 https://github.com/deeptools/deepTools/blob/3.3.2/deeptools/computeGCBias.py 参数 必须参数 -b: 待处...

组学之ATAC-Seq

什么是ATAC-seq Assay for Transposase-Accessible Chromatin with highthroughput sequencing(ATAC-Seq)即利用转座酶探究可接近性染色质高通量测序技术。通俗来说就是利用转座酶来获取开放性染色质,再通过高通量测序及生物信息学分析来挖掘相关基因信息,以此探究生物学相关问题1。ATAC-Seq是MNase-seq,...