
miRNA의 role : gene regulation


Mature miRNA transcripts

- 대략 hundreds of nucleotides 길이의 primary miRNA transcripts (=pri-miRNA)에서 begin, 평균적으로 22개의 nucleotides 길이를 가짐



- 적어도 한 개의 hairpin (=precursor miRNA, pre-miRNA)를 가짐. pre-miRNA는 대략 70 necleotides 길이.


Transcription 이후, precursor miRNA (=pre-miRNA, 헤어핀)이 primary miRNA (=pri-miRNA)로부터 쪼개짐.





miRNA 시퀀싱 데이터 분석 파이프라인


✔️NGS를 통해 얻은 raw miRNA 시퀀싱 데이터로 뭘 할 수 있을까?

  • quantify expression of mature miRNAs
  • identify novel miRNA sequences

✔️Analysis procedure

  1. raw data quality check
  2. adapter trimming
  3. trimmed data quality check
  4. reference genome indexing
  5. mapping trimmed reads
  6. identify known and novel miRNA sequences
  7. quantifying miRNA expression


✔️분석 Pipeline을 위해 필요한 것들

  • fastq files for each sample
  • 3' adapter sequence  and additional trimming preferences
  • a reference genome
  • miRBase mature miRNA and precursor miRNA sequences


✔️miRNA-seq 분석 파이프라인 순서

출처: Torres (2022), miRNA-seq Analysis Pipeline and R Shiny App



  • reference genome indexing ⇨ Bowtie (reference genome의 Burrows-Wheeler transform index 생성)
  • mapping trimmed reads ⇨ Bowtie, miRDeep2
  • identify known and novel miRNA sequences
  • quantifying miRNA expression

Pangenome 분석에 대해

(내가 이해하고자) 쓰는 포스트.


출처: wikipedia (pan-genome)


❗Pangenome을 위해 필요한 몇 가지 개념들


✔️COGs: Clusters of Orthologous Groups of proteins

 - COG db는 complete genomes의 enconded protiens를 phylogenetic classify를 위한 시도로 만들어짐.



✔️PGfams: Cross-genus families

 - The cross-genera protein families 는 대표적인 proteins를 클러스터링하여 계산 된다.

 - 대표적인 proteins는 (MCL inflation = 1.1)의 criteria로, genus-specific families.

 - 이는 corss-genera 또는 distant homologs to cluster 를 가능하게 함.

 - bv-brc.org 에서 그려주는 phylogenetic tree에 사용 됨.



✔️ SCG: Single-copy core gene

 - A gene that is found in the vast majority of genomes and yet occurs only once within a single genome.

- Single-copy core genes play a central role in pylogenetics.

- Commonly used SCGs can be identified across a set of genomes through sequence homology searches (via BLAST or HMMs).

- SCGs can also be identified de novo through pangenemics for relatively closely related genomes.

- The number of SCGs will decrease with decreasing resolutions of taxonomy.



✔️ HMMs: Hidden Markov Models

 - prediction (description) tool for a future state, given the knowledge of current state(=observation) in the sequence.

 - HMMs are widely used for many forms of sequence analysis, such as database searches, gene prediction, solving pairwise and multiple sequence alignment problems.

 - HMMs have advantages for solving the homology detection problem.

 - anvi'o 에서는 16S rRNA profiling, Bacteria_71 profiling, Protista_83 profiling 등에 사용 됨.


NGS workflow <출처: 식약처 'NGS기반 유전자검사의 이해'>


Ⅰ. Sequence Generation : 염기서열 생성

⇨ NGS 장비에서 DNA fragment(조각)의 염기 서열을 식별

  • 짧은 DNA fragment로부터 식별된 염기 서열은 리드 단위로 생성되고, 염기서열 정보는 FASTQ 파일로 생성됨.


Ⅱ. Sequence Alignment

⇨ Reference genome 과 비교하여 DNA fragment의 원 위치를 추정

  • 각 리드의 reference genome 내 위치 & alignment 결과가 SAM or BAM 파일로 저장됨.
  • SAM or BAM 파일을 이용해서 '모든 genome 상의 위치에 대해 align 된 리드의 개수 계산
  • 특정 유전자 or 영역에 대해 Depth of coverage 계산


Ⅲ. Variant Calling

⇨ Reference genome과 생성된 서열 중 차이가 있는 부분을 검출.

  • 검출된 변이는 VCF 파일로 저장


Ⅳ. Variant filtering & Variant Annotation

⇨ 변이 검출 과정에서 false positive로 생각되는 변이를 제거

⇨ 각 변이에 대한 관련 정보를 추가. 


