반응형

우리집 멍뭉이는 유기견이에요.

유기견이고 대형견 (우리나라 기준) 이에요.

 

 

애견샵에서 분양보다는 유기된 멍뭉이들을 입양하고자 하는 분위기가 널리 퍼져 있는데 동물의 복지에 대해서 진정으로 생각하고 있는 분들이라면 여기에 백퍼 동감 하실거라 생각해요.

 

 

그런데 그 어떤 멍뭉이던 간에,

멍뭉이를 집으로 데려 온다는 것은 한 생명을 온전히 책임질 수 있어야 하는 것이고,

아기 강아지 때부터가 아닌 이미 성견이 된 유기견들을 잘 훈련시킬 수 있을까?

이미 성견인 유기견의 성격이 어떤지?

왜 아이가 유기되었는지? 궁금함 등등의 이유로

유기견 입양을 많이 주저하시는 분들도 계실거라고 생각해서, 나름(?) 용기내서 유기견 입양 후기에 대해 적어 보도록 할게요.

 

 

⚠️ 무조건 입양을 하라는 글이 아닙니다. 또 후기라기 보다는 유기견 입양 절차에 대해 설명하는 글에 가깝습니다.

추가로, 우리 멍뭉이 입양 관점에서 쓰여진 글이므로 다른 강아지들의 특성과는 다를 수 있습니다.

 

 

 

🐕 먼저 저희 멍뭉이를 소개해야겠네요.

 

저희 집 멍뭉이는 서울시에서 운영하는 유기견센터를 통해 입양이 되었어요.

 

제가 우리 강아지를 입양했을 때에는 코로나의 위험성도 잘 알려지지 못하고, 매섭게 퍼지고 있던 시기라 전국적으로 거의 모든 대면 활동이 취소되었던 시기였어요.

 

원래 유기견을 입양할 때에는 어느 정도의 교육을 들어야 하는데, 우리는 입양을 하고 난 다음에야 교육을 들을 수 있었어요.

 

저희 멍뭉이는 센터에서 이미 중성화가 되어 있었고, 칩(?) 동물등록도 완료 되어 있던 상태였어요.

 

저희 집은 어릴 때부터 큰 개들을 키워서 큰 개들에 대한 soft spot도 좀 있었고, 우리나라에서 큰 개들에 대한 처우.. 가 매우 나쁘다는 것에 마음이 안 좋았었죠.

 

아무튼 저희가 강아지를 입양해야겠다고 생각하고, 입양할 강아지는 아무래도 정부에서 공식적으로 돌봐주는 곳이 좀 믿음직스럽고 절차가 투명하지 않을까 생각해서 무작정 홈페이지를 뒤졌는데, 역시나 진돗개로 보이는 멍뭉이가 오랫동안 입양대기에 있더라고요.

 

그래서 바로 센터로 전화해서 그 아이 입양에 관심이 있는데, 아직 대기리스트에 있는지, 그리고 절차가 어떻게 되냐고 물어봤어요.

 

센터에서도 오랫동안 입양을 보내고 싶어했던 아이여서 그런지 속전속결로 입양 절차에 따라서 아이를 만나는 과정이 2 주에 걸쳐서 진행이 되었죠. 

 

 

📝입양 절차는 삼 주에 걸쳐 진행됩니다.

첫 째 주 : 아이와의 첫 만남 - 그 후 아이와 두 번째 만남을 할 것인지 결정

둘 째 주 : 아이와의 두 번째 만남 - 여기에서 입양 여부를 결정

셋 째 주 : 아이와의 세 번째 만남 - 아이와 함께 집으로 💕

 

 

1️⃣ 첫 번째 절차

전화를 한 그 주 토요일에 센터에 방문해서 처음 아이를 만났어요.

 

센터 선생님이 첫 번째 만남 때 아이에 대해서 아주 자세히 설명을 해주시고요,

나름의 호구조사(?)를 하십니다.

- 가족구성원, 아이가 혼자 있는 시간, 집 구조와 넓이, 산책 가능 시간 등등

 

저희는 맞벌이인데다가 집이 좀 좁아서 살짝 쫄렸어요..

다만 맞벌이어도 아이가 혼자 있는 시간이 엄청나게 길지 않고, 집이 좁은 것은 산책을 열심히 시켜주는 것에서 합의를 봤죠.

 

센터 선생님의 전반적인 설명이 끝나면 센터에 상주하시는 수의사 선생님께서 아이의 건강상태에 대해 아주 자세히 설명을 해주십니다.

저희 멍뭉이는 관절이 안 좋은데, '나중에 수술을 해야할 수도 있다.' '이 아이는 무조건 다이어트를 해야 한다.' 등등 솔직하게 말씀해주십니다.

그리고 아이 건강에 대해 궁금한건 뭐든지 물어봐도 되고, 엄청 친절하게 대답을 다 해주셨어요.

 

그리고 저희 식구가 된 멍뭉이를 만났어요.

 

센터 선생님과 수의사 선생님의 설명을 들으니 이 멍뭉이의 성격이 저희와 잘 맞겠구나 생각했었고, 두 번째 만남도 당연히 갖고 싶었어요.

 

그런데 첫 번째 만남에서는 바로 두 번째 만남 약속을 잡지는 않아요.

센터 선생님께서 충분히 생각해보시라는 말씀만 하고, 두 번째 만남 때 입양 여부를 결정하니까 아이 입양을 원하면 서류를 잘 챙겨오라고 말씀하셨어요.

 

그리고 며칠 뒤에 센터 선생님으로부터 연락이 와서 두 번째 만남 약속 시간을 잡습니다.

 

 

2️⃣ 두 번째 절차

두 번째 만남에서는 저희가 입양을 간절하게(?) 바란다는 것을 알고 계셨는지 바로 입양 절차에 대해 설명해주셨어요. ㅋㅋ

 

그리고 아이와 저희만의 시간을 보낼 수 있었고, 아이와 산책도 같이 할 수 있었어요.

 

이 때도 수의사 선생님을 뵌 것 같기는 한데 잘 기억은 안나네요. 

 

아무튼 그래도 센터 선생님께서 아이가 입양가면 필요한 준비물(?)을 알려주셨어요.

 

센터에서 멍뭉이를 입양하려면 세 번째 만남까지 다음과 같은 것들이 필수로 필요해요.

- 캔넬, 안전문, 하네스, 리드줄, 사료, 식기, 패드, 개샴푸 등등

 

저희 멍뭉이는 좀 비만이라 다이어트용 사료가 필요했는데, 어떤 사료가 좋은지 추천도 해주심요.

그리고 리드줄 같은 경우는 자동줄보다는 1-1.5m 정도의 견고한 일반 줄을 추천해주셨어요.

 

요즘에는 웬만한 강아지 용품은 전부 인터넷에서 구매하는 편이라, 세 번째 만남까지 구매한 물품이 도착하지 않을까봐 걱정 했는데, 나중에 사진으로 찍어서 보여주시면 된다고 해서 쫌 안심했어요.

그리고 저희 개는 중대형견이라 인터넷에 없는 사이즈도 많고 직구를 해야 쫌 맞는 것들도 있어서 이렇게 세심하게 양해해주시는 점이 참 감사했죠.

 

저희는 입양을 이미 결정을 하고 갔기 때문에, 필요한 서류를 다 챙겨갔어요.

그리고 센터 선생님도 서류를 다 준비해 놓으셨고요!

 

두 번째 만남과는 다르게 세 번째 만남 약속은 이때 바로 잡았답니다.

어떻게 아이를 데리고 갈지 등등 이때 상의하고 선생님께 궁금한 질문 폭탄을 드렸었죠.

입양때까지 카톡방을 만들어서 중간 중간 체크도 해주시고, 멍뭉이 입양준비물 체크도 하고, 멍뭉이 사진도 받고 그랬습니다.

 

 

3️⃣ 세 번째 절차

이미 입양도 결정 되어서 데려오는 것 말고는 크게 할 일이 없었어요. 서류에 싸인? 이것도 두 번째 주에 다 한 것 같아서 기억은 잘 안나네요.

센터에서도 오랫 동안 있었던 아이라 그런지 선생님께서도 입양에 대해 매우 행복해하심요. 

아이 사료도 직접 챙겨다 주시고, 입양하고 나서도 며칠 간은 엄청 신경써 주셨습니다.

 

 

끝!

반응형
반응형

2023.02.12 - [STATISTICS] - 베이지안 확률 (Bayesian Probability) - 기초

 

베이지안 확률 (Bayesian Probability) - 기초

Bayesian Probability 에 대해서 알아봅시다. (Biostatistics and Epidemiology 를 참고로 하였음) Bayesian probability는 예시를 들어 이해하는 것이 제일 좋다. (물론 내 입장 ㅎㅎ) 예를 들어서 설명하자면, M과 B가

bioinformatics-kleis.tistory.com

 

지난 글에서 베이지안 확률의 기초에 대해 살펴보며 예시로 들었던 기억손실과 뇌종양을 여기에서도 예시로 살펴보도록 하겠다. (지난 글 링크는 위에 있음)

 

먼저 가능도비 Likelihood Ratio 와 연관된 개념은 다음과 같다.

- How likely it is that a certain result would arise from one set of circumstances in relation to how likely the result would arise from an opposite set of circumstances.

⇨ 즉, A라는 결과가 있다고 하면, 어떤 특정 상황에서 A라는 결과가 나올 가능성이 어떤 특정 상황의 반대 상황에서 A라는 결과가 나올 가능성을 상대적으로 비교한다고 할 수 있다.

 

 

저렇게 보면 좀 복잡하니까 바로 예시를 들어 설명해보도록 하겠다.

 

M과 B가 각각 다음과 같은 event를 뜻한다고 하자.

M - loss of memory (기억 손실)

B - Brain tumor (뇌종양)

 

 

어떤 환자에게 갑작스러운 기억 손실이 생겼을 때, 이것이 뇌종양에 의한 증상의 가능도비를 알아보고 싶다.

 

즉, 알고 싶은 것은,

 다른 condition에서 기억손실이 발생할 가능도 대비 뇌종양이 있을 때 기억손실이 발생할 가능도이다.

 

즉, 가능도비는 조건부 확률의 비율을 의미하며, 위 예시의 가능도비는 다음과 같이 나타낼 수 있다.

 

$$  LR = \frac{P(memory \quad loss, \quad given \quad brain \quad tumor)}{P(memory \quad loss, \quad given \quad no \quad brain \quad tumor)} $$

 

이를 간단하게 표현하면 다음과 같다.

$$ LR = \frac{P(M \quad given \quad B)}{P(M \quad given \quad not \quad B)} $$

 

위 가능도비를 계산하기 위해서는 다음 두 가지를 알아야 한다.

① 뇌종양이 있는 사람들 중 기억 손실이 있는 비율

② 뇌종양이 없는 사람들 중 기억 손실이 있는 비율

 

위 두 가지 중에서 ②번이 분모 P(M given not B) 라고 할 수 있는데,

이를 구하기 위해서는 일반 대중에서의 기억손실에 대한 유병률을 알아야 한다. 

따라서, 가능도비를 구하는 것은 유병률을 구하기 어려울 때 사용하기엔 좀 까다롭다.

 

 

정리하면, medical research 에서 가능도비는 다음과 같은 질문에 답할 때 사용할 수 있다.

❓어떤 환자가 한 증상을 보일 때, 그 증상이 어떤 특정한 질병에 의해 발생할 가능도가 이 특정 질병 이외의 이유에 비해 얼마인지?

반응형
반응형

Bayesian Probability 에 대해서 알아봅시다.

(Biostatistics and Epidemiology 를 참고로 하였음)

 

 

Bayesian probability는 예시를 들어 이해하는 것이 제일 좋다. (물론 내 입장 ㅎㅎ)

 

예를 들어서 설명하자면, M과 B가 각각 다음과 같은 event를 뜻한다고 하자.

M - loss of memory (기억 손실)

B - Brain tumor (뇌종양)

 

이 때 우리는 뇌종양 환자들 사이에서 기억 손실이 발생할 확률을 조사해볼 수 있다.

이를 수식으로 나타내면 P(M | B) 로 표현할 수 있다.

 

P(M | B) = P(M∩B) / P(B)

 

 

그런데 반대로 기억 손실이 발생한 환자에서 뇌종양이 있을 확률 P(B | M) 역시 궁금할 수 있다.

 

P(B | M) = P(B∩M) / P(M)

 

 

P(B | M) 와 P(M | B) 의 관계는 다음과 같이 표현할 수 있다.

 

P(B | M) = P(B∩M) / P(M) = P(M | B)•P(B) / P(M)

 

 

❗먼저 위 식에서 분모인 기억 손실이 발생할 확률 P(M)은 얼마일까?

기억 손실이 있을 사건은 뇌종양 환자에게서도 발생할 수 있고, 뇌종양이 없는 사람에게서도 발생할 수 있다.

 

(1) 뇌종양 환자에게서 기억손실이 발생할 확률은

$$ P(M | B) P(B) $$

 

(2) 뇌종양이 없는 사람에게서 기억손실이 발생할 확률은

$$ P(M| \overline{B})P( \overline{B} ) $$

 

따라서 분모인 기억 손실이 발생할 확률 P(M)

 $$ P(M)=P(M|B)P(B)+P(M|\overline{B})P(\overline{B}) $$

 

❗기억 손실이 발생한 환자에서 뇌종양이 있을 확률 P(B | M) 은 다음과 같이 작성해볼 수 있다.

$$ \frac{P(M|B)P(B)}{P(M|B)P(B)+P(M|\overline{B})P(\overline{B})} $$

 

 

뇌종양이 있을 확률 P(B)"a priori probability"로, 뇌종양의 유병률에 대한 best guess라고 할 수 있다.

반응형
반응형

 

Study Design에는 크게 다음 두 가지 타입이 있다.

 

1. Observational studies

  • 'Nature'가 factor of interest에 노출될 사람과 비노출될 사람을 정한다.
  • 보통 association을 증명하고 싶을 때 사용한다.
  • Association은 원인을 암시할 수도 있고, 아닐 수도 있다.

2. Experimental studies 

  • 실험설계자가 노출/비노출을 결정한다.
  • 보통은 원인을 증명하고 싶을 때 사용한다.

 

❗위 두 스터디 디자인에 대해서 조금 더 자세하게 살펴보도록 하자.

 

Ⅰ. Observational studies

우리 말로 관측연구로 불리는 이 디자인은 보통 다음과 같이 나눌 수 있다.

① cross-sectional study, ② case-control study, ③ prospective (or cohort) study

  1. Cross-sectional study: measurements는 같은 시간에 측정해야 함. 예를 들어 혈압과 coronary disease의 연관성을 알고 싶을 때, 혈압과 coronary disease에 대한 테스트는 동시에 이루어져야 함. 인과를 알 수는 없음.
  2. Case-control study: 연구자가 질병에 걸린 case 그룹과 정상인 control 그룹을 나눠 조사를 통해 위험인자의 유무를 결정함. 예를 들면 폐암에 걸린 case 그룹과 정상인 control 그룹을 나눠 각 그룹에서 흡연(위험인자)의 유무를 확인함. 희귀병 연구에 유용함. 보통 retrospective (후향적) 연구.
  3. Prospective (or cohort) study: 연구자가 질병이 없는 정상 코호트 집단에서 위험인자를 가진 사람들과 위험인자가 없는 사람들을 나누어서 추적 관찰하는 연구. 인과관계를 파악에 유용함. 측정도구의 오류나 recall 오류에 의한 subject bias가 덜함. 우리 말로는 전향연구이고 longitudinal study로도 불린다.

정리하면 Case-control 연구와 Prospective 연구의 가장 큰 차이점은 "sampling"에 있다.

Case-control 연구의 경우 diseased 그룹과 nondiseased 그룹에 속하는 사람들을 샘플링하는 것이고,

Prospective 연구의 경우 위험인자에 노출된 사람과 노출되지 않은 사람들을 샘플링 하는 것이다.

 

Prospective (전향, 코호트) 연구가 질병의 원인에 대해서는 retrospective(후향) 연구보다 더 강한 증거가 된다. 단점은 물론 비싸다.. 많은 시간이 필요하고, 어렵다.

 

 

Ⅱ. Experimental studies

Experimental 연구는 intervention의 효과를 테스트 하는 것이고,

health field에서는 Clinical trial (임상 시험) 이라 보면 된다.

 

Clinical trial에서는 연구자가 참가자들이 어떤 그룹에 속할지에 관여하게 된다. (연구자가 직접 참가자들을 지정하는 것보다는 어떤 방식으로 참가자들을 각 그룹에 배정할지 결정하는 방법에 관여함)

반응형
반응형

 

필자는 MRI 영상 데이터를 주로 다루는데, 가끔씩 중복으로 영상이 들어간 경우가 있다.

그런데 파일 명들이 규칙이 없어서 이걸 어떻게 처리할까.. 생각도 들고,

적으면 200장에서 많으면 1000장 정도 하는 것을 언제 일일이 지울까 생각하면 아득하다.

 

 

예를 들어 한 폴더안에 파일들이 다음과 같이 들어가야 하는데,

11

22

33

...

 

다음과 같이 들어간 경우들이 있다.

11

11

22

22

33

33

...

 

그럼 홀수 행만을 제거하거나, 짝수 행만을 제거해야 한다.

 

 

이럴 때 활용할 수 있는 linux 명령어가 sed 이다.

 

다음과 같은 파일이 있다고 해보자.

홀수행이나 짝수행, or 등차수열 규칙의 행들만 출력하고 싶을 때에는 sed를 사용하면 되는데,

 

sed -n '시작행~공차p'

와 같은 형태로 작성할 수 있다.

 

 

(1) 먼저 홀수행만 출력하고 싶다면,

1, 3, 5, 7, ..., 와 같은 형태이고, 이는 1(시작행)에서 2(공차)씩 늘어나는 형태이므로,

 

sed -n '1~2p' 와 같은 형태로 작성하여 출력하면 된다.

 

(2) 짝수행만 출력하고 싶을 때에도 마찬가지다.

다만 시작행이 2이므로,

sed -n '2~2p' 와 같은 형태로 작성하면 된다.

 

 

❓그럼 3개씩 중복인 경우

11

11

11

22

22

22

33

33

33

...

와 같이 중복된 형태이고, 중복을 삭제하여 출력하고 싶다면,

1행, 4행, 7행, ..., 이 출력되어야 할 것이다. 

 

여기에서 시작 행은 1이고, 3씩 늘어가는 것이므로, 

sed -n '1~3p' 형태로 작성하면 된다.

 

반응형
반응형

 

ANOVA 를 통해 세 군의 평균을 비교한다고 해보자.

 

귀무가설은

H₀ : 세 그룹의 차이는 없다. 

$$ \mu_{A}=\mu_{B}=\mu_{C} $$

 

대립가설은

H₁ : 세 그룹의 차이는 존재한다. = Not H₀

 

 

만약 귀무가설이 기각 된다면, 어딘가에서 차이가 있다는 의미인데, 아직 어떤 비교군에서 차이가 있었는지 모른다.

귀무가설이 기각 된 경우는 다음과 같은 상황들 중 한 상황이었을 것이다.

  • A ≠ B ≠ C
  • A ≠ B = C
  • A = B ≠ C
  • A ≠ C = B

 

위 네 경우 중 어떤 상황 때문에 귀무가설이 기각되었는지 검정하는 것이 다중비교 (Multiple Comparison Test) 혹은 사후검정(post-hoc test) 라 한다.

 

위 네 가지 상황 중 어떤 상황 때문에 분산분석의 귀무가설이 기각 되었는지 확인하기 위해서는

  1. A - B
  2. A - C
  3. B - C

이렇게 세 가지 짝이 필요하다. 이와 같이 비교를 위한 짝의 집합 (set of comparisons)을 Family이다.

Family에 속한 짝 비교가 시행될 때 발생하는 1종 오류 (ɑ) 를 "Family-wise error (FWE)" 라고 칭한다.

 

 

(1) 1번 A-B 차이를 검정

제일 먼저, 1번 짝인 A-B의 차이 유무를 유의수준 (ɑ)을 5%로 검정을 하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B 

H₁ : not H₀

 

이 두 그룹의 비교를 위해 student t-test를 시행하였고, 유의한 차이가 없었다.

 

만약 이 때, 차이가 없는데도 불구하고 귀무가설을 기각하는 것을 제 1종의 오류라 한다.

⇨ 여기서 제 1종의 오류는 5%, 귀무가설이 참일 확률은 95%이다.

 

 

 

(2) 1번 A-B 차이 & 2번 A-C 차이 검정

이번에는 1번과 2번을 각각 유의수준 5%로 검정을 하고자 다음 두 개의 비교군을 대상으로 student t-test를 시행하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B & A = C 

H₁ : not H₀

 

1번과 2번에서 각각 student t-test를 시행한 결과 각각 유의한 차이가 없었다.

 

여기에서 제 1종의 오류는 귀무가설 ① A - B & ② A - C 모두 같음이 맞는데도 불구하고 아니라는 결론을 내리는 것이므로,

만약 ① A - B 혹은 ② A - C 에서 한 개라도 차이가 있다고 결론 내리거나, 두 비교군 모두 차이가 있다고 결론을 내리면 제 1종의 오류가 된다.

 

이 경우, ①번 혹은 ②번, 둘 중 한 개에서만 잘못 결론을 내려도 귀무가설이 기각된다.

① A - B 에서 귀무가설이 참일 확률은 0.95, ② A - C 에서 귀무가설이 참일 확률은 0.95 이므로,

이 두 개의 비교군에서 모두 귀무가설이 참일 확률은 0.95*0.95=0.9025로, 90.25%가 된다.

따라서 제 1종의 오류가 발생할 확률은 1-0.9025=0.0975이므로, 9.75%가 된다. 

 

 

(3) 1번 A-B 차이 & 2번 A-C & 3번 B-C 차이 검정

이번에는 1번과 2번, 3번 모두 각각 유의수준 5%로 검정을 하고자 세 개의 비교군을 대상으로 student t-test를 시행하고자 한다.

이 때, 귀무가설과 대립가설은 다음과 같다.

H₀ : A = B & A = C & B = C

H₁ : not H₀

 

1번과 2번, 3번에서 각각 student t-test를 시행한 결과 각각 유의한 차이가 없었다.

 

여기에서 제 1종의 오류는 ① A - B & ② A - C &  ③ B - C 각 군에서 모두 같음이 맞는데도 불구하고 아니라는 결론을 내리는 것이므로,

만약 ① A - B 혹은 ② A - C 혹은 ③ B - C 에서 한 개라도 차이가 있다고 결론 내리면 제 1종의 오류가 된다.

 

따라서 실제로 차이가 유의하지 않음에도, 우연에 의해 세 개 중에 한 개라도 유의하다고 나오면, 위 귀무가설이 기각되는 제 1종의 오류가 발생하게 된다.

 

① A - B 에서 귀무가설이 참일 확률은 0.95, ② A - C 에서 귀무가설이 참일 확률은 0.95 ③ B - C 에서 귀무가설이 참일 확률은 0.95이므로,

 이 세 개의 비교군에서 모두 귀무가설이 참일 확률은 0.95*0.95*0.95=0.8574로, 85.74%가 된다.

 따라서 제 1종의 오류가 발생할 확률은 1-0.8574=0.1426이므로, 14.75%가 된다.

 

 

 

📝 예시를 들어보자.

- 두 개의 과목이 있고 이 두 과목 모두 세 문제가 있는 시험이 있다.

한 과목은 세 개 중에 한 개라도 맞추면 통과할 수 있고, 나머지 한 과목은 세 개 중 세 문제를 모두 맞춰야 통과할 수 있다면 무엇을 선택할 것인가?

위 문제를 생각해보면 당연히 세 개 중 한 개라도 맞추면 시험을 통과하는 과목을 선택할 것이다. 세 개 중 세 개를 모두 맞출 확률보다 세 개 중 한 개를 맞출 확률이 더 높기 때문이다.

 

위 다중비교 (Multiple Comparison tests)도 위 예시와 마찬가지의 문제이다.

세 번째 검정처럼 세 가지를 동시에 만족해야 귀무가설을 기각할 수 없다면, 만약 한 개라도 틀릴 경우 제 1종의 오류를 범하게 된다.

따라서 이를 조정해 줄 필요가 있고, 이 조정에는 본페로니 등 여러 가지 방법이 있다.

 

이 방법들에 대해서는 다음 글에서 다루도록 하겠다.

 

 

반응형
반응형

miRNA의 role : gene regulation

 

Mature miRNA transcripts

- 대략 hundreds of nucleotides 길이의 primary miRNA transcripts (=pri-miRNA)에서 begin, 평균적으로 22개의 nucleotides 길이를 가짐

 

Pri-miRNA

- 적어도 한 개의 hairpin (=precursor miRNA, pre-miRNA)를 가짐. pre-miRNA는 대략 70 necleotides 길이.

 

Transcription 이후, precursor miRNA (=pre-miRNA, 헤어핀)이 primary miRNA (=pri-miRNA)로부터 쪼개짐.

 

 

 

 

miRNA 시퀀싱 데이터 분석 파이프라인

 

✔️NGS를 통해 얻은 raw miRNA 시퀀싱 데이터로 뭘 할 수 있을까?

  • quantify expression of mature miRNAs
  • identify novel miRNA sequences

✔️Analysis procedure

  1. raw data quality check
  2. adapter trimming
  3. trimmed data quality check
  4. reference genome indexing
  5. mapping trimmed reads
  6. identify known and novel miRNA sequences
  7. quantifying miRNA expression

 

✔️분석 Pipeline을 위해 필요한 것들

  • fastq files for each sample
  • 3' adapter sequence  and additional trimming preferences
  • a reference genome
  • miRBase mature miRNA and precursor miRNA sequences

 

✔️miRNA-seq 분석 파이프라인 순서

출처: Torres (2022), miRNA-seq Analysis Pipeline and R Shiny App

 

✔️Tools

  • reference genome indexing ⇨ Bowtie (reference genome의 Burrows-Wheeler transform index 생성)
  • mapping trimmed reads ⇨ Bowtie, miRDeep2
  • identify known and novel miRNA sequences
  • quantifying miRNA expression
반응형

'Bio' 카테고리의 다른 글

Pangenome analysis  (0) 2022.12.18
NGS data 파이프라인  (0) 2022.10.24
반응형

 

지난 글에서 통계 검정에서 빼놓을 수 없는 유의확률 (P-value)에 대한 잘못된 해석, 사용 등을 살펴보았다.

2022.12.25 - [STATISTICS] - Effect size : 효과 크기와 유의확률 (p-value) (1)

 

Effect size : 효과 크기와 유의확률 (p-value) (1)

효과크기를 논하기 전에 P-value = 유의확률에 대해 언급하지 않을 수 없다. 어떤 통계적인 결론을 내릴 때 가장 많이 사용되는 지표인데, 정말 통계를 배우면서 지겹도록(?) 많이 나오고, 많이 사

bioinformatics-kleis.tistory.com

 

지난 글에서 <p-value가 더 작음 ≠ 더 큰 차이> 라는 것을 살펴보았다면,

이번 글에서는 차이를 보여주는 Effect Size 에 대해 살펴보도록 하겠다.

 

Effect size 의 정의에 대해 먼저 살펴보자.

"Effect size 효과크기"는 변수들 사이의 관계가 얼마나 의미 있는지, 혹은 그룹들 사이의 차이가 얼마나 의미 있는지를 나타내는 지표이다.

 

따라서 Effect size가 크다면, 연구 결과가 significance 함을 나타내고,

만약 p-value가 매우 작더라도, effect size가 작게 나온다면 연구 결과는 제한적임을 알 수 있다.

 

 

✔️통계적 유의성(Statistical significance)P -value에 의해 알 수 있고,

✔️실제적 유의성(Practical significance)effect size 효과크기에 의해 알 수 있다.

 

따라서,

1) P -value로 통계적으로 유의한지 살펴본 후에,

2) effect size로 정말 실질적으로 적용가능한지 살펴보는 순서로 연구를 진행하는 것이 좋다.

+ 신뢰구간도 제시하는 것이 좋다.

 

예를 들어,

어떤 두 그룹의 점수 차이(3점)가 있는지 알고 싶어 유의수준 5% 하에서 t-test를 진행하여 p-value가 0.002가 나왔다면,

두 그룹의 차이가 통계적으로 유의하다는 결론을 내릴 수 있다.

 

P -value가 0.002라는 것은 두 그룹이 차이가 없다는 귀무가설 하에 3점이라는 차이를 보일 확률이 0.002라는 것이다.

앞 글에서 이 확률이 두 그룹이 얼마나 큰 차이가 있음을 보여주는 것이 아니라 했다.

 

따라서 이 3점이라는 차이가 얼마나 큰 차이인지, 아니면 작은 차이인지 확인하기 위해서 효과 크기 Effect Size를 사용해야 한다.

 

앞선 글에서 했던 얘기지만 너무 중요해서 다시 한 번 강조했다.

 

 

아무튼 Effect size 효과크기는 어떻게 측정할 수 있을까?

가장 많이 사용되는 효과 크기 측정법은

(1) Cohen's d (2) Pearson's r 이 있다.

 

 

Ⅰ. Cohen's d 

- 두 그룹의 difference (차이) 가 얼마나 있는지, difference size를 측정한다.

 

Cohen's d 를 구하는 식은 다음과 같다.

$$ d= \frac{\bar{x}_{1}-\bar{x}_{2}}{s} $$

그룹1의 평균에서 그룹2의 평균을 빼고, 이 차이를 표준편차로 나눠 준 값이다.

 

위 수식의 표준편차는 다음과 같이 세 가지 중 연구 설계에 맞게 사용하면 된다.

  • pooled standard deviation
  • control group의 standard deviation (사례-대조군 연구와 같이 대조군 vs 사례군 비교할 때)
  • pre-test data의 standard deviation (반복측정 연구와 같이 pre-test 와 post-test 를 비교하고 싶을 때)

 

Ⅱ. Pearson's r

- 두 변수의 관계가 얼마나 강한지, linear reliationship 정도를 측정한다.

 

Pearson's r 을 구하는 식은 다음과 같다.

$$ \rho_{X,Y}=\frac{cov(X,Y)}{\sigma_{X}\sigma_{Y}} $$

어디서 많이 본 것 같은데?

상관관계를 보고자 할 때 사용하는 상관계수를 구하는 식과 같다.

 

 

 

❗위와 같이 Effect size를 구했는데, 그럼 그 해석은 어떻게 하냐?

    보통 아래 표와 같이,

    cohen's d 의 경우는 0.2이하면 효과크기가 작다고 할 수 있고,

    0.5 정도면 medium, 0.8보다 크면 효과 크기가 커서 두 그룹의 차이가 정말로 크다고 할 수 있다.

출처: Scribbr

Pearson's r 을 해석하는 것도 마찬가지이다. 

상관계수를 해석할 때 처럼, 0에 가까워질수록 두 변수의 상관관계는 약한 것이고, 

0으로부터 멀어질수록 두 변수의 상관관계는 강하다고 할 수 있다.

 

따라서 내 연구 주제가 그룹별 차이를 보고 싶거나, 두 변수의 관계를 보고 싶을 때에는

p-value를 제시하고, 효과 크기, confidence interval을 함께 제시하는 것이 좋다.

 

그럼 효과크기는 여기서 끝!

반응형

+ Recent posts