banner

소식

Dec 25, 2023

개별적인 엣지 및 모듈 중요성 평가

Scientific Reports 13권, 기사 번호: 7868(2023) 이 기사 인용

266 액세스

1 알트메트릭

측정항목 세부정보

개인별 노드 네트워크와 개인별 연결 에지로 정의되는 개인별 네트워크는 정밀 의학을 위한 유망한 도구입니다. 이러한 네트워크가 생물학적인 경우 개별 수준에서 기능 모듈의 해석이 가능해집니다. 조사가 부족한 문제는 각 개인별 네트워크의 관련성 또는 "중요성" 평가입니다. 본 논문에서는 가중치 및 가중치가 적용되지 않은 개별 특정 네트워크에 대한 새로운 에지 및 모듈 중요성 평가 절차를 제안합니다. 구체적으로, 우리는 모듈 내의 한 가장자리와 다른 모든 가장자리의 반복 모델링을 포함하는 방법을 사용하여 모듈형 Cook의 거리를 제안합니다. 모든 개인을 사용하는 것과 모든 개인을 사용하고 한 개인을 제외하는 것(LOO) 간의 변화를 평가하는 두 가지 절차도 경험적으로 파생된 에지에 의존하여 제안됩니다(LOO-ISN, MultiLOO-ISN). 우리는 유전자 공동 발현 및 미생물 상호 작용 네트워크에 대한 실제 시나리오를 기반으로 한 광범위한 시뮬레이션 연구를 통해 OPTICS, kNN 및 Spoutlier 방법의 적용을 포함하여 우리의 제안을 경쟁사와 비교합니다. 결과는 개별 특정 네트워크에 대해 모듈식 대 에지별 중요성 평가를 수행하는 것의 이점을 보여줍니다. 또한 모듈식 Cook의 거리는 고려된 모든 시뮬레이션 설정에서 최고의 성능을 발휘하는 것 중 하나입니다. 마지막으로, 개인별 네트워크와 관련하여 외부 개인을 식별하는 것은 미생물군집 풍부 프로필의 네트워크 분석을 통해 확인된 것처럼 정밀 의학 목적에 의미가 있습니다.

생물학적 특징과 복잡한 특성 사이의 관계를 분석할 때 단일 유전자나 단일 경로1로 결과나 표현형을 특성화하는 것이 불가능한 경우가 많으며, 보다 발전된 특성화가 필요합니다. 복잡한 질병은 독특한 원인이 없으며 서로 다른 상호 작용하는 변이가 축적되어 발생합니다2. 고해상도 이미징 방식 및 높은 처리량 시퀀싱 방법의 개발과 같은 생명공학의 발전으로 점점 늘어나는 개인 컬렉션에 대한 고차원 상호 의존적 데이터를 사용할 수 있게 되었습니다. 이러한 데이터는 강력하고 안정적으로 분석되어야 합니다. 네트워크 의학을 사용하면 단변량 분석을 뛰어넘어 생물학적 네트워크의 복잡성을 수용할 수 있습니다2,3.

네트워크는 의학의 여러 생물학적 과정을 시각화하고 분석하는 데 적합합니다. 네트워크는 연결된 개체의 모음입니다. 객체를 노드 또는 정점이라고 합니다. 일반적으로 점으로 시각화됩니다. 노드 간의 연결을 에지 또는 링크라고 합니다. 이는 점 사이의 선으로 그래픽적으로 그려집니다. 이러한 네트워크에는 노드 레이블이나 에지 가중치와 같은 추가 정보가 추가될 수 있습니다. 모듈은 선택된 노드와 에지의 하위 집합으로 구성된 하위 네트워크입니다. 네트워크 모듈성은 네트워크를 모듈로 분할하는 강도를 측정합니다. 자세한 내용은 표 S1에 나와 있습니다. 모듈과 같은 그래프 이론적 구성은 예측 또는 설명 모델의 기존 임상 변수보다 더 강력하고 효과적일 수 있습니다4. 이는 종종 그래프 간에 비교되는데, 각 그래프는 서로 다른 상태나 상태(질병에 걸린 대 건강한 상태)를 나타낼 수 있습니다. 나중에 살펴보겠지만 네트워크는 각 개인별로 별도로 구축될 수도 있습니다.

샘플을 함께 모으거나 대상 그룹의 모든 개인에게 적용할 수 있는 고유한 네트워크 배선을 수정하여 생물학적 네트워크의 가장자리를 추론하는 인구 기반 생물학적 모델은 다운스트림 정보 분석을 위한 특징을 추출하거나 게놈을 사용한 전이 감지 및 해석을 안내하는 데 사용되었습니다. -전반적인 연관 연구 설계6. 맞춤형 의학의 관점에서 보면 환자별 결론을 도출하는 데 도움이 되는 것으로 나타났습니다(예:7). 그러나 "일률적인" 약은 더 이상 허용되지 않으며8,9 인구 기반 네트워크에서 추정한 결론은 특정 개인에게 충분히 구체적이지 않을 수 있습니다. 또한, 통계적 상호작용은 인구 수준에서 발생하는 반면, 생물학적 상호작용은 개인 수준에서 발생합니다10. 따라서 생물학적으로 관련된 상호작용체가 개인마다 다를 수 있다는 점을 고려하여 개인별 가장자리를 갖춘 개인별 네트워크를 구축하는 것이 점점 더 많은 관심을 받고 있습니다.

0.7\) (Fig. 1d). Furthermore, the best methods for each family are shown together to get a glimpse of their performance under different sample size values, Fig. 1e. Cook's distance and mOTS cosine stand out, achieving AUC values greater than 0.8 for all size values N. These methods dominate their corresponding counterparts by more than 0.2 for each setting. No method achieves an acceptable performance value, i.e., AUC\(> 0.7\), for single-edge settings (Fig. 1f), thus highlighting the need for modular assessments. Finally, we notice a slightly positive association between AUC and sample size N./p>2\)), the adapted Cook's distances methods, i.e., Cook's med and Cook's max, achieve the best values of performance. They are closely followed by the mOTS cosine method. By grouping the synthetic data per module's size \(k= \{2,3,5,7,9,11,17 \}\), a positive relationship between the module's size k and performance AUC emerges in (m)OTS cosine (Fig. 2a,b) and Cook's distances methods (Fig. 2d,e). Other methods (Fig. 2c) do not show an association with the module's size k. Crucially, no method achieves a satisfactory performance value in the single-edge analysis setting: when k = 2, every method achieves an AUC value smaller than 0.6. The limited informativeness of an edge alone emerges from those results. Other noteworthy insights originate from comparing Spoutlier's methods (Fig. 2a,b). mOTS euclidean is upper-bounded by 0.7, while mOTS cosine achieves an AUC value greater than 0.9 for large module sizes k. mOTS glob's AUC is positively associated with the module's size k and, coarsely, around 0.05 worse than mOTS cosine. mOTS glob's performance, although suboptimal, hints toward the value of combining both an arithmetical and a geometrical point of view. The scenario is a carbon copy of the single-shot setting: OTS cosine is positively associated with the module's size k, and results are more than 0.2 better than the OTS euclidean counterpart for high values of k./p>2\). (b) the ensemble methods of the Spoutlier family are compared, and mOTS cosine is the best for \(k>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance for \(k\ge 5\). (d) remaining methods are compared, with Cook's med consistently dominating all others when \(k>2\). at the bottom panel, selected methods are compared together. (e) the comparison includes all settings: cosine-based OTS and Cook's distance methods consistently dominate their counterparts when \(k>2\). No method achieves satisfactory performance under the \(k=2\) settings./p>0.51\) in settings where Mult = 1.1. Under this scenario, the discrepancy between cases and controls is feeble./p>2\). (c) p-value yielding methods are compared, and MultiLOO-ISN achieves the best performance starting for modular settings, i.e., \(k>5\). On (d), the remaining methods are compared, with kNN and Cook's max consistently dominating their’ counterparts. In the bottom panel, selected methods are compared together. On (e), the comparison includes all settings: KNN, mOTS euc, LOO-ISN, Cook's max and Cook's med consistently achieve good performance./p>17\)). Moreover, modules 1–3 consist of more edges, as computed according to27, than individuals 81, and thus all methods based on Cook's distance can not be used. Module 4, consisting of 5 nodes, is adequate to validate our approach, being the closest to the module's dimensions in the simulations./p>2\)) is considered. However, in such a case, we use a multivariate normal distribution for generating the simulation data in step 2), where the dimension of the normal distribution equals the module's size k. Multivariate normal simulations need to mimic the network's structure under the null hypothesis \(H_0\). Hence, we generate N samples, equal to the empirical sample size, with a normal where we set the variance/covariance matrix to the adjacency matrix A, with entries the weighted edge weights \(w_{ij}^{\alpha }\) and the mean vector (\(k \times 1\)) to 0. Hence, the correlation coefficients are estimated on the dataset of analysis, i.e., the edge weights \(w_{ij}^\alpha\) for every edge between two nodes \(v_i\) and \(v_j\) inside the module. We refer the reader to Fig. S5 for a visual representation./p>

공유하다