r 분산분석 예제

주파수 분산을 표시하기 위한 R 코드의 더 많은 예: 히스토그램, 주파수 다각형, 줄기 및 잎 플롯, 지터링된 점도표, 순위 산점도, 각 값의 빈도, 경험적 누적 분포 함수(ECDF), P 값 플롯, 여러 P-값 플롯, 매끄러운 분포 함수. 지난 주 뉴욕시에서 열린 스트라타 하두프 월드 컨퍼런스에서 가장 흥미로운 R 관련 프레젠테이션 중 하나는 HP 연구소의 수닐 벤카얄라와 인드라지트 로이의 분산 R 세션이었습니다. 즉, 분산 R은 여러 컴퓨터에 분산된 데이터에 대해 R 코드를 병렬로 실행하는 최종 목표를 가진 오픈 소스 프로젝트입니다. 다음 그림은 일반적인 아이디어를 전달합니다. 이 장에서는 시각화 및 변환을 사용하여 체계적인 방식으로 데이터를 탐색하는 방법, 통계학자가 탐색 데이터 분석을 호출하는 작업 또는 EDA를 짧게 호출하는 방법을 보여 줍니다. EDA는 반복주기입니다. 당신: 이상값은 특이한 관찰입니다. 패턴에 맞지 않는 데이터 포인트를 이상값은 데이터 입력 오류일 수 있습니다. 다른 시간 이상치는 중요한 새로운 과학을 제안한다. 데이터가 많은 경우 이상값은 히스토그램에서 보기 어려운 경우가 있습니다. 예를 들어 다이아몬드 데이터 집합에서 y 변수의 분포를 예로 들어 보겠습니다.

이상값의 유일한 증거는 x축의 비정상적으로 넓은 제한입니다. EDA는 근본적으로 창의적인 과정입니다. 그리고 대부분의 창의적인 프로세스와 마찬가지로 양질의 질문을 하는 열쇠는 많은 양의 질문을 생성하는 것입니다. 데이터 집합에 어떤 인사이트가 포함되어 있는지 모르기 때문에 분석 시작 시 공개 질문을 하기가 어렵습니다. 반면에, 당신이 묻는 각각의 새로운 질문은 데이터의 새로운 측면에 노출하고 발견을 할 수있는 기회를 증가시킬 것이다. 찾은 내용에 따라 각 질문을 새로 질문할 경우 데이터의 가장 흥미로운 부분으로 신속하게 드릴다운하고 생각을 자극하는 질문 집합을 개발할 수 있습니다. 다음 샘플 코드는 HPdclassifier 사용자 가이드에서 직접 가져온 것이지만 여기에서 프레젠테이션을 위해 약간 수정되었지만 Venkayala와 Roy가 프레젠테이션에서 보여 준 예제와 유사합니다. 분산 배열을 설정한 후 분산R 패키지의 foreach 함수를 사용하는 데이터와 병렬로 로드됩니다. 이해하기 로 알고 있듯이 분산 R 소프트웨어의 주요 사용 사례는 데이터베이스에서 여러 독립적인 R 인스턴스에서 액세스할 수 있는 분산 데이터 구조로 데이터를 빠르게 이동하여 조정된 병렬 계산을 하는 것입니다. 분산 R 인프라는 계산에 필요한 경우 작업자 노드에서 마스터 노드로 데이터를 가끔 이동하는 것을 포함하여 데이터 추출 및 계산 조정을 자동으로 처리합니다. 분산 R 메커니즘에 대한 사용자 인터페이스는 분산 데이터 구조로 작동하도록 설계 및 최적화된 R 함수와 사용자가 직접 작성할 수 있는 특별한 “분산 R 인식” foreach() 함수를 통해 수행됩니다.

일반 R 함수를 사용하여 분산 함수를 사용할 수 있습니다. 우리는 쉽게 테스트 할 다른 이론의 수백을 생각할 수 있습니다. 일부는 요인의 조합을 포함 할 수있다, 예를 들어 잘 좋아하는 감독 플러스 잘 좋아하는 주연 배우가 성공을위한 공식입니까? 제목에 특정 키워드가 있는 로맨틱 코미디를 공개해야 할까요? 물론 R을 사용하여 이러한 모든 것을 테스트 할 수 있지만 더 나은 것은 기계 학습을 사용하여 R이 패턴 (있는 경우)을 찾도록 할 수 있습니다.