Open/Close Menu Yapı Taahhüt ve İnş. Tic. Ltd. Şti.

Size Özel Tekliflerimiz?
İletişime Geçin! »

Bizi Arayın:
0216 537 19 46/47

MLlib는 스파크의 기계 학습(ML) 라이브러리입니다. 그 목표는 실용적인 기계 학습을 확장 가능하고 쉽게 만드는 것입니다. 높은 수준에서, 그것은 같은 도구를 제공: 그것은 정말 쉽게 Spark CLI를 사용 하 여 트랜잭션/작업 상호 작용을 볼 수, 대화형 스파크 쉘. 이 도구는 매우 다재다능하고 다양한 사용법으로 인해 학습하는 데 유용합니다. 클러스터 없이 로컬에서 Spark를 실행하기 시작한 다음 요구 사항이 증가함에 따라 분산 배포로 업그레이드하는 것이 쉽습니다. 이 예제에서는 데이터베이스에 저장된 테이블을 읽고 모든 연령대의 인원수를 계산합니다. 마지막으로 계산된 결과를 JSON 형식으로 S3에 저장합니다. 간단한 MySQL 테이블 “사람”이 예제에서 사용되며 이 테이블에는 “이름” 및 “나이”라는 두 개의 열이 있습니다. 데이터 프레임을 이해한 후 이제 데이터 집합 API로 넘어갑시다. 아래 코드는 SparkSQL에서 데이터 집합 클래스를 만듭니다.

이러한 단점은 스파크 SQL의 탄생에 길을 주었다. 테스트는 매우 간단합니다. 우리는 마지막에 예상 된 결과가 Spark를 통해 얻은 결과와 동일한지 확인했습니다. import org.apache.spark.SparkContext 가져오기 org.apache.spark._ 가져오기 org.apache.spark._ 데이터 작업에 대한 스파크의 핵심 추상화는 탄력적 분산 데이터 집합(RDD)입니다. 명시적으로 processData 함수를 볼 때 코드에서 볼 수 있습니다: 로컬 텍스트 파일의 경로를 스파크 작업에 인수로 전달합니다. 스파크 워드 카운트 예제의 다음 단계는 이전 단계에서 만든 스파크 컨텍스트를 사용하여 텍스트 파일 input.txt를 읽는 입력 스파크 RDD를 만듭니다- 나는 트위터 스트림을 분석하여 지진을 감지하는 실험에 대한 최근 기사를 가로 질러 왔다. 흥미롭게도, 이 기술은 일본 기상청보다 더 빨리 일본에서 지진을 알 릴 가능성이 있음을 보여주었습니다. 그들은 그들의 문서에서 다른 기술을 사용 하더라도, 그것은 우리가 단순화 된 코드 조각 및 접착제 코드 없이 사용 하는 Spark를 넣을 수 있는 방법을 볼 수 있는 좋은 예 라고 생각 합니다. 모든 구성 요소가 마스터 노드, 실행기 노드 또는 Spark의 독립 실행형 클러스터 관리자인 동일한 컴퓨터에서 로컬로 실행되는 로컬 모드에서 Spark를 실행하는 방법을 살펴보겠습니다.