spark mllib 예제

이 아파치 스파크 머신 러닝 예제에서는 Spark MLlib가 도입되고 스칼라 소스 코드가 분석됩니다. 이 게시물과 함께 제공되는 스크린캐스트 비디오는 사용자 지정 Spark MLlib Spark 드라이버 응용 프로그램을 보여 줍니다. 그런 다음 스파크 MLLib 스칼라 소스 코드를 검사합니다. 많은 주제가 표시되고 설명되지만 먼저 몇 가지 기계 학습 개념을 설명해 보겠습니다. 위의 코드에는 기본 메서드가 포함되어 있으며 spark-submit에서 호출됩니다. 보시다시피 SlackStreamingTask를 실행할 때 새 모델을 학습하거나 기존 모델을 사용합니다. trainData, modelLocation 및 slackToken과 같은 들어오는 명령줄 인수에 따라 다릅니다. MapR eBook의 5-9장에서 스파크 2.x로 시작하기: 시작부터 프로덕션에 이르기까지, 스파크 머신 러닝 예제를 살펴보고 해당 코드를 다운로드할 수 있습니다. 여기서, 예를 들어 주어진 이메일을 “스팸” 또는 “비스팸” 클래스에 할당하거나 환자의 관찰된 특성(성별, 혈압, 특정 증상의 존재 또는 부재 등)에 의해 설명된 바와 같이 주어진 환자에게 진단을 할당하는 것이다.

다음은 파이프 라인을 만드는 방법의 짧은 예입니다 (setStages 방법은 인수로 배열을 소요) : 또 다른 예는 여성이 향기없는 로션, 비타민 보충제, 그리고 다른 몇 가지의 조합을 구입하기 시작할 때 분석 대상에서입니다 그녀가 임신 할 수 있다는 신호를 보입니다. 불행히도, Target은 아버지가 왜 그런 쿠폰을 받았는지 의문을 품은 십대에게 아기 용품 쿠폰을 보냈습니다. 널리 보급되는 기계 학습 작업인 분류는 입력 데이터를 범주로 정렬하는 프로세스입니다. 제공하는 입력 데이터에 “레이블”을 할당하는 방법을 파악하는 것은 분류 알고리즘의 작업입니다. 예를 들어 주식 정보를 입력으로 받아들이고 주식을 판매해야 하는 주식과 유지해야 하는 주식이라는 두 가지 범주로 나누는 기계 학습 알고리즘을 생각할 수 있습니다. 마지막으로 실제 데이터 집합에서 회귀를 수행하기위한 본격적인 코드의 예를 제시하고 싶습니다 (그 중 일부만 살펴보겠습니다). 모델을 사용하여 새 예측 열을 추가하는 transform() 함수를 사용하여 예측을 수행할 수도 있습니다.