사이킷런 내장된 예제 데이터 세트

2023. 6. 28. 12:34머신러닝 딥러닝

내장된 예제 데이터 세트

 

API명 설명
datasets.load_boston() 회귀 용도이며, 미국 보스턴의 집 피처들과 가격에 대한 데이터 세트
datasets.load_breast_cancer() 분류 용도이며, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터 세트
datasets.load_diabetes() 회귀 용도이며, 당뇨 데이터 세트
datasets.load_digits() 분류 용도이며, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris() 분류 용도이며, 붓꽃에 대한 피처를 가진 데이터 세트

 

fetch 계열

 

- 데이터의 크기가 커서 패키지에 처음부터 저장되어있지 않고,

인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터.

최초 사용 시에 인터넷에 연결되어 있어야 한다.

 

  • fetch_covtype() : 회귀 분석용 토지 조사 자료
  • fetch_20newsgroups() : 뉴스 그룹 텍스트 자료
  • fetch_olivetti_faces() : 얼굴 이미지 자료
  • fetch_lfw_people() : 얼굴 이미지 자료
  • fetch_lfw_pairs() : 얼굴 이미지 자료
  • fetch_rcv1() : 로이터 뉴스 말뭉치
  • fetch_mldata() : ML 웹사이트에서 다운로드

 

분류와 클러스터링을 위한 표본 데이터 생성기

API 명 설명
datasets.make_classifications() 분류를 위한 데이터 세트를 만듭니다. 특히 높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위로 생성해 줍니다.
datasets.make_blobs() 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어 줍니다.