Skip to content

bit2r/bitData

Repository files navigation

bitData

bitData 데이터 패키지의 목표는 통계 대중화와 디지털 불평등 해소를 위해서 누구나 쉽게 즉시 사용할 수 있는 통계, 데이터 과학, 기계학습, 딥러닝에 사용될 데이터셋을 모아 제공하는 것입니다.

설치방법

GitHubbitData 데이터 패키지 관련 소스코드와 원천 데이터를 포함한 모든 정보가 저장되어 있습니다. 다음 명령어를 사용해서 데이터셋을 설치하여 즉시 사용할 수 있습니다.

# pak 사용 (권장)
# install.packages("pak")
pak::pkg_install("bit2r/bitData")

# 또는 remotes 사용
# install.packages("remotes")
# remotes::install_github("bit2r/bitData")

데이터셋

한국인이면 누구나 체감할 수 있는 직관적이고 현실감있는 데이터를 모아 제공하고 있고 bitData 데이터 패키지 설치 후 다음 명령어를 통해서 즉시 사용할 수 있습니다.

# 개발 중인 패키지 로드
devtools::load_all(quiet = TRUE)

bitData_list <- data(package = 'bitData')
bitData_list$results %>%
  as_tibble() %>%
  select(Item, Title) %>%
  arrange(Item)
#> # A tibble: 14 × 2
#>    Item       Title
#>    <chr>      <chr>
#>  1 airforce   ""   
#>  2 co2        ""   
#>  3 disaster   ""   
#>  4 exam_score ""   
#>  5 global_co2 ""   
#>  6 penguins   ""   
#>  7 pollution  ""   
#>  8 population ""   
#>  9 pr_day     ""   
#> 10 pr_hour    ""   
#> 11 pr_month   ""   
#> 12 school     ""   
#> 13 terms      ""   
#> 14 typhoon    ""

포함된 데이터셋 (14개):

  • airforce - 국방부 공군 남녀 신체측정 데이터
  • co2 - 대한민국 온실가스 배출량
  • disaster - 대한민국 주요 참사 데이터
  • exam_score - 영어 작문 시험 점수
  • global_co2 - 전세계 대기 CO2 농도 추이
  • penguins - 남극 팔머 펭귄 측정 데이터 (한글 번역)
  • pollution - 전국 대기오염물질 배출량
  • population - 대한민국 인구 통계 (1981~)
  • pr_day, pr_hour, pr_month - 서초구 강수량 데이터
  • school - 봉담고등학교 학생 등교 데이터
  • terms - 역대 대통령 재임기간
  • typhoon - 태풍 인명피해 통계

남극 팔머 펭귄

붓꽃 데이터(Iris Data)를 대신해 시각화와 데이터 과학, 기계학습에 전세계적으로 많이 사용되고 있는 데이터셋으로 파머 펭귄(Palmer Penguins) 데이터셋을 번역하여 순 한글로 제공됩니다.

원본 344행의 데이터를 모두 포함하며, 일부 측정값이 누락된 관측치의 NA도 그대로 유지되어 있습니다.

data(penguins)
head(penguins)
#> # A tibble: 6 × 8
#>   종명칭 섬이름   부리_길이 부리_깊이 날개_길이  체중 성별   연도
#>   <fct>  <fct>        <dbl>     <dbl>     <int> <int> <fct> <int>
#> 1 아델리 토르거센      39.1      18.7       181  3750 수컷   2007
#> 2 아델리 토르거센      39.5      17.4       186  3800 암컷   2007
#> 3 아델리 토르거센      40.3      18         195  3250 암컷   2007
#> 4 아델리 토르거센      NA        NA          NA    NA <NA>   2007
#> 5 아델리 토르거센      36.7      19.3       193  3450 암컷   2007
#> 6 아델리 토르거센      39.3      20.6       190  3650 수컷   2007

# NA 정보
cat("전체 행:", nrow(penguins), "\n")
#> 전체 행: 344
cat("NA 포함 행:", sum(!complete.cases(penguins)), "\n")
#> NA 포함 행: 11 개

공군 신체정보

대한민국 공군 남녀 신체정보를 공공데이터 포털에서 다운로드 받아 분석이 가능한 형태로 결측값을 제거하여 정제한 데이터입니다.

data(airforce)
head(airforce)
#> # A tibble: 6 × 22
#>   성별  측정일자      키 몸무게 머리둘레 희망치수머리 목둘레  화장 젖가슴둘레
#>   <fct> <date>     <dbl>  <dbl>    <dbl>        <dbl>  <dbl> <dbl>      <dbl>
#> 1 남    2021-06-16  169.   55.6     54.1            0   34.7  60.3       86.4
#> 2 남    2021-06-16  183.   66.6     55.8            0   36.3  87.5       90.6
#> 3 남    2021-06-16  178.   79.7     58.5            0   38.3  77         98.6
#> 4 남    2021-06-16  171.   69.4     56.3            0   37    77         93.9
#> 5 남    2021-06-16  174.   63.9     55.5            0   36.1  62.3       89.9
#> 6 남    2021-06-16  172.   81.5     58.9            0   39.2   0        101. 
#> # ℹ 13 more variables: 배꼽수준허리둘레 <dbl>, 엉덩이둘레 <dbl>, 샅높이 <dbl>,
#> #   발길이 <dbl>, 발폭 <dbl>, 희망치수신발 <dbl>, 윗가슴둘레_겨드랑이 <dbl>,
#> #   허리둘레_윗허리 <dbl>, 어깨가쪽사이길이 <dbl>, 팔길이 <dbl>, 등길이 <dbl>,
#> #   다리가쪽길이 <dbl>, 총장 <dbl>

라이선스

bitData 데이터와 저작물을 포함한 한국 알(R) 사용자회 저작물은 크리에이티브 커먼즈 저작자표시-비영리-동일조건 변경 허락 (BY-NC-SA) 라이선스를 준용하고 있습니다.

도움요청

bitData의 발전을 위해서 버그에 대한 리포팅, 기능 개선을 위한 요구사항들은 여기에에 문제를 제기하거나 요청해주세요. 특히 버그는 최소한의 재현 가능한 예제와 함께 제출바랍니다.

행동강령 (Code of Conduct)

bitData 프로젝트는 Contributor Code of Conduct을 따르고 있습니다. 따라서, bitData 프로젝트에 기여함은 해당 조항을 준수하는데 동의하는 것입니다.

About

한국 데이터셋

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 3

  •  
  •  
  •  

Languages