고문헌 번역 프로젝트(1)

업데이트:

ADV과정 프로젝트 주제를 바꾸게 되었다.

이번 프로젝트 주제는 고문헌 번역기

  • 조선왕조실록 원문-번역 데이터를 수집해서
  • 고문헌 번역기를 만들어본다
  • 아직 전부 번역되지 않은 승정원일기를 번역해볼 예정

프로젝트 진행하지 한참 되었는데, 정리해서 블로그 포스팅을 하나도 안했다..ㅎㅎ반성

이번 포스팅의 이슈는 MongoDB 구축이다.

MongoDB를 사용하게 된 이유는

  1. 데이터셋이 너무 커 DataFrame 객체를 피클로 저장할 수 없었다.
  2. 데이터셋을 csv파일로 관리하면 in-memory로 모든 데이터를 읽어와야 해서 메모리에 부담이 간다

따라서 데이터를 텍스트에 적절한 MongoDB로 관리하고 query사용해서 적절히 데이터 다뤄볼 예정

data enginnering 스터디에서 배운 docker로 mongoDB를 컨네이너를 올리고 디비 서버를 돌려볼 것이다.

댓글남기기