전처리할 텍스트 데이터를 찾다보면 파일형식이 다양하다.
알고 있던건 txt파일 뿐이었는데.. csv, tsv, 등등.. 뭘 뜻하는건지 알아보자.
CSV
(Comma-Separated-Values)의 약자로 데이터 목록이 포함된 일반 텍스트 파일로서 각 라인의 컬럼들이 콤마(,)로 분리된 텍스트 파일 포맷입니다.
CSV파일의 구조
다운받게되는 .csv파일을 열어보면 그림과 같이 콤마(,)로 구분되어 데이터가 들어있는것을 확인 할 수 있습니다.
TSV
(Tab-Separated-Values)의 약자로 데이터 열이 탭으로 구분된 데이터 테이블을 저장합니다. 일반적으로 데이터베이스간에 데이터를 교환하는데 사용됩니다.
SSV
(Space-Separated-Values)의 약자로 스페이스로 구분된 데이터 테이블을 저장합니다.
(이 셋을 통틀어서 CSV파일이라 하기도 함.)
DSV
(Delimiter-Separated-Values)구분기호로 구분된 값을 사용하는 형식입니다. 위에 설명된 CSV, TSV, SSV에서 좀 더 포괄적인 형식 인가.? ㅎ
'공부' 카테고리의 다른 글
[알고리즘] 최소 비용 신장 트리(MST) - 크루스칼 알고리즘(Kruskal Algorithm) (0) | 2021.11.10 |
---|---|
Jina AI (0) | 2021.07.17 |
댓글