Dive Into A Data Deluge

A Blog Post about Query Execution Engines

Hyunsik Choi — Sun, 04 Sep 2016 18:31:13 +0000

Recently, I joined a team blog for sharing knowledge and experiences with nice guys. In the blog, I wrote a blog post about query execution engines at
A Survey of Query Execution Engines (from Volcano to Vectorized Processing). Enjoy!

Java GC 관련 링크 정리

Hyunsik Choi — Tue, 01 Mar 2016 00:06:51 +0000

Java Garbage Collection, Naver D2 Hello World (in Korean)
Garbage Collection Optimization for High-Throughput and Low-Latency Java Applications, LinkedIn Engineering
JVM GC Settings and HBase Performance
How Garbage Collection differs in the three big JVMs
Java Garbage Collection Distilled
Avoiding Full GCs in HBase with MemStore-Local Allocation Buffers: (Part 1, Part 2)

Links about Array DBMSs

Hyunsik Choi — Tue, 01 Dec 2015 10:42:53 +0000

This article just lists resources available in Internet and papers about array DBMSs and scientific databases.

General

Array DBMS in Wikipedia
Rasdaman, an Array DBMS production
Array Databases: The Next Big Thing in Data Analytics?, Datanami

Applications of Array Data Model

Geo-spatial data
scientific data
financial feeds
sensor data
sequencing data

From Academia

Applications

Accelerating Computationally Intensive Queries on Massive Earth Science Data, Workshop Array Databases 2011 (PDF)
Sample uses of HDF 2006 (PDF)
A Survey of Scientific Applications using SciDB
Paradigm4 White Papers

Data Format

An Overview of the HDF5 Technology Suite and its Applications, Workshop Array Databases 2011 (PDF)

SciDB From Paradigm4

Why an Array Database?, Paradigm4
MAC—the key to fast range selects and joins
Analytics for Massive Data Sets, Paradigm4 (slide)

Rust에서 LLVM Intrinsics 호출하기

Hyunsik Choi — Sat, 28 Nov 2015 10:18:33 +0000

요즘에는 내가 보려는 목적으로 기록을 하는 블로깅이 대부분인 듯 하다. Rust는 LLVM으로 구현되어 있고 LLVM 의 Intrinsics를 함수에 매핑해서 호출할 수 있는 기능이 공식적으로 제공된다. 예제는 아래와 같다.

	#![feature(link_llvm_intrinsics)]

	extern {
	#[link_name = “llvm.sqrt.f32”]
	fn sqrt(x: f32) -> f32;
	}

	fn main(){
	unsafe { sqrt(32.0f32); }
	}

view raw

intrinsics.rs

hosted with ❤ by GitHub

LLVM을 이용한 JIT 코드 개발 정리

Hyunsik Choi — Wed, 25 Nov 2015 10:56:46 +0000

현재 작업 중인 Tokamak (가제) 프로젝트서 사용될 LLVM JIT 코드 몇 가지를 작성해보았다. Rust로 작업하고 있기 때문에 llvm-alt 라는 바인딩 라이브러리를 fork해서 작업을 진행했다. fork 한 이유는 버그와 미구현 API 때문인데 maintenance가 기존에 리포트된 버그도 수정 안되길래 아예 fork 해버렸다.

LLVM은 레퍼런스 문서는 참 훌륭하다. 또한 LLVM IR 자체가 프로그래밍 코드와 비슷해서 Java Bytecode를 보다 훨씬 쉬운 듯 하다. 자체는 쉬운 편인데, 친절한 문서는 별로 없다. 만든 녀석들이 워낙 똑똑한 녀석들이라 나 같은 초보들이 뭘 필요하는지는 잘 모르는 모양인데 이 글에 익힌 몇 가지 정리를 한다. 이 문서의 목적은 내가 보기 위해서기 때문에 체계적이지도 않고 부연설명도 없다.

MJIT vs ORC

MCJIT 전에는 JIT 였음, JIT 는 LLVM 3.5에서 제거됨
MCJIT는 더 많은 타겟에 대한 네이티브 코드 지원
MCJIT는 lazy compilation 지원안함, ORC는 지원함. 다시말해 ORC는 함수 실행 전에 code generation을 하기 때문에 일반적으로 code generation time이 짧음
- 의문1: ORC는 thread safe 한가? (관련 링크)
- 의문2: thread safe를 위한 성능 손해는 없는가?
많은 새 프로젝트들은 MCJIT보다는 ORC 선택 중 또는 기존 프로젝트들도 전환 중

IR 코드와 Bitcode (BC)

프로그래밍 언어는 LLVM 거치면 IR로 변환되고 IR은 다시 BC로 변환되어 최종적으로 native 바이너리 형태로 변환된다. IR과 BC는 어디까지나 LLVM을 위한 intermediate representation 코드임
IR은 human readable representation 이고 BC는 더 컴팩트한 바이너리 포맷. 로딩은 당연 후자가 빠르므로 런타임 로딩을 위해서는 미리 BC로 빌드를 해놓아야 한다.
JIT 코드 작성 시에 IR 코드 생성을 해야 할 필요가 있는데 이는 프로그래밍 언어와 JIT 간에 interoperation 을 위해서이다.
- 예를 들면 JIT로 작성한 함수가 인자로 받을 구조체는 프로그래밍 언어에서도 가용해야 하는덷 이런 경우 c++ 등으로LLVM JIT에서 사용할 구조체와 함수등을 구현해 놓고 c++ 코드에서는 해당 구현을 사용하고 LLVM JIT에서는 미리 생성된 IR을 사용한다.
IR 을 파싱하고 로딩해서 모듈을 생성할 수 있다.
생성된 모듈에서 iterator 를 통해 함수 리스트를 얻을 수 있다.
- 이때 함수에 attribute를 부여할 수 있는데 예를 들면 AlwaysInline 같은 것..
- AlwaysInline 속성은 JIT로 작성된 코드 내부에서 호출하는 다른 JIT 함수들은 전부 inlining이 된다. 즉 함수 호출 비용이 줄어든다.
  - LLVM JIT를 굳이 어렵게 쓰는 이유는 interpretation cost를 줄이고 복잡한 로직을 주어진 정보를 통해 단순화 시켜 브렌치를 제거하기 위함인데 inlining은 이 목적에 잘 부합한다.
  - 다른 속성도 살펴봐야..

Clang을 통해 emit-llvm 할 경우 extern 으로 감싸야 llvm 으로 함수에 접근 가능하다.
Clang을 통해 emit-llvm 할 경우 활용되지 않는 구조체는 컴파일러 레벨 최적화에서 제거 되기 때문에 IR에도 표현되지 않는데 이런 경우를 방지하려면 private dummy 함수를 만들어 인자에 struct들을 다 넣어버리면 IR에 struct를 유지시킬 수 있다.
Clang을 통해 emit-llvm 할 경우 같은 구성을 가진 구조체는 서로 구분하지 못한다. 따라서 다른 구조체의 symbol 이름으로 IR이 출력될 수 있다.

LLVM 링크 정리

Hyunsik Choi — Wed, 11 Nov 2015 13:39:13 +0000

Presentation Materials

Sample Codes

Tools

A skeleton code for Iterator in Rust

Hyunsik Choi — Tue, 13 Oct 2015 10:36:13 +0000

For record, I wrote down the same code.

Consuming Iterator

	pub struct TaskSet;

	pub struct TaskSetIterator {
	…
	}

	impl Iterator for TaskSetIterator {
	type Item = Task;

	fn next(&mut self) -> Option {
	….
	}
	}

	pub struct Task;

	impl IntoIterator for TaskSet {
	type Item = Task;
	type IntoIter = TaskSetIterator;

	fn into_iter(self) -> Self::IntoIter {
	TaskSetIterator { … }
	}
	}

view raw

task.rs

hosted with ❤ by GitHub

Iterator that does not consume items

	pub struct TaskSetRefIterator<'a>
	{
	….
	}

	impl<'a> Iterator for TaskSetRefIterator<'a> {
	type Item = &'a Task;

	fn next(&mut self) -> Option<&'a Task> {
	None
	}
	}

	impl<'a> IntoIterator for &'a TaskSet {
	type Item = &'a Task;
	type IntoIter = TaskSetRefIterator<'a>;

	fn into_iter(self) -> Self::IntoIter {
	TaskSetRefIterator { … }
	}
	}

view raw

task2.rs

hosted with ❤ by GitHub

Awesome documentation links for Rust

Hyunsik Choi — Sun, 11 Oct 2015 10:17:46 +0000

I wrote down the useful links that I have learned. I’ll continue to update it.

General

Abstraction

Abstraction without overhead: traits in Rust

Ownership

Object Safety

FFI

Foreign Function Interface – Rust Book
C types in Rust
Rust FFI C string handling
How do I get a *mut c_char from a Str?
Rust Once, Run Everywhere
FFI in Rust – writing bindings for libcpuid
24 days of Rust – calling Rust from other languages
A Pythonist getting Rusty these days… Part 1, Part 2
Exposing Rust struct to Python

Iterator

Effectively Using Iterators In Rust
A Journey into Iterators
How can I zip more than two iterators?
Correct way to return an Iterator?
Itertools (very useful iterator helper utility)

Pattern Matching

Error handling

biild.rs

Examples

llvm-sys.rs/build.rs

Idiomatic Usages of Rust

API Design

Ownership

Strategies for solving ‘cannot move out of’ borrowing errors in Rust

Network and I/O

Macro

The Little Book of Rust Macros

MIO

Projects Worth Watching

Awesome Rust
Rust in Detail
- Part 1) Writing Scalable Chat Service from Scratch
- Part 2) Sending and Receiving Messages
Asynchronous IO in Rust
- Part 1
- Part 2
Building an iOS App in Rust, Part 1: Getting Started with Rust
Creating A Multi-echo Server using Rust and mio
Index 1,600,000,000 Keys with Automata and Rust
- Library documentation

Papers

Parallelization in Rust with fork-join and friends

Profiling

Updates

Oct 15, 2015 – Added The Little Book of Rust Macros.
Nov 3. 2015 – Add ‘Rust Design Pattern’ and ‘Exposing Rust struct to Python’

Git에서 GPG key로 signoff 하기

Hyunsik Choi — Fri, 09 Oct 2015 19:08:24 +0000

공헌자들 패치를 받아서 커밋할 때, 컨트리뷰터의 author를 유지하면서 또한 커미터가 직접 확인했다는 증명을 signoff 기능을 통해 할 수 가 있다. 그런데 signoff 가 단순하게 커밋로그에 남는 ‘메일 주소와 이름 뿐’인 태그일 뿐이라서 진짜 그 사람이 signoff를 했는지 증명하는 것이 어렵다는 문제가 있다. 다행히 git에서는 GPG key를 이용한 signoff 기능을 제공한다. 우선은 내가 볼 목적으로 그리고 동료들에게 설명할 목적으로 정리를 해본다.

GPG에 대한 사용법은 생략한다. 우선 자신의 Key id를 얻는다.

	$ gpg –list-secret-keys \| grep ^sec
	sub 4096R/4CFE2390 2013-10-16 [expires: 2017-10-16]
	# ^— your key id

view raw

list_gpg_key.sh

hosted with ❤ by GitHub

그리고 git config의 user.signingkey로 GPG key id를 설정한다. 각 repository 마다 설정하고 싶으면 –global 옵션을 빼면 지정 repository에만 (현재 디렉토리의 git repository) 지정할 수 있다.

	# remove –global to use this key only on the current repository
	$ git config –global user.signingkey 4CFE2390
	# ^- replace with your key id

view raw

set_gpg_key_to_git.sh

hosted with ❤ by GitHub

그리고 커밋을 한다. 아래 옵션이 많지만 GPG key로 사인을 위한 옵션은 -S 이다.

	hyunsik@workstation:~/Code/tajo/tajo$ git commit -S -m "TAJO-1909: Eliminate remained explicit diamond expressions."

	You need a passphrase to unlock the secret key for
	user: "Hyunsik Choi "
	4096-bit RSA key, ID 4CFE2390, created 2013-10-16 (main key ID AC3885B9)

	[master 6bc9fbb] TAJO-1909: Eliminate remained explicit diamond expressions.
	Author: Dongkyu Hwangbo ;
	Date: Thu Oct 8 15:02:58 2015 -0700
	72 files changed, 150 insertions(+), 147 deletions(-)

view raw

commit_with_gpg_sign

hosted with ❤ by GitHub

GPG key-agent가 켜져 있다면 패스워드 직접 입력없이 자동으로 위에서 설정한 키로 사인과 함께 커밋이 된다. 그럼 확인해보자.

	hyunsik@workstation:~/Code/tajo/tajo$ git log –show-signature
	commit 6bc9fbb50fb8b45d3fd58d9f10f74fefe62106fe
	gpg: Signature made Thu 08 Oct 2015 03:15:39 PM PDT using RSA key ID 4CFE2390
	gpg: Good signature from "Hyunsik Choi "
	gpg: WARNING: This key is not certified with a trusted signature!
	gpg: There is no indication that the signature belongs to the owner.
	Primary key fingerprint: 9141 BD40 6A84 DBA1 F4BD 5F04 024C 922A AC38 85B9
	Subkey fingerprint: 1BB1 D697 599C 74BD C917 2F89 FE68 DD32 4CFE 2390

view raw

show_signature.sh

hosted with ❤ by GitHub

‘not certified’라고 나올 수 가 있다. key가 로컬 머신에 등록되어 있지만 trust key로 설정되어 있지 않아서 그렇다고 한다 (자세히는 모름). 해결은 아래와 같이 --edit-key 옵션으로 한다.

	hyunsik@workstation:~/Code/tajo/tajo$ gpg –edit-key 4CFE2390 trust
	gpg (GnuPG) 1.4.18; Copyright (C) 2014 Free Software Foundation, Inc.
	This is free software: you are free to change and redistribute it.
	There is NO WARRANTY, to the extent permitted by law.

	Secret key is available.

	pub 4096R/AC3885B9 created: 2013-10-16 expires: 2017-10-16 usage: SCEA
	trust: unknown validity: unknown
	sub 4096R/4CFE2390 created: 2013-10-16 expires: 2017-10-16 usage: SEA
	[ unknown] (1). Hyunsik Choi ;

	pub 4096R/AC3885B9 created: 2013-10-16 expires: 2017-10-16 usage: SCEA
	trust: unknown validity: unknown
	sub 4096R/4CFE2390 created: 2013-10-16 expires: 2017-10-16 usage: SEA
	[ unknown] (1). Hyunsik Choi ;

	Please decide how far you trust this user to correctly verify other users' keys
	(by looking at passports, checking fingerprints from different sources, etc.)

	1 = I don't know or won't say
	2 = I do NOT trust
	3 = I trust marginally
	4 = I trust fully
	5 = I trust ultimately
	m = back to the main menu

	Your decision? 5
	Do you really want to set this key to ultimate trust? (y/N) y

view raw

edit-key.sh

hosted with ❤ by GitHub

그리고 다시 확인해보자.

	hyunsik@workstation:~/Code/tajo/tajo$ git log –show-signature
	commit 5d470bc6001bb4fe096d7a8d221e51c18c683899
	gpg: Signature made Thu 08 Oct 2015 03:21:24 PM PDT using RSA key ID 4CFE2390
	gpg: Good signature from "Hyunsik Choi "

view raw

show-signature_again.sh

hosted with ❤ by GitHub

Warning이 없어진 것을 알 수 있다.

근래 배운 몇 가지 패턴 정리: Provider, Builder, Delegation

Hyunsik Choi — Mon, 05 Oct 2015 13:30:29 +0000

Provider

정확히 말하면 디자인 패턴은 아니라고 한다. 자세한 설명은 [1]에 있다. Factory 패턴과 유사하나 외부 설정에 따라 다른 객체를 생성하는 패턴을 칭한다. 나쁜 패턴이라며 [1]과 함께 Constructor Injection 같은 방법을 써야 한다는 주장이 있지만, 실제로 잘 작성된 오픈소스 프로젝트들에서도 이러한 구현을 꽤 많이 볼 수 있다.

Builder

생성자에 전달되어야 할 파라메터가 다양해서 골치 아픈 경우 Builder 패턴이 좋은 해결책이 된다. 방법은 Builder 객체를 만들고 setter 를 통해 필요한 파라메터를 설정 한 후에 build() 메소드 호출을 통해 실제 객체를 생성한다.

	let storage = StorageBuilder.newBuilder()
	.setURL("file:///tmp/test.csv")
	.setType("csv")
	.setFieldDelimiter(",")
	.setLineDelimiter("\n")
	.setEncoding("UTF-8")
	.build();

view raw

builder.java

hosted with ❤ by GitHub

Delegation

처음 Delegation 패턴을 봤을 때는 Interface의 구현과 차이점을 잘 발견하지 못했었다. 위키 피디아에도 설명이 있지만 언제 써야 하는지가 설명되어 있지 않았다. [3] 에서 이유를 찾았는데. 요약을 해보면,

원래 있는 객체의 동작을 그대로 유지하면서 동작의 앞뒤에 처리를 추가하고 싶을 때
호환되지 않는 인터페이스를 위한 Proxy 를 구현할 때
실제 구현 사용 시 복잡도가 높은 콜 루틴을 단순하게 제공하려고 할 때

경우에 따라 서브클래싱과 함께 쓸 수 있을 것 같으며 데코레이터 패턴에서 주로 나타나는 패턴인 것 같다.

Jni Native를 통한 Rust 함수 호출

Hyunsik Choi — Fri, 25 Sep 2015 11:31:20 +0000

회사 허락을 맡아 홀로 프로젝트를 하나 시작했다. 큰 그림은 일부 컴포넌트를 Rust로 구현하고 컴포넌트간 연결은 rpc로 하는 것인데 아직 Rust 로 rpc 구현을 하기에 시간이 더 필요하다. 임시적인 수단으로 JNI를 통해 기존 컴포넌트에 연결을 하려고 한다.

그 외 프로젝트에 자세한 이야기는 나중에 설명하고 위 목적으로 Stackoverflow 에서 참고하고 https://github.com/Monnoroch/RustJni 를 참고해서 JNI를 테스트를 해봤다.

C 바인딩이 쉬운것은 Rust의 장점 중 하나인데 JNI 바인딩 역시 순조로웠다. 방법은 우선 아래와 같이 native 함수 인터페이스를 작성하고

	public class NativeInvoke {

	public static native void procedure();

	public static native void stringArg(String str);

	public static native String returnString();
	}

view raw

NativeInvoke.java

hosted with ❤ by GitHub

아래와 같이 Rust 코드를 작성하면 된다.

	#![crate_type="dylib"]
	#![feature(libc)]
	#![allow(non_camel_case_types)]
	#![allow(non_snake_case)]
	#![allow(unused_variables)]

	extern crate libc;

	extern crate jni;

	use libc::c_void;
	use std::ptr;

	use jni::native::*;
	use jni::helper::*;

	#[no_mangle]
	pub extern fn Java_org_github_hyunsik_NativeInvoke_procedure(jre: *mut JNIEnv,
	class: *const c_void) {
	println!("Invoked native method, jre: {:p}, class: {:p}", jre, class);
	unsafe {
	let v = ((**jre).GetVersion)(jre);
	println!(">> version: {:?}", v);
	}
	}

	#[no_mangle]
	pub extern fn Java_org_github_hyunsik_NativeInvoke_stringArg(jre: *mut JNIEnv,
	class: *const c_void, name: jstring) {
	unsafe {
	let string = ((**jre).GetStringUTFChars)(jre, name, ptr::null_mut());
	println!("{}", chars_to_str(string));

	((**jre).ReleaseStringUTFChars)(jre, name, string);
	}
	}

	#[no_mangle]
	pub extern fn Java_org_github_hyunsik_NativeInvoke_returnString(jre: *mut JNIEnv,
	class: *const c_void) -> jstring {
	unsafe {
	return str_to_jstring(jre, "jni native");
	}
	}

view raw

lib.rs

hosted with ❤ by GitHub

이게 전부다. 위에서 사용된 chars_to_str와 str_to_jstring 는 아래 github repository에 있다.

https://github.com/hyunsik/jni-rs/blob/master/src/helper.rs

위 repository 는 https://github.com/Monnoroch/RustJni를 fork 해서 JNI 뿐 아니라 JNI 프로그램 작성 중에 반복되는 코드들에 대한 유틸리티 함수들을 추가할 계획이다.

그리고 아래는 JNI Native + Rust 를 위한 템플릿 프로젝트이다.

https://github.com/hyunsik/rust-jni-template

‘개발자가 보는 소프트웨어 교육의 오해와 진실, 그리고 미래’ 글에 대한 이견

Hyunsik Choi — Sun, 09 Aug 2015 02:42:37 +0000

개발자가 보는 소프트웨어 교육의 오해와 진실, 그리고 미래

링크한 글에 부분적으로 공감이 가기는 하지만 저는 꽤 다른 생각을 가지고 있습니다.

요약을 하면 링크의 글에서는 ‘직접적인 SW 개발을 위한 지식 습득’이 SW교육의 핵심이라고 주장하고 있습니다. 제 의견은 초중등 SW 교육에서 직접적인 SW 개발을 다루는 것은 불필요하다고 생각합니다. 덧붙이면 제가 생각하는 초중 SW 교육의 참의는 논리적인 사고나 알고리즘적 사고를 잘 가르치는 수단으로 SW가 활용되는 것이지 SW 개발에 목적이 있다고 생각하지 않습니다.

그 이유를 다음과 같습니다.

SW 개발을 위한 지식은 쉬이 변합니다
SW 개발 자체는 도메인 지식, SW 개발 방법론, 협업 도구, 프로그래밍 언어와 같은 응용의 말단 지식 (원론에서 먼)을 다수 요구하고 있으며 이러한 지식들은 10년 이상 단위로 보면 쉬이 변하는 영역입니다. 또한 SW 개발은 지식의 양적인 요구가 많거나 엔지니어링적인 요소가 많습니다. 이를 실제 현업에 종사하려면 10년 이상 걸리는 초중등 학생들이 배울 필요는 없습니다. 직접적인 SW 개발에 관심이 있는 친구들은 (글의 저자 설명과 같이) 인터넷 등 다른 수단을 통해 그때 그때 유망한 프로그래밍 언어나 방법론, 개발 도구들을 배우면 됩니다.

초중등 SW 교육이 SW 개발자를 만들기 위한 것이 아닙니다.
저자 분이 ‘모두 개발자가 될 필요는 없다’고 언급한 것 처럼 당연히 초중등 SW 교육이 SW 개발자를 만들기 위한 것이 아닙니다. 따라서 직접 결과물을 내기 위해 배워야 하는 SW 개발 지식(글에서 언급된 방법론, 협업 도구, 현업에서 쓰이는 언어) 에 시간을 들이는 것은 대다수의 초중등 학생들에게 사실 시간 낭비일 것이라고 생각합니다. 어린 학생들일 수록 가능성 많고 잠재력이 크기 때문에 (다른 말로 하면 미래에 어떤 분야에 종사하게 될지 모르기 때문에) 학생들 전체에게 좋은 영향을 줄 지식인 논리력, 알고리즘적 사고력을 키우는게 본질이 되어야 합니다. SW 통해 생각의 방법을 배우게 되면 예술, 인문, 철학, 과학, 공학 분야에 다양하게 적용될 수 있습니다.

대학 SW 교육에 대한 유감

Hyunsik Choi — Sun, 09 Aug 2015 02:37:24 +0000

대학 SW교육 확 바뀐다…전문인력 5천500명 양성

미국 같은 경우 SW 산업이 상당히 발달하고 인력 수요가 높다. 그래서 지금 SW 산업 발달 속도와 수요 증가로 보아 몇 년도 까지 얼마나 많은 SW 인력이 부족하다는 데이터를 바탕으로 인력 양성에 노력을 하고 있다. 다시 말해 공급이 부족하니 정책을 펼쳐 늘리는 것이다. 너무도 당연하다.

우리나라는 SW 산업이 발전하고 있지 않다. 실질적 수요가 증가하는지도 잘 모르겠다. SW 기업이 몇 개나 있는지… 거의 없는 것 같다. 기업이나 정부가 SW를 제 돈 내고 사서 쓰는 것은 보기 힘들고 유수 대기업들 조차도 여전히 인건비 기반으로 비용 지불을 하려고 한다. 이런 상태로 볼 때 지금도 앞으로도 SW 기업이 더 크지도 새로 생길 가능성도 상당히 낮은 것 같다. 앞으로도 좋아질 징조는 보이지 않는다. 다시 말해 수요 증가에 대해 의문이 든다.

또한 산업계에서 진짜 원하는 것은 전문인력인데 전문인력은 산업 발달로 길러지는 것이지 제도적으로 인위적으로 키울 수 있는 것은 아니다. 이런 정책으로 실질적 수요를 해소하기는 쉽지 않아 보인다.

다소 비관적으로 본다면, 이런 정책으로 인위적으로 많이 양성된 인력들을 흡수할 곳은 없을 것으로 보인다. 운이 좋으면 외국으로 가서라도 일을 하게 되겠지만, 많은 사람들은 배운 것을 써먹지도 못하는 자리에서 일하게 되거나 헐값에 일을 하게 될 지도 모른다.

SW 산업의 진짜 발전을 위해서는 인위적인 인력 양성보다는 (너무 당연해서 심심한 이야기지만) SW 생태계 자체에 좋은 순환이 만드는 방법이 함께 혹은 먼저 고민되어야 할 것 같다.

Oracle이 고려 중인 Java 9의 Unsafe API 제거 계획

Hyunsik Choi — Wed, 15 Jul 2015 09:20:58 +0000

성능이 중요한 꽤 많은 자바 프로젝트 (하둡 등 데이터 처리 프로젝트들 역시)이 Java Unsafe API에 의존하고 있다. Unsafe API는 JVM에서 공식적으로 제공하는 API가 아닌 Oracle JDK에서 내부적인 사용을 목적으로 제공하는 API이다. JNI와 다른 기술이며 콜 오버헤드 없이 직접 native 코드로 실행된기 때문에 빠르고, C 와 같이 메모리를 동적할당할 수 있으며 bounding check 없는 배열 접근 등 다소 위험하지만 성능 좋은 API를 100여가지 제공한다.

Removal of sun.misc.Unsafe in Java 9 – A disaster in the making

붙인 링크는 Oracle에서 JVM9 에서 Java Unsafe API 정말 제거하려는 계획과 지워질 경우 일어날 재앙에 대해서 언급한다. 아직까지는 계획일 뿐이고 계획을 직접 훑어보니 어느 정도의 대체 API도 고려하는 것 같기는 하다. 그럼에도 불구하고 그런일이 실제로 일어난다면 많은 자바 프로젝트들은 큰 변화를 겪어야 할 수 도 있다. 어쩌면 자바로 작성한 것이 의미가 없어질 정도로.. 어떤 프로젝트들은 헤비한 JNI 사용을 해야 할 것 이며 어떤 프로젝트들은 C++이나 기타 시스템 프로그래밍 언어로 이동을 해야 할지도 모르겠다.

오픈소스 홍보를 위한 사이트 정리

Hyunsik Choi — Sun, 05 Jul 2015 11:41:26 +0000

오픈소스의 핵심은 커뮤니티와 사용자이기 때문에 홍보를 꾸준히 그리고 잘 해야 할 필요가 있다. 개발자 커뮤니티나 오픈소스 커뮤니티 사이트에서 홍보를 많이 하는데 매 릴리즈나 주요 로드맵 공개 때 마다 꾸준히 하는 것이 효과적이다. 추후 참고하기 위해 목록을 정리 한다.

글 또는 링크 포스트를 통한 홍보 사이트

https://www.reddit.com – 적절한 카테고리에 홍보
https://news.ycombinator.com
https://dzone.com/
각종 SNS

등록을 통한 홍보 사이트

해쉬 함수 구현 (hash function implementation) 링크 정리

Hyunsik Choi — Mon, 25 May 2015 11:05:12 +0000

이것도 한 3-4년전에 정리했다가 가끔 업데이트 한 것 같은데… 나름 괜찮은 링크가 몇 개 있어 공유한다. 이것도 앞으로는 이 페이지에서 업데이트를 하겠다. 오래 지나다보니 인터넷에 있는 정보라도 링크가 깨진 것들이 많아 지웠는데 아쉽다. 다행히 이 페이지는 web archive에서 찾을 수 있어 다행이다 싶다.

General

Which hashing algorithm is best for uniqueness and speed?
Can one construct a “good” hash function using CRC32C as a base?
- CRC32가 hash table등을 위한 목적으로 좋은가? (키가 uniform distribution으로 나오는가?)
State of the hash functions, 2012
Hash Function
- 해쉬 함수 총정리 (강력 추천)

SW-based Implementations

http://www.cse.yorku.ca/~oz/hash.html
- 단순한 해쉬 함수들 구현 소개 (바로 쓸 수 있는 코드들)
Implementing SSE 4.2’s CRC32C in software
- SW 기반 HW 기반 코드 소개
Benchmarking CRC32 and PopCnt instructions
The Hash – 각종 hash 함수 소개 및 성능 평가
MurmurHash – 최근 가장 빠른 성능의 해쉬함수 중 하나로 평가되고 있는 Murmur의 원구현 소스 (코드 읽기 쉬워 포팅 쉬움)
xxHash – 현재 가장 빠르다고 주장되고 있는 해쉬 함수 구현

HW-based Implementations

_mm_crc32_u64 poorly defined
- SSE4.2 제공 crc32 hashing 용례
SSE4.2 and the new CRC32 instruction
http://home.ustc.edu.cn/~shengjie/REFERENCE/sse4_instruction_set.pdf
- SSE4 instruction set reference
Fast, Parallelized CRC Computation Using the Nehalem CRC32 Instruction
Intel® SHA Extensions

데이터베이스 시스템의 주제별 기초 논문들

Hyunsik Choi — Mon, 25 May 2015 10:34:09 +0000

데이터베이스 시스템 이라는 큰 주제 아래 각 세부 주제에 대한 기초 논문 목록 들이다. 한참 학교에서 공부하던 시절에 정리하고 틈틈히 업데이트 했던 것 같다. 추후에 data processing이나 column store에 대한 논문들도 공유하도록 하겠다.

데이터베이스 분야는 일반적으로 순수한 알고리즘이나 자료구조 부터 다양한 응용 문제나 이론까지 아주 광범히 하다. 말 자체는 ‘데이터베이스’라서 약간은 고리타분해 보이기도 하지만 데이터에 대해 일반화 가능한 모든 연구라고 봐도 무방할 만큼 해당 학계에서 다양한 연구를 다룬다. 최근 큰 인기를 얻고 있는 하둡이나 분산 데이터처리 역시 데이터베이스 분야에서 활발히 다루어지고 있다. 마이닝의 많은 연구들 또한 이 분야에서 다루어진다. 제목에서 언급한 ‘데이터베이스 시스템’이라고 하면 일반적으로 시스템 구현기술과 이론에 해당되는 내용을 말한다.

개인적으로 해당 분야나 문제를 접할 때 그 문제에 대한 가장 초기 논문들은 꼭 읽어보려고 노력한다. 그 이유는 그 논문들이 그 문제에 대해 가장 깊은 통찰력과 고민들을 많이 담고 있기 때문이며 후대의 논문들 일수록 초기 논문들이 한 고민이나 통찰은 기본적인 전제로 사용되고 문제 풀이 아이디어 위주로 기술되기 때문이다. 그래서 아래 리스트는 각 분야의 초기 논문들 및 전체를 정리하는 논문들 위주로 리스팅이 되어 있다.

주제별로 중요한 논문을 다 담긴 것은 아니다. 주로 내가 관심 있었던 것들 위주이다. 또한 See Also에는 대학들의 좋은 커리큘럼이나 읽어볼만한 주제별 논문에 대해 정리한 리스트의 링크를 담고 있다. 그리고 그 동안은 개인적인 위키에 업데이트를 했었는데 앞으로는 이곳에서 업데이트를 하도록 하겠다.

History

M. Stonebraker and J. M. Hellerstein, “What Goes Around, Comes Around,” in Readings in Database Systems, 2005, pp. 2-41.
J. M. Hellerstein and M. Stonebraker, “Anatomy of a Database System,” in Readings in Database Systems, 2005, pp. 42-95.
Thomas Haigh, Fifty Years of Databases, ACM SIGMOD Blog, 2012.

Architecture

M. M. ASTRAHAN et al., System R: relational approach to database management, ACM TODS, 1976.
Donald D. Chamberlin et al., A History and Evaluation of System R, Communications of the ACM, 1981.
Michael Stonebraker et al., The Design and Implementation of Ingres, ACM TODS, 1976.
Joseph M. Hellerstein, Michael Stonebraker, and James Hamilton, Architecture of a Database System, Foundations and Trends in Databases, 2007.

Query Processing

Leonard D. et al., Join processing in database systems with large main memories, ACM TODS, 1986.
D. J. DeWitt and Jim Gray, Parallel Database Systems: The Future of High Performance Database Processing, CACM 1992.
Chris Nyberg et al., AlphaSort: a cache-sensitive parallel external sort, VLDB Journal, 1995.
Goetz Graefe, Encapsulation of Parallelism in the Volcano Query Processing System, ACM SIGMOD, 1990.
Lothar F. Mackert et al., R* Optimizer Validation and Performance Evaluation for Distributed Queries, VLDB Conf, 1986.

Access Method

P. Griffiths Selinger et al., Access Path Selection in a Relational Database Management System, ACM SIGMOD, 1979.
Jim Gray et al., The Five-Minute Rule Ten Years Later, and Other Computer Storage Rules of Thumb, ACM SIGMOD Record, 1997.

Transaction Management

Logging

C. Mohan et al., ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking and Partial Rollbacks Using Write-ahead Logging, ACM TODS, 1987.
C. Mohan, Repeating History Beyond ARIES, VLDB Conf, 1999.
Russel Sears et al,, Segment-Based Recovery: Write-ahead logging revisited, PVLDB, 2009.
Philip L. Lehman et al., Efficient Locking for Concurrent Operations on B-Trees, ACM TODS, 1981.

Concurrency Control

Jim Gray et al., Granularity of Locks and Degrees of Consistency in a Shared Data Base, Readings in database systems, 1976.
Concurrency Control in Database Systems, ACM Computing Survey, 1981.
H. T. Kung, On optimistic methods for concurrency control, ACM TODS, 1981.
Rakesh Agrawal et al., Concurrency Control Performance Modeling: Alternatives and Implications, ACM TODS, 1987.
C. Mohan et al., Transaction Management in the R* Distributed Database Management System, ACM TODS, 1986.
- Two Phase Commit

Data Warehouse

Surajit Chaudhuri and Umeshwar Dayal., An Overview of Data Warehousing and OLAP Technology, ACM SIGMOD Record, 1997.
Patrick O’Neil and Dallan Quass, Improved Query Performance with Variant Indexes, ACM SIGMOD, 1997.
Jim Gray et al., Data Cube: A Relational Aggregation Operator Generalizing Group-by, Cross-Tab, and Sub Totals, Data Mining and Knowledge Discovery, 1997.
Yihong Zhao et al., An Array-Based Algorithm for Simultaneous Multidimensional Aggregates, ACM SIGMOD, 1997.
C. Mohan and Inderpal Narang, Algorithms for creating indexes for very large tables without quiescing updates, ACM SIGMOD, 1992.

글쓰기 자동 공유 해제

Hyunsik Choi — Sun, 24 May 2015 09:23:13 +0000

가만 보니 워드프레스에 글을 쓰다말아 Draft로 표시된 글만 50여개이다. 초반에 글을 잘 쓰다가 다듬는 중에 나 스스로도 만족 못해서 완성을 못한 글들이 50여개 인데… 내 성격을 보여주는 단면인 것 같아서 씁쓸하기도 하다. 글 쓰긴 뿐만 아니라 다른 것들에서도 눈만 높은데 반해 내 실력이 막상 따라주지 못해 만족하지 못해 내놓지 못한 일들이 많다. 사실 Tajo 같은 경우도 어쩌다 보니 공유해달라는 요청을 받아 공유했다가 여기까지 오게된 케이스 인데 그 당시에도 부끄러움에 공유를 망설였던 기억이 있다.

그런데 글을 꾸준히 쓰고 싶은 의욕은 항상 있어왔다. 혼자 정리한 내용도 꽤 많고 지금도 꾸준히 뭔가를 배우거나 개발을 하는 중이라 공유하고 싶은 것도 많다. 순간순간 느끼는 교훈이나 배운 것들은 나중에 내가 다시 보기 위해 기록하고 싶다. 일단은 그 부담을 줄여보고자 기본적으로 트위터나 페이스북을 통해 공유되는 기능을 꺼보았다. 아무래도 SNS를 통해 지인들에게 공유되는 것 보다는 필요에 따라 검색으로 들어오는 분들만 본다면 부담이 덜할 것 같다는 생각이다.

그럼에도 불구하고 잘 모르겠다. 꾸준히 기록해 나갈 수 있을지는.. 한번 노력해볼란다.

아파치 타조 (Apache Tajo) 한글 문서 프로젝트 리소스 및 진행 공유

Hyunsik Choi — Thu, 01 Jan 2015 04:14:42 +0000

지난 블로그 포스트 Tajo 한글 프로젝트 프로젝트를 시작에 대해 공유를 했습니다. 이 포스트에서는 짧았지만 몇 일간의 진행과 프로젝트 리소스 정보들을 공유합니다.

프로젝트 리소스 정보는 아래와 같습니다.

기본 웹 페이지 – http://hyunsik.github.io/tajo-doc-kr/
두 페이지가 번역된 초안 – http://hyunsik.github.io/tajo-doc-kr/docs/0.10.0/
이슈 트래커 – https://github.com/hyunsik/tajo-doc-kr/issues
공헌 방법 – https://github.com/hyunsik/tajo-doc-kr/wiki/HowToContribute

현재까지 번역된 페이지는 아래와 같습니다.

Tajo 소개 페이지는 남윤민님이 번역해주셨습니다.
타임존 페이지는 제가 번역을 했습니다.
Tajo 시작하기 페이지를 장정식님이 번역해주셨습니다.

또한 현재 SQL 섹션을 남윤민 님이 님이 번역 진행 중이십니다.

사실 Tajo 문서의 양이 그렇게 많지가 않습니다. 그리고 주요 Tajo 개발자들이 한국인이다 보니 아무래도 영문 작성 보다는 한글 작성이 더 쉬운 면이 있습니다. 그래서 문서 추가를 우선 한글로 하고 한글에서 영문으로 번역하는 작업도 고민하고 있습니다. 꾸준히 진행되면 영문과 한글 문서 모두 풍성해지라 기대합니다.

Update

1월 1일 오후 5시에 번역된 페이지 목록 수정

아파치 타조 (Apache Tajo)의 한글 문서화 프로젝트를 시작합니다.

Hyunsik Choi — Tue, 30 Dec 2014 15:20:46 +0000

Tajo를 더 보급해보려는 노력으로 Apache Tajo의 한글 문서화 프로젝트를 시작하려고 합니다. 자세한 내용은 아래 링크를 참고 하세요.

https://github.com/hyunsik/tajo-doc-kr

일단은 번역으로 시작하지만 잘 작성된 내용은 upstream에 반영하려고 합니다.

막 github 저장소를 만들고 아직 번역된 내용은 없습니다만 꾸준히 해보려고 합니다. 관심 있으신 분들은 메일이나 메시지를 주시구요.

Dive Into A Data Deluge

A Blog Post about Query Execution Engines

Java GC 관련 링크 정리

Links about Array DBMSs

General

Applications of Array Data Model

From Academia

General

Query Language or Interface

Query Processing

Applications

Data Format

SciDB From Paradigm4

Rust에서 LLVM Intrinsics 호출하기

LLVM을 이용한 JIT 코드 개발 정리

MJIT vs ORC

IR 코드와 Bitcode (BC)

LLVM 링크 정리

Documentation Links

Presentation Materials

Sample Codes

Tools

A skeleton code for Iterator in Rust

Consuming Iterator

Iterator that does not consume items

Awesome documentation links for Rust

General

Abstraction

Ownership

Object Safety

FFI

Iterator

Pattern Matching

Error handling

biild.rs

Examples

Idiomatic Usages of Rust

API Design

Ownership

Network and I/O

Macro

MIO

Projects Worth Watching

Papers

Profiling

Git에서 GPG key로 signoff 하기

See Also

근래 배운 몇 가지 패턴 정리: Provider, Builder, Delegation

Provider

Builder

Delegation

See Also

Jni Native를 통한 Rust 함수 호출

‘개발자가 보는 소프트웨어 교육의 오해와 진실, 그리고 미래’ 글에 대한 이견

대학 SW 교육에 대한 유감

Oracle이 고려 중인 Java 9의 Unsafe API 제거 계획

오픈소스 홍보를 위한 사이트 정리

해쉬 함수 구현 (hash function implementation) 링크 정리

General

SW-based Implementations

HW-based Implementations

데이터베이스 시스템의 주제별 기초 논문들

History

Architecture

Query Processing

Access Method

Transaction Management

Logging

Concurrency Control

Data Warehouse

See Also

글쓰기 자동 공유 해제

아파치 타조 (Apache Tajo) 한글 문서 프로젝트 리소스 및 진행 공유

아파치 타조 (Apache Tajo)의 한글 문서화 프로젝트를 시작합니다.