AI기술과 음향 기술의 예상 그 두번째...
요 며칠새에 제가 관심있는 음향 분야가 DDC 등의 소스기기 분야 입니다.
제 헤드폰을 구동하기엔 크게 출력이 필요하지도 않는 듯하여 앰프 분야는 관심이 좀 멀어졌습니다.
구형 DAC인 캐럿루비의 음색이 참 맘에 들어서 이 상황에서 무엇을 더 보강할까가 주 관심사가 되었죠.
서론이 길어졌는데 주제는 업스케일 입니다.
요즘 NVIDIA의 DLSS 등 저화질로 랜더링 하여 딥러닝 AI를 이용한 자연스러운 업스케일로 화질과 성능을 다 잡는 트랜드가 보편화 되었습니다. 이게 음향 분야에 적용되면 어떨까 상상해 봤습니다.
실제로 최신의 디지털 음향 분야에서는 업스케일에 대한 관심도가 높아져 가고 있는거 같습니다.
디지털 음향의 선구자인 코드에서 이미 예전에 출시된 M스케일러를 필두로 작년에 출시된 국산 J-DDC까지.
이 외에도 제가 모르는 많은 업스케일러 기기들이 이미 하이파이 시장엔 있겠죠.
코드는 여기에 자신들만의 연구로 업스케일된 파형의 빈공간을 채우는 기술을 개발해서 넣었습니다.
국산 J-DDC는 이 수준까지는 아니나 업스케일로 얻는 기본적인 이득만큼은 챙겨 가는거 같더군요.
그럼 여기에 딥러닝이 들어오면 어떨까?
수많은 음악의 저음질과 고음질을 데이터로 입력하여 머신러닝을 시켜 함수지수값을 도출해 놓은 다음
DAC에 적용시킨다면? 실질적인 업스케일의 효과를 제대로 볼 수 있지 않을까요?
기존의 UHQ 업스케일러 같은 오히려 독이 되는 형편없는 로직이 아니라
제대로된 딥러닝 업스케일러를 기대해 봅니다.
문제는 게임이야 거대 산업이라서 금방 금방 된다지만 하이파이 컨슈머 시장이
그만큼의 자본을 투자할 만한 가치가 있어야 진행이 될텐데...
프로 시장에 먹히기엔 프로들은 이미 더 업스케일 할 필요도 없는 고음질로 작업을 하고 있으니...
결국 돈이 문제겠네요.
이만 긴 뻘글 읽어주셔서 감사드립니다.
엥 그런데 이미 리마스터 음반은 이런식으로 하는거 아닌지? 전문 영역이 아니라서 전 몰러~
댓글 21
댓글 쓰기ifi ZEN DAC V2는 이미 업스케이링이 펌웨어 존재하던데, 전 업스케일링 자체를 별로 신뢰하지 않아 사용해본 적은 없습니다. 하지만 Stable diffusion의 잠재력을 봤기 때문에 기술적 가능성은 있다고 봅니다.
업스케일이라는 게 양자화된 디지털정보들 사이의 갭을 적당히 메워서 마치 원래 있었던 것 처럼 정보를 추가하는 것인데요. 달리 말하면 기록된 정보의 전체나 일부를 봐서 원본을 더 높은 해상도로 기록했다면 이랬을 것이다 하는 걸 만들어 내는 과정이 됩니다.
이게 진짜 그럴듯하려면 측정된 원본에 대한 적당한 정보가 있어야 할것인데요, 이게 부분이 아주 많이 애매할 수 밖에 없습니다. 적당히 인터폴레이션할 수도 있지만 이 방법역시 기록된 정보의 한계를 넘어 추가적으로 정보를 제공할 수는 없으니까요.
AI가 개발 된것은 만약 이미 학습된 정보를 통해 이 원본의 갭을 제대로 메울 수는 시도입니다. 마치 우리가 코끼리의 다리만 봐도 코끼리의 전체를 대충 알 수 있는 것처럼 말입니다. 이건 우리에게 이미 알고있는 코끼리의 모습이 있어서 가능한데요. 제대로 학습된 AI는 이런 부분을 인간처럼 혹은 인간보다 더 잘 해낼 수 있다는게 중요한 기능중에 하나입니다.
근데 이게 소리에 가서는 문제가 아주 많을 수 있을 것같습니다. 오디오파일들은 아주 작은 소리의 변화에도 상당히 민감하게 특히 아주 개인적으로 받아들여서요. 일반화 시켜서 학습된 AI는 누구도 만족시키지 못할 가능성이 매우 높아집니다.
근데 음성 통신이나 장거리 통신에서의 노이즈 제거 혹은 공감음향 같은 그런 부분에서는 아주 유용하게 사용될 수 있을 것 같습니다.
44.1 이상으로 무언가 얻어봤자 dac에서 재생도 안하고 재생한다고 하면 imd만 증가할게 뻔하기때문에... 고음질 음원? 실효성에 대해 의문이긴합니다. 물론 믹서단에서는 업샘플링해줘도 괜찮지않을까 생각하긴합니다.
BT 같이 제한된 대역폭에서 음질을 올리는게 현실적인데, 아직은 대역폭을 늘리는게 더 싸고 효율적이기에 그쪽으로 가는것 같습니다.
다만 음향도 화질이 8k hdr처럼 정보량이 어마어마 해질때, 예를 들면 애트모스 같은 다채널이나 가상현실 수준의 음향 기술이 보편화 되면, 당연히 업스케일하고 ai 복원이 들어가야할 겁니다.
플루이드 모션은 인터폴레이션 보간이라 말씀드린 AI 딥러닝 스케일러랑 품질 차이가 어마어마 합니다. 딥러닝은 진짜 무궁무진한 결과를 도출해 내죠. 답변 감사드립니다.
인간의 가청 주파수에는 한계가 있으니 마케팅 용 말고는 소용이 있을까 싶습니다만... 그 마케팅이 잘 먹히는 세계가 또 이 쪽이다 보니 모르겠네요 ㅎㅎ
그렇습니다. 최상의 오디오파일들에게 얼마나 먹힐지 알수가 없고 기존의 코드가 WTA 기술을 버리고 딥러닝으로 전환하던지 아니면 NVIDIA가 CUDA등의 하드웨어는 갖춰져 있으니 맘만 먹으면 하이파이계를 압살할 수도 있을것 같긴 한데 미래는 알 수가 없죠. 앞으로가 재미있어지면 좋겠습니다. 답변 감사드립니다.
1) 레이트레이싱 같은 기술 사용에 따른 자원 소모를 현세대 장비가 감당하지 못함
2) 차이를 확연히 체감 가능한 시각이기 때문
요 두 개라고 생각합니다
사람 눈으로도 60, 120, 240프레임 다 차이를 인지하고 FHD, QHD, UHD 차이는 뭐 말이 필요 없으니 4K 모니터에 업스케일링 안 하고 FHD로 게임하느니 약간의 열화를 감수하고서라도 DLSS 켜고 4K로 게임하고 60프레임 대신 120프레임으로 게임하는 걸 선택하잖아요?
헌데 음원은 이미 꼬다리 수준에서도 32Bit 384kHz 정도 지원하는 건 널렸다시피하니 유선에서는 크게 의미 없지 싶고(AI가 추론으로 채워넣어서 무결성을 깨트리느니 더 고음질 음원을 구하는 게 일반적인 선택이겠죠. 요즘 그 정도 음원 디코딩 못 하는 기기도 드무니)
무선은 유선과는 다르게 전자기기 성격이 강해서 합리성이 더 필요한 분야이니 굳이 돈 써가면서 청감 가능할지부터가 의문인 기술에 돈을 써 줄 소비자는 시장 내에서는 소수죠
차라리 블루투스 버전이 오르던가 다른 저 에너지 통신이 개발되어서 무손실 수준 통신이 원활해지는 게 더 이상적이지 싶어요
뭐 업스케일링이니 뭐니 해도 통신부분이 쓰레기라듣다 끊겨대면 답도 없으니...
스튜디오 단계에서는 의미가 있을 듯 한데 정작 그 비싼 장비로 업스케일한 비싼 음원을 소비하는 사람들은 원음 재생에 목을 매는 사람들이니 무결성 담보가 불가능한 음원을 달갑게 여기진 않을 것 같거든요
당장 MQA를 달갑지 않아하는 사람들도 손실 압축하고 이를 복원하는 것에서 무결성을 담보하지 않는 게 제일 크니까요(처음에 MQA loseless라고 홍보했다가 슬쩍 지워버리기도 했고)
현재의 스트리밍 시장의 한계를 기기로 극복할 수 있다는 면에서 메리트가 있겠지만 그런 환자 영역의 사람들이 적다는게 최대의 걸림돌인거 같습니다. 수요는 기존의 M스케일러 같은 기기 사용자 일 텐데 그 수가 얼마나 될까요... ㅎㅎ;; 그래도 코드 같은 하이앤드 Hifi 회사에서 차세대 M스케일러라면서 딥러닝 기술 적용한 다음 몇천 땅땅 찍는 기기를 출시할 가능성은 있다고 봅니다. 답변 감사드립니다.
물론 기기 하나에 수백 수천씩 쓸 정도의 시장이면 NFT처럼 한놈만 걸려라식이 대부분이다보니 일반적인 시장과 괴리가 심해서 이미지 하락만 불러올 수도 있겠구요
“봐라, 이 천만원짜리 DAC가 AAC를 딥러닝으로 복원한 걸 원본 WAV랑 비교하니 개판이 따로 없더라. 이런 걸 사는 사람은 호구다!” 뭐 이런 식인 거죠
소니의 DESS, JVC의 K2등등이 있죠.
원음 재현에 목숨거는 음향에서
쉽게 받아 드려지지 않을듯 합니다.