Logbot

#g0v.tw
AUTO⬇
  • 00:33:34 jimyhuang__ clkao: 可惡,人家都上外太空,我還在那殺豬公 QQ
  • 01:05:31 ⓢ mgdesigner sry今天有事,沒能報萌典松,只能看直播/_\
  • 01:11:01 au mgdesigner: yapcheahshen++ 寫出好詳細的 https://github.com/g0v/idskage
  • 01:11:34 au =意傳組字的 JS port 雛形,加上自動寬度調整
  • 01:13:41 au 吳老辭典 ( https://g0v.github.io/koktai/ ) 難字 IDS 取得後,少數需要手動調整的,可以 5/1 國教院松來分散式做。
  • 01:14:09 a-tsioh 逐家好!
  • 01:14:36 a-tsioh 我也是剛看完直播
  • 01:14:37 au hi a-tsioh, we missed you! tomorrow I'll be @paris
  • 01:14:43 a-tsioh really ?
  • 01:14:50 a-tsioh cool
  • 01:14:52 au monday early morning to be exact
  • 01:14:58 a-tsioh (although I won't :p )
  • 01:15:02 au yeah I know :p
  • 01:15:12 a-tsioh I'll be back on monday too
  • 01:15:19 a-tsioh (back to Paris)
  • 01:15:27 a-tsioh and in Taiwan someday in April
  • 01:16:14 au 那也許可以 April 18 大松見 or 5/1 國教院辭典松 (yapcheahshen 說他應該也會到)
  • 01:16:51 a-tsioh 5/1 for sure, 4/18 I hope too
  • 01:17:18 a-tsioh we should try machine learning based on kageids
  • 01:17:36 a-tsioh seems awesome
  • 01:20:27 au +++
  • 01:22:17 a-tsioh I guess it should be possible to learn transformation based on existing glyphs
  • 01:22:33 a-tsioh question is how to define the transformations to build the training set
  • 01:23:08 au I was wondering if we can redefine it as a constraint problem with exact solutions in z3 or something
  • 01:23:49 au but learning seems more feasible (aesthetics wise there may not be an exact solution)
  • 01:25:08 a-tsioh I think the folks at Wenlin Institute did something like this
  • 01:25:45 au awesome
  • 01:29:12 a-tsioh http://www.wenlin.com/cdl/coord/
  • 01:29:13 kcwu a-tsioh's url: [Illustration of CDL Coordinate Adjustment]
  • 01:31:02 a-tsioh apparently they "just" learn translations of some keypoints
  • 01:31:09 a-tsioh make sense and sound feasible
  • 01:33:10 au yup, afaicr that's what yap meant by "找出構字能力強的常用部件,放到庫存字框(可從glyphwiki dump 抽取),只需放一兩千個庫存字框就可以涵蓋大部份的組字式(比方說「明」就是一個構字能力很強的部件)。常用部件才值得放入庫存,以降低client side開銷,罕用複合部件使用率極低,醜一些無妨。"
  • 01:43:00 a-tsioh 這個檔案很適合練習ML
  • 01:44:30 a-tsioh 其實也可以用zh-stroke的svg
  • 01:45:33 au the count seems to be <2000 and there's already WSL_Ming_TPS.ttf as hand-adjusted fallback
  • 01:45:50 au WSL_Kai_TPS PUA 可以用來配筆劃 if we really want to go that far :p
  • 01:46:13 a-tsioh :)
  • 01:46:50 a-tsioh but the extended part seems different in the .dic and in the .pdf (so I guess in the .tff as well)
  • 01:47:18 a-tsioh I'm a bit puzzled about this
  • 01:47:20 au yeah that's what I asked derming about (Cc'ed you)
  • 01:47:43 au best case we get a mapping, slightly okay case we get IDS, worst case we crowdsource the IDS from both sides
  • 01:48:22 au with some visual similarity prefiltering, hopefully won't be too hard to match one among a few candidates
  • 01:51:46 a-tsioh oh great (saw the mail but didn't read it until now 歹勢orz)
  • 01:51:59 au np at all XD
  • 01:53:41 a-tsioh another (much smaller issue) is the mapping for zhuyin in 國語
  • 01:54:46 a-tsioh I did only the Taiwanese part, I don't know it the Mandarin is somewhere to be found or if I have to build it from 萌典 data
  • 01:56:42 au shouldn't be hard to retroactively guess it from 國語一字多音審訂表
  • 01:57:10 au (in best case we'll also get that mapping from derming)
  • 02:05:54 a-tsioh ok, so first thing is to wait for his answer, easy enough :)
  • 02:08:55 ⓢ mgdesigner au: yes當初yep是教我組字的老師,今天聽到他講的好懷念,哈哈
  • 02:16:47 ⓢ mgdesigner 關於組合的比例,我以前有寫過自動的算法。按照筆劃的分析。左右組合時,部件有順勾的會有需要比較大的空間(例如:口、日、田、一類)給比較大的權重,而直豎的筆劃佔的橫向寬度最小,就是最低的權重
  • 02:19:42 ⓢ mgdesigner 模擬寫毛筆字時,該怎麼在九宮格分配適當的比例。
  • 02:26:49 a-tsioh 我聽說日本有一些人用 3d scanner或類似工具來錄音書法
  • 02:27:45 ⓢ mgdesigner 以前我寫的的雛型,在400~447行 <https://github.com/MGdeisgner/libdgg/blob/master/libdgg/src/dgg/CharComponent.java#L400>
  • 02:27:53 kcwu slackbot6's url: [libdgg/CharComponent.java at master · MGdeisgner/libdgg · GitHub]
  • 02:31:26 ⓢ mgdesigner 主要還是比組合兩邊的筆劃多少,然後再來看裡面某幾種筆劃,只要有勾的,就會要比較大的空間(因為會行成一個方塊型),還是很粗淺的作法,大概像小學生寫毛筆吧XD
  • 02:38:44 MGdesigner a-tsioh: 錄音書法?
  • 02:42:01 a-tsioh 可能也不算錄「音」
  • 02:42:21 MGdesigner a-tsioh: 那是錄什麼?
  • 02:42:44 a-tsioh 後來有人來用這個資料和3d printer
  • 02:43:13 a-tsioh 我也不太清楚,打聽一下再跟你講
  • 02:43:33 MGdesigner a-tsioh: ok~
  • 02:53:10 MGdesigner 希望我的小分享,有些幫助~
  • 02:56:05 caasihuang au: 又可以讀 binary data 了。
  • 03:02:07 au caasihuang++
  • 03:04:51 au MGdesigner: 感謝~ 目前我們所知最全的應是丞宏的 https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3/tree/master/src/cc/adjusting/piece
  • 03:04:53 kcwu au's url: [han3_ji7_tsoo1_kian3/src/cc/adjusting/piece at master · sih4sing5hong5/han3_ji7_tsoo1_kian3 · GitHub]
  • 03:05:08 MGdesigner au: 我看看
  • 03:07:30 MGdesigner au: 他是明天回營嗎?
  • 03:07:58 au MGdesigner: 不確定~ 今天新臺語沒有併松,可能另外約松
  • 03:08:15 MGdesigner au: I see.
  • 03:09:31 MGdesigner au: 他真的蠻熱血的,2012以前有兩三個人來信請教組字的技術,好像只有他有做到這樣
  • 03:10:04 au sih4sing5hong5++
  • 03:38:33 MGdesigner au: 我覺得所有IDC都實作出來就不簡單了。 不過按照部件複雜度挑整組合時的比例,我剛才大致trace了一下,好像是還沒有,應該是均分組合
  • 03:39:50 MGdesigner au: 其實均分組也無仿,要讓程式自動算能算得漂亮,也不是很急迫的事。
  • 03:40:46 au MGdesigner: ref http://漢字.意傳.台灣/%E5%AE%8B%E9%AB%94/%E2%BF%B4%E8%BE%B6%E2%BF%B4%E5%AE%80%E2%BF%B1%E7%8F%A4%E2%BF%B0%E9%9A%B9%E2%BF%B0%E8%B2%9D%E6%8B%9B.png
  • 03:40:49 au vs http://漢字.意傳.台灣/%E5%AE%8B%E9%AB%94/%E2%BF%B4%E8%BE%B6%E2%BF%B4%E5%AE%80%E2%BF%B1%E7%8F%A4%E2%BF%B0%E9%9A%B9%E2%BF%B0%E5%89%8D%E5%BE%8C.png
  • 03:41:23 au 看起來是均分後再縮放到 best fit
  • 03:42:13 au 只是縮放後寬度沒有調整,所以才想引進 KAGE 的資料
  • 03:42:50 MGdesigner au: 我覺得很難的就是像這種「珤」的
  • 03:45:40 MGdesigner au: 以後實作呼叫看看我的libdgg的比例評估看看,也許有點幫助
  • 03:49:19 MGdesigner au: 不過需要拿既有已經大家習慣的美感的既有組合字來實驗,賦予比較好的權重,以及增加rule,例如說只要筆劃一橫後面接一豎,例如「十」,他站的空間權重,應該等效於有一順彎的的「口」
  • 03:50:44 au 嗯嗯。KAGE 有很多手組好的(就是花園明朝),所以阿石說的用機器學習也是一條路
  • 03:50:47 MGdesigner au: 順彎完的下一筆是一橫,那是無效加權(因為封閉了一個方塊),大概這一類的
  • 03:51:09 MGdesigner au: 也對
  • 03:52:17 au 不過你說的 heuristics 也很重要,可以加速一開始的 training set
  • 03:52:25 au 就都趁機試看看嘍 XD
  • 03:52:40 MGdesigner au: :)
  • 03:54:57 MGdesigner au: 說到這裡,我想起一個有趣的事情,就是寫毛筆字的布局決定有沒有一種可傳授的客觀rule?
  • 03:57:04 au MGdesigner: 是說單字像 楷書九十二法 還是多字的布局?
  • 03:58:02 MGdesigner au: 是一個字如何塞進九宮格,有好看的布局,其實就是我們關心的部件佔有空間比例
  • 04:00:21 au 嗯,這我不清楚,可能要請教專業的字型設計師
  • 04:02:20 MGdesigner au: 是的,其實我的意思是「美感」。我在08年以後轉去學音樂,玩音樂,然後高中時也學過西畫,不管音樂或者西畫,我發現其實誕生自歐洲的美學,非常注重精準的計算
  • 04:04:23 au *nod*
  • 04:05:13 MGdesigner au: 好聽、好看的東西,其實都是「算」出來的,很大程度可量化,也使得在Computer science發展的歷史上,到某個技術成熟點,過去用傳統媒介的藝術型態,可以數位化。例如實際畫筆繪畫的繪圖理論,可以量化成精準的3D繪圖
  • 04:08:51 MGdesigner au: 這個我超有感觸的,西洋美術學習關於光影如何「著色」在物體上,中階段很重要的是畫上半身石膏像。第一步是練習畫塊狀的人頭,標準SOP都是練阿古利八,或者維納斯 http://lh5.ggpht.com/_RanT11YA5Ss/SjJOfa65yZI/AAAAAAAAJfU/GgEsKrY_VpQ/L1040673.JPG
  • 04:12:05 MGdesigner au: 第二步,才是畫正常平滑面的,步驟,也是先畫polygon,然後在每一面相接的地方開始畫中間色調,最後就變成平滑面的了。後來電腦3D圖學發展,也是按照這個順序來進化,很有趣。 我是在想,東方的好像比較缺少這種「量化」美學的論述,害得我們現在好辛苦XD
  • 04:13:24 au 嗯不過這是機器學習和統計方法的時代,質化有質化的做法 XD
  • 04:28:03 MGdesigner au: 其實西洋美學還是有ä¸�å�¯é‡�化的部份,那是最後一點點,也就是稱為è—�è¡“çš„æ�±è¥¿ã€‚我是覺得洋人很幸ç¦�,機器學習是用在最後一段,例如學習出æŸ�個音樂家最喜歡的å�³èˆˆæ‰‹æ³•ï¼Œå–œæ­¡åœ¨A çµ�構從æŸ�音開始,Bçµ�構從æŸ�音開始,他們已經知é�“一曲å­�,å�¯ä»¥æ‹†æˆ�好幾塊有æŸ�種é‚�輯的「çµ�構ã€�,所以ä¸�須用統計一首曲å­�用了多少個doæˆ
  • 04:28:03 MGdesigner 而我們得在這幾十年,一個字就是一個字->原來一個字可以再被拆解->我們是怎麼設定出一個字比例該怎麼設的 XD XD
  • 04:28:39 MGdesigner au: sry半夜小打屁XD
  • 04:29:19 MGdesigner 我就不打哈哈了 XD
  • 04:32:54 au 不會,很高興可以聊天 XD
  • 10:23:38 ⓢ miaoski 阿美語-法語萌典需要誠徵編輯。
  • 10:24:26 ⓢ miaoski 嗯,因為 OCR 的準確度不算低 (都是字母啊) 所以校對 &amp; 編輯其實佔了工作量的各 50%
  • 10:24:45 ⓢ miaoski 晚一點再來寫誠徵的文案。
  • 15:04:12 ⓢ clkao sdc-docker 看起來很猛
  • 22:37:17 AceChen 不知道為什麼會變亂碼... http://logbot.g0v.tw/channel/g0v.tw/2015-03-29/98
  • 22:37:19 kcwu AceChen's url: [Logbot | #g0v.tw | MGdesigner> au: 其實西洋美學還是有ä¸�å�¯é‡�化的部份,那是最後一點點,也就是稱為è—�è¡“çš„æ�±è¥¿ã€‚我是覺得洋人很幸ç¦�,機器學習是用在最後
  • 22:37:26 kcwu 一段,例如學習出æŸ�個音樂家最喜歡的å�³èˆˆæ‰‹æ³•ï¼Œå–œæ­¡åœ¨A çµ�構從æŸ�音開始,Bçµ�構從æŸ�音開始,他們已經知é�“一曲å­�,å�¯ä»¥æ‹†æˆ�好幾塊有æŸ�ç¨
  • 22:37:32 kcwu ®é‚�輯的「çµ�構ã€�,所以ä¸�須用統計一首曲å­�用了多少個doæˆ]
  • 22:40:00 AceChen kcwu: 辛苦了,還要重新吐一次 XD
  • 23:07:29 yhsiang AceChen: kcwu 已經 report 了
  • 23:15:39 kcwu 不一樣
  • 23:16:26 kcwu 雖然都是一行太長造成的
  • 23:16:54 kcwu 我 report 的是希望 slackbot 能 workaround
  • 23:17:23 kcwu MGdesigner 寫那句時, 並沒有用 slack
  • 23:17:34 ⓢ clkao kcwu 結果有看 mapit 匯出的行政區界圖品質如何嗎
  • 23:18:06 kcwu clkao: 還沒

Date: