Logbot | #g0v.tw

#g0v.tw

AUTO⬇

00:33:34 jimyhuang__ clkao: 可惡，人家都上外太空，我還在那殺豬公 QQ
01:05:31 ⓢ mgdesigner sry今天有事，沒能報萌典松，只能看直播/_\
01:11:01 au mgdesigner: yapcheahshen++ 寫出好詳細的 https://github.com/g0v/idskage 了
01:11:34 au =意傳組字的 JS port 雛形，加上自動寬度調整
01:13:41 au 吳老辭典 ( https://g0v.github.io/koktai/ ) 難字 IDS 取得後，少數需要手動調整的，可以 5/1 國教院松來分散式做。
01:14:09 a-tsioh 逐家好!
01:14:36 a-tsioh 我也是剛看完直播
01:14:37 au hi a-tsioh, we missed you! tomorrow I'll be @paris
01:14:43 a-tsioh really ?
01:14:50 a-tsioh cool
01:14:52 au monday early morning to be exact
01:14:58 a-tsioh (although I won't )
01:15:02 au yeah I know
01:15:12 a-tsioh I'll be back on monday too
01:15:19 a-tsioh (back to Paris)
01:15:27 a-tsioh and in Taiwan someday in April
01:16:14 au 那也許可以 April 18 大松見 or 5/1 國教院辭典松 (yapcheahshen 說他應該也會到)
01:16:51 a-tsioh 5/1 for sure, 4/18 I hope too
01:17:18 a-tsioh we should try machine learning based on kageids
01:17:36 a-tsioh seems awesome
01:20:27 au +++
01:22:17 a-tsioh I guess it should be possible to learn transformation based on existing glyphs
01:22:33 a-tsioh question is how to define the transformations to build the training set
01:23:08 au I was wondering if we can redefine it as a constraint problem with exact solutions in z3 or something
01:23:49 au but learning seems more feasible (aesthetics wise there may not be an exact solution)
01:25:08 a-tsioh I think the folks at Wenlin Institute did something like this
01:25:45 au awesome
01:29:12 a-tsioh http://www.wenlin.com/cdl/coord/
01:29:13 kcwu a-tsioh's url: [Illustration of CDL Coordinate Adjustment]
01:31:02 a-tsioh apparently they "just" learn translations of some keypoints
01:31:09 a-tsioh make sense and sound feasible
01:33:10 au yup, afaicr that's what yap meant by "找出構字能力強的常用部件，放到庫存字框(可從glyphwiki dump 抽取)，只需放一兩千個庫存字框就可以涵蓋大部份的組字式(比方說「明」就是一個構字能力很強的部件)。常用部件才值得放入庫存，以降低client side開銷，罕用複合部件使用率極低，醜一些無妨。"
01:43:00 a-tsioh 這個檔案很適合練習ML
01:44:30 a-tsioh 其實也可以用zh-stroke的svg
01:45:33 au the count seems to be <2000 and there's already WSL_Ming_TPS.ttf as hand-adjusted fallback
01:45:50 au WSL_Kai_TPS PUA 可以用來配筆劃 if we really want to go that far
01:46:13 a-tsioh
01:46:50 a-tsioh but the extended part seems different in the .dic and in the .pdf (so I guess in the .tff as well)
01:47:18 a-tsioh I'm a bit puzzled about this
01:47:20 au yeah that's what I asked derming about (Cc'ed you)
01:47:43 au best case we get a mapping, slightly okay case we get IDS, worst case we crowdsource the IDS from both sides
01:48:22 au with some visual similarity prefiltering, hopefully won't be too hard to match one among a few candidates
01:51:46 a-tsioh oh great (saw the mail but didn't read it until now 歹勢orz)
01:51:59 au np at all XD
01:53:41 a-tsioh another (much smaller issue) is the mapping for zhuyin in 國語
01:54:46 a-tsioh I did only the Taiwanese part, I don't know it the Mandarin is somewhere to be found or if I have to build it from 萌典 data
01:56:42 au shouldn't be hard to retroactively guess it from 國語一字多音審訂表
01:57:10 au (in best case we'll also get that mapping from derming)
02:05:54 a-tsioh ok, so first thing is to wait for his answer, easy enough
02:08:55 ⓢ mgdesigner au: yes當初yep是教我組字的老師，今天聽到他講的好懷念，哈哈
02:16:47 ⓢ mgdesigner 關於組合的比例，我以前有寫過自動的算法。按照筆劃的分析。左右組合時，部件有順勾的會有需要比較大的空間（例如：口、日、田、一類）給比較大的權重，而直豎的筆劃佔的橫向寬度最小，就是最低的權重
02:19:42 ⓢ mgdesigner 模擬寫毛筆字時，該怎麼在九宮格分配適當的比例。
02:26:49 a-tsioh 我聽說日本有一些人用 3d scanner或類似工具來錄音書法
02:27:45 ⓢ mgdesigner 以前我寫的的雛型，在400~447行 <https://github.com/MGdeisgner/libdgg/blob/master/libdgg/src/dgg/CharComponent.java#L400>
02:27:53 kcwu slackbot6's url: [libdgg/CharComponent.java at master · MGdeisgner/libdgg · GitHub]
02:31:26 ⓢ mgdesigner 主要還是比組合兩邊的筆劃多少，然後再來看裡面某幾種筆劃，只要有勾的，就會要比較大的空間（因為會行成一個方塊型），還是很粗淺的作法，大概像小學生寫毛筆吧XD
02:38:44 MGdesigner a-tsioh: 錄音書法？
02:42:01 a-tsioh 可能也不算錄「音」
02:42:21 MGdesigner a-tsioh: 那是錄什麼？
02:42:44 a-tsioh 後來有人來用這個資料和3d printer
02:43:13 a-tsioh 我也不太清楚，打聽一下再跟你講
02:43:33 MGdesigner a-tsioh: ok~
02:53:10 MGdesigner 希望我的小分享，有些幫助～
02:56:05 caasihuang au: 又可以讀 binary data 了。
03:02:07 au caasihuang++
03:04:51 au MGdesigner: 感謝~ 目前我們所知最全的應是丞宏的 https://github.com/sih4sing5hong5/han3_ji7_tsoo1_kian3/tree/master/src/cc/adjusting/piece
03:04:53 kcwu au's url: [han3_ji7_tsoo1_kian3/src/cc/adjusting/piece at master · sih4sing5hong5/han3_ji7_tsoo1_kian3 · GitHub]
03:05:08 MGdesigner au: 我看看
03:07:30 MGdesigner au: 他是明天回營嗎？
03:07:58 au MGdesigner: 不確定~ 今天新臺語沒有併松，可能另外約松
03:08:15 MGdesigner au: I see.
03:09:31 MGdesigner au: 他真的蠻熱血的，2012以前有兩三個人來信請教組字的技術，好像只有他有做到這樣
03:10:04 au sih4sing5hong5++
03:38:33 MGdesigner au: 我覺得所有IDC都實作出來就不簡單了。不過按照部件複雜度挑整組合時的比例，我剛才大致trace了一下，好像是還沒有，應該是均分組合
03:39:50 MGdesigner au: 其實均分組也無仿，要讓程式自動算能算得漂亮，也不是很急迫的事。
03:40:46 au MGdesigner: ref http://漢字.意傳.台灣/%E5%AE%8B%E9%AB%94/%E2%BF%B4%E8%BE%B6%E2%BF%B4%E5%AE%80%E2%BF%B1%E7%8F%A4%E2%BF%B0%E9%9A%B9%E2%BF%B0%E8%B2%9D%E6%8B%9B.png
03:40:49 au vs http://漢字.意傳.台灣/%E5%AE%8B%E9%AB%94/%E2%BF%B4%E8%BE%B6%E2%BF%B4%E5%AE%80%E2%BF%B1%E7%8F%A4%E2%BF%B0%E9%9A%B9%E2%BF%B0%E5%89%8D%E5%BE%8C.png
03:41:23 au 看起來是均分後再縮放到 best fit
03:42:13 au 只是縮放後寬度沒有調整，所以才想引進 KAGE 的資料
03:42:50 MGdesigner au: 我覺得很難的就是像這種「珤」的
03:45:40 MGdesigner au: 以後實作呼叫看看我的libdgg的比例評估看看，也許有點幫助
03:49:19 MGdesigner au: 不過需要拿既有已經大家習慣的美感的既有組合字來實驗，賦予比較好的權重，以及增加rule，例如說只要筆劃一橫後面接一豎，例如「十」，他站的空間權重，應該等效於有一順彎的的「口」
03:50:44 au 嗯嗯。KAGE 有很多手組好的（就是花園明朝），所以阿石說的用機器學習也是一條路
03:50:47 MGdesigner au: 順彎完的下一筆是一橫，那是無效加權（因為封閉了一個方塊），大概這一類的
03:51:09 MGdesigner au: 也對
03:52:17 au 不過你說的 heuristics 也很重要，可以加速一開始的 training set
03:52:25 au 就都趁機試看看嘍 XD
03:52:40 MGdesigner au:
03:54:57 MGdesigner au: 說到這裡，我想起一個有趣的事情，就是寫毛筆字的布局決定有沒有一種可傳授的客觀rule？
03:57:04 au MGdesigner: 是說單字像楷書九十二法還是多字的布局？
03:58:02 MGdesigner au: 是一個字如何塞進九宮格，有好看的布局，其實就是我們關心的部件佔有空間比例
04:00:21 au 嗯，這我不清楚，可能要請教專業的字型設計師
04:02:20 MGdesigner au: 是的，其實我的意思是「美感」。我在08年以後轉去學音樂，玩音樂，然後高中時也學過西畫，不管音樂或者西畫，我發現其實誕生自歐洲的美學，非常注重精準的計算
04:04:23 au *nod*
04:05:13 MGdesigner au: 好聽、好看的東西，其實都是「算」出來的，很大程度可量化，也使得在Computer science發展的歷史上，到某個技術成熟點，過去用傳統媒介的藝術型態，可以數位化。例如實際畫筆繪畫的繪圖理論，可以量化成精準的3D繪圖
04:08:51 MGdesigner au: 這個我超有感觸的，西洋美術學習關於光影如何「著色」在物體上，中階段很重要的是畫上半身石膏像。第一步是練習畫塊狀的人頭，標準SOP都是練阿古利八，或者維納斯 http://lh5.ggpht.com/_RanT11YA5Ss/SjJOfa65yZI/AAAAAAAAJfU/GgEsKrY_VpQ/L1040673.JPG
04:12:05 MGdesigner au: 第二步，才是畫正常平滑面的，步驟，也是先畫polygon，然後在每一面相接的地方開始畫中間色調，最後就變成平滑面的了。後來電腦3D圖學發展，也是按照這個順序來進化，很有趣。我是在想，東方的好像比較缺少這種「量化」美學的論述，害得我們現在好辛苦XD
04:13:24 au 嗯不過這是機器學習和統計方法的時代，質化有質化的做法 XD
04:28:03 MGdesigner au: å…¶å¯¦è¥¿æ´‹ç¾Žå¸é‚„æ˜¯æœ‰ä¸�å�¯é‡�åŒ–çš„éƒ¨ä»½ï¼Œé‚£æ˜¯æœ€å¾Œä¸€é»žé»žï¼Œä¹Ÿå°±æ˜¯ç¨±ç‚ºè—�è¡“çš„æ�±è¥¿ã€‚æˆ‘æ˜¯è¦ºå¾—æ´‹äººå¾ˆå¹¸ç¦�ï¼Œæ©Ÿå™¨å¸ç¿’æ˜¯ç”¨åœ¨æœ€å¾Œä¸€æ®µï¼Œä¾‹å¦‚å¸ç¿’å‡ºæŸ�å€‹éŸ³æ¨‚å®¶æœ€å–œæ¡çš„å�³èˆˆæ‰‹æ³•ï¼Œå–œæ¡åœ¨A çµ�æ§‹å¾žæŸ�éŸ³é–‹å§‹ï¼ŒBçµ�æ§‹å¾žæŸ�éŸ³é–‹å§‹ï¼Œä»–å€‘å·²ç¶“çŸ¥é�“ä¸€æ›²å�ï¼Œå�¯ä»¥æ‹†æˆ�å¥½å¹¾å¡Šæœ‰æŸ�ç¨®é‚�è¼¯çš„ã€Œçµ�æ§‹ã€�ï¼Œæ‰€ä»¥ä¸�é ˆç”¨çµ±è¨ˆä¸€é¦–æ›²å�ç”¨äº†å¤šå°‘å€‹doæˆ
04:28:03 MGdesigner 而我們得在這幾十年，一個字就是一個字->原來一個字可以再被拆解->我們是怎麼設定出一個字比例該怎麼設的 XD XD
04:28:39 MGdesigner au: sry半夜小打屁XD
04:29:19 MGdesigner 我就不打哈哈了 XD
04:32:54 au 不會，很高興可以聊天 XD
10:23:38 ⓢ miaoski 阿美語-法語萌典需要誠徵編輯。
10:24:26 ⓢ miaoski 嗯，因為 OCR 的準確度不算低 (都是字母啊) 所以校對 & 編輯其實佔了工作量的各 50%
10:24:45 ⓢ miaoski 晚一點再來寫誠徵的文案。
15:04:12 ⓢ clkao sdc-docker 看起來很猛
22:37:17 AceChen 不知道為什麼會變亂碼... http://logbot.g0v.tw/channel/g0v.tw/2015-03-29/98
22:37:19 kcwu AceChen's url: [Logbot | #g0v.tw | MGdesigner> au: å…¶å¯¦è¥¿æ´‹ç¾Žå¸é‚„æ˜¯æœ‰ä¸�å�¯é‡�åŒ–çš„éƒ¨ä»½ï¼Œé‚£æ˜¯æœ€å¾Œä¸€é»žé»žï¼Œä¹Ÿå°±æ˜¯ç¨±ç‚ºè—�è¡“çš„æ�±è¥¿ã€‚æˆ‘æ˜¯è¦ºå¾—æ´‹äººå¾ˆå¹¸ç¦�ï¼Œæ©Ÿå™¨å¸ç¿’æ˜¯ç”¨åœ¨æœ€å¾Œ
22:37:26 kcwu ä¸€æ®µï¼Œä¾‹å¦‚å¸ç¿’å‡ºæŸ�å€‹éŸ³æ¨‚å®¶æœ€å–œæ¡çš„å�³èˆˆæ‰‹æ³•ï¼Œå–œæ¡åœ¨A çµ�æ§‹å¾žæŸ�éŸ³é–‹å§‹ï¼ŒBçµ�æ§‹å¾žæŸ�éŸ³é–‹å§‹ï¼Œä»–å€‘å·²ç¶“çŸ¥é�“ä¸€æ›²å�ï¼Œå�¯ä»¥æ‹†æˆ�å¥½å¹¾å¡Šæœ‰æŸ�ç¨
22:37:32 kcwu ®é‚�è¼¯çš„ã€Œçµ�æ§‹ã€�ï¼Œæ‰€ä»¥ä¸�é ˆç”¨çµ±è¨ˆä¸€é¦–æ›²å�ç”¨äº†å¤šå°‘å€‹doæˆ]
22:40:00 AceChen kcwu: 辛苦了，還要重新吐一次 XD
23:07:29 yhsiang AceChen: kcwu 已經 report 了
23:15:39 kcwu 不一樣
23:16:26 kcwu 雖然都是一行太長造成的
23:16:54 kcwu 我 report 的是希望 slackbot 能 workaround
23:17:23 kcwu MGdesigner 寫那句時, 並沒有用 slack
23:17:34 ⓢ clkao kcwu 結果有看 mapit 匯出的行政區界圖品質如何嗎
23:18:06 kcwu clkao: 還沒