ຂ່າວ - OpenAI Point E: ສ້າງເມຄຈຸດ 3D ຈາກຮູບແບບຄື້ນທີ່ຊັບຊ້ອນໃນນາທີໃນ GPU ດຽວ

ໃນບົດຄວາມໃຫມ່ Point-E: ລະບົບສໍາລັບການສ້າງ 3D ຈຸດ clouds ຈາກສັນຍານທີ່ຊັບຊ້ອນ, ທີມງານຄົ້ນຄ້ວາ OpenAI ແນະນໍາ Point E, ລະບົບການສັງເຄາະເງື່ອນໄຂຂອງ 3D ຈຸດ cloud text ທີ່ໃຊ້ແບບຈໍາລອງການແຜ່ກະຈາຍເພື່ອສ້າງຮູບຮ່າງ 3D ທີ່ຫຼາກຫຼາຍແລະສະລັບສັບຊ້ອນທີ່ຂັບເຄື່ອນໂດຍຂໍ້ຄວາມທີ່ສັບສົນ. ຕົວຊີ້ບອກ.ໃນນາທີໃນ GPU ດຽວ.
ການປະຕິບັດທີ່ຫນ້າອັດສະຈັນຂອງຮູບແບບການຜະລິດຮູບພາບທີ່ທັນສະໄຫມຂອງມື້ນີ້ໄດ້ກະຕຸ້ນການຄົ້ນຄວ້າໃນການຜະລິດວັດຖຸຂໍ້ຄວາມ 3D.ແນວໃດກໍ່ຕາມ, ບໍ່ເຫມືອນກັບແບບຈໍາລອງ 2D, ເຊິ່ງສາມາດສ້າງຜົນຜະລິດໃນນາທີຫຼືແມ້ກະທັ້ງວິນາທີ, ຮູບແບບການຜະລິດວັດຖຸໂດຍປົກກະຕິຮຽກຮ້ອງໃຫ້ມີການເຮັດວຽກ GPU ຫຼາຍຊົ່ວໂມງເພື່ອສ້າງຕົວຢ່າງດຽວ.
ໃນບົດຄວາມໃຫມ່ Point-E: ລະບົບສໍາລັບການສ້າງ 3D ຈຸດ clouds ຈາກສັນຍານທີ່ຊັບຊ້ອນ, ທີມງານຄົ້ນຄ້ວາ OpenAI ນໍາສະເຫນີ Point·E, ລະບົບການສັງເຄາະຂໍ້ຄວາມຕາມເງື່ອນໄຂສໍາລັບ 3D ຈຸດ clouds.ວິທີການໃຫມ່ນີ້ໃຊ້ຮູບແບບການຂະຫຍາຍພັນເພື່ອສ້າງຮູບຮ່າງ 3D ທີ່ຫລາກຫລາຍແລະສະລັບສັບຊ້ອນຈາກສັນຍານຂໍ້ຄວາມທີ່ສັບສົນໃນເວລາພຽງແຕ່ຫນຶ່ງນາທີຫຼືສອງນາທີໃນ GPU ດຽວ.
ທີມງານແມ່ນສຸມໃສ່ສິ່ງທ້າທາຍຂອງການແປງຂໍ້ຄວາມເປັນ 3D, ເຊິ່ງເປັນສິ່ງສໍາຄັນເພື່ອປະຊາທິປະໄຕໃນການສ້າງເນື້ອຫາ 3D ສໍາລັບຄໍາຮ້ອງສະຫມັກໃນໂລກທີ່ແທ້ຈິງຕັ້ງແຕ່ຄວາມເປັນຈິງແລ້ວ virtual ແລະການຫຼິ້ນເກມກັບການອອກແບບອຸດສາຫະກໍາ.ວິທີການທີ່ມີຢູ່ແລ້ວສໍາລັບການປ່ຽນຂໍ້ຄວາມເປັນ 3D ຕົກຢູ່ໃນສອງປະເພດ, ແຕ່ລະຄົນມີຂໍ້ບົກຜ່ອງຂອງມັນ: 1) ຮູບແບບການຜະລິດສາມາດນໍາໃຊ້ເພື່ອສ້າງຕົວຢ່າງຢ່າງມີປະສິດທິພາບ, ແຕ່ບໍ່ສາມາດຂະຫຍາຍໄດ້ຢ່າງມີປະສິດທິພາບສໍາລັບສັນຍານຂໍ້ຄວາມທີ່ຫຼາກຫຼາຍແລະສະລັບສັບຊ້ອນ;2) ຮູບແບບຂໍ້ຄວາມ-ຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນເພື່ອຈັດການຕົວຊີ້ບອກຂໍ້ຄວາມທີ່ສັບສົນ ແລະ ແຕກຕ່າງກັນ, ແຕ່ວິທີການນີ້ແມ່ນການຄິດໄລ່ຢ່າງເຂັ້ມງວດ ແລະ ຮູບແບບດັ່ງກ່າວສາມາດຕິດຢູ່ໃນ minima ທ້ອງຖິ່ນທີ່ບໍ່ກົງກັນກັບວັດຖຸ 3D ທີ່ມີຄວາມໝາຍ ຫຼືສອດຄ່ອງກັນ.
ດັ່ງນັ້ນ, ທີມງານໄດ້ຄົ້ນຫາວິທີການທາງເລືອກທີ່ມີຈຸດປະສົງເພື່ອປະສົມປະສານຄວາມເຂັ້ມແຂງຂອງສອງວິທີການຂ້າງເທິງ, ໂດຍໃຊ້ຕົວແບບການແຜ່ກະຈາຍຂໍ້ຄວາມເປັນຮູບພາບທີ່ໄດ້ຮັບການຝຶກອົບຮົມໃນຊຸດຂະຫນາດໃຫຍ່ຂອງຄູ່ຂໍ້ຄວາມ (ອະນຸຍາດໃຫ້ມັນຈັດການກັບສັນຍານທີ່ຫຼາກຫຼາຍແລະສັບສົນ) ແລະ. ຮູບແບບການແຜ່ກະຈາຍຮູບພາບ 3D ໄດ້ຝຶກອົບຮົມໃນຊຸດຂະຫນາດນ້ອຍຂອງຄູ່ຂໍ້ຄວາມຮູບພາບ.ຮູບ-3D ຊຸດຂໍ້ມູນຄູ່.ຮູບແບບຂໍ້ຄວາມເປັນຮູບພາບທໍາອິດຕົວຢ່າງຮູບພາບການປ້ອນຂໍ້ມູນເພື່ອສ້າງການເປັນຕົວແທນສັງເຄາະອັນດຽວ, ແລະຕົວແບບຮູບພາບເປັນ 3D ສ້າງເມຄຈຸດ 3D ໂດຍອີງໃສ່ຮູບພາບທີ່ເລືອກ.
stack generative ຂອງຄໍາສັ່ງແມ່ນອີງໃສ່ກອບການຜະລິດທີ່ສະເຫນີບໍ່ດົນມານີ້ສໍາລັບການສ້າງຮູບພາບຕາມເງື່ອນໄຂຈາກຂໍ້ຄວາມ (Sohl-Dickstein et al., 2015; Song & Ermon, 2020b; Ho et al., 2020).ພວກເຂົາໃຊ້ແບບຈໍາລອງ GLIDE ທີ່ມີ 3 ຕື້ຕົວກໍານົດການ GLIDE (Nichol et al., 2021), ປັບແຕ່ງແບບຈໍາລອງ 3D ທີ່ສະແດງ, ເປັນຕົວແບບການປ່ຽນຂໍ້ຄວາມເປັນຮູບພາບຂອງເຂົາເຈົ້າ, ແລະຊຸດຂອງຕົວແບບການແຜ່ກະຈາຍທີ່ສ້າງກຸ່ມເມຄຈຸດ RGB ເປັນຂອງເຂົາເຈົ້າ. ຮູບແບບການຫັນປ່ຽນ.ຮູບພາບກັບຮູບພາບ.ແບບ 3D.
ໃນຂະນະທີ່ວຽກງານທີ່ຜ່ານມາໄດ້ນໍາໃຊ້ສະຖາປັດຕະຍະກໍາ 3D ເພື່ອປະມວນຜົນຈຸດເມຄ, ນັກຄົ້ນຄວ້າໄດ້ນໍາໃຊ້ແບບຈໍາລອງແບບ transducer ແບບງ່າຍດາຍ (Vaswani et al., 2017) ເພື່ອປັບປຸງປະສິດທິພາບ.ໃນສະຖາປັດຕະຍະກໍາແບບຈໍາລອງການແຜ່ກະຈາຍຂອງພວກເຂົາ, ຮູບພາບເມຄຈຸດທໍາອິດໄດ້ຖືກປ້ອນເຂົ້າໄປໃນຕົວແບບ ViT-L/14 CLIP ທີ່ໄດ້ຮັບການຝຶກອົບຮົມກ່ອນແລະຫຼັງຈາກນັ້ນຕາຫນ່າງຜົນຜະລິດໄດ້ຖືກປ້ອນເຂົ້າໄປໃນຕົວແປງເປັນເຄື່ອງຫມາຍ.
ໃນການສຶກສາທາງດ້ານປະຈັກພະຍານຂອງພວກເຂົາ, ທີມງານໄດ້ປຽບທຽບວິທີການ Point·E ທີ່ສະເຫນີກັບແບບຈໍາລອງ 3D ທົ່ວໄປອື່ນໆກ່ຽວກັບການໃຫ້ຄະແນນສັນຍານຈາກການກວດສອບວັດຖຸ COCO, ການແບ່ງສ່ວນ, ແລະຊຸດຂໍ້ມູນລາຍເຊັນ.ຜົນໄດ້ຮັບຢືນຢັນວ່າ Point·E ສາມາດສ້າງຮູບຊົງ 3D ທີ່ມີຄວາມຫຼາກຫຼາຍແລະສັບສົນຈາກສັນຍານຂໍ້ຄວາມທີ່ຊັບຊ້ອນແລະເລັ່ງເວລາ inference ໂດຍຫນຶ່ງຫາສອງຄໍາສັ່ງຂອງຂະຫນາດ.ທີມງານຫວັງວ່າວຽກງານຂອງເຂົາເຈົ້າຈະສ້າງແຮງບັນດານໃຈໃນການຄົ້ນຄວ້າເພີ່ມເຕີມເຂົ້າໃນການສັງເຄາະຂໍ້ຄວາມ 3D.
ຮູບແບບການຂະຫຍາຍພັນຄລາວຂອງຈຸດທີ່ໄດ້ຝຶກມາແລ້ວ ແລະລະຫັດການປະເມີນແມ່ນມີຢູ່ໃນ GitHub ຂອງໂຄງການ.Document Point-E: ລະບົບສ້າງ 3D ຈຸດ clouds ຈາກຂໍ້ຄຶດທີ່ຊັບຊ້ອນແມ່ນຢູ່ໃນ arXiv.
ພວກເຮົາຮູ້ວ່າທ່ານບໍ່ຕ້ອງການທີ່ຈະພາດຂ່າວໃດໆຫຼືການຄົ້ນພົບທາງວິທະຍາສາດ.ສະໝັກຮັບຈົດໝາຍຂ່າວ Synced Global AI Weekly ຍອດນິຍົມຂອງພວກເຮົາເພື່ອໄດ້ຮັບການອັບເດດ AI ປະຈໍາອາທິດ.

ເວລາປະກາດ: 28-12-2022